[爬虫] 学Scrapy，顺便把它的官方教程给爬下来

想学爬虫主要是因为算法和数据是密切相关的，有数据之后可以玩更多有意思的事情，数据量大可以挖掘挖掘到更多的信息。

之前只会通过python中的request库来下载网页内容，再用BeautifulSoup、re正则工具来解析；后来了解到Scrapy爬虫框架，现在入门先写个小小的爬虫项目，这里做个简单的总结和记录。

官方教程：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html（包括安装指南）

1. 创建项目

scrapy startproject -h

scrapy startproject scrapytutorial

cd scrapytutorial/

scrapy genspider scrapy_tutorial_spider scrapy-chs.readthedocs.io

mkdir output

2. 编写爬虫代码

# -*- coding: utf-8 -*-

import scrapy

import codecs

class ScrapyTutorialSpiderSpider(scrapy.Spider):

    name = 'scrapy_tutorial_spider'

    # allowed_domains = ['scrapy-chs.readthedocs.io']

    start_urls = ['https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html']

    def parse(self, response):

        print("response.url: %s" % response.url)

        # 保存完整网页内容到文件

        filename = response.url.split("/")[-1]

        print("filename: %s" % filename)

        with codecs.open("output/" + filename, "wb") as fw:

            fw.write(response.body)

        # TODO 提取关键信息

        # 遍历下一页

        next_url = response.css("div.rst-footer-buttons > a::attr('href')").extract()[0]

        if next_url is not None:

            next_url = response.urljoin(next_url)

            print("next_url: %s" % next_url)

            yield scrapy.Request(next_url)

3. 启动爬取

scrapy crawl scrapy_tutorial_spider

完整爬下来有45个文件：

因为刚上手，先按下面几步走：

(1) 把某个网页完整爬下来，保存到文件

(2) 追踪链接：通过提取感兴趣的页面的链接（例如想要下一页的内容）并进行追踪，获取更多的数据

(3) 动态解析网页，只提取感兴趣的部分内容并保存

目前还不太熟悉CSS选择器以及XPath表达式，关于第(3)部提取关键信息还没做，后续将会逐渐学习和完善。

（参考官网的两个例子：tutorial、QuotesBot）

另外，网上有很多不错的爬虫项目，可以用来练手：32个Python爬虫项目

爬虫可能涉及到定时爬取、账号注册和登录、验证码破解等等，还是挺有挑战性的～

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来的更多相关文章

小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫之scrapy框架
解析 Scrapy解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓 ...

随机推荐

SSH secure shell 权威指南(转载)
本书是一本介绍通信安全的书籍,如果你想保障你的通信安全,本书能给你一个很好的解决方案.本书从ssh协议介绍起,到具体的开源实现和商业实现.但本书同时介绍开源实现和商业实现,给人感觉比较乱.注意:由于o ...
【原创】PHPstorm本地修改同步保存到远程服务器
PHPstorm设置本地修改的代码同步保存到远程服务器: 设置里面搜索“Deployment”,选择+号,然后选择SFTP: 填写远程主机的信息: 然后选择Mappings,填写本地代码路径和远程主机 ...
Django Rest Framework(2)-----序列化详解(serializers)
REST framework中的序列化类与Django的Form和ModelForm类非常相似.我们提供了一个Serializer类,它提供了一种强大的通用方法来控制响应的输出,以及一个ModelSe ...
#ifdef和#if defined的差别
注意两者都有个define的作用,区别在于使用方式上.前者的通常用法是:#ifdef XXX .... #else .... #endif 只能在两者中选择是否有定义.对于后者,常用法是: #if ...
make clean 与 make distclean 的区别
make clean仅仅是清除之前编译的可执行文件及配置文件. 而make distclean要清除所有生成的文件. Makefile 在符合GNU Makefiel惯例的Makefile中,包含了一 ...
1：3访问 servlet API 的两种方式（request,session等内置对象）
1:解耦方式 2:耦合方式: ========================================== ========================================== ...
uva1292 树形dp
这题说的是给了一个n个节点的一棵树,然后你从这棵树的 n 个节点中选择尽量少的点使得每条边都至少有一个士兵看守 dp[0][i]+=dp[1][j] dp[1][i]+=min ...
Bootstrap风格zTree树形菜单插件
这是一款bootstrap风格jQuery zTree树形菜单插件,支持自定义编辑.添加列表菜单.删除列表等功能的jQuery树形菜单代码.在线演示具体代码实现: <!DOCTYPE html ...
android自定义Activity窗口大小（theme运用）
http://gundumw100.iteye.com/blog/906195 正常情况下,我们开发的应用程序都会上占满整个屏幕,那么怎么样才能开发出自定义窗口大小的的程序呢?如下图所示: 实现起来非 ...
c++第十八天
p105~p108: 1.迭代器与数组的不同:迭代器的索引值必须是无符号类型,数组的索引无此要求. 2.使用数组的时候编译器一般会把它转化为指针. 3.auto ia2(数组名);的结果是:获得一个指 ...

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来的更多相关文章

随机推荐

热门专题