Crawlspider

Crawlspider适用于对网站爬取批量网页，相对比Spider类，CrawSpider主要使用规则（rules）来提取链接，通过定义一组规则为跟踪链接提供了遍历的机制。
Crawlspider 的强大体现在自动爬取页面所有符合规则的链接并深入下去！

全站数据爬取

编码流程

新建一个工程
cd 工程
创建爬虫文件： scrapy genspider -t crawl spiderName 地址 （crawlspider 继承 scrapy.Spider）
- 链接提取器 LinkExtractor
  - 可以根据指定的规则对指定的链接进行提取
    - 提取的规则就是构造方法中的 allow(‘正则表达式’) 参数决定
- 规则解析器 Rule
  - 可以将链接提取器提到的链接进行请求，可以根据指定的规则（callback）对请求到的数据进行解析
Rule(link, callback='parse_item', follow=True)
- follow = True 表示每一个页码都当作起始url 然后进行链接提取，如果为 false 只能提取到第一页的几个页码。
- follow = True; 将链接提取器继续作用到连接提取器提取到的链接所对应的页码源码中。

scrapy中发送请求的几种方式：

start_url
self.Request()
链接提取器

例子

使用CrawlSpider模板批量爬取（阳光热线问政平台的投诉帖子）的主题、状态和详细内容

地址为：http://wz.sun0769.com/html/top/reply.shtml

① 定义spider

scrapy genspider -t crawl sun 创建一个spider

在该spider文件中：

定义 LinkExtractor 获取每个页面中的页码的url地址。
定义 Rule ，放入 LinkExtractor 以及 callback ，对于 follow 值得话，如果为True得话，将继续作用到 LinkExtractor 提取到的链接所对应的页码源码中。

# sun.py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import Item1, Item2

class SunSpider(CrawlSpider):
    name = 'sun'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://wz.sun0769.com/html/top/reply.shtml']
    # 链接提取器（如：获得每一个页码）
    link = LinkExtractor(allow=r'page=\d+')  # 空的话取所有url
    link_1 = LinkExtractor(allow=r'page=$')  # 拿到第一页数据
    link_detail = LinkExtractor(allow=r'question/\d+/\d+\.shtml')  # 拿到第一页数据 . 需要转义

    rules = (
        # 实例化一个Rule（规则解析器）对象
        Rule(link, callback='parse_item', follow=True),	
        Rule(link_1, callback='parse_item'),
        Rule(link_detail, callback='parse_detail'),
        # follow = True; 将链接提取器 继续作用到 连接提取器提取到的链接 所对应的 页码源码中
    )

    # 数据解析: 用来解析连接提取器提取到的链接所对应的页码
    def parse_item(self, response):
        # tr_list = response.xpath('/html/body/div[8]/table[2]/tbody/tr')   # xpath中不能含有tbody
        tr_list = response.xpath('/html/body/div[8]/table[2]//tr')

        for tr in tr_list:
            title = tr.xpath('./td[3]/a[1]/text()').extract_first()
            status = tr.xpath('./td[4]/span/text()').extract_first()
            num = tr.xpath('./td[1]/text()').extract_first()
            # print(num, title,status)
            item = Item2()
            item['title'] = title
            item['status'] = status
            item['num'] = num
            yield item
        # print(response)

    # 解析详情页中的新闻内容
    def parse_detail(self, response):
        content = response.xpath('/html/body/div[9]/table[2]//tr[1]/td//text()').extract()
        if content:
            content = ''.join(content)
            num = response.xpath('/html/body/div[9]/table[1]//tr/td[2]/span[2]').extract_first().split(':')[-1].replace(
                r'</span>', '')
            # print(num, content)
            item = Item1()
            item['content'] = content
            item['num'] = num
            yield item

② 定义Item类

两个Rule是为了拿到所有页码的url，它对应着 Item2
另一个Rule是为了拿到所有详情页的url，它对应着 Item1

# items.py
import scrapy

class Item1(scrapy.Item):
    # define the fields for your item here like:
    content = scrapy.Field()
    num = scrapy.Field()

class Item2(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    status = scrapy.Field()
    num = scrapy.Field()

③ 定义pipeline

定义pipeline做持久化存储！

在 open_spider 中开起连接
在 close_spider 中关闭连接
在 process_item 中执行数据库得插入操作。

遇到的问题：

第一个问题：主题和状态与详细内容如何对应起来呢？
- 通过对页面进行分析发现，使用在这两个页面中都有编号，所以增加一个新的字段变化，来连接这两块。
两个数据解析函数不同于使用scrapy.Request进行手动传参，然后通过回调来进行连接。而现在只能定义两个 Item ，在管道中如何判断item类型：
- item.__class__.__name__ 表示类名

# pipeline.py
import pymysql

class SunproPipeline(object):
    conn = None
    cursor = None

    def open_spider(self, spider):
        self.conn = pymysql.Connection(host='127.0.0.1', user='root', password="2296",
                                       database='spider', charset='utf8')

    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()
        if item.__class__.__name__ == 'Item1':
            content = item['content']
            num = item['num']
            query_sql = 'select * from sun where num = %s'
            self.cursor.execute(query_sql, (num,))
            ret = self.cursor.fetchall()
            if ret:
                insert_sql = f'update sun set content = %s where num=%s'
                try:
                    self.cursor.execute(insert_sql, (content, num))
                    self.conn.commit()
                except Exception as e:
                    print(e)
                    self.conn.rollback()
            else:
                insert_sql = f'insert into sun(num,content) values (%s, %s)'
                try:
                    self.cursor.execute(insert_sql, (num, content))
                    self.conn.commit()
                except Exception as e:
                    print(e)
                    self.conn.rollback()
        else:
            title = item['title']
            status = item['status']
            num = item['num']
            query_sql = f'select * from sun where num = %s'
            self.cursor.execute(query_sql, (num,))
            ret = self.cursor.fetchall()
            if ret:
                insert_sql = f'update sun set title = %s,status = %s where num=%s'
                try:
                    self.cursor.execute(insert_sql, (title, status, num))
                    self.conn.commit()
                except Exception as e:
                    print(e)
                    self.conn.rollback()
            else:
                insert_sql = f'insert into sun(num,title,status) values (%s, %s,%s)'
                try:
                    self.cursor.execute(insert_sql, (num, title, status))
                    self.conn.commit()
                except Exception as e:
                    print(e)
                    self.conn.rollback()

        return item

    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

Scrapy框架——使用CrawlSpider爬取数据的更多相关文章

基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
scrapy框架综合运用爬取天气预报 + 定时任务
爬取目标网站: http://www.weather.com.cn/ 具体区域天气地址: http://www.weather.com.cn/weather1d/101280601.shtm(深圳) ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
信息技术手册可视化进度报告基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库
老师给我们提供了一个word文档,里面是一份信息行业热词解释手册,要求我们把里面的文字存进数据库里面,然后在前台展示出来. 首先面临的问题是怎么把数据导进MySQL数据库,大家都有自己的方法,我采用了 ...
Scrapy持久化存储-爬取数据转义
Scrapy持久化存储爬虫爬取数据转义问题使用这种格式,会自动帮我们转义 'insert into wen values(%s,%s)',(item['title'],item['content' ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...

随机推荐

String特性之 “字符串驻留池”
1. 字符串驻留池,就是一块与堆区并行的存放字符串对象的内存区,JVM的驻留池机制规定: 在池中创建一个String对象,第二行会先在池中寻找是否有值与"abc"相同的String ...
string::assign
string (1) string& assign (const string& str); substring (2) string& assign (const strin ...
SQL 查询今天、昨天、7天内、30天的数据
今天的所有数据: 昨天的所有数据: 7天内的所有数据: 30天内的所有数据: 本月的所有数据: 本年的所有数据: 查询今天是今年的第几天: select datepart(dayofyear,getD ...
redis cluster 介绍
介绍 1. cluster的作用 (1)自动将数据进行分片,每个master上放一部分数据 (2)提供内置的高可用支持,部分master不可用时,还是可以继续工作的 2. redis集群实现方案关于 ...
python--ctypes模块:调用C函数
Python 的 ctypes 要使用 C 函数,需要先将 C 编译成动态链接库的形式,即 Windows 下的 .dll 文件,或者 Linux 下的 .so 文件 Windows 系统下的 C 标 ...
BZOJ 2834: 回家的路 Dijkstra
按照横,竖为方向跑一个最短路即可,算是水题~ #include <bits/stdc++.h> #define N 200005 #define E 2000000 #define set ...
hdu 2510
Tiling_easy version Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
洛谷 U5122 T2-power of 2(费马小定理)
U5122 T2-power of 2 题目提供者胡昊题目描述是一个十分特殊的式子. 例如: n=0时 =2 然而,太大了所以,我们让对10007 取模输入输出格式输入格式: n 输出格式: ...
CSP-S 模拟53 题解
题解: T1 u: 一看到修改这么多,但询问其实只有一个不难想到差分,但是他这个形状可以说很不规则,于是我们想到分别维护竖着的和斜着的差分,然后最后合并即可. 考场上瞎调了一波系数莫名AC,其实是维护 ...
E. Intergalaxy Trips
完全图,\(1 \leq n \leq 1000\)每一天边有 \(p_{i,j}=\frac{A_{i,j}}{100}\) 的概率出现,可以站在原地不动,求 \(1\) 号点到 \(n\) 号点期 ...

Scrapy框架——使用CrawlSpider爬取数据

Crawlspider

全站数据爬取

编码流程

例子

① 定义spider

② 定义Item类

③ 定义pipeline

Scrapy框架——使用CrawlSpider爬取数据的更多相关文章

随机推荐

热门专题