scrapy框架之CrawlSpider全站自动爬取

全站数据爬取的方式

　　1.通过递归的方式进行深度和广度爬取全站数据，可参考相关博文（全站图片爬取），手动借助scrapy.Request模块发起请求。

　　2.对于一定规则网站的全站数据爬取，可以使用CrawlSpider实现自动爬取。

CrawlSpider是基于Spider的一个子类。和蜘蛛一样，都是scrapy里面的一个爬虫类，但 CrawlSpider是蜘蛛的子类，子类要比父类功能多，它有自己的都有功能------ 提取链接的功能LinkExtractor（链接提取器）。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

项目创建

#创建工程项目：项目名CrawlSpiderPro可自定义
scrapy startproject CrawlSpiderPro
#切换到当前工程目录下
cd  CrawlSpiderPro
#创建爬虫文件，比普通的爬虫文件多了参数“-t crawl”
scrapy genspider -t crawl crawlSpiderTest www.xxx.com
#开启爬虫项目
scrapy crawl crawlSpiderTest

初始化爬虫文件解析　　

 class CrawlspidertestSpider(CrawlSpider):

     name = 'crawlSpiderTest'

     allowed_domains = ['www.xxx.com']

     start_urls = ['http://www.xxx.com/']

     #爬虫规则rules指定不同的规则解析器，一个Rule就是一个解析规则，可以定义多个

     rules = (

         #Rule是规则解析器；

         # LinkExtractor是连接提取器，提取符合allow规则的完整的url；

         #callback指定当前规则解析器的回调解析函数；

         #follow指定是否将链接提取器继续作用到链接提取器提取出的链接网页；

         Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),

     )

     def parse_item(self, response):

         item = {}

         #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()

         #item['name'] = response.xpath('//div[@id="name"]').get()

         #item['description'] = response.xpath('//div[@id="description"]').get()

         return item

东莞阳光网(http://wz.sun0769.com/index.php/question/report?page=)全站爬取案例：

　　1.爬虫脚本crawlSpiderTest.py

 # -*- coding: utf-8 -*-

 import scrapy

 from scrapy.linkextractors import LinkExtractor

 from scrapy.spiders import CrawlSpider, Rule

 from CrawlSpiderPro.items import CrawlspiderproItem

 class CrawlspidertestSpider(CrawlSpider):

     name = 'crawlSpiderTest'

     # allowed_domains = ['www.xxx.com']

     start_urls = ['http://wz.sun0769.com/index.php/question/report?page=']

     #爬虫规则rules指定不同的规则解析器，一个Rule就是一个解析规则，可以定义多个

     rules = (

         #Rule是规则解析器；

         # LinkExtractor是连接提取器，提取符合allow规则的完整的url；

         #callback指定当前规则解析器的回调解析函数；

         #follow指定是否将链接提取器继续作用到链接提取器提取出的链接网页；

         #follow不指定默认False;

         Rule(LinkExtractor(allow=r'page=\d+'), callback='parse_item', follow=False),#提取页码

         Rule(LinkExtractor(allow=r'question/\d+/\d+.shtml'), callback='parse_detail'),#提取详细信息页面

     )

     def parse_item(self, response):

         print(response)

         item = CrawlspiderproItem()

         tr_list=response.xpath('//*[@id="morelist"]/div/table[2]/tbody/tr/td/table/tbody/tr')

         for tr in tr_list:

             item['identifier']=tr.xpath('./td[1]/text()').extract_first()#解析编号

             item['title']=tr.xpath('/td[2]/a[2]/text()').extract_first()#解析标题

             yield item

     def parse_detail(self, response):

         print(12345678765)

         item = CrawlspiderproItem()

         #xpath解析不识别tbody

         item['identifier']=response.xpath('/html/body/div[9]/table[1]/tr/td[2]/span[2]/text()').extract_first().split(':')[-1]

         item['content']="".join(response.xpath('/html/body/div[9]/table[2]//text()').extract())

         yield item

crawlSpiderTest.py

　　2.itmes.py字段属性定义

 import scrapy

 #也可以定义两个类分别存储，最后在和管道通过编号字段进行汇总对应，然后持久化存储

 class CrawlspiderproItem(scrapy.Item):

     #编号

     identifier=scrapy.Field()

     #标题

     title=scrapy.Field()

     #内容

     content=scrapy.Field()

     pass

itmes.py

　　3.pipelines.py管道配置

 #自定义持久化处理

 class CrawlspiderproPipeline(object):

     def process_item(self, item, spider):

         print(item)

         return item

pipelines.py

　　4.settings.py配置

#UA伪装

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"

#robots协议

ROBOTSTXT_OBEY = False

#日志输出等级

LOG_LEVEL='ERROR'

#开启管道

ITEM_PIPELINES = {

   'CrawlSpiderPro.pipelines.CrawlspiderproPipeline': 300,

}

scrapy框架之CrawlSpider全站自动爬取的更多相关文章

Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
Crawlspider的自动爬取
引子 : 如果想要爬取糗事百科的全栈数据的方法 ? 方法一 : 基于scrapy框架中的scrapy的递归爬取进行实现(requests模块递归回调parse方法) . 方法二 : 基于Crawl ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参
本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫. 我们选从逻辑上来看,这种爬虫是如何工作的: 我们给定一个起点的url link ,进入页面之后提 ...
Scrapy框架学习（四）爬取360摄影美图
我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...

随机推荐

2019-2020-1 20199308《Linux内核原理与分析》第六周作业
<Linux内核分析> 第五章系统调用的三层机制(下) 5.1 给MenuOS增加命令强制删除当前menu目录,用get clone重新克隆一个新版本的menu,运行make root ...
快速部署一个Kubernetes集群
官方提供的三种部署方式 minikube Minikube是一个工具,可以在本地快速运行一个单点的Kubernetes,仅用于尝试Kubernetes或日常开发的用户使用. 部署地址:https:// ...
latex-列表环境
介绍 latex 主要有三种列表环境,进行罗列的实现, 无序列表 -- itemize 有序列表 -- enumerate 描述列表 -- description 本文进行了一一介绍和演示, 同时添加 ...
Spring Boot中Spring data注解的使用
文章目录 Spring Data Annotations @Transactional @NoRepositoryBean @Param @Id @Transient @CreatedBy, @Las ...
Shutdown SpringBoot App
文章目录 Shutdown Endpoint close Application Context 退出SpringApplication 从外部程序kill App Shutdown SpringBo ...
hdu_1052 Tian Ji -- The Horse Racing 贪心
Tian Ji -- The Horse Racing Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (J ...
Get史上最优雅的加密方式！没有之一！
你的配置文件是不是还在使用下面这种落后的配置暴露一些密码: jdbc.url=jdbc:mysql://127.0.0.1:3305/afei jdbc.username=afei 如果是,那么继续往 ...
#Week7 Neural Networks : Learning
一.Cost Function and Backpropagation 神经网络的损失函数: \[J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K ...
JDK 安装及配置环境变量（基于 Linux）
1.先确定虚拟机系统是 32 位还是 64 位 #Linux 指令下输入 getconf LONG_BIT 2.建目录 JDK mkdir JDK 3.通过 rz 导入压缩包 jdk-8u144-li ...
linux命令之df dh
df -h, --human-readable 查看磁盘空间占用情况 df -h du -h, --human-readable -s, --summarize 查看文件大小 du -h test.t ...

scrapy框架之CrawlSpider全站自动爬取

scrapy框架之CrawlSpider全站自动爬取的更多相关文章

随机推荐

热门专题