1.目标

http://wz.sun0769.com/index.php/question/questionType?type=4&page=

爬取每个页面链接的内部内容和投诉信息

2.方法1：通过Spider爬取

# -*- coding: utf-8 -*-

import scrapy

from dongguanSpider.items import DongguanItem

class SunSpider(scrapy.Spider):

    name = 'sun'

    allowed_domains = ['wz.sun0769.com']

    url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page='

    offset = 0

    start_urls = [url + str(offset)]

    def parse(self, response):

        # 每一页的所有帖子的链接集合

        links = response.xpath('//div[@class="greyframe"]/table//td/a[@class="news14"]/@href').extract()

        # 迭代取出集合里的链接

        for link in links:

            # 提取列表里每个帖子的链接，发送请求并调用parse——item来处理

            yield scrapy.Request(link, callback=self.parse_item)

        # 页面终止条件成立前，会一直自增offset的值，并发送新的页面请求，调用parse方法处理

        if self.offset<=71160:

            self.offset +=30

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

    def parse_item(self, response):

        item = DongguanItem()

        item['title'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()').extract()[0].split('：')[-1]

        item['url'] = response.url

        item['number'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()').extract()[0].split(':')[-1]

        # 是否是图片

        content_pic = response.xpath('//div[@class="textpic"]/img/@src').extract()

        if len(content_pic)==0:

            content_no_pic = response.xpath('//div[@class="wzy1"]/table[2]//tr/td/text()').extract()[0]

            item['content'] = "".join(content_no_pic).replace("\xa0", "")

        else:

            item['content'] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

3. 通过CrawlSpider爬取

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from dongguan.items import DongguanItem

class SunSpider(CrawlSpider):

    name = 'sun'

    allowed_domains = ['wz.sun0769.com']

    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=30']

    rules = [

        Rule(LinkExtractor(allow=('type=4&page=\d+'))),

        Rule(LinkExtractor(allow = ('/html/question/\d+/\d+.shtml')), callback = 'parseDongguan')

    ]

    def parseDongguan(self, response):

        item = DongguanItem()

        item['title'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()').extract()[0].split('：')[-1]

        item['url'] = response.url

        item['number'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()').extract()[0].split(':')[-1]

        # 是否是图片

        content_pic = response.xpath('//div[@class="textpic"]/img/@src').extract()

        if len(content_pic)==0:

            content_no_pic = response.xpath('//div[@class="wzy1"]/table[2]//tr/td/text()').extract()[0]

            item['content'] = "".join(content_no_pic).replace("\xa0", "")

        else:

            item['content'] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

Scrapy框架-Spider和CrawlSpider的区别的更多相关文章

Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
Scrapy框架-Spider
目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取 ...
Scrapy框架-CrawlSpider
目录 1.CrawlSpider介绍 2.CrawlSpider源代码 3. LinkExtractors:提取Response中的链接 4. Rules 5.重写Tencent爬虫 6. Spide ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
全栈爬取-Scrapy框架(CrawlSpider)
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...

随机推荐

Visual Studio Code-批量添加或删除注释行
小技巧一例,批量删除Visual Studio code或notepad++注解信息,便于读取有效代码或文本信息,具体操作如下: Visual Studio Code批量删除注解行信息: 在VS Co ...
你可能需要为你的 APP 适配 iOS 11
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/AZFrqL9dnlgA6Vt2sVhxIw 作者:s ...
知识科普：IM聊天应用是如何将消息发送给对方的？（非技术篇）
1.引言沟通是人类的最基本需求,复杂多变的沟通内容.沟通方式,正是人类文明之所以如此璀璨的关键所在. 在自然界中,要完成一件事情的沟通,我们可以直接通过声音传递给对方,这是再平常不过的事了(靠“ ...
[Swift]LeetCode1034.边框着色 | Coloring A Border
Given a 2-dimensional grid of integers, each value in the grid represents the color of the grid squa ...
nginx 报错502Bad Gateway
场景: 目前在ECS中起了多个node服务,使用forever进程守护,最近,打开线上页面发现报错502 Bad Gateway;同时部分静态资源访问不到.(之前可以的): 解决: 首先查看nginx ...
《前端之路》之初识 JavaScript
01 初识 JavaScript 作为在码农圈混迹了四五年的老码畜来说,学习一门新的语言,就仿佛是老司机开新车一样轻车熟路. 为什么会这么快呢? 因为各种套路啊- 任何一种计算机语言的最开始都是和 ...
Jenkins集群搭建
Jenkins的目的是加快CI/CD的步伐,集群的搭建也不是必须的,当一台服务器的构建速度受到限制下,可以考虑使用主从并发构建,来加快构建速度.作为一款超级管家的角色,Jenkins的资料非常多,Je ...
Django-restframework 源码之认证组件源码分析
Django-restframework 源码之认证组件源码分析一前言之前在 Django-restframework 的流程分析博客中,把最重要的关于认证.权限和频率的方法找到了.该方法是 A ...
javascript小记一则：今天在写VS2005——.NET程序时，写的一个JS图片示例案例
源码如下,如遇调试问题,可以找我解决: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" &quo ...
Docker 容器镜像删除
1.停止所有的container,这样才能够删除其中的images: docker stop $(docker ps -a -q) 如果想要删除所有container的话再加一个指令: docker ...

Scrapy框架-Spider和CrawlSpider的区别

1.目标

2.方法1：通过Spider爬取

3. 通过CrawlSpider爬取

Scrapy框架-Spider和CrawlSpider的区别的更多相关文章

随机推荐

热门专题