scrapy爬虫案例：问政平台

问政平台

http://wz.sun0769.com/index.php/question/questionType?type=4

爬取投诉帖子的编号、帖子的url、帖子的标题，和帖子里的内容。

items.py

import scrapy

class DongguanItem(scrapy.Item):

    # 每个帖子的标题

    title = scrapy.Field()

    # 每个帖子的编号

    number = scrapy.Field()

    # 每个帖子的文字内容

    content = scrapy.Field()

    # 每个帖子的url

    url = scrapy.Field()

spiders/sunwz.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders import CrawlSpider

from scrapyDemo.items import DongguanItem

class SunSpider(CrawlSpider):

    name = 'sun'

    allowed_domains = ['wz.sun0769.com']

    url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page='

    offset = 0

    start_urls = [url + str(offset)]

    def parse(self, response):

        # 取出每个页面里帖子链接列表

        links = response.xpath("//div[@class='greyframe']/table//td/a[@class='news14']/@href").extract()

        # 迭代发送每个帖子的请求，调用parse_item方法处理

        for link in links:

            yield scrapy.Request(link, callback=self.parse_item)

        # 设置页码终止条件，并且每次发送新的页面请求调用parse方法处理

        if self.offset <= 3876:

            self.offset += 30

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

    # 处理每个帖子里

    def parse_item(self, response):

        item = DongguanItem()

        # 标题

        item['title'] = response.xpath('//span[contains(@class, "niae2_top")]/text()').extract()[0]
 　　　　# 编号

        item['number'] = response.xpath('//div[contains(@class, "wzy1")]//td//span/text()').extract()[1]

        # 文字内容，默认先取出有图片情况下的文字内容列表

        content = response.xpath('//td[@class="txt16_3"]/text()').extract()

        # 如果没有内容，则取出没有图片情况下的文字内容列表

        if len(content) == 0:

            content = response.xpath('//div[@class="c1 text14_2"]/text()').extract()

            # content为列表，通过join方法拼接为字符串，并去除首尾空格

            item['content'] = "".join(content).strip()

        else:

            item['content'] = "".join(content).strip()

        # 链接

        item['url'] = response.url

        yield item

pipelines.py

# -*- coding: utf-8 -*-

# 文件处理类库，可以指定编码格式

import codecs

import json

class DongguanPipeline(object):

    def __init__(self):

        # 创建一个只写文件，指定文本编码格式为utf-8

        self.filename = codecs.open('sunwz.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        content = json.dumps(dict(item), ensure_ascii=False) + "\n"

        self.filename.write(content)

        return item

    def spider_closed(self, spider):

        self.file.close()

settings.py

ITEM_PIPELINES = {

    'dongguan.pipelines.DongguanPipeline': 300,

}

# 日志文件名和处理等级

LOG_FILE = "dg.log"

LOG_LEVEL = "DEBUG"

在项目根目录下新建main.py文件,用于调试

from scrapy import cmdline

cmdline.execute('scrapy crawl sunwz'.split())

执行程序

py2 main.py

效果：

scrapy爬虫案例：问政平台的更多相关文章

scrapy爬虫案例--爬取阳关热线问政平台
阳光热线问政平台:http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1 爬取最新问政帖子的编号.投诉标题.投诉内容以 ...
Scrapy爬虫案例 | 数据存储至MySQL
首先,MySQL创建好数据库和表然后编写各个模块 item.py import scrapy class JianliItem(scrapy.Item): name = scrapy.Field() ...
Scrapy爬虫案例 | 数据存储至MongoDB
豆瓣电影TOP 250网址要求: 1.爬取豆瓣top 250电影名字.演员列表.评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py ...
scrapy爬虫案例：用MongoDB保存数据
用Pymongo保存数据爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中. items.py class DoubanspiderItem( ...
爬虫——Scrapy框架案例二：阳光问政平台
阳光热线问政平台 URL地址:http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段:帖子的编号.投诉类 ...
Scrapy项目_阳光热线问政平台
目的: 爬取阳光热线问政平台问题中每个帖子的标题.详情URL.详情内容.图片以及发布时间步骤: 1.创建爬虫项目 1 scrapy startproject yangguang 2 cd yangg ...
如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）
我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置use ...
爬虫框架Scrapy之案例一
阳光热线问政平台 http://wz.sun0769.com/index.php/question/questionType?type=4 爬取投诉帖子的编号.帖子的url.帖子的标题,和帖子里的内容 ...
Scrapy爬虫及案例剖析
由于互联网的极速发展,所有现在的信息处于大量堆积的状态,我们既要向外界获取大量数据,又要在大量数据中过滤无用的数据.针对我们有益的数据需要我们进行指定抓取,从而出现了现在的爬虫技术,通过爬虫技术我们可 ...

随机推荐

/bin/false 和 /usr/sbin/nologin
比较常用的用法: #添加一个不能登录的用户 useradd -d /usr/local/apache -g apache -s /bin/false apache 要拒绝系统用户登录,可以将其shel ...
google批量搜索实现方式
本文主要记录一下最近所做的关于Google批量搜索的实现方式. 搜索目的: 获取关键词在某个域名下对应的Google搜索结果数搜索方式: 关键词+inurl 例如:"爬虫" in ...
Zabbix4.0如何添加监控信息
二.添加监控信息监控Windows主机: 首先需要在Windows主机上安装好Zabbix agent,安装方法,见另一篇博客,https://www.cnblogs.com/opsprobe/p/ ...
beforeRouteEnter 与 beforeRouteUpdate（watch $route 对象）的区别
项目区别适用场景网址 beforeRouteEnter beforeRouteEnter 守卫不能访问 this,因为守卫在导航确认前被调用,因此即将登场的新组件还没被创建.不过,你可以通过 ...
vue router 中，children 中 path 为空字符串的路由，是默认打开的路由（包括在 el-tabs 中嵌套路由的情况）
详见该页面的最后一个代码块:https://router.vuejs.org/zh/guide/essentials/nested-routes.html#%E5%B5%8C%E5%A5%97%E8% ...
MySQL 快速删除大量数据
千万级数据量方案1. 直接使用delete 因delete执行速度与索引量成正比,若表中索引量较多,使用delete会耗费数小时甚至数天的时间方案2. (1)创建临时表,表结构与原表结构相同 ...
013_matlab读取ecxel（脚本读取）
MATLAB读取ecxel文件数据视频教程:https://v.qq.com/x/page/b3039we542o.html 资料下载:https://download.csdn.net/downl ...
Hibernate学习:Exception in thread "main" java.lang.NullPointerException
1.在学习Hibernate多对多关系的时候遇到了一下异常: 主函数出现了空指针异常: public static void testadd() { Session session = Hiberna ...
system.stat[resource,<type>]
系统信息. 整型或者浮点型 ent - 该分区有权接收的处理器单元数(float) kthr, - 关于内核线程状态的信息: r - 平均可运行内核线程数(float) b - 虚拟内存管理器等待队列 ...
求等差数列前$n$项和$S_n$的最值
一.方法依据: 已知数列$\{a_n\}$是等差数列,首项为$a_1$,公差为$d$,前$n$项和为$S_n$,则求$S_n$的最值常用方法有两种: (1).函数法:由于\(S ...

scrapy爬虫案例：问政平台

问政平台

items.py

spiders/sunwz.py

pipelines.py

settings.py

在项目根目录下新建main.py文件,用于调试

执行程序

scrapy爬虫案例：问政平台的更多相关文章

随机推荐

热门专题