scrapy爬虫案例--爬取阳关热线问政平台

阳光热线问政平台：http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1

爬取最新问政帖子的编号、投诉标题、投诉内容以及处理状态，并存入到Mongodb数据库中。

1、创建项目

scrapy startproject myProject

2、定义Item

items.py

import scrapy

class MyprojectItem(scrapy.Item):

    number = scrapy.Field() #帖子编号

    title = scrapy.Field() #帖子标题

    content = scrapy.Field() #帖子内容

    status = scrapy.Field() #处理状态

3、编写爬虫，提取item

首先使用如下命令生成爬虫文件sun.py

scrapy genspider sun wz.sun0769.com

spiders/sun.py

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from myProject.items import MyprojectItem

class SunSpider(CrawlSpider):

    name = 'sun'

    allowed_domains = ['wz.sun0769.com']

    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1']

    rules = (

        Rule(LinkExtractor(allow=r'id=\d+&page=\d+')),#每一页的匹配规则，默认follow=True跟进

        Rule(LinkExtractor(allow=r'politics/index\?id=\d+'), callback='parse_item'),#每个帖子的匹配规则，默认不跟进

    )

    def parse_item(self, response):

        item = MyprojectItem()

        title = response.xpath('//div[@class="mr-three"]/p[@class="focus-details"]/text()').extract()[0] #投诉标题

        status = response.xpath('//div[@class="focus-date clear focus-date-list"]/span[3]/text()').extract()[0].split()[1] #处理状态

        number = response.xpath('//div[@class="focus-date clear focus-date-list"]/span[4]/text()').extract()[0].split('：')[-1] #投诉编号

        content = response.xpath('//div[@class="details-box"]/pre/text()').extract()[0] #投诉内容

        item['title'] = title

        item['status'] = status

        item['number'] = number

        item['content'] = content

        yield item

4、编写中间件文件middlewares.pyd中的下载中间件

给每个请求随机选择一个User-Agent，并且随机选择一个代理ip，另外写一个脚本定时获取代理ip和port，并存入redis数据库(比如使用芝麻ip)

import random

import json

import redis

from myProject.settings import USER_AGENTS

class MyprojectDownloaderMiddleware:

    def __init__(self):

        super().__init__()

        self.r = redis.StrictRedis()#创建redis数据库连接客户端，用于取里面存储的代理Ip和port

    def process_request(self, request, spider):

        proxy_list = json.loads(self.r.get('proxy_list').decode())

        proxy = random.choice(proxy_list)

        request.headers['User-Agent'] = random.choice(USER_AGENTS) #设置user-agent

        request.meta['proxy'] ='http://'+proxy['ip']+':'+str(proxy['port']) #设置代理ip和port

        return None

5、存储数据

编写pipelines.py文件

import pymongo

class MyprojectPipeline:

    def open_spider(self,spider):

        self.client = pymongo.MongoClient('mongodb://localhost:27017')#创建mongodb数据库连接客户端

        self.db = self.client.test #选择test数据库

        self.collection = self.db.sunInfo #选择sunInfo集合存储数据

    def process_item(self, item, spider):

        self.collection.insert_one(dict(item))

        return item

    def close_spider(self,spider):

        self.client.close()

6、编写settings.py

BOT_NAME = 'myProject'

SPIDER_MODULES = ['myProject.spiders']

NEWSPIDER_MODULE = 'myProject.spiders'

ROBOTSTXT_OBEY = False

COOKIES_ENABLED = False

DOWNLOAD_DELAY = 1.0#设置延迟，减轻服务器压力，从而降低被查封的风险

#设置下载中间件

DOWNLOADER_MIDDLEWARES = {

   'myProject.middlewares.MyprojectDownloaderMiddleware': 543,

}

#设置item管道

ITEM_PIPELINES = {

   'myProject.pipelines.MyprojectPipeline': 300,

}

#可供选择的User-Agent，可通过网上查找更多，随机切换，起到反爬虫作用

USER_AGENTS = [

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",

    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",

    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",

    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",

    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",

    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",

    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",

    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"

    ]

7、开启爬虫

scrapy crawl sun

scrapy爬虫案例--爬取阳关热线问政平台的更多相关文章

爬虫（6）- Scrapy 实战案例 - 爬取不锈钢的相关钢卷信息
超详细创建流程及思路一. 新建项目 1.创建文件夹,然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口,运行下面的命令创建scrapy项目 scrapy startpr ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
Scrapy爬虫实战-爬取体彩排列5历史数据
网站地址:http://www.17500.cn/p5/all.php 1.新建爬虫项目 scrapy startproject pfive 2.在spiders目录下新建爬虫 scrapy gens ...
手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料
之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...
Scrapy爬虫Demo 爬取资讯分类
爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 效果演示图: items.py import scrapy import sys reload(sys) sys.se ...
简单python爬虫案例(爬取慕课网全部实战课程信息)
技术选型下载器是Requests 解析使用的是正则表达式效果图: 准备好各个包 # -*- coding: utf-8 -*- import requests #第三方下载器 import re ...
scrapy爬虫框架爬取招聘网站
目录结构 BossFace.py文件中代码: # -*- coding: utf-8 -*-import scrapyfrom ..items import BossfaceItemimport js ...
Scrapy项目_阳光热线问政平台
目的: 爬取阳光热线问政平台问题中每个帖子的标题.详情URL.详情内容.图片以及发布时间步骤: 1.创建爬虫项目 1 scrapy startproject yangguang 2 cd yangg ...

随机推荐

Learn Python the Hard Way，ex37-2
本练习为复习python的符号和关键字数据类型有:True False None Strings numbers floats lists dict tuple set ""&q ...
MD摘要算法
import static org.junit.Assert.*; import java.security.MessageDigest; //消息摘要 public class MDCoder { ...
java内部类的理解
* 类的第5个成员:内部类 * 1.相当于说,我们可以在类的内部再定义类.外面的类:外部类.里面定义的类:内部类 * 2.内部类的分类:成员内部类(声明在类内部且方法外的) vs 局部内部类(声明在类 ...
归并排序(JAVA语言)
public class merge { public static void main(String[] args) { // TODO Auto-generated method stub int ...
Swagger接口如何生成Html离线文档
A very simple tool that converts Swagger Api Document to Html File. 小记Swagger接口生成Html离线文档由来很多人用swa ...
iNeuOS工业互联平台，发布：消息管理、子用户权限管理、元件移动事件、联动控制和油表饼状图，v3.4版本
目录 1. 概述... 2 2. 平台演示... 2 3. 消息管理... 2 4. 子用户权限管理... 3 5. 元件移动事件... ...
exec 跟 source 差在哪？-- Shell十三问<第六问>
exec 跟 source 差在哪?-- Shell十三问<第六问> 这次先让我们从 CU Shell 版的一个实例贴子来谈起吧: 例中的提问是: cd /etc/aa/bb/cc 可以执 ...
使用 docker 进行 ElasticSearch + Kibana 集群搭建
在Docker容器中运行Elasticsearch Kibana和Cerebro 机器信息 10.160.13.139 10.160.9.162 10.160.11.171 1. 安装docker和d ...
java面试-对象的创建、内存布局、访问定位
一.对象的创建 1.虚拟机遇到一条new指令时,首先将去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已被加载.解析和初始化过.如果没有,那必须先执行相应的 ...
Postman 使用小技巧/指南
一.什么是 Postman(前世今生) Postman 诞生于 2013 年,一开始只是 Abhinav Asthana 着手于解决 API 测试的工具,随着这个工具的使用者和需求迅速激增,Abhin ...

scrapy爬虫案例--爬取阳关热线问政平台

1、创建项目

2、定义Item

3、编写爬虫，提取item

4、编写中间件文件middlewares.pyd中的下载中间件

5、存储数据

6、编写settings.py

7、开启爬虫

scrapy爬虫案例--爬取阳关热线问政平台的更多相关文章

随机推荐

热门专题