crawlspider抽屉爬取实例+分布

创建项目 scrapy startproject choutiPro

创建爬虫文件 scrapy genspider -t crawl chouti www.xxx.com

进入pycharm 培训setting文件

配置UA 和robotstxt 配置

ROBOTSTXT_OBEY = False

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

爬虫代码 抽屉式120页码的数据实现爬取

 

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):

    name = 'chouti'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

    #连接提取器：可以在起始的url对应的页面源码中提取指定符合要求的连接

    #allow参数值表示的是一个正则表达式规则

    Link = LinkExtractor(allow=r'/r/scoff/hot/\d+')

    rules = (

        #实例化了一个规则解析器对象

        #follow True,会作用到没有个页码的中进行提取，这可以一直提取到页码所有页码链接

        #同时调度去会给我们自动去重操作

        Rule(Link, callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        #这里打印页码链接，可以进行详细解析每一个页码中数据

        print(response)

crawlspider抽屉爬取实例+分布的更多相关文章

Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
scrapy框架用CrawlSpider类爬取电影天堂.
本文使用CrawlSpider方法爬取电影天堂网站内国内电影分类下的所有电影的名称和下载地址 CrawlSpider其实就是Spider的一个子类. CrawlSpider功能更加强大(链接提取器,规 ...
crawlSpider全站爬取分布式
# 如何提升scrapy爬取数据的效率? 推荐: 单线程加异步协程增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings.py中修改 CONCURRENT_REQU ...
python爬虫之深度爬取实例
写了一个之前没完成的项目,代码优化不够,速度有点慢,应该也有错误的地方,望大佬看了之后能给点建议......... 这是开始的url,先看一下它的网页结构:http://www.cymodel.net ...
urllib爬取实例
#汉字转码.多个参数拼接 from urllib import request base_url = "http://www.baidu.com/s?" content = inp ...
urllib库爬取实例
from urllib import request import random def spider(url): user_agent_list = [ "Mozilla/5.0 (Win ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
全栈爬取-Scrapy框架(CrawlSpider)
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
Crawlspider的自动爬取
引子 : 如果想要爬取糗事百科的全栈数据的方法 ? 方法一 : 基于scrapy框架中的scrapy的递归爬取进行实现(requests模块递归回调parse方法) . 方法二 : 基于Crawl ...

随机推荐

UItableView中的一些方法
有关UITableView的知识点相对照较简单,一些简单的经常使用的方法有时间在写上: 以下的几个方法假设仅仅是展示UITableView是用不到的,须要对对应的区段进行操作的时候才会用到. 方法例如 ...
xml布局内容总结（四）--Android
(1)对于xml编写界面较复杂的情况下,使用include会使得编写和查看更清楚 <LinearLayout android:layout_width="mat ...
SPOJ 题目705 New Distinct Substrings（后缀数组，求不同的子串个数）
SUBST1 - New Distinct Substrings no tags Given a string, we need to find the total number of its di ...
js绑定事件方法：addEventListener与attachEvent的不同浏览器的兼容性写法
js的事件绑定方法中,ie仅仅支持attachEvent,而FF和Chrome仅仅支持addEventListener,所以就必须为这两个方法做兼容处理,原理是先推断attachEvent仅仅否为真( ...
日期格式，Popup的使用方法,RenderTransform与LayoutTransform的区别
1.画个笑脸给大家娱乐一下: <Canvas Width="200" Height="180" VerticalAlignment="Cente ...
36.创建自定义的指令directive
转自:https://www.cnblogs.com/best/tag/Angular/ 1. <html> <head> <meta charset="utf ...
BZOJ 1174: [Balkan2007]Toponyms
Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 735 Solved: 102[Submit][Status][Discuss] Descriptio ...
JavaScript 获取移动设备的型号
https://joyqi.com/javascript/how-to-detect-mobile-devices-model-using-javascript.html?utm_source=too ...
codeforces 544 D Destroying Roads 【最短路】
题意:给出n个点,m条边权为1的无向边,破坏最多的道路,使得从s1到t1,s2到t2的距离不超过d1,d2 因为最后s1,t1是连通的,且要破坏掉最多的道路,那么就是求s1到t1之间的最短路用bfs ...
nodejs学习（一）--express+ejs生成项目
一.说一下首先保证node环境已经安装完毕,npm能正常使用,安装可自行百度,比较简单,在此不做赘述. 二.直接开码安装 npm install express express-generator ...

crawlspider抽屉爬取实例+分布

crawlspider抽屉爬取实例+分布的更多相关文章

随机推荐

热门专题