Scrapy　　　　　　　　　　

先创建项目

在windows下

scrapy startproject myproject #myproject是你的项目名称

cd 项目名称

scrapy genspider myspider 爬取域名 # myspider是你的爬虫名称后跟爬取域名

启动爬虫

scrapy crawl 爬虫名

配置

在setting.py 中配置

ROBOTSTXT_OBEY = False

CONCURRENT_REQUESTS = 32

#其中Scrapy下载执行现有的最大请求数

# 默认值：16

# 并发是指scrapy同时处理的request的数量，默认的全局并发限制为16，可增加这个值，增加多少取决于爬虫占CPU多少，设置前最好测试一下，一般占在80-90%为好

DOWNLOAD_DELAY = 3 #设置延迟下载可以避免被发现

COOKIES_ENABLED = True #禁止cookies，有些站点会从cookies中判断是否为爬虫

#它是用于Scrapy的HTTP请求的默认标题

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

# 管道

ITEM_PIPELINES = {

'Per.pipelines.PerPipeline': 300,

}

# 日志

LOG_FILE = './TEST.log'

# 编码

FEED_EXPORT_ENCODING='utf-8'

在你的myspider.py文件编写爬虫

import scrapy,re,requests

from ..items import PerItem

class LishiSpider(scrapy.Spider):

    name = 'myspider'  #爬虫名

    # allowed_domains = ['http://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=2&start=1']

    start_urls = ['http://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=2&start=1']  #爬取的域名

    def parse(self, response):

        # 标题

        title = response.xpath('/html/body/li[@class="categoryem"]/div[@class="vervideo-bd"]/a//div[@class="vervideo-title"]/text()').extract()

        # 链接

        t_url = response.xpath('/html/body/li[@class="categoryem"]/div[@class="vervideo-bd"]/a/@href').extract()

        # 时间

        data = response.xpath('/html/body/li[@class="categoryem"]/div[@class="vervideo-bd"]/a//div[@class="cm-duration"]/text()').extract()

　　　　　#爬取的标题等需传到items.py里

        for i in range(len(title)):

            item  = PerItem()

            item['title'] = title[i]

            item['t_url'] = 'http://www.pearvideo.com/' + t_url[i]

            item['data'] = data[i]

            #yield item

　　　　　　　print(item)

注意：爬取的字段要跟 items.py里的一致

import scrapy

class PerItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    t_url = scrapy.Field()

    data = scrapy.Field()

    shi = scrapy.Field()

最后启动爬虫

scrapy crawl myspider

学习Spider 了解 Scrapy的流程的更多相关文章

爬虫学习之基于Scrapy的爬虫自动登录
###概述在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...
爬虫学习之基于Scrapy的网络爬虫
###概述在上一篇文章<爬虫学习之一个简单的网络爬虫>中我们对爬虫的概念有了一个初步的认识,并且通过Python的一些第三方库很方便的提取了我们想要的内容,但是通常面对工作当作复杂的需求 ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
scrapy 开发流程
一.Spider 开发流程实现一个 Spider 子的过程就像是完成一系列的填空题,Scrapy 框架提出以下问题让用户在Spider 子类中作答: 1.爬虫从哪个或者那些页面开始爬取? 2.对于一 ...
Netty学习——protoc的新手使用流程
Netty学习——protoc的新手使用流程关于学习的内容笔记,记下来的东西等于又过了一次脑子,记录的更深刻一些. 1. 使用IDEA创建.proto文件,软件会提示你安装相应的语法插件安装成功之 ...
学习Python编程技术的流程与步骤，自学与参加培训学习都适用
一.清楚学习目标无论是学习什么知识,都要有一个对学习目标的清楚认识.只有这样才能朝着目标持续前进,少走弯路,从学习中得到不断的提升,享受python学习计划的过程. 虽然目前的编程语言有很多,但是 ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
爬虫之scrapy工作流程
Scrapy是什么? scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容.Scrapy 使用了 Twisted['twɪstɪd] ...
scrapy工作流程
整个scrapy流程,我们可以用去超市取货的过程来比喻一下两个采购员小王和小李开着采购车,来到一个大型商场采购公司月饼.到了商场之后,小李(spider)来到商场前台,找到服务台小花(引擎)并对她说 ...

随机推荐

这书真的不错--Spring MVC Beginner's Guide
五百多页,我干到三百多页了. 每个知识点都有说明,操作,解释. 学SPRING MVC,有它就够了. 遗憾的是,这个PDF的文档格式太稀松啦,且,无中文版~~~ 我都想作汉化翻译工作了...算了,忍住 ...
kendo Grid的toolbar自定义
由于这个toolbar官方进增加了create,save还有一个是_____ 所以想要自定义话就需要使用下面的代码(这个是MVVM模式) data-toolbar='[{ template: Ken ...
[luogu1373]小a和uim之大逃离_动态规划
小a和uim之大逃离题目大意:有一个n*m的矩阵.每个格子上有一坨0~k不等量的权值.有两个人,每个人任选一个格子作为出发点,并只能向下或向右走.求最后两个人所得到的权值mod k相等的方案数. 注 ...
P1265 公路修建洛谷
https://www.luogu.org/problem/show?pid=1265 题目描述某国有n个城市,它们互相之间没有公路相通,因此交通十分不便.为解决这一“行路难”的问题,政府决定修建公 ...
Java类集-list
Collection 子接口: ArrayList是List 接口和Collection接口的一个子类,用于实例化两种接口 package leiji; import java.util.ArrayL ...
spring与springboot中，如何在static方法里使用自动注入的属性
第一步:写注解@Component 使当前类成为一个bean对象.(@Controller,@service都行) 第二步:写个static的变量第三步:写个@PostConstruct注解注解注释 ...
Delphi研究，对全局变量函数与OOP编程关系的一点体会 good
感叹:设计VCL的人真是神人啊,感觉比Pascal编译器的设计人还要牛很多,把整个Windows架构理了一遍,封装的如此之好,复用的如此之好(以至于Delphi的控件满天飞,使用还特别容易),简直惊为 ...
acdream 1414 Geometry Problem
Geometry Problem Time Limit: 2000/1000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) ...
luogu2278 [HNOI2003]操作系统
题目大意写一个程序来模拟操作系统的进程调度.假设该系统只有一个CPU,每一个进程的到达时间,执行时间和运行优先级都是已知的.其中运行优先级用自然数表示,数字越大,则优先级越高.如果一个进程到达的时候 ...
boost库生成文件命名和编译
生成文件命名规则:boost中有许多库,有的库需要编译.而有的库不需要编译,只需包含头文件就可以使用.编译生成的文件名字普遍较长,同一个库根据编译链接选项不同,又可以生成多个不同名字的文件.生成的文件 ...

学习Spider 了解 Scrapy的流程

Scrapy

先创建项目

配置

学习Spider 了解 Scrapy的流程的更多相关文章

随机推荐

热门专题

Scrapy