python之scrapy框架基础搭建

一、创建工程

#在命令行输入
scrapy startproject xxx　　#创建项目

二、写item文件

#写需要爬取的字段名称

name = scrapy.Field()　　#例

三、进入spiders写爬虫文件

①直接写爬虫文件自己手动命名

        新建一个.py文件即可
②通过命令方式创建爬虫文件

        scrapy gensipder yyy "xxx.com"

        命名不能于工程名相同，爬取的域名区域

四、写爬虫文件

start_urls    #爬虫第一次执行时爬取的网址域

初始换模型对象
iteam = TencentItem()    #将iteam文件引入

iteam['xxx']= each.xpath("./td[1]/a/text()").extract()[0]    
#xpath返回选择性的列表，extract将其转换成字符串，再取出列表中的第一个字符。

yield iteam    #放到管道文件

#由于爬取的页面不止一页，所以需要调用请求回调函数。

#将请求重新发送给调度器入队列，出队列，交给下载器下载

#每次处理完一页的页面请求后，发送下一页的页面请求

yield scrapy.Request(url, callback=self.parse, dont_filter=True)    
#函数名parse,有请求才会触发回调函数，yield发送到调度器 
//写在每次循环执行完的外面。

五、写管道文件

首先定义初始化方法

        def __init__(self):

            self.filename=open("xxx", "w")

    def process_item(self, iteam, spider):

        dict(iteam)    #字典转换成python的格式

        json.dumps(dict(iteam), ensure_ascii = False) + "\n"    #转换成json格式

        self.filename.write(text.encode("utf-8"))    #如果出现无法写入问题，要加上.encode("utf-8")

        return iteam

    关闭文件

        def close_spider(self, spider):

            self.filename.close()

六、配置settings文件
找到ITEM_PIPELINES配置项，配置到管道文件

七、设置请求报头
在settings文件中找到DEFAULT_REQUEST_HEADERS配置

八、运行程序

scrapy crawl 文件名

crawlspider创建应用改写

一、创建工程

scrapy gensipder -t crawl tencent tencent.com

    #导入crawlspider类和rule规则

    #from scrapy.spider import CrawlSpider, Rule

    #导入链接规则匹配类，用来提取符合规则的链接

    #from scrapy.linkextractors import LinkExtractor

    #from TencentSpider.items import TencentItem

    class TencentSpider(CrawlSpider):    #继承CrawlSpider类

        name = "xxx"    #爬虫名

        allow_domains = []    #控制爬虫的爬取域

        start_urls = []

        #正则匹配规则，Response里页面信息中符合规则的数据

        pagelink = LinkExtractor(allow=("start=\d+"))

        #批量调用请求方法

        rules = [

            #pagelink=url, 跟进链接调用方法，是否跟进链接True

            Rule(pagelink, callback = "parseTencent", follow = True)

        ]

斗鱼

    将json格式转换成python格式，data段是列表

    data = json.loads(response.text['data']

python之scrapy框架基础搭建的更多相关文章

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
爬虫入门之Scrapy 框架基础功能(九)
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
Python爬虫-- Scrapy框架
Scrapy框架 Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码.对于会阻塞线程的操作包含访问文件.数据库或者Web.产生新的进程并需要 ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...

随机推荐

Feign 自定义 ErrorDecoder (捕获 Feign 服务端异常)
问题描述 Feign 客户端捕获不到服务端抛出的异常问题解决重新 ErrorDecoder 即可,比如下面例子中在登录鉴权时想使用认证服务器抛出 OAuth2Exception 的异常,代码如下: ...
PyQt（Python+Qt）学习随笔：Qt Designer组件属性编辑界面中对话窗QDialog的modal属性
modal属性表示窗口执行show()操作时是以模态窗口还是非模态窗口形式展示,缺省为False,设置该值与QWidget.windowModality的值设置为 Qt.ApplicationModa ...
Oracle函数使用1
一.字符串处理函数 1.ascii(x):返回字符的ASCII. SQL语句:select ascii('a') from dual; dual:空表,每创建一个用户都会生成这样一个dual表,表中只 ...
乌云wooyun网站硬盘复活
AWD比赛防止没有网络,在移动硬盘里面准备一个乌云漏洞库. 之前也想过弄一个乌云的镜像网站,无奈学生机性能太低下了,部署到公网上服务器存储空间都不够,只能部署在本地硬盘了. 乌云镜像的开源地址:htt ...
c++如何按照map的value进行排序？
static bool cmp(pair<char, int> a , pair<char,int> b) { return a.second>b.second; //按 ...
C#获取引用组件的版本信息
/// <summary> /// 当前目录下文件版本 /// </summary> public void FilesVersion ...
全国11省市出台区块链专项政策，Panda Global发现 "区块链+政务"被寄予厚望！
2020年已经过半,回顾2020年的上半年,不难发现其实区块链的变化非常大,今天Panda Global就给大家回顾下上半年全国关于区块链政策的发布情况.今年上半年,全国已有11个省市出台区块链专项政 ...
WPF源代码分析系列一：剖析WPF模板机制的内部实现（一）
众所周知,在WPF框架中,Visual类是可以提供渲染(render)支持的最顶层的类,所有可视化元素(包括UIElement.FrameworkElment.Control等)都直接或间接继承自Vi ...
APIO2020 粉刷墙壁
考场想了 5.5 h,第一部分分死活打不出来,做到崩盘,现在重做,感觉自己就是一个sb,放学在地铁上一眼就会了.哎. 可以把一个要求看作一个长度为 \(m\) 的区间:\([l, l + m - 1] ...
sql server如何把退款总金额拆分到尽量少的多个订单中
一.问题原来有三个充值订单,现在要退款450元,如何分配才能让本次退款涉及的充值订单数量最少?具体数据参考下图: 二.解决方案 Step 1:对可退金额进行降序排列,以便优先使用可退金额比较大的订单 ...

python之scrapy框架基础搭建

python之scrapy框架基础搭建的更多相关文章

随机推荐

热门专题