scrapy 爬虫基础

　　Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

　　安装Scrapy的过程比较复杂而且容易出错，贴出一个参考链接：windows下scrapy安装步骤。

　　安装完成后，在自定义目录下输入

scrapy startproject Project_Name //创建新爬虫项目

scrapy genspider -t crawl Crawl_Name Url_addr//创建爬虫，模板，爬虫名和待爬网址

　　Scrapy内置的爬虫模板可使用：scrapy genspider -l 来查询，查询结果如下：包括basic crawl csvfeed xmlfeed四种类型。

　　使用以上命令后，便会在目录中自动生成爬虫项目，包含的内容如下图：

　　分别代表的意义为：

　　　　scrapy.cfg：项目的配置文件
　　　　jd_crawling/：项目的Python模块，将会从这里引用代码
　　　　jd_crawling/items.py：项目的items文件
　　　　jd_crawling/pipelines.py：项目的pipelines文件（pipeline意为管道，即将数据传递过来进行储存或处理）
　　　　jd_crawling/settings.py：项目的设置文件
　　　　jd_crawling/spiders/：存储爬虫的目录

　　进入目录中，在item中定义待爬的关键字（target），目的是封装进Item中，做为整个项目的一个对象进行引用和处理

class JdCrawlingItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    goods_name = scrapy.Field()#定义商品名称

    goods_link = scrapy.Field()#定义商品链接

　　items创建完成后进入spider创建爬虫规则：先爬，再取。可以看到在子佛那个创建的项目中已经为我们自动创建了一些内容：

class JdUrlSpider(CrawlSpider):

    name = 'jd_url'                         #爬虫的识别名称,必须唯一

    allowed_domains = ['jd.com']            # 允许执行的url范围

    start_urls = ['http://www.jd.com/']     # 爬取的URL列表

　　创建匹配规则：

    def parse_item(self, response): #解析的方法，调用的时候传入从每一个URL传回的Response对象作为唯一参数，负责解析并匹配抓取的数据(解析为item)

        item = JdCrawlingItem() #此处便引用了之前定义的item

        item['goods_name'] = response.xpath("//a[@class='pic']/@title").extract()

        item['goods_link'] = response.xpath("//a[@class='pic']/@href").extract()

        print(item['goods_name'])

　　xpath的使用方法详见：关于scrapy网络爬虫的xpath书写经验总结

　　最后执行：scrapy crawl jd_url 则可以开始我们的爬虫了。

　　这是最基本的爬虫，之后还会涉及到：1通过pipeline 写进数据库（pymsql）2突破反爬虫限制3爬虫数据分析和处理等内容。会在接下来的内容中完善

scrapy 爬虫基础的更多相关文章

小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫入门之Scrapy 框架基础功能(九)
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...

随机推荐

Windows系统上FFMpeg-PHP的使用
这几天做项目,其中一个需求是用户上传视频文件到服务器,然后服务器自动截取该视频的一帧作为该视频对应的缩略图,服务器端语言采用php编写,找了半天资料,发现ffmpeg-php可以满足该需求,所以下面简 ...
HDU - 3001 Travelling 状压dp + 三进制 [kuangbin带你飞]专题二
终于刷完搜索专题了. 题意:给定n个城市,每个城市参观不能超过两次,两个城市之间有道路通过需要花费X,求通过能所有城市的最小花费. 思路:每个城市有三个状态0,1,2,可用三进制存储所有城市的访问状态 ...
关于C语言文件操作
关于C语言的文件操作之前我也写过一篇博客来介绍,但是当时写的很不全面,只是简单的使用了一下 ,今天再从新学习一下. 1.文件的写首先还是先看一个简单的例子: include<stdio.h&g ...
Docker资源网站收藏
Docker资源 Docker官方英文资源: docker官网:http://www.docker.com Docker windows入门:https://docs.docker.com/windo ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
Wireshark抓包常见出现错误
转自这里 1. tcp out-of-order(tcp有问题) 解答: 1). 应该有很多原因.但是多半是网络拥塞,导致顺序包抵达时间不同,延时太长,或者包丢失,需要重新组合数据单元因为 ...
HighGUI图形图像界面初步—— 图像的载入、显示与输出
HighGUI模块为高层GUI图形用户界面模块,包含媒体的输入输出.视频捕捉.图像和视频的编解码.图形交互界面的接口等. 在本章中,我们将学到: 图像的载入.显示和输出到文件的详细分析滑动条的创建和 ...
5_Longest Palindromic Substring（Manacher） --LeetCode
参考:https://www.felix021.com/blog/read.php?2040,https://segmentfault.com/a/1190000002991199 做了修改. 首先用 ...
linux驱动---用I/O命令访问PCI总线设备配置空间
PCI总线推出以来,以其独有的特性受到众多厂商的青睐,已经成为计算机扩展总线的主流.目前,国内的许多技术人员已经具备开发PCI总线接口设备的能力.但是PCI总线的编程技术,也就是对PCI总线设备的操 ...
嵌入式linux------ffmpeg移植解码H264（am335x解码H264到yuv420并通过SDL显示）
/* 编译命令:arm-linux-gcc -o show2642 264showyuv2.c -I/usr/local/ffmpeg_arm/include/ -L/usr/local/ffmpeg ...

scrapy 爬虫基础

scrapy 爬虫基础的更多相关文章

随机推荐

热门专题