老早之前就听说过python的scrapy。这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫。使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就可以了。scrapy 就是一个很棒的框架。最近在看崔庆才老师的博客http://cuiqingcai.com/ 的时候,发现了几个写的非常好的scrapy教程(http://cuiqingcai.com/4380.html,http://cuiqingcai.com/3952.html等,还有很多,大家可以自己去看),我看了半个小时就把以前看的scrapy基础回忆起来了,而且又学到了很多新的东西,所以就手痒痒用scrapy写了一个自己的爬虫,记录在这里。

  脚本之家(http://www.jb51.net/)是我写代码查某个函数怎么怎么用(有时候忘了)经常去的地方,虽然站点界面像shi一样,又有许多杂七杂八的广告,不过说句公道话,还有有不少干货的,大部分也都附有源代码。今天我要爬取的就是脚本之家的文章。

  在开始之前,先简单介绍一下scrapy的常用命令吧。我不打算讲的非常详细,要想详细了解,可以参考文档(http://wiki.jikexueyuan.com/project/scrapy/)或者上面我说的几篇博客。scrapy 创建一个 项目 使用的命令是: scrapy crawl project_name (project_name是你的项目名称) 这个命令需要在cmd(windows)或者shell(linux)下键入,这就会在当前目录下创建名称为 project_name 的项目。然后 cd 到这个项目,输入命令 genspider your_spider_name 来快速创建一个爬虫,your_spider_name 为你的爬虫的名字,注意这个名字必须是唯一的,这个命令在 project_name/project_name/spiders/目录下 生成了一个 your_spider_name.py 文件,你的爬虫就写到这里啦。

  常见的几个文件作用如下:

  spiders 文件夹用来存放你写的爬虫的脚本

  items.py 用来定义你想要抓取的数据字段

  middlewares.py 用来给scrapy增加一些额外的自定义的功能(比如后面要讲的设置代理等等)

  piplines.py 用来定义抓取数据的储存方式

  settings.py 是用来设置爬虫参数的文件

  打开 爬虫文件,一般是已经给你 写好了一个 类,类似这样:

class JbzjSpiderSpider(scrapy.Spider):
name = "jbzj_spider"
allowed_domains = ["www.jb51.net"]
base_url = "http://www.jb51.net"
start_urls = [] def parse(self, response):
pass

  其中 name 是爬虫的名字(唯一),allowed_domains 为允许抓取的域名,start_urls 为 起始抓取的列表,如果没有特别指定抓取的url,就从start_urls列表中的地址抓取,类必须继承自 scrapy.Spider,这是所有爬虫都必须继承的一个类,parse 是 scrapy.Spider 的一个方法,我们有的时候需要将他覆写(override),这个方法是默认的回调函数(callback),如果没有指定函数的回调函数的话,就会默认调用 parse函数。response 是解析 url 得到的相应,里面包含响应头,响应网页源码,url等等,比如 response.body 得到 网页源码,response.url 得到响应的url。对于解析网页,scrapy默认使用的方法是xpath 解析。比如可以直接使用 response.xpath("//a[@id="id1"]/@href").extract()得到id = id1的a标签的href属性(xpath的用法大家自行搜索,入门很快),使用 extract 方法返回的是一个列表。当然,除了使用xpath,你可以得到 response.body 之后,再使用你习惯解析html的方法(正则,css,bs4等等)。最后,一般我们需要 yield 一个 scrapy.Request 即相当于返回一个请求,这个请求可以设置很多参数,比较重要的有 headers(头部信息),callback(回调函数),meta(传递额外信息,默认传递的只是response)。比如我们写 yield scrapy.Request(url,callback=self.parse_url),就是设定回调函数为 parse_url 函数,我们将 response 传递给parse_url 进行进一步解析。

  还有一点就是,在这里我们将爬取到的数据存入数据库,python 连接数据库一般有 MySQLdb 和 pymysql 两个驱动可以选择,我一般使用的是前者,但是比较坑爹的是

MySQLdb 好像只支持 32 位系统,反正我用64位的python 装了好多次都没成功。所以建议使用 pip install pymysql 来安装,pymysql 使用纯python写的驱动,用法和 mysqldb差不多。我们需要在piplines.py 中 写插入数据库的操作,代码大概像下面这样:

 import pymysql

 class JbzjPipeline(object):
def process_item(self, item, spider):
url = item['article_url'] # 文章url
title = item['article_title'] # 文章标题
content = item['article_content'] # 内容
# 建立数据库连接
conn = pymysql.connect(host = 'localhost',user = 'root',passwd = 'passwd',db = 'your_db',charset = 'utf8')
cursor = conn.cursor()
sql = "insert into jbzj VALUES(NULL,%s,%s,%s)"
cursor.execute(sql,(url,title,content)) # 执行sql语句
cursor.close()
conn.commit() # 提交数据库
print(u"成功插入一条数据!")
conn.close() # 关闭连接

我们需要覆写 JbzjPipeline 类的 process_item 方法,这个方法在 yield item 之后会自动调用,需要传入两个参数,一个是item(数据字段),一个是spider(哪个爬虫),我们在这个函数下写插入数据进入数据库的操作就可以了。

对了还有 items.py 文件,大概长下面这样:

class JbzjItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
article_url = scrapy.Field() # 文章链接
article_title = scrapy.Field() # 文章标题
article_content = scrapy.Field() # 文章内容

我们采用 name = scrapy.Field()这样的形式来定义我们需要的字段,类需要继承自 scrapy.Item,在这里我就简单定义了文章链接、内容和标题三个字段。

总结一下:scrapy 抓取的基本步骤大概就是:从start_urls 中的url开始抓取,默认调用 start_requests ,然后将响应的请求传给 parse方法,parse方法再传递给它的回调函数,以此类推,直到最后一层 yield item,然后 piplines.py 开始处理数据的储存,当然我说的很简单,实际处理的过程比这个还要复杂一点,scrapy默认就是开启多线程的,整个过程不是顺序执行,如果想要彻底弄明白scrapy运行的机制,可以去找官方文档。

    最后 给出实际的代码:

jbzj_spider.py

# -*- coding: utf-8 -*-
'''
scrapy 脚本之家爬虫实例:http://www.jb51.net/article/54323.htm
'''
import re import scrapy
from ..items import JbzjItem
from scrapy.selector import Selector class JbzjSpiderSpider(scrapy.Spider):
name = "jbzj_spider"
allowed_domains = ["www.jb51.net"]
base_url = "http://www.jb51.net"
start_urls = [
'http://www.jb51.net/article/109909.htm',
'http://www.jb51.net/article/110219.htm'
] # def start_requests(self):
# yield scrapy.Request(self.start_urls[0],callback=self.parse) def parse(self, response):
html = response.body # 网页源码
urls_list = re.findall(re.compile(r'<a href="(/article/\d+\.htm)".+?</a>'),html)
full_urls_list = [self.base_url + url for url in urls_list] # 完整列表
for url in full_urls_list:
yield scrapy.Request(url,callback=self.parse_url) def parse_url(self,response):
item = JbzjItem() # 实例化一个item
selector = Selector(response) # 构造一个选择器
title = selector.xpath("//div[@class='title']/h1/text()").extract()[0] # 标题
content = selector.xpath("//div[@id='content']//text()").extract() # 内容
item['article_url'] = response.url
item['article_title'] = title
item['article_content'] = "".join(content)
yield item
html = response.body # 网页源码
urls_list = re.findall(re.compile(r'<a href="(/article/\d+\.htm)".+?</a>'),html)
full_urls_list = [self.base_url + url for url in urls_list] # 完整列表
for url in full_urls_list:
yield scrapy.Request(url,callback=self.parse_url2) def parse_url2(self,response):
item = JbzjItem() # 实例化一个item
selector = Selector(response) # 构造一个选择器
title = selector.xpath("//div[@class='title']/h1/text()").extract()[0] # 标题
content = selector.xpath("//div[@id='content']//text()").extract() # 内容
item['article_url'] = response.url
item['article_title'] = title
item['article_content'] = "".join(content)
yield item

对了,为了使用piplines.py,我们需要将 settings.py 中的 ITEM_PIPELINES 一项注释去掉,不然无法使用 piplines。

以上就是 本文的基本内容,后续有时间还会更新 scrapy的其他方面的内容。

python scrapy 抓取脚本之家文章(scrapy 入门使用简介)的更多相关文章

  1. C#.Net使用正则表达式抓取百度百家文章列表

    工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 public List<str ...

  2. scrapy抓取拉勾网职位信息(一)——scrapy初识及lagou爬虫项目建立

    本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...

  3. python抓取月光博客的全部文章而且依照标题分词存入mongodb中

    猛击这里:python抓取月光博客的全部文章

  4. [python]乱码:python抓取脚本

    参考: http://www.zhxl.me/1409.html 使用 python urllib2 抓取网页时出现乱码的解决方案 发表回复 这里记录的是一个门外汉解决使用 urllib2 抓取网页时 ...

  5. 分布式爬虫:使用Scrapy抓取数据

    分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...

  6. python 爬虫抓取心得

    quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...

  7. scrapy抓取淘宝女郎

    scrapy抓取淘宝女郎 准备工作 首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...

  8. 【爬虫】利用Scrapy抓取京东商品、豆瓣电影、技术问题

    1.scrapy基本了解 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓 ...

  9. python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)

    python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

随机推荐

  1. Python 3中字符串可以被改变吗?

    Python 3中字符串可以被改变吗? 字符串有改变这个方法的:replace,比如: a = 'lkjhgfdsa' a.replace(') '123kjhgfdsa' #返回结果 从上面这个例子 ...

  2. Java设计模式之《职责链模式》及应用场景

    原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/6530089.html 职责链模式(称责任链模式)将请求的处理对象像一条长链一般组合起来,形 ...

  3. koahub.js 0.09 发布,新增钩子机制

    koahubjs发布0.09 新增钩子机制添加钩子机制,控制器钩子和函数钩子修复自动加载bug,实现除自动加载导出的default外,还能自动加载其他的方法记koahubjs钩子开发过程在使用koah ...

  4. [lua] 你所不知道的lua nil值在可变参数函数中怎么处理!

    在lua中, 问题1:如果你在可变参数...中传入若干个参数,其中有的参数要带nil,这时怎么解决呢?(比如local function _test(...) end    _test(1, nil, ...

  5. SQL-ROW_NUMBER() OVER函数的基本用法(源码案例)

    SELECT SUM(t.AdjustedBalance) AS Allqmye FROM ( SELECT * FROM ( SELECT ROW_NUMBER() OVER ( PARTITION ...

  6. Jaro-Winkler Distance

    发现commons-lang 中有实现: StringUtils.class public static double getJaroWinklerDistance(final CharSequenc ...

  7. java对象克隆以及深拷贝和浅拷贝

    1.什么是"克隆"? 在实际编程过程中,我们常常要遇到这种情况:有一个对象A,在某一时刻A中已经包含了一些有效值,此时可能 会需要一个和A完全相同新对象B,并且此后对B任何改动都不 ...

  8. Thrift序列化与反序列化的实现机制分析

    Thrift是如何实现序死化与反序列化的,在IDL文件中,更改IDL文件中的变量序号或者[使用默认序号的情况下,新增变量时,将新增的变量不放在IDL文件的结尾,均会导致Thrift文件的反序列后无法做 ...

  9. 构建微服务(Building Microservices)-PDF 文档

    闲时翻译了几篇基于Spring Cloud.Netflix OSS 构建微服务的英文文章,为方便分享交流,整理为PDF文档. PDF 文档目录: 目录 一.微服务操作模型... 3 1.     前提 ...

  10. input的type属性引申的日历组件

    HTML5规范里只规定date新型input输入类型,并没有规定日历弹出框的实现和样式.所以,各浏览器根据自己的设计实现日历.目前只有谷歌浏览器完全实现日历功能.相信这种局面很快就会结束,所有的浏览器 ...