scrapy爬虫框架实例一，爬取自己博客

　　本篇就是利用scrapy框架来抓取本人的博客，博客地址：http://www.cnblogs.com/shaosks

　　scrapy框架是个比较简单易用基于python的爬虫框架，相关文档：http://scrapy-chs.readthedocs.org/zh_CN/latest/

　　几个比较重要的部分：

　　items.py：用来定义需要保存的变量，其中的变量用Field来定义，有点像python的字典

　　pipelines.py：用来将提取出来的Item进行处理，处理过程按自己需要进行定义

　　spiders：定义自己的爬虫

　　爬虫的类型也有好几种：

　　1）spider:最基本的爬虫，其他的爬虫一般是继承了该最基本的爬虫类，提供访问url，返回response的功能，会默认调用parse方法

　　2）CrawlSpider：继承spider的爬虫，实际使用比较多，设定rule规则进行网页的跟进与处理，注意点：编写爬虫的规则的时候避免使用parse名，因为这会覆盖继承的spider的的方法parse造成错误。其中比较重要的是对Rule的规则的编写，要对具体的网页的情况进行分析。

　　3）XMLFeedSpider 与 CSVFeedSpider

　　代码实现：

　　items.py下的

　　pipelines.py

　　myspider.py

　　settings.py

　　执行命令导出csv文件

　　D:\work\scrapy\Code\cnblog> scrapy crawl myspider -o spider.csv

结果数据

要获取动态渲染的数据， scrapy框架本身没有获取这种数据的功能，要利用第三方库scrapy-splash，下载：https://pypi.python.org/pypi/scrapy-splash#downloads

这个以后再做.

scrapy爬虫框架实例一，爬取自己博客的更多相关文章

Python爬虫学习之正则表达式爬取个人博客
实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:pytho ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
scrapy爬虫框架实例二
本实例主要通过抓取慕课网的课程信息来展示scrapy框架抓取数据的过程. 1.抓取网站情况介绍抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部 ...
scrapy爬虫笔记(二)------交互式爬取
开始网页爬取:(1)交互式爬取首先,我们使用scrapy建立起爬虫的框架.在命令行中输入 scrapy shell “url” 如:scrapy shell “http://www.baidu.co ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...

随机推荐

WP评论系统更换小结（转）
第三方评论插件多说多说是一款追求极致体验的社会化评论框,可以用微博.QQ.人人.豆瓣等帐号登录并评论. 多说具备优质用户体验.速度和稳定性.社会化推荐.建站程序审核整合.垃圾评论过滤等特性. 自定 ...
centos python 安装 readability
yum install libxslt-devel pip install readability-lxml
203. Remove Linked List Elements【Easy】【未排序链表删除其中的给定值】
Remove all elements from a linked list of integers that have value val. Example: Input: 1->2-> ...
【BZOJ 1052】 1052: [HAOI2007]覆盖问题（乱搞）
1052: [HAOI2007]覆盖问题 Description 某人在山上种了N棵小树苗.冬天来了,温度急速下降,小树苗脆弱得不堪一击,于是树主人想用一些塑料薄膜把这些小树遮盖起来,经过一番长久的 ...
Hive 空指针(NPE)异常
空指针NullPointerException 1 Hive之前的一些BUG [HIVE-9430] - NullPointerException on ALTER TABLE ADD PARTITI ...
[Codeforces #210] Tutorial
Link: Codeforces #210 传送门 A: 贪心,对每个值都取最大值,不会有其他解使答案变优 #include <bits/stdc++.h> using namespace ...
hdu 5692 Snacks(dfs时间戳+线段树）
Snacks Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Sub ...
Codeforces 804D Expected diameter of a tree（树形DP+期望）
[题目链接] http://codeforces.com/contest/804/problem/D [题目大意] 给你一个森林,每次询问给出u,v, 从u所在连通块中随机选出一个点与v所在连通块中随 ...
Call to undefined function imageftbbox()
mac自带的php的验证码出现问题,搜索了一下Call to undefined function imageftbbox(),然后根据这个网站https://php-osx.liip.ch/本剧本机 ...
JVM入门——JVM内存结构
一.java代码编译执行过程 1.源码编译:通过Java源码编译器将Java代码编译成JVM字节码(.class文件) 2.类加载:通过ClassLoader及其子类来完成JVM的类加载 3.类执行: ...

scrapy爬虫框架实例一，爬取自己博客

scrapy爬虫框架实例一，爬取自己博客的更多相关文章

随机推荐

热门专题