scrapy爬虫框架实例一,爬取自己博客
本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks
scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http://scrapy-chs.readthedocs.org/zh_CN/latest/
几个比较重要的部分:
items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典
pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义
spiders:定义自己的爬虫
爬虫的类型也有好几种:
1)spider:最基本的爬虫,其他的爬虫一般是继承了该最基本的爬虫类,提供访问url,返回response的功能,会默认调用parse方法
2)CrawlSpider:继承spider的爬虫,实际使用比较多,设定rule规则进行网页的跟进与处理, 注意点:编写爬虫的规则的时候避免使用parse名,因为这会覆盖继承的spider的的方法parse造成错误。 其中比较重要的是对Rule的规则的编写,要对具体的网页的情况进行分析。
3)XMLFeedSpider 与 CSVFeedSpider
代码实现:
items.py下的
  
pipelines.py
  
myspider.py
  
settings.py
  
执行命令导出csv文件
D:\work\scrapy\Code\cnblog> scrapy crawl myspider -o spider.csv

结果数据

要获取动态渲染的数据, scrapy框架本身没有获取这种数据的功能,要利用第三方库scrapy-splash,下载:https://pypi.python.org/pypi/scrapy-splash#downloads
这个以后再做.
scrapy爬虫框架实例一,爬取自己博客的更多相关文章
- Python爬虫学习之正则表达式爬取个人博客
		实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:pytho ... 
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
		scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ... 
- 【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(2)
		上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ... 
- scrapy爬虫框架实例二
		本实例主要通过抓取慕课网的课程信息来展示scrapy框架抓取数据的过程. 1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部 ... 
- scrapy爬虫笔记(二)------交互式爬取
		开始网页爬取:(1)交互式爬取 首先,我们使用scrapy建立起爬虫的框架.在命令行中输入 scrapy shell “url” 如:scrapy shell “http://www.baidu.co ... 
- Scrapy爬虫(4)爬取豆瓣电影Top250图片
		在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ... 
- Python Scrapy 爬虫框架实例(一)
		之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标 这里简单找一个图片网站,获取图片 ... 
- Python Scrapy 爬虫框架实例
		之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标 这里简单找一个图片网站,获取图片 ... 
- Scrapy爬虫(5)爬取当当网图书畅销榜
		本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ... 
随机推荐
- string与int的相互转换以及把一个字符加入到string的末尾
			#include "stdafx.h" #include<sstream> #include<string> #include<iostream> ... 
- 原生DOM选择器querySelector和querySelectorAll
			在传统的 JavaScript 开发中,查找 DOM 往往是开发人员遇到的第一个头疼的问题,原生的 JavaScript 所提供的 DOM 选择方法并不多,仅仅局限于通过 tag, name, id ... 
- RedHat7/Centos7 搭建NFS服务器
			https://blog.csdn.net/u012124304/article/details/81001068 客户端和服务器都得安装nfs-utils 
- prerender.io 搜索引擎优化 部署成windows服务 实现开机自动开启服务
			一 prerender.io服务端部署 参考官方网站的部署步骤: $ git clone https://github.com/prerender/prerender.git $ cd preren ... 
- js判断网络连接情况:navigator.onLine
			<body> <h1 id="text">websong</h1> </body> <script> var text= ... 
- 关于Vue-cli的跨域解决
			由于Vue-cli服务器是跑在node环境下的8080端口,我们的php代码可能在Apache环境下的7070端口,这个时候就会出现跨域 此刻这段php代码在7070端口上 如果直接去访问 页面报错 ... 
- Nodejs项目重复文件扫描
			项目地址:https://github.com/danielstjules/jsinspect 1.安装jsinspect npm install -g jsinspect 2.进入至项目目录 d c ... 
- [scrapy] scrapy 使用goose作为正文提取
			import scrapy from goose import Goose class Article(scrapy.Item): title = scrapy.Field() text = scra ... 
- Mindjet Mindmanager复制文件打不开
			概述 使用Mindjet软件画思维导图,保存后得到一个后缀为mmap的文件.复制到一个新的位置,却发现新的文件打不开,导致Mindjet崩溃.这里提供一个解决方案. 解决方案 复制的文件打不开 先打开 ... 
- JSON APIs and Ajax
			1. 通过jQuery来绑定点击事件. 函数 $(document).ready()这个函数中的代码只会在我们的页面加载时候运行一次,确保执行js之前页面所有的dom已经准备就绪. 在$(docume ... 
