使用scrapy框架爬取自己的博文(3)
既然如此,何不再抓一抓网页的文字内容呢?
谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图:
  
这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。
sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract()
直接在scrapy框架下运行的话一来慢,二来错了范围太大也不知道哪里的问题,用ipython的shell 命令比较直接!
scrapy shell http://www.cnblogs.com/huhuuu/p/3709336.html
然后会返回一个选择器的实例对象sel,直接对sel处理就可以了。
sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract() 的结果:

看来这个表达式起作用了
然后把它写到自己的spider中运行 ,
有个空格符‘xa0’好像编译器支持的不好,没事,忽略就好
for data in item['description']:
strTmp =''
for i in data:
if (i != u'\xa0'): #'\xa0'这个字符编译器不能识别,所以处理掉
#print i
strTmp += i
print strTmp
再运行,每篇博客的内容都爬取过来了,ok,爬取网页内容的任务完成!

使用scrapy框架爬取自己的博文(3)的更多相关文章
- 使用scrapy框架爬取自己的博文(2)
		之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ... 
- 使用scrapy框架爬取自己的博文
		scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档 几个比较重要的部分: ... 
- scrapy框架爬取笔趣阁完整版
		继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ... 
- scrapy框架爬取笔趣阁
		笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ... 
- Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
		1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ... 
- 爬虫入门(四)——Scrapy框架入门:使用Scrapy框架爬取全书网小说数据
		为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序 下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段 明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ... 
- 基于python的scrapy框架爬取豆瓣电影及其可视化
		1.Scrapy框架介绍 主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ... 
- scrapy框架爬取豆瓣读书(1)
		1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ... 
- scrapy框架爬取糗妹妹网站妹子图分类的所有图片
		爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ... 
随机推荐
- Mybatis学习总结-----mybatis中refid是什么意思(十)
			1.首先定义一个sql标签,一定要定义唯一id<sql id="Base_Column_List" >name,age</sql>2.然后通过id引用< ... 
- jsp 自定义标签库
			自定义标签的作用 *** 自定义标签的主要用于移除jsp页面中java代码 *** JSP页面中使用自定义的标签 使用jsp指令<% @taglib uri="标签库的uri" ... 
- 非常简单的vue里面引入jquery
			如何在vue里面引入jq了,只需四部就完成 第一步 cnpm install jquery 第二步 打开build文件夹 , 打开webpack.base.conf.js文件找到下面module.ex ... 
- MinGW安装教程——著名C/C++编译器GCC的Windows版本
			前言本文主要讲述如何安装 C语言 编译器——MinGW,特点是文章附有完整详细的实际安装过程截图,文字反而起说明提示作用. 编写本文的原因始于我的一个观点:图片可以比文字传达更多的信息,也能让其他人更 ... 
- vue + element-ui Table的数据多选,多页选择数据回显,分页记录保存选中的数据。
			业务的需要:我要对与会人员勾选,记录所选的与会人员,并且点击到别的页面上时也要记录所勾选的.第一次尝试,每次点击下一页数据都会清空.然后我就去element ui官网查看了api.实现如下: 在tab ... 
- python面试知识总结
			1. 先做自我介绍 2. 做Python几年了?为什么选择Python?3. 学历?大学什么专业?4. 除了Python以外对其他语言有没有了解?5. 你对Python这门语言的看法?6. 在学习Py ... 
- L1-024 后天
			如果今天是星期三,后天就是星期五:如果今天是星期六,后天就是星期一.我们用数字1到7对应星期一到星期日.给定某一天,请你输出那天的“后天”是星期几. 输入格式: 输入第一行给出一个正整数D(1 ≤ D ... 
- Bitdefender Internet Security 2013 – 免费3个月
			Bitdefender Internet Security 2013 – 免费3个月大约1分钟参加调查,申请3个月免费,缺陷是…要经过人工审核活动地址: 点此进入申请方法,最好用谷歌翻译(俄文) 
- 201621123010《Java程序设计》第12周学习总结
			1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 面向系统综合设计-图书馆管理系统或购物车 使用流与文件改造你的图书馆管理系统或购物车. 2.1 简述如何 ... 
- 项目使用Nuget,然后SVN checkout后显示缺少引用
			如下图黄色叹号: 解决方案: 1.先生成解决方案 2.执行如下: 这时候Nuget是存在了,但是还是显示缺少引用: 那么最后一步, 输入 :Update-Package -reinstall 
