使用scrapy框架爬取自己的博文（2）

　　之前写了一篇用scrapy框架爬取自己博文的博客，后来发现对于中文的处理一直有问题- -

　　显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而不是 python下爬某个网页的图片 - huhuuu - 博客园。这显然不是我们需要的结果。

　　现在如何把列表中的字符串转到字符串，显然不能直接用str! 那就遍历列表，把信息提取出来。

def change_word(s): #把表中的字符串转化到中文显示

    print s

    sum = 0

    for i in s[0]:

        sum += 1

    ss2 = ''

    count = 0

    for i in range(0,sum):

        ss2 += s[0][i]

    s = ss2

    print s

　　运行一下，似乎是可以的，但是发现有些字符还是没有转化到中文字符，查了下编译器的提示：

　　\u2014这个字符好像支持的不好，那就把这个字符除掉

　　一开始没搞明白字符的单位是什么，判断条件写成了，自然就没起到任何作用

       if (s[0][i] == '\\') and (s[0][i+1] == 'u'):

            if (s[0][i+2] == '') and (s[0][i+3] == '') and (s[0][i+4] == '') and (s[0][i+5] == ''):

　　原来在python中对中文字符与对英文字符都看做一个单位，所以：

        if (s[0][i] == u'\u2014'):

            continue

　　最后，可以正确的显示所以中文字符了。

　　完整的spider代码：

#!/usr/bin/env python

#coding=utf-8

from scrapy.contrib.spiders import CrawlSpider,Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.selector import Selector

from dirbot.items import Website

from scrapy.selector import HtmlXPathSelector

import sys

import string

sys.stdout=open('output.txt','w') #将打印信息输出在相应的位置下

add = 0

def change_word(s): #把表中的字符串转化到中文显示

    print s

    sum = 0

    for i in s[0]:

        sum += 1

    ss2 = ''

    count = 0

    for i in range(0,sum):

        #对 /u2014处理

        if (s[0][i] == u'\u2014'):

            continue

        ss2 += s[0][i]

    s = ss2

    print s

class DmozSpider(CrawlSpider):

    name = "huhu"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/huhuuu",

    ]

    rules = (

        # 提取匹配 huhuuu/default.html\?page\=([\w]+) 的链接并跟进链接(没有callback意味着follow默认为True)

        Rule(SgmlLinkExtractor(allow=('huhuuu/default.html\?page\=([\w]+)', ),)),

        # 提取匹配 'huhuuu/p/' 的链接并使用spider的parse_item方法进行分析

        Rule(SgmlLinkExtractor(allow=('huhuuu/p/', )), callback='parse_item'),

        Rule(SgmlLinkExtractor(allow=('huhuuu/archive/', )), callback='parse_item'), #以前的一些博客是archive形式的所以

    )

    def parse_item(self, response):

        global add #用于统计数量

        print  add

        add+=1

        sel = HtmlXPathSelector(response)

        items = []

        item = Website()

        temp = sel.xpath('/html/head/title/text()').extract()

        item['headTitle'] = temp#观察网页对应得html源码

        item['url'] = response

        #print temp

        print item['url']

        change_word(temp)

        items.append(item)

        return items

爬取的结果：

近四百篇博文

使用scrapy框架爬取自己的博文（2）的更多相关文章

使用scrapy框架爬取自己的博文
scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档几个比较重要的部分: ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...

随机推荐

OC MRC之循环引用问题（代码分析）
// // main.m // 07-循环引用 // // Created by apple on 13-8-9. // Copyright (c) 2013年 itcast. All rights ...
OC NSArray数组排序
一.一般排序 // 排序 NSArray *arr = @["]; NSArray *newarr = [arr sortedArrayUsingSelector:@selector(com ...
webservice-jdk客户端代码
使用wsimport.exe 生成客户端代码使用JDK的bin文件夹中,有一个wsimport.exe,这个工具依据wsdl文件生成相应的类文件,然后用这些文件就可以像调用本地类一样调用本地的类一样 ...
个人作业2——WordCount
一.码云地址 https://gitee.com/fyxjm/PersonalProject-Java/tree/master 二.个人PSP表格 PSP2.1 个人开发流程预估耗费时间(分钟) 实 ...
PatePoco中对sql参数化时Top参数化的问题
PatePoco中对sql参数化是直接用@+参数名来处理,但是想用如下语句时竟然报错了 SELECT TOP @num * FROM tableA 执行时抛出异常,根据错误提示搞了很久都没找到原因,最 ...
(转载)Java 自动装箱与拆箱、equals和==的比较
什么是自动装箱拆箱基本数据类型的自动装箱(autoboxing).拆箱(unboxing)是自J2SE 5.0开始提供的功能. 一般我们要创建一个类的对象实例的时候,我们会这样: Class a = ...
玩转X-CTR100 l USB功能-HOST鼠标键盘
更多塔克创新资讯欢迎登陆[塔克社区 www.xtark.cn ][塔克博客 www.cnblogs.com/xtark/ ] X-CTR100控制器具有MicroUSB接口,支持SLAVE和HOST两 ...
CUDA ---- Kernel性能调节
Exposing Parallelism 这部分主要介绍并行分析,涉及掌握nvprof的几个metric参数,具体的这些调节为什么会影响性能会在后续博文解释. 代码准备下面是我们的kernel函数s ...
spring的orm模块
spring整合hibernate 1.hibernate使用注解. daoImpl需要继承HibernateDaoSupport对象,针对给对象的getHibernateTemplate()进行hi ...
css3实现漂亮的倒影效果
实际上还有很多CSS新属性并未包含进CSS3官方标准中.-webkit-box-reflect属性就是以谷歌浏览器为代表的Webkit渲染引擎独有的特征.-webkit-box-reflect的作用是 ...

使用scrapy框架爬取自己的博文（2）

使用scrapy框架爬取自己的博文（2）的更多相关文章

随机推荐

热门专题