使用scrapy框架爬取自己的博文（2）

　　之前写了一篇用scrapy框架爬取自己博文的博客，后来发现对于中文的处理一直有问题- -

　　显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而不是 python下爬某个网页的图片 - huhuuu - 博客园。这显然不是我们需要的结果。

　　现在如何把列表中的字符串转到字符串，显然不能直接用str! 那就遍历列表，把信息提取出来。

def change_word(s): #把表中的字符串转化到中文显示

    print s

    sum = 0

    for i in s[0]:

        sum += 1

    ss2 = ''

    count = 0

    for i in range(0,sum):

        ss2 += s[0][i]

    s = ss2

    print s

　　运行一下，似乎是可以的，但是发现有些字符还是没有转化到中文字符，查了下编译器的提示：

　　\u2014这个字符好像支持的不好，那就把这个字符除掉

　　一开始没搞明白字符的单位是什么，判断条件写成了，自然就没起到任何作用

       if (s[0][i] == '\\') and (s[0][i+1] == 'u'):

            if (s[0][i+2] == '') and (s[0][i+3] == '') and (s[0][i+4] == '') and (s[0][i+5] == ''):

　　原来在python中对中文字符与对英文字符都看做一个单位，所以：

        if (s[0][i] == u'\u2014'):

            continue

　　最后，可以正确的显示所以中文字符了。

　　完整的spider代码：

#!/usr/bin/env python

#coding=utf-8

from scrapy.contrib.spiders import CrawlSpider,Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.selector import Selector

from dirbot.items import Website

from scrapy.selector import HtmlXPathSelector

import sys

import string

sys.stdout=open('output.txt','w') #将打印信息输出在相应的位置下

add = 0

def change_word(s): #把表中的字符串转化到中文显示

    print s

    sum = 0

    for i in s[0]:

        sum += 1

    ss2 = ''

    count = 0

    for i in range(0,sum):

        #对 /u2014处理

        if (s[0][i] == u'\u2014'):

            continue

        ss2 += s[0][i]

    s = ss2

    print s

class DmozSpider(CrawlSpider):

    name = "huhu"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/huhuuu",

    ]

    rules = (

        # 提取匹配 huhuuu/default.html\?page\=([\w]+) 的链接并跟进链接(没有callback意味着follow默认为True)

        Rule(SgmlLinkExtractor(allow=('huhuuu/default.html\?page\=([\w]+)', ),)),

        # 提取匹配 'huhuuu/p/' 的链接并使用spider的parse_item方法进行分析

        Rule(SgmlLinkExtractor(allow=('huhuuu/p/', )), callback='parse_item'),

        Rule(SgmlLinkExtractor(allow=('huhuuu/archive/', )), callback='parse_item'), #以前的一些博客是archive形式的所以

    )

    def parse_item(self, response):

        global add #用于统计数量

        print  add

        add+=1

        sel = HtmlXPathSelector(response)

        items = []

        item = Website()

        temp = sel.xpath('/html/head/title/text()').extract()

        item['headTitle'] = temp#观察网页对应得html源码

        item['url'] = response

        #print temp

        print item['url']

        change_word(temp)

        items.append(item)

        return items

爬取的结果：

近四百篇博文

使用scrapy框架爬取自己的博文（2）的更多相关文章

使用scrapy框架爬取自己的博文
scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档几个比较重要的部分: ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...

随机推荐

HMM模型和Viterbi算法
https://www.cnblogs.com/Denise-hzf/p/6612212.html 一.隐含马尔可夫模型(Hidden Markov Model) 1.简介隐含马尔可夫模型并不是俄罗 ...
jsp jstl的使用
1)下载jstl.jar和standard.jar文件,然后将其拷贝到tomcat的lib目录下. 具体的下载地址:http://mirrors.ccs.neu.edu/Apache/dist/jak ...
httpclient 多线程请求
线程请求执行当配备一个线程池管理器后,如PollingClientConnectionManager,HttpClient就能使用执行着的多线程去执行并行的多请求. PollingClientCon ...
httpclient httpclient使用连接池
httpclient使用连接池 http协议是无状态的,但毕竟是基于tcp的,底层还是需要和服务器连接的, 对于需要从同一个站点抓取大量网页的程序,应该使用连接池,否则每次抓取都和web站点建立连接, ...
Cetus
转自:https://github.com/Lede-Inc/cetus Cetus 简介 Cetus是由C语言开发的关系型数据库MySQL的中间件,主要提供了一个全面的数据库访问代理功能.Cetus ...
C# unity 的 IInterceptionBehavior实现aop拦截器
以前项目写过使用unity的 IInterceptionBehavior 实现aop拦截器,时间不多就忘了,项目找不到了,然后呢,写个简单的例子,用的收直接用就行了,简单实用,至于什么用,mvc的at ...
c#版本与vs的对应关系
版本 .NET Framework版本 Visual Studio版本发布日期特性 C# 1.0 .NET Framework 1.0 Visual Studio .NET 2002 2002.1 ...
linux C 内存分配（~道的光芒四射~）
总结一下C语言中基本的内存分配,加深对内存管理的印象,一步一步走山路~~~~~~~~ 1. 程序和进程问题:程序和进程各是什么? 程序只是一段可以执行的代码文件,通俗讲在 linux 上就是一个 ...
降低版本安装flashPlayer
运行regedit,打开注册表. 搜索flash,找到FlashPlayer文件夹. 打开里面的safeversions,把里面高版本的项目删除就可以了. 安装低版本的并设置不自动更新.
那些年，追寻JMeter的足迹，免费送……
我们测试技术部武汉团队自16年引入jmeter以来,利用jmeter做了很多事情.首先运用jmeter进行接口测试,后续实现jmeter自动化冒烟测试,顺带也实现了线上环境的巡检,节省了大量人力.j ...

使用scrapy框架爬取自己的博文（2）

使用scrapy框架爬取自己的博文（2）的更多相关文章

随机推荐

热门专题