Python爬虫：爬取糗事百科

网上看到的教程，但是是用正则表达式写的，并不能运行，后面我就用xpath改了，然后重新写了逻辑，并且使用了双线程，也算是原创了吧
#!/usr/bin/python
# -*- encoding:utf-8 -*-

from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import sys
#编码
reload(sys)
sys.setdefaultencoding('utf-8')

#定义输出函数
def towrite(contentdict):
    f.writelines(u'作者:' + contentdict['author'] + '\n')
    f.writelines(u'内容:' + contentdict['content'] + '\n')
    f.writelines(u'好笑:' + contentdict['vote'] + '\n')
    f.writelines(u'评论:' + contentdict['span'] + '\n\n')

def spider(url):
    #得到页面代码
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = { 'User-Agent' : user_agent }
    html = requests.get(url,headers=headers)

    #获取内容
    selector = etree.HTML(html.text)
    content_field = selector.xpath('//*[@id="content-left"]/div[@class="article block untagged mb15"]')
    item={}
    for i in range(len(content_field)):
        #作者
        author_f= content_field[i].xpath('div[@class="author clearfix"]')[0]
        author=author_f.xpath('string(.)').replace('\n','').replace(' ','')
        #内容
        content_f=content_field[i].xpath('div[@class="content"]/text()')
        content=''
        for n in range(len(content_f)):
            content_temp=content_f[n].replace('\n','').replace(' ','').replace('\t','')
            content+=str(content_temp)

        #好笑
        vote=''
        vote_temp= content_field[i].xpath('div[@class="stats"]/span[@class="stats-vote"]/i/text()')[0]
        vote+=str(vote_temp)

        #评论,如果评论为空，则不会显示i节点
        span=''
        span_temp_l= content_field[i].xpath('div[@class="stats"]/span[@class="stats-comments"]/a/i/text()')
        span_temp=[]
        if len(span_temp_l)>0:
            span_temp=span_temp_l[0]
        else:
            span_temp='0'
        span+=str(span_temp)

        item['author'] = author
        item['content'] = content
        item['vote'] = vote
        item['span'] = span

        towrite(item)

if __name__ == '__main__':
    pool = ThreadPool(4)
    f = open('content.txt','a')
    url = []
    for i in range(1,36):
        newpage = 'http://www.qiushibaike.com/hot/page/' + str(i)
        url.append(newpage)

    results = pool.map(spider, url)
    pool.close()
    pool.join()
    f.close()

Python爬虫：爬取糗事百科的更多相关文章

Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
python3 爬虫---爬取糗事百科
这次爬取的网站是糗事百科,网址是:http://www.qiushibaike.com/hot/page/1 分析网址,参数''指的是页数,第二页就是'/page/2',以此类推... 一.分析网页 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...

随机推荐

Drop it FreeCodeCamp
function drop(arr, func) { // Drop them elements. for(var start=0 ;start<arr.length; start++){ if ...
spring rest docs自定义代码片段
Spring rest docs 文档插件在生成文档时会默认生成6个代码片段,自适应生成其它片段.通过阅读官方文档发现其可以自定义生成的代码片段,但是官方只说了可以自定义模版,修改现有的代码片段的方法 ...
SyntaxError Non-ASCII character '\xe5' in file
环境: windows7 Python 2.7.16 在源码中添加注释之后报错如下: (WeChat) E:\WorkHome\Wechat>python firstBlood.py Trace ...
用于检测进程的shell脚本
用于检测进程的shell脚本 2010-07-07 10:38:08| 分类: Centos |字号订阅脚本一: #!/bin/sh program=XXXX #进程名 sn=`ps - ...
【codeforces 719E】Sasha and Array
[题目链接]:http://codeforces.com/contest/719/problem/E [题意] 给你一个数列,有两种操作1 l r x 给[l,r]区间上的数加上x, 2 l r 询问 ...
SpringBoot 国际化
一.配置文件二.application.properties 文件( 让国际化的文件被 SpringBoot 识别 ) spring.messages.basename=i18n.login 三.h ...
阻止a标签跳页，使用单击事件函数处理该请求
阻止a标签跳页href="javascript:void(0)" 单击该标签时页面不跳页使用单击事件函数来处理该单击请求返回上一层页面 ---------------- ...
Ajax-URL 防止数据缓存,添加时间戳
url:CONTEXTPATH + "/dataService/getSourceStatics?type=0&t="+new Date().getTime(),
HDU 4454
想了很久,发现其实就只需要三分枚举圆上的点,到矩形的最短很容易就可以求到了.开始时考虑要不要根据矩形相对圆的方位来划分枚举区间,后来发现一定不能这样做的. 注意题目给的是矩形的对角形,但没说哪一条对角 ...
51nod 1413：权势二进制
1413 权势二进制题目来源: CodeForces 基准时间限制:1 秒空间限制:131072 KB 分值: 20 难度:3级算法题收藏关注一个十进制整数被叫做权势二进制,当他的十进制 ...

Python爬虫：爬取糗事百科

Python爬虫：爬取糗事百科的更多相关文章

随机推荐

热门专题