糗事百科实例：

爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1

要求：

使用requests获取页面信息，用XPath / re 做数据提取
获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数
保存到 json 文件内

参考代码

#qiushibaike.py

#import urllib

#import re

#import chardet

import requests

from lxml import etree

page = 1

url = 'http://www.qiushibaike.com/8hr/page/' + str(page)

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',

    'Accept-Language': 'zh-CN,zh;q=0.8'}

try:

    response = requests.get(url, headers=headers)

    resHtml = response.text

    html = etree.HTML(resHtml)

    result = html.xpath('//div[contains(@id,"qiushi_tag")]')

    for site in result:

        item = {}

        imgUrl = site.xpath('./div/a/img/@src')[0].encode('utf-8')

        username = site.xpath('./div/a/@title')[0].encode('utf-8')

        #username = site.xpath('.//h2')[0].text

        content = site.xpath('.//div[@class="content"]/span')[0].text.strip().encode('utf-8')

        # 投票次数

        vote = site.xpath('.//i')[0].text

        #print site.xpath('.//*[@class="number"]')[0].text

        # 评论信息

        comments = site.xpath('.//i')[1].text

        print imgUrl, username, content, vote, comments

except Exception, e:

    print e

演示效果

爬虫之JSON案例的更多相关文章

scrapy 爬虫返回json格式内容unicode编码转换为中文的问题解决
最近在基于python3.6.5 的环境使用scrapy框架爬虫获取json数据,返回的数据是unicode格式的,在spider里面的parse接口中打印response.text出来如下: cla ...
中国爬虫违法违规案例汇总github项目介绍
中国爬虫违法违规案例汇总github项目介绍 GitHub - 本项目用来整理所有中国大陆爬虫开发者涉诉与违规相关的新闻.资料与法律法规.致力于帮助在中国大陆工作的爬虫行业从业者了解我国相关法律,避免 ...
urllib爬虫（流程+案例）
网络爬虫是一种按照一定规则自动抓取万维网信息的程序.在如今网络发展,信息爆炸的时代,信息的处理变得尤为重要.而这之前就需要获取到数据.有关爬虫的概念可以到网上查看详细的说明,今天在这里介绍一下使用ur ...
Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
Python爬虫(十一)_案例：使用正则表达式的爬虫
本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起 ...
Python爬虫(十三)_案例：使用XPath的爬虫
本篇是使用XPath的案例,更多内容请参考:Python学习指南案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载 ...
爬虫之Xpath案例
案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py #!/usr/ ...
Ajax&Json案例
案例: * 校验用户名是否存在 1. 服务器响应的数据,在客户端使用时,要想当做json数据格式使用.有两种解决方案: 1. $.get(type):将最后一个参数type指定为"json& ...
豆瓣爬虫——通过json接口获取数据
最近在复习resqusts 爬虫模块,就重新写了一个豆瓣爬虫,这个网页从HTML 源码上来看是没有任何我想要的信息的,如下图所示: 这是网页视图,我在源码中查找影片信息,没有任何信息,如图: 由此我判 ...

随机推荐

git学习（5）分支管理（续）
git学习(5)分支管理(续) 1.解决冲突冲突的产生如我们在新建分支和原来master分支上对同一文件做了修改并提交,在合并分支的时候就会遇到冲突比如我新建了分支myBranch,在这个分支上 ...
设计模式之——Builder建造模式
Builder模式又叫建造模式,是用于组装具有复杂结构的实例的模式. 示例程序是编写一个文档,并且写入到文件中,该文档具有以下结构,含有标题,字符串,一些条目. Builder抽象类,为建造模式的核心 ...
Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
解决从Windows拷贝来的文件到Ubuntu出现乱码的问题
1.转换文件内容编码 Windows下天生的纯文本文件,其中文编码为GBK,在Ubuntu下显示为乱码,可以使用iconv命令进行转换: iconv -f gbk -t utf8 sour ...
Java 之设计模式(总述)
1. 面向对象设计原则单一职责原则: 一个类只负责一个功能领域中的相应职责开闭原则: 软件实体应对扩展开放,而对修改关闭; 里氏代换原则: 所有引用基类对象的地方能够透明地使用其子类的对象; 依赖 ...
【react router路由】<Router> <Siwtch> <Route>标签
博客 https://www.jianshu.com/p/ed5e56994f13?from=timeline 文档 http://react-guide.github.io/react-router ...
Python多线程、多进程和协程的实例讲解
线程.进程和协程是什么线程.进程和协程的详细概念解释和原理剖析不是本文的重点,本文重点讲述在Python中怎样实际使用这三种东西参考: 进程.线程.协程之概念理解进程(Process)是计算机中 ...
first-child与:first-of-type的区别
css选择器中:first-child与:first-of-type的区别 :first-child选择器是css2中定义的选择器,从字面意思上来看也很好理解,就是第一个子元素.比如有段代码: p:f ...
django cookie 提供的功能参数
# 用户发来数据带来所有COOKIES 这个cookie是字典 request.COOKIES # 获取字典获取cookierequest.COOKIES["username111&quo ...
008-mac下apache tomcat 测试授权
一.下载下载合适版本即可zip包 2.对bin下的*.sh授权 chmod 755 *.sh 3.80端口 https://blog.csdn.net/ilovesmj/article/detail ...

爬虫之JSON案例

糗事百科实例：

要求：

参考代码

演示效果

爬虫之JSON案例的更多相关文章

随机推荐

热门专题