糗事百科实例：

爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1

要求：

使用requests获取页面信息，用XPath / re 做数据提取
获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数
保存到 json 文件内

参考代码

#qiushibaike.py

#import urllib

#import re

#import chardet

import requests

from lxml import etree

page = 1

url = 'http://www.qiushibaike.com/8hr/page/' + str(page)

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',

    'Accept-Language': 'zh-CN,zh;q=0.8'}

try:

    response = requests.get(url, headers=headers)

    resHtml = response.text

    html = etree.HTML(resHtml)

    result = html.xpath('//div[contains(@id,"qiushi_tag")]')

    for site in result:

        item = {}

        imgUrl = site.xpath('./div/a/img/@src')[0].encode('utf-8')

        username = site.xpath('./div/a/@title')[0].encode('utf-8')

        #username = site.xpath('.//h2')[0].text

        content = site.xpath('.//div[@class="content"]/span')[0].text.strip().encode('utf-8')

        # 投票次数

        vote = site.xpath('.//i')[0].text

        #print site.xpath('.//*[@class="number"]')[0].text

        # 评论信息

        comments = site.xpath('.//i')[1].text

        print imgUrl, username, content, vote, comments

except Exception, e:

    print e

演示效果

爬虫之JSON案例的更多相关文章

scrapy 爬虫返回json格式内容unicode编码转换为中文的问题解决
最近在基于python3.6.5 的环境使用scrapy框架爬虫获取json数据,返回的数据是unicode格式的,在spider里面的parse接口中打印response.text出来如下: cla ...
中国爬虫违法违规案例汇总github项目介绍
中国爬虫违法违规案例汇总github项目介绍 GitHub - 本项目用来整理所有中国大陆爬虫开发者涉诉与违规相关的新闻.资料与法律法规.致力于帮助在中国大陆工作的爬虫行业从业者了解我国相关法律,避免 ...
urllib爬虫（流程+案例）
网络爬虫是一种按照一定规则自动抓取万维网信息的程序.在如今网络发展,信息爆炸的时代,信息的处理变得尤为重要.而这之前就需要获取到数据.有关爬虫的概念可以到网上查看详细的说明,今天在这里介绍一下使用ur ...
Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
Python爬虫(十一)_案例：使用正则表达式的爬虫
本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起 ...
Python爬虫(十三)_案例：使用XPath的爬虫
本篇是使用XPath的案例,更多内容请参考:Python学习指南案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载 ...
爬虫之Xpath案例
案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py #!/usr/ ...
Ajax&Json案例
案例: * 校验用户名是否存在 1. 服务器响应的数据,在客户端使用时,要想当做json数据格式使用.有两种解决方案: 1. $.get(type):将最后一个参数type指定为"json& ...
豆瓣爬虫——通过json接口获取数据
最近在复习resqusts 爬虫模块,就重新写了一个豆瓣爬虫,这个网页从HTML 源码上来看是没有任何我想要的信息的,如下图所示: 这是网页视图,我在源码中查找影片信息,没有任何信息,如图: 由此我判 ...

随机推荐

HDU_5532_Almost Sorted Array
Almost Sorted Array Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Ot ...
Microservices 微服务概念和优点自治弹性级联故障微服务的问题 CAP 分布式事务修改一个服务并对其部署而不影响其他任务服务
https://en.wikipedia.org/wiki/Microservices https://zh.wikipedia.org/wiki/微服務微服務 (Microservices) 是一 ...
nodejs(一)
nodejs第一章节使用node来实现第一个http服务器 var http = require(‘http’); http.createServer(function (request, resp ...
Spark 源码分析 – BlockManagerMaster&Slave
BlockManagerMaster 只是维护一系列对BlockManagerMasterActor的接口, 所有的都是通过tell和askDriverWithReply从BlockManager ...
Amr and Chemistry---cf558C(暴力，加技巧)
题目链接:http://codeforces.com/problemset/problem/558/C 题意:有n个数,每个数都可以进行两个操作 *2 或者 /2,求最小的操作次数和,使得所有的数都相 ...
embedded-redis在单元测试中的使用
1 背景参考链接:https://github.com/kstyrc/embedded-redis 2 使用 2.1 引入依赖 <dependency> <groupId>c ...
关于Unix时间戳转北京时间的问题
工具在这里:http://tool.chinaz.com/Tools/unixtime.aspx?qq-pf-to=pcqq.group 今天踩了坑,无论参数是多少,年份总是1970.才发现原来参数必 ...
（0.1）windows下的mysql配置使用步骤
目录 1.基于windows平台的mysql项目场景 2.mysql数据库运行环境准备 3.下载mysql 4.通过Installer方式(即msi方式)安装mysql 5.卸载mysql ————— ...
需求用例分析之五：业务用例之Rational系
版权声明:作者:张克强.未经作者允许不得转载. https://blog.csdn.net/zhangmike/article/details/28134897 作者:张克强作者微博:张克强- ...
C语言可以分配的最大内存
前言最近用C刷PAT算法题目, 发现C语言有太多需要关注大小范围的东西必须知道, 虽说挺麻烦, 但也挺有意思. int最大值是多少首先就是int类型的取值范围, 这个太常用. C语言标准规定最低 ...

爬虫之JSON案例

糗事百科实例：

要求：

参考代码

演示效果

爬虫之JSON案例的更多相关文章

随机推荐

热门专题