爬取糗事百科热门段子的数据并保存到本地，xpath的使用

和之前的爬虫类博客的爬取思路基本一致：

构造url_list，因为糗事百科的热门栏目默认是13页，所以这个就简单了
遍历发送请求获取响应
提取数据，这里用的是xpath提取，用的是Python的第三方模块lxml
保存数据到本地
爬取的数据有：段子内容、作者性别、作者年龄、作者头像的地址、被标记为好笑的次数

数据处理：

把段子内容中的换行都消除
获取性别操作稍微麻烦一点
头像图片的地址补全
判断是否存在，不存在用None替代
如果想了解更多，可以去 https://www.qiushibaike.com/text/ 抓包分析

程序代码：

 import requests

 import json

 from lxml import etree

 class QiubaSpider(object):

     """爬取糗事百科的热门下的数据"""

     def __init__(self):

         self.url_temp = 'https://www.qiushibaike.com/text/page/{}/'

         self.headers = {

             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',

         }

     def get_url_list(self):  # 构造url_list

         return [self.url_temp.format(i) for i in range(1, 14)]

     def pass_url(self, url):  # 发送请求

         print(url)

         response = requests.get(url, headers=self.headers)

         return response.content.decode()

     def get_content_list(self, html_str):  # 提取数据

         html = etree.HTML(html_str)

         div_list = html.xpath('//div[@id="content-left"]/div')  # 分组

         content_list = []

         for div in div_list:

             item = {}

             # 底下全是利用xpath和一些函数对数据的处理

             item['content'] = div.xpath('.//div[@class="content"]/span/text()')

             item['content'] = [i.replace('\n', '') for i in item['content']]

             item['author_gender'] = div.xpath('.//div[contains(@class, "articleGend")]/@class')

             item['author_gender'] = item['author_gender'][0].split(' ')[-1].replace('Icon', '') if len(

                 item['author_gender']) > 0 else None

             item['author_age'] = div.xpath('.//div[contains(@class, "articleGend")]/text()')

             item['author_age'] = item['author_age'][0] if len(item['author_age']) > 0 else None

             item['author_img'] = div.xpath('.//div[@class="author clearfix"]//img/@src')

             item['author_img'] = 'https' + item['author_img'][0] if len(item['author_img']) > 0 else None

             item['stats_vote'] = div.xpath('.//span[@class="stats-vote"]/i/text()')

             item['stats_vote'] = item['stats_vote'][0] if len(item['stats_vote']) > 0 else None

             content_list.append(item)

         return content_list

     def save_content_list(self, content_list):

         with open('qiuba.txt', 'a', encoding='utf-8') as f:

             f.write(json.dumps(content_list, ensure_ascii=False, indent=4))

             f.write('\n')  # 换行

     def run(self):  # 实现主要逻辑

         # 1.构造url_list,热门的一共13页

         url_list = self.get_url_list()

         # 2.遍历发送请求，获取响应

         for url in url_list:

             html_str = self.pass_url(url)

             # 3.提取数据

             content_list = self.get_content_list(html_str)

             # 4.保存数据

             self.save_content_list(content_list)

         pass

 if __name__ == '__main__':

     qiubai = QiubaSpider()

     qiubai.run()

爬取糗事百科热门段子的数据并保存到本地，xpath的使用的更多相关文章

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
python爬虫——利用BeautifulSoup4爬取糗事百科的段子
import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

随机推荐

Android中的“再按一次返回键退出程序”代码实现
1 用户在退出应用前给出一个提示是很有必要的,因为可能是用户并不真的想退出,而只是一不小心按下了返回键,大部分应用也是这么做的,但也有些应用的做法是在应用退出去前给出一个Dialog,我觉得这样不太友 ...
AcWing：141. 周期（KMP)
一个字符串的前缀是从第一个字符开始的连续若干个字符,例如”abaab”共有5个前缀,分别是a, ab, aba, abaa, abaab. 我们希望知道一个N位字符串S的前缀是否具有循环节. 换言之, ...
CodeForces - 369E Valera and Queries（树状数组）
CodeForces - 369E Valera and Queries 题目大意:给出n个线段(线段的左端点和右端点坐标)和m个查询,每个查询有cnt个点,要求给出有多少条线段包含至少其中一个点. ...
Latex里的引用定理只出现编号，不出现定理名？
在前面先定义了: \newtheorem{prb}{Problem Formulation} 然后: \begin{prb} \label{problem} xx\end{prb}效果: Proble ...
POJ 3694 Network ——（桥 + LCA）
题意:给n个点和m条边,再给出q条边,问每次加一条边以后剩下多少桥. 分析:这题是结合了LCA和dfn的妙用._dfn数组和dfn的意义不一样,并非访问的时间戳,_dfn表示的是被访问的顺序,而且是多 ...
mysql统计前24小时数据没有补0
SELECT t1. HOUR HOUR, COUNT(t2. HOUR) count FROM ( SELECT DATE_FORMAT( HOUR), '%y-%m-%d %H' ) HOUR F ...
Alpha冲刺（3/6）
队名:new game 组长博客:戳作业博客:戳组员情况鲍子涵(队长) 燃尽图过去两天完成了哪些任务才两天,也就是实现一些功能而已复习接下来的计划实现更多的功能为下周的比赛准备还剩 ...
linux出现Redirecting to /bin/systemctl start mysqld.service，解决方法
上去就是一个命令 /bin/systemctl start httpd.service
Node.js自学完全总结
零.什么是Node.js? 引用Node.js官方网站的解释如下: Node.js® is a JavaScript runtime built on Chrome's V8 JavaScript e ...
koa 基础（六）应用级路由中间件
1.应用级路由中间件 app.js /** * 应用级路由中间件 */ // 引入模块 const Koa = require('koa'); const router = require('koa- ...

爬取糗事百科热门段子的数据并保存到本地，xpath的使用

和之前的爬虫类博客的爬取思路基本一致：

数据处理：

程序代码：

爬取糗事百科热门段子的数据并保存到本地，xpath的使用的更多相关文章

随机推荐

热门专题