Python爬虫_糗事百科

本爬虫任务：

爬虫糗事百科网站（https://www.qiushibaike.com/）——段子版块中所有的【段子】、【投票数】、【神回复】等内容

步骤：

通过翻页寻找url规律，构造url列表
查看审查元素，发现网页内容均在elements中，可以直接请求
通过xpath提取需要的内容
保存数据

逻辑：

构造外层url列表并进行遍历
- 对外层url请求访问，获得响应
- 提取内层url列表
- 遍历内层url
  - 对内层url请求访问，获取响应
  - 提取需要的数据（段子、投票数、神回复）
  - 保存

代码：

 1 import requests

 2 from lxml import etree

 3 import json

 4

 5

 6 class QiuShiSpider:

 7     def __init__(self):

 8         self.start_url = "https://www.qiushibaike.com/text/page/{}/"

 9         self.headers = {

10             "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.k36 (KHTML, like Gecko) ""Chrome/86.0.4240.11"}

11

12     def parse_url(self, url):

13         res = requests.get(url, headers=self.headers)

14         return res.content.decode()

15

16     def get_urls_inner(self, html_str):

17         html = etree.HTML(html_str)

18         urls_inner = html.xpath("//a[@class='contentHerf']/@href")

19         full_urls_inner = ["https://www.qiushibaike.com" + i for i in urls_inner]

20         return full_urls_inner

21

22     def get_contents(self, html_str):

23         html = etree.HTML(html_str)

24         text_list = html.xpath("//div[@class='content']/text()")

25         text = "".join(text_list)

26         number = html.xpath("//span[@class='stats-vote']/i/text()")[0] if len(

27             html.xpath("//span[@class='stats-vote']/i/text()")) > 0 else None

28         main_text_list = html.xpath("//div/span[@class='body']/text()")

29         return text, number, main_text_list

30

31     def save(self, content_dic):

32         with open("qs4.txt", "a", encoding="utf-8") as f:

33             f.write(json.dumps(content_dic, ensure_ascii=False, indent=2))

34

35     def run(self):

36         # 遍历url发送请求获取响应

37         urls_outer = [self.start_url.format(n + 1) for n in range(13)]

38         for url_outer in urls_outer:

39             try:

40                 html_str = self.parse_url(url_outer)

41                 urls_inner = self.get_urls_inner(html_str)

42                 for url_inner in urls_inner:

43                     content_dic = {}

44                     html_str = self.parse_url(url_inner)

45                     text, number, main_text_list = self.get_contents(html_str)

46                     content_dic["text"] = text

47                     content_dic["number"] = number

48                     content_dic["main_text"] = main_text_list

49

50                     self.save(content_dic)

51                     print("第{}页，第{}条".format(urls_outer.index(url_outer), urls_inner.index(url_inner)))

52             except Exception as e:

53                 print(e)

54

55

56 if __name__ == "__main__":

57     qs = QiuShiSpider()

58     qs.run()

Python爬虫_糗事百科的更多相关文章

爬虫_糗事百科（scrapy）
糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数 ...
Python爬虫(十七)_糗事百科案例
糗事百科实例爬取糗事百科段子,假设页面的URL是: http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath/re做数据提取 ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
python 抓取糗事百科糗图
1 首先看下要抓取的页面这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来. 2 分析网页源代码发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的u ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
<爬虫实战>糗事百科
1.糗事百科段子.py # 目标:爬取糗事百科段子信息(文字) # 信息包括:作者头像,作者名字,作者等级,段子内容,好笑数目,评论数目 # 解析用学过的几种方法都实验一下①正则表达式.②Beauti ...

随机推荐

项目管理/Bug管理/问题管理—Phabricator
项目管理/Bug管理/问题管理-Phabricator 1.项目管理/Bug管理/问题管理工具 2.Phabricator 3.Docker 方式安装Phabricator 3.1Docker方式安装 ...
juniper srx系列配置端口映射转载
http://www.cnblogs.com/pinpin/p/9895815.html
13.Linux文件存储系统
1.Linux 系统中的文件存储结构 Linux系统中常见的目录名称以及相应内容 2.系统内核中的udev 设备管理器会自动把硬件名称规范起来,目的是让用户通过设备文件的名字可以猜出设备大致的属性以及 ...
使用两个FIFO完成流水操作
一.设计目标写一个FIFO控制器,控制器里有两个FIFO,输入的数据由串行接收模块(uart_rx_module)送来,一共有86行86列的数据,按0.1.2行,1.2.3行,直到最后83.84.8 ...
在线工具生成接入信息mqtt.fx快速接入阿里云
在线工具生成接入信息mqtt.fx快速接入阿里云在使用阿里云获取的三元组信息进行接入的时候,往往需要加密生成接入信息之后才能进行接入,因此我根据阿里云提供的加密工具实现了一个阿里云物联网平台mqtt ...
canal-adapter1.1.14最新版本安装的过程中出现的NullPointerException异常
记录一下我在安装 canal-adapter1.1.14最新版本安装的过程中出现的NullPointerException异常以下是我的canal-adapter/logs文件夹内adapter.l ...
Scala面向对象—类详解2（继承相关）
1.单例类 package com.zzzy class AAA {//单例 /*//java 思路--私有化构造方法,提供公开的getAAA 行不通 private def this(){ this ...
mysql查询太慢，我们如何进行性能优化？
老刘是即将找工作的研究生,自学大数据开发,一路走来,感慨颇深,网上大数据的资料良莠不齐,于是想写一份详细的大数据开发指南.这份指南把大数据的[基础知识][框架分析][源码理解]都用自己的话描述出来,让 ...
UVA 11475 Extend to Palindrome (kmp || manacher || 后缀数组)
题目链接:点击打开链接题意:给你一个串,让你在串后面添加尽可能少的字符使得这个串变成回文串. 思路:这题可以kmp,manacher,后缀数组三种方法都可以做,kmp和manacher效率较高,时间 ...
HDU 6852 Increasing and Decreasing 构造
题意: 给你一个n,x,y.你需要找出来一个长度为n的序列,使得这个序列满足最长上升子序列长度为x,最长下降子序列长度为y.且这个序列中每个数字只能出现一次且要保证最后输出的序列的字典序最小题解: ...

Python爬虫_糗事百科

Python爬虫_糗事百科的更多相关文章

随机推荐

热门专题