案例_(单线程)使用xpath爬取糗事百科

步骤如下:

首先通过xpath插件找出我们要爬取的信息的匹配规则

url = "https://www.qiushibaike.com/8hr/page/1/"

xpath插件的模糊查询:contains(),第一个参数是要匹配的标签,第二个参数是这个标签的部分内容

1.//div[contains(@id,"qiushi_tag_")] 匹配出所有段子包括评论,点赞数  以此作为根节点

2.用户名://div[contains(@id,"qiushi_tag_")]/div[@class="author clearfix"]//h2

3.内容://div[contains(@id,"qiushi_tag_")]//div[@class="content"]/span

4.点赞数://div[contains(@id,"qiushi_tag_")]//span[@class="stats-vote"]/i

5.评论数://div[contains(@id,"qiushi_tag_")]//span[@class="stats-comments"]//i

6.图片链接://div[contains(@id,"qiushi_tag_")]//div[@class="thumb"]//@src

代码如下

 from urllib.request import *

 import time

 from lxml import etree

 class Spider(object):

     def __init__(self):

         # 定义一个空列表装所有信息

         self.__info = []

         # 定义一个字典保存每条段子的信息

         self.__item = {}

         # 用户输入开始页面和结束页面

         self.__start_page = int(input("请输入开始爬取的页面:"))

         self.__end_page = int(input("请输入结束爬取的页面:"))

         self.__header = {

             "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3514.0 Safari/537.36"}

     def __load_page(self, url):

         """构建request请求,并发起请求"""

         request = Request(url, headers=self.__header)

         # 发送请求获取html源码

         # response 为<class 'http.client.HTTPResponse'>对象

         # response.read()  为<class 'bytes'>对象

         # response.read().decode() 为字符串对象

         response = urlopen(request)

         html = response.read().decode()

         # 调用方法使用xpath获取信息

         return html

     def __xpath_get_info(self, html):

         """将HTML字符串解析为HTML DOM格式,并获取相关信息"""

         selector = etree.HTML(html)

         # 返回所有段子的节点位置,contant()模糊查询方法,第一个参数是要匹配的标签,第二个参数是这个标签的部分内容

         # 每个节点包括一条完整的段子(用户名,段子内容,点赞,评论等)

         node_list = selector.xpath('//div[contains(@id,"qiushi_tag_")]')

         for node in node_list:

             # 爬取所有用户名信息

             # 取出标签里的内容,使用.text方法

             user_name = node.xpath('./div[@class="author clearfix"]//h2')[0].text

             # 爬取段子内容,匹配规则必须加点  不然还是会从整个页面开始匹配

             # 注意:如果span标签中有br 在插件中没问题,在代码中会把br也弄进来

             duanzi_info = node.xpath('.//div[@class="content"]/span')[0].text.strip()

             # 爬取段子的点赞数

             vote_num = node.xpath('.//span[@class="stats-vote"]/i')[0].text

             # 爬取评论数

             comment_num = node.xpath('.//span[@class="stats-comments"]//i')[0].text

             # 爬取图片链接

             # 属性src的值,所以不需要.text

             img_url = node.xpath('.//div[@class="thumb"]//@src')

             if len(img_url) > 0:

                 img_url = img_url[0]

             else:

                 img_url = "无图片"

             self.__save_info(user_name, duanzi_info, vote_num, comment_num, img_url)

     def __save_info(self, user_name, duanzi_info, vote_num, comment_num, img_url):

         """把每条段子的相关信息写进字典"""

         item = {

             "username": user_name,

             "content": duanzi_info,

             "zan": vote_num,

             "comment": comment_num,

             "image_url": img_url

         }

         self.__info.append(item)

     def show_result(self):

         """展示爬取的结果"""

         for info in self.__info:

             print(info)

     def run(self):

         """启动爬虫程序"""

         for page in range(self.__start_page, self.__end_page + 1):

             url = "https://www.qiushibaike.com/8hr/page/" + str(page)

             html = self.__load_page(url)

             # 爬取一页休眠一秒,应对反爬策略

             # time.sleep(1)

             self.__xpath_get_info(html)

 if __name__ == '__main__':

     qiushi_spider = Spider()

     qiushi_spider.run()

     qiushi_spider.show_result()

结果预览:

 
可能出现的问题

问题:一次爬取多个以上页面会出现:urllib.error.HTTPError: HTTP Error 503: Service Temporarily Unavailable
原因: 一种反爬虫机制,即限制了单个ip在固定时间内访问的次数,可以采用切换ip代理解决,如果嫌麻烦可以爬取一页休眠一秒

如果你和我有共同爱好,我们可以加个好友一起交流哈!

案例_(单线程)使用xpath爬取糗事百科的更多相关文章

Xpath--使用Xpath爬取糗事百科成人版图片
#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 爬取糗事百科.py@time: 20 ...
爬取糗事百科热门段子的数据并保存到本地，xpath的使用
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了遍历发送请求获取响应提取数据,这里用的是xpath提取,用的是Python的第三方 ...
16-多线程爬取糗事百科（python+Tread）
https://www.cnblogs.com/alamZ/p/7414020.html 课件内容 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月17日 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

随机推荐

prometheus告警模块alertmanager注意事项（QQ邮箱发送告警）
配置alertmanager的时候,都是根据网上的教程来配置的. 因为我是用QQ邮箱来发送告警的,所以alertmanager.yml的邮箱配置如下: global: resolve_timeout: ...
Day 25 网络基础
1:网络的重要性: 所有的系统都有网络! 我们的生活已经离不开网络. 运维生涯50%的生产故障都是网络故障! 2:教室这么多的电脑如何上网的? 网卡(mac地址) 有线(双绞线传播电信号)双向,同时收 ...
sql server 使用 partition by 分区函数解决不连续数字查询问题
sql server表中的某一列数据为不一定连续的数字,但是需求上要求按照连续数字来分段显示,如:1,2,3,4,5,6,10,11,12,13, 会要求这样显示:1~6,10~13.下面介绍如何实现 ...
【linux】【jenkins】自动化运维五整合邮件提醒
1.安装插件 Email Extension Template Plugin 安装教程参考:https://www.cnblogs.com/jxd283465/p/11542680.html 2.系统 ...
为什么一个标准的反相器中 P 管的宽长比要比 N 管的大呢？
和载流子有关.P 管是空穴导电,而 N 管是电子导电,电子的迁移率大于空穴.所以在同样的电场下,N 管的电流要大于 P 管,因此要增大 P 管的宽长比,使之对称,这样才能使得两者上升下降时间相等.高低 ...
转：怎么用Sql语句获取一个数据库中的所有表的名字
用sql获取数据库中所有的表名的方法:1.oracle下:select table_name from all_tables;2.MySQL下:select table_name from infor ...
（6）autotools工具的使用
autotools是专门用来生成Makefile的一系列工具,包括autoscan.aclocal.autoheader.autoconf.automake等. (1)autotools ...
2019 SD卡、U盘无法格式化怎么办的解决方法
有天闲的没事, 格式化一下U盘 ,结果突然断电了,我的天.我还在格式化的U盘 ,果然 ,我在此启动电脑后,的U盘直接就不能用了.于是我格式化. 然后,我的U盘就怎么也格式化不好了 ,找到了几种解 ...
Python 设计和历史的 27 个问题
花下猫语: 先祝大家假期快乐!今天,我要分享一篇长文,选自 Python 的官方文档.它列举了 27 个设计及历史的问题,其中有些问题我曾经分享过,例如为什么使用显式的 self.浮点数的问题.len ...
Python基础（十八）
今日主要内容包一.包 (一)什么是包只要是含有__init__.py文件的文件夹就是一个包包的本质其实就是一个文件夹,利用包将不同功能的模块组织起来,以此来提高程序的结构性和可维护性包是用来 ...

案例_(单线程)使用xpath爬取糗事百科

案例_(单线程)使用xpath爬取糗事百科

步骤如下:

结果预览:

案例_(单线程)使用xpath爬取糗事百科的更多相关文章

随机推荐

热门专题