coding by real mind writing by genuine heart

解析

任务背景：https://www.qiushibaike.com/hot/

窥探网页细节：观察每一页URL的变化

第一页

进入第二页

再看看第三页

把这些URL放在一起，观察规律

1 https://www.qiushibaike.com/hot/page/1/

2 https://www.qiushibaike.com/hot/page/2/

3 https://www.qiushibaike.com/hot/page/3/

从图片可以看出，该URL其他地方不变，只有最后的数字会改变，代表页数

推荐使用浏览器Chrome

插件丰富，原生功能设计对爬虫开发者非常友好

分析网页源代码

通过在原来的页面上点击，选择“检查”，观察规律，这里建议当你用elements定位元素之后，就切换到network查看相应的元素，因为elements里面的网页源代码很可能是经过JS加工过的

通过图片，我们发现：每一个笑话内容，都包含在一个<a...class="contentHerf"

...class="content">里面，当然这里的属性不止一个，这里我们选择contentHerf这个属性

思考工具：什么工具最适合解析此种规律？BeautifulSoup

编码

根据第一步的分析，建立初步的代码

 1 import requests

 2 from bs4 import BeautifulSoup

 3 import time

 4 import re

 5

 6 headers = {

 7     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

 8      #User-Agent可以伪装浏览器，键值为浏览器的引擎信息及版本

 9     'Host':'www.qiushibaike.com',

10     'Cookie':'_ga=GA1.2.2026142502.1558849033; gr_user_id=5d0a35ad-3eb6-4037-9b4d-bbc5e22c9b9f; grwng_uid=9bd612b3-7d0b-4a08-a4e1-1707e33f6995; _qqq_uuid_="2|1:0|10:1617119039|10:_qqq_uuid_|56:NjUxYWRiNDFhZTYxMjk4ZGM3MTgwYjkxMGJjNjViY2ZmZGUyNDdjMw==|fdce75d742741575ef41cd8f540465fb97b5d18891a9abb0849b3a09c530f7ee"; _xsrf=2|6d1ed4a0|7de9818067dac3b8a4e624fdd75fc972|1618129183; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1617119039,1617956477,1618129185; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1618129185; ff2672c245bd193c6261e9ab2cd35865_gr_session_id=fd4b35b4-86d1-4e79-96f4-45bcbcbb6524; ff2672c245bd193c6261e9ab2cd35865_gr_session_id_fd4b35b4-86d1-4e79-96f4-45bcbcbb6524=true'

11      #Cookie里面保存了你的身份验证信息，可用于cookies反爬

12   }

13

14 for page in range(10):

15   url = f'https://www.qiushibaike.com/hot/page/{page}/'  #f-string函数，{}中填的是变化的内容，也可以使用format函数

16   req = requests.get(url,headers=headers)

17   html = req.text

18

19   soup = BeautifulSoup(html,'lxml')

20   for joke in soup.select('.contentHerf .content span'):

21     if joke.string is not None:

22       joke_data = f'笑话一则:{joke.string.strip()}\n\n'

23       with open('../txt_file/joke.txt','ab') as f:   #以追加二进制的形式写入到文本文件中，这样就不会替换掉原先的内容

24           pattern = re.compile('查看全文',re.S)

25           jok = re.sub(pattern,'这里被替换了，嘻嘻!',joke_data)

26           f.write(jok.encode('utf-8'))

27           time.sleep(1)  #延迟爬取时间

查看爬取内容

上面这张图片被框起来的地方被我用正则表达式替换掉了，这里原来的内容是“查看全文”

代码优化

 1 import requests

 2 from bs4 import BeautifulSoup

 3 import re

 4 import time

 5 from requests.exceptions import RequestException

 6

 7

 8 def get_url_html():

 9   headers = {

10       'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

11       'Host':'www.qiushibaike.com',

12       'Cookie':'_ga=GA1.2.2026142502.1558849033; gr_user_id=5d0a35ad-3eb6-4037-9b4d-bbc5e22c9b9f; grwng_uid=9bd612b3-7d0b-4a08-a4e1-1707e33f6995; _qqq_uuid_="2|1:0|10:1617119039|10:_qqq_uuid_|56:NjUxYWRiNDFhZTYxMjk4ZGM3MTgwYjkxMGJjNjViY2ZmZGUyNDdjMw==|fdce75d742741575ef41cd8f540465fb97b5d18891a9abb0849b3a09c530f7ee"; _xsrf=2|6d1ed4a0|7de9818067dac3b8a4e624fdd75fc972|1618129183; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1617119039,1617956477,1618129185; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1618129185; ff2672c245bd193c6261e9ab2cd35865_gr_session_id=fd4b35b4-86d1-4e79-96f4-45bcbcbb6524; ff2672c245bd193c6261e9ab2cd35865_gr_session_id_fd4b35b4-86d1-4e79-96f4-45bcbcbb6524=true'

13

14     }

15

16   try:

17     for page in range(2,5):

18       url = f'https://www.qiushibaike.com/hot/page/{page}/'

19       req = requests.get(url,headers=headers)

20       if req in not None:

21         return req.text

22       else:

23         return None

24   except RequestException:

25     return None

26

27 def main():

28   html = get_url_html()

29   soup = BeautifulSoup(html,'lxml')

30   for joke in soup.select('.contentHerf .content span'):

31     if joke.string is not None:

32       joke_data = f'笑话一则:{joke.string.strip()}\n\n'

33       with open('../txt_file/joke.txt','ab') as f:

34           pattern = re.compile('查看全文',re.S)

35           jok = re.sub(pattern,'这里被替换了，嘻嘻!',joke_data)

36           f.write(joke.encode('utf-8'))

37

38

39

40 if __name__ == '__main__':

41   main()

42   time.sleep(1)

总结

请求库requests及exceptions模块

解析库BeautifulSoup

标准库re

time模块

文本存储

定期分享爬虫实战文章 扫码关注个人公众号，带你成为“爬虫大神”or“爬虫工程师”

—— —— —— —— — END —— —— —— —— ————

　　　　　　　欢迎扫码关注我的公众号

　　　　　　　　　　爬神养成记

Web爬虫|入门实战之糗事百科（附源码）的更多相关文章

利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
leaflet-webpack 入门开发系列六矢量瓦片(附源码下载)
前言 leaflet-webpack 入门开发系列环境知识点了解: node 安装包下载webpack 打包管理工具需要依赖 node 环境,所以 node 安装包必须安装,上面链接是官网下载地址 w ...
leaflet-webpack 入门开发系列五地图卷帘(附源码下载)
前言 leaflet-webpack 入门开发系列环境知识点了解: node 安装包下载webpack 打包管理工具需要依赖 node 环境,所以 node 安装包必须安装,上面链接是官网下载地址 w ...
Python爬虫：爬取糗事百科
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf- ...
Java Web开发框架Spring+Hibernate整合效果介绍（附源码）
最近花了一些时间整合了一个SpringMVC+springAOP+spring security+Hibernate的一套框架,之前只专注于.NET的软件架构设计,并没有接触过Java EE,好在有经 ...
arcgis api 4.x for js 结合 react 入门开发系列"esri-loader"篇（附源码下载）
基于上篇的介绍,虽然有比较esri-loader.@arcgis/webpack-plugin,还是觉得有必要需要讲述一下“esri-loader”的开发模式,待大家体验后也会有更直观的感受.本篇文章 ...
arcgis api 4.x for js 结合 react 入门开发系列初探篇（附源码下载）
你还在使用 JQuery 或者 Dojo 框架开发 arcgis api 4.x for js 吗?想试试模块化开发吗?随着前端技术的发展,arcgis api 4.x for js 也有了结合 re ...

随机推荐

Python - pydantic 入门介绍与 Models 的简单使用
前言为啥要学这个,因为 FastAPI 是基于它进行开发的,而且是个不错的框架,所以有必要深入学习前置学习 Python 类型提示:https://www.cnblogs.com/poloyy/p ...
Emlog V6.0.0代码审计笔记
前言 emlog是一套基于PHP和MySQL的博客及CMS建站系统. emlog v6.0.0存在后台SQL注入漏洞. 分析官网下载emlog最新版v6.0.0,本地搭建. 前台功能不多,参数基本都 ...
☕【Java技术指南】「Guava Collections」实战使用相关Guava不一般的集合框架
Google Guava Collections 使用介绍简介 Google Guava Collections 是一个对 Java Collections Framework 增强和扩展的一个开源 ...
python的基础---常用的正则表达式
"""# 一.re 模块 1.作用:根据规则去匹配字符串 2.表达式:匹配字符串的规则 3.常用方法 findall():[掌握]匹配所有的字符串,把匹配结果作为一个列表 ...
kubebuilder实战之三：基础知识速览
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
RabbitMQ 安装与配置管理
rabbitmq安装 1. 安装erlang yum install erlang xmlto 2. 安装rabbitmq rpm包 #wget http://www.rabbitmq.com/rel ...
WPF 中的 button style 的修改
<Style x:Key="ButtonStyleTransBack" TargetType="Button"> <Setter Proper ...
wpf中INotifyPropertyChanged的用法
using System;using System.Collections.Generic;using System.ComponentModel;using System.Linq;using Sy ...
wpf & javascript & web
最近有一个需求是,WPF里面要嵌入一个Vue前端框架,也就是把网页嵌入进WPF里面,找了好久发现用CefSharp还是比较不错的,但是有一点打包占空间太大这是第一种解法: public partia ...
多线程编程<四>
1 /** 2 * 守护线程daemon['diːmən] 3 * @author Administrator 4 * 5 */ 6 public class DaemonDemo { 7 publi ...

Web爬虫|入门实战之糗事百科（附源码）

解析

编码

代码优化

总结

Web爬虫|入门实战之糗事百科（附源码）的更多相关文章

随机推荐

热门专题