coding by real mind writing by genuine heart

解析

任务背景:https://www.qiushibaike.com/hot/

 

窥探网页细节:观察每一页URL的变化

第一页

 

进入第二页

再看看第三页

把这些URL放在一起,观察规律

1 https://www.qiushibaike.com/hot/page/1/
2 https://www.qiushibaike.com/hot/page/2/
3 https://www.qiushibaike.com/hot/page/3/

从图片可以看出,该URL其他地方不变,只有最后的数字会改变,代表页数

推荐使用浏览器Chrome

插件丰富,原生功能设计对爬虫开发者非常友好

分析网页源代码

通过在原来的页面上点击,选择“检查”,观察规律,这里建议当你用elements定位元素之后,就切换到network查看相应的元素,因为elements里面的网页源代码很可能是经过JS加工过的

通过图片,我们发现:每一个笑话内容,都包含在一个<a...class="contentHerf"

...class="content">里面,当然这里的属性不止一个,这里我们选择contentHerf这个属性

思考工具:什么工具最适合解析此种规律?BeautifulSoup

编码

根据第一步的分析,建立初步的代码

 1 import requests
2 from bs4 import BeautifulSoup
3 import time
4 import re
5
6 headers = {
7 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
8 #User-Agent可以伪装浏览器,键值为浏览器的引擎信息及版本
9 'Host':'www.qiushibaike.com',
10 'Cookie':'_ga=GA1.2.2026142502.1558849033; gr_user_id=5d0a35ad-3eb6-4037-9b4d-bbc5e22c9b9f; grwng_uid=9bd612b3-7d0b-4a08-a4e1-1707e33f6995; _qqq_uuid_="2|1:0|10:1617119039|10:_qqq_uuid_|56:NjUxYWRiNDFhZTYxMjk4ZGM3MTgwYjkxMGJjNjViY2ZmZGUyNDdjMw==|fdce75d742741575ef41cd8f540465fb97b5d18891a9abb0849b3a09c530f7ee"; _xsrf=2|6d1ed4a0|7de9818067dac3b8a4e624fdd75fc972|1618129183; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1617119039,1617956477,1618129185; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1618129185; ff2672c245bd193c6261e9ab2cd35865_gr_session_id=fd4b35b4-86d1-4e79-96f4-45bcbcbb6524; ff2672c245bd193c6261e9ab2cd35865_gr_session_id_fd4b35b4-86d1-4e79-96f4-45bcbcbb6524=true'
11 #Cookie里面保存了你的身份验证信息,可用于cookies反爬
12 }
13
14 for page in range(10):
15 url = f'https://www.qiushibaike.com/hot/page/{page}/' #f-string函数,{}中填的是变化的内容,也可以使用format函数
16 req = requests.get(url,headers=headers)
17 html = req.text
18
19 soup = BeautifulSoup(html,'lxml')
20 for joke in soup.select('.contentHerf .content span'):
21 if joke.string is not None:
22 joke_data = f'笑话一则:{joke.string.strip()}\n\n'
23 with open('../txt_file/joke.txt','ab') as f: #以追加二进制的形式写入到文本文件中,这样就不会替换掉原先的内容
24 pattern = re.compile('查看全文',re.S)
25 jok = re.sub(pattern,'这里被替换了,嘻嘻!',joke_data)
26 f.write(jok.encode('utf-8'))
27 time.sleep(1) #延迟爬取时间

查看爬取内容

上面这张图片被框起来的地方被我用正则表达式替换掉了,这里原来的内容是“查看全文

代码优化

 1 import requests
2 from bs4 import BeautifulSoup
3 import re
4 import time
5 from requests.exceptions import RequestException
6
7
8 def get_url_html():
9 headers = {
10 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
11 'Host':'www.qiushibaike.com',
12 'Cookie':'_ga=GA1.2.2026142502.1558849033; gr_user_id=5d0a35ad-3eb6-4037-9b4d-bbc5e22c9b9f; grwng_uid=9bd612b3-7d0b-4a08-a4e1-1707e33f6995; _qqq_uuid_="2|1:0|10:1617119039|10:_qqq_uuid_|56:NjUxYWRiNDFhZTYxMjk4ZGM3MTgwYjkxMGJjNjViY2ZmZGUyNDdjMw==|fdce75d742741575ef41cd8f540465fb97b5d18891a9abb0849b3a09c530f7ee"; _xsrf=2|6d1ed4a0|7de9818067dac3b8a4e624fdd75fc972|1618129183; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1617119039,1617956477,1618129185; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1618129185; ff2672c245bd193c6261e9ab2cd35865_gr_session_id=fd4b35b4-86d1-4e79-96f4-45bcbcbb6524; ff2672c245bd193c6261e9ab2cd35865_gr_session_id_fd4b35b4-86d1-4e79-96f4-45bcbcbb6524=true'
13
14 }
15
16 try:
17 for page in range(2,5):
18 url = f'https://www.qiushibaike.com/hot/page/{page}/'
19 req = requests.get(url,headers=headers)
20 if req in not None:
21 return req.text
22 else:
23 return None
24 except RequestException:
25 return None
26
27 def main():
28 html = get_url_html()
29 soup = BeautifulSoup(html,'lxml')
30 for joke in soup.select('.contentHerf .content span'):
31 if joke.string is not None:
32 joke_data = f'笑话一则:{joke.string.strip()}\n\n'
33 with open('../txt_file/joke.txt','ab') as f:
34 pattern = re.compile('查看全文',re.S)
35 jok = re.sub(pattern,'这里被替换了,嘻嘻!',joke_data)
36 f.write(joke.encode('utf-8'))
37
38
39
40 if __name__ == '__main__':
41 main()
42 time.sleep(1)

总结

请求库requests及exceptions模块

解析库BeautifulSoup

标准库re

time模块

文本存储


定期分享爬虫实战文章 扫码关注个人公众号,带你成为“爬虫大神”or“爬虫工程师”


——  ——  ——  ——  —  END  ——  ——  ——  ——  ————

         欢迎扫码关注我的公众号

          爬神养成记

       

Web爬虫|入门实战之糗事百科(附源码)的更多相关文章

  1. 利用python的爬虫技术爬去糗事百科的段子

    初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页 技术实现:基于python的实现, ...

  2. python网络爬虫--简单爬取糗事百科

    刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...

  3. python爬虫之爬取糗事百科并将爬取内容保存至Excel中

    本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10   代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...

  4. leaflet-webpack 入门开发系列六矢量瓦片(附源码下载)

    前言 leaflet-webpack 入门开发系列环境知识点了解: node 安装包下载webpack 打包管理工具需要依赖 node 环境,所以 node 安装包必须安装,上面链接是官网下载地址 w ...

  5. leaflet-webpack 入门开发系列五地图卷帘(附源码下载)

    前言 leaflet-webpack 入门开发系列环境知识点了解: node 安装包下载webpack 打包管理工具需要依赖 node 环境,所以 node 安装包必须安装,上面链接是官网下载地址 w ...

  6. Python爬虫:爬取糗事百科

    网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf- ...

  7. Java Web开发框架Spring+Hibernate整合效果介绍(附源码)

    最近花了一些时间整合了一个SpringMVC+springAOP+spring security+Hibernate的一套框架,之前只专注于.NET的软件架构设计,并没有接触过Java EE,好在有经 ...

  8. arcgis api 4.x for js 结合 react 入门开发系列"esri-loader"篇(附源码下载)

    基于上篇的介绍,虽然有比较esri-loader.@arcgis/webpack-plugin,还是觉得有必要需要讲述一下“esri-loader”的开发模式,待大家体验后也会有更直观的感受.本篇文章 ...

  9. arcgis api 4.x for js 结合 react 入门开发系列初探篇(附源码下载)

    你还在使用 JQuery 或者 Dojo 框架开发 arcgis api 4.x for js 吗?想试试模块化开发吗?随着前端技术的发展,arcgis api 4.x for js 也有了结合 re ...

随机推荐

  1. protocol buffer的高效编码方式

    目录 简介 定义一个简单的message Base 128 Varints 消息体的结构 符号整数 字符串 嵌套的消息 总结 简介 protocol buffer这种优秀的编码方式,究竟底层是怎么工作 ...

  2. SQL 练习25

    查询同名学生名单,并统计同名人数 SELECT sname,COUNT(sname) 同名人数 from Student GROUP BY sname HAVING COUNT(sname)>1

  3. 【设计模式】装饰者模式(DecoratorMode0

    From: https://liudongdong1.github.io/ 装饰者模式(Decorator Pattern):动态地给一个对象增加一些额外的职责,增加对象功能来说,装饰模式比生成子类实 ...

  4. pip的问题 Can't connect to HTTPS URL because the SSL module is not available

    pip is configured with locations that require TLS/SSL, however the ssl module in Python is not avail ...

  5. [ES6深度解析]13:let const

    当Brendan Eich在1995年设计了JavaScript的第一个版本时,他犯了很多错误,包括从那时起就成为该语言一部分的一些错误,比如Date对象和当你不小心将它们相乘时对象会自动转换为NaN ...

  6. mysql 局域网连接

    下面分别简述操作: 配置虚拟机网络 默认方式是NAT,但为了让宿主机之外的其它计算机也能访问虚拟机,NAT方式配置起来有些复杂,这里推荐用桥接模式,关于VM的几种网络方式的区别,可以参考这篇文章配置好 ...

  7. Hibernate5 入门之SessionFactory对象的创建

    hibernate5创建SessionFactory不同于hibernate4和hibernate3,下面是代码示例. package top.scorpion.util; import org.hi ...

  8. C++ native 转 C++的CLI

  9. jvm系列(五):jvm调优-从eclipse开始

    概述 什么是jvm调优呢?jvm调优就是根据gc日志分析jvm内存分配.回收的情况来调整各区域内存比例或者gc回收的策略:更深一层就是根据dump出来的内存结构和线程栈来分析代码中不合理的地方给予改进 ...

  10. Go错误处理正确姿势

    1. panic 在什么情况下使用panic? 在程序启动的时候,如果有强依赖的服务出现故障时panic退出 在程序启动的时候,如果发现有配置明显不符合要求,可以panic退出(预防编程) 其他情况下 ...