【Python】【爬虫】【爬狼】003_获取搜索结果的页数

# 获取搜索内容的页数

需要的包

import urllib.request  # 获取网页源码

import re  # 正则表达式，进行文字匹配

from bs4 import BeautifulSoup  # 解析网页

解析网页

第一步，解析网页为网页源码（【Python】【爬虫系列】【爬狼】002_自定义获取网页源码的函数 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt)）

    # 获取网页源码

    response_html = xrilang_UrlToDocument(Url)

    # xrilang_UrlToDocument是我自定义函数，如果你没写这个函数，直接使用，会报错的。

    # 如果你想了解这个函数的具体内容，请看【爬狼系列】笔记第002篇

获取搜索内容的页数

分析网页

切换页数，观察地址栏变化。

根据观察第二页、第三页链接如下

# 第二页

https://www.yhdmp.cc/s_all?kw=love&pagesize=24&pageindex=1

# 第三页

https://www.yhdmp.cc/s_all?kw=love&pagesize=24&pageindex=2

由此可以推测出，第一页的地址为

https://www.yhdmp.cc/s_all?kw=love&pagesize=24&pageindex=0

s_all：Search All 搜索全部

kw：Key Word

pagesize：页面大小（一页有多少个视频）

pageindex：页面索引（索引从0开始，代表页数。索引0是第一页，索引1是第二页，以此类推）

获取视频数量

此处会显示视频数量，我们只需取出这个“数字”就可以了。

方法1

	# 1.获取所搜结果视频数量

    reStr1 = r'''搜索结果, 共(.*?)个'''  # 正则规则

    # temp = re.findall(reStr1, response_html) # 在 response_html 中查找符合上述正则规则（reStr1）的内容

    # 运行结果为：['49']

    mvNumber = re.findall(reStr1, response_html)[0]  # 取出列表的第一项（索引为0） 设置变量mvNumber（搜索得到的视频数量）

    # 运行结果为：49

方法2（推荐使用）

# 1.获取所搜结果视频数量

    reStr1 = re.compile(r'''搜索结果, 共(.*?)个''')  # 正则规则

    # temp = re.findall(reStr1, response_html) # 在 response_html 中查找符合上述正则规则（reStr1）的内容

    # 运行结果为：['49']

    mvNumber = re.findall(reStr1, response_html)[0]  # 取出列表的第一项（索引为0） 设置变量mvNumber（搜索得到的视频数量）

    # 运行结果为：49

通过视频数量获取页数

通过分析，我们知道，一页有24个视频，视频总数在上面已经求出来了，那么会有多少页呢，这就是一个小学的题了。

视频总数/每页展示视频数=总页数

即：视频总数/24=总页数

注意，如果有余数，则直接+1，结果为整数

 	# 通过视频数量判断有多少页

    # pageNumber = int(mvNumber) / 24

    # 运行结果为：2.0416666666666665

    # 求出页数

    if (int(mvNumber) % 24) == 0:

        pageNumber = int(mvNumber) / 24

    else:

        pageNumber = int(int(mvNumber) / 24) + 1

    # 最终得到页数结果 pageNumber

    # mvNumber是视频总数

将此功能编写为函数

为了方便求页数，我们需要将次功能编写为函数方便我们使用

def xrilag_SearchAll(keyword):

    """

    '获取搜索内容的总页数'

    :param keyword:搜索的关键字

    :return:int 搜索结果的总页数

    """

    # 基础链接

    baseUrl = "https://www.yhdmp.cc/s_all?ex=1&kw="

    Url = baseUrl + keyword

    # 获取网页源码

    response_html = xrilang_UrlToDocument(Url)

    # 1.获取所搜结果视频数量

    reStr1 = re.compile(r'''搜索结果, 共(.*?)个''')  # 正则规则

    # temp = re.findall(reStr1, response_html) # 在 response_html 中查找符合上述正则规则（reStr1）的内容

    # 运行结果为：['49']

    mvNumber = re.findall(reStr1, response_html)[0]  # 取出列表的第一项（索引为0） 设置变量mvNumber（搜索得到的视频数量）

    # 运行结果为：49

    # 通过视频数量判断有多少页

    # pageNumber = int(mvNumber) / 24

    # 运行结果为：2.0416666666666665

    # 求出页数

    if (int(mvNumber) % 24) == 0:

        pageNumber = int(mvNumber) / 24

    else:

        pageNumber = int(int(mvNumber) / 24) + 1

    # 最终得到页数结果 pageNumber

    return pageNumber

学习本文，最重要的是学习思维和处理方式

【Python】【爬虫】【爬狼】003_获取搜索结果的页数的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
使用python爬虫爬取链家潍坊市二手房项目
使用python爬虫爬取链家潍坊市二手房项目需求分析需要将潍坊市各县市区页面所展示的二手房信息按要求爬取下来,同时保存到本地. 流程设计明确目标网站URL( https://wf.lianjia ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

随机推荐

foobar2000 v1.6.14 汉化版(2023.01.12更新)
foobar2000 v1.6.14 汉化版 -----------------------[软件截图]---------------------- -----------------------[软 ...
一个SMMU内存访问异常的问题
最近碰到棘手的问题: 以太网进行iperf测试时, 发生了SMMU (System Memory Management Unit)访问异常导致内核崩溃. 原本只是内部测试发现, 后面在试验车上也概率性 ...
数据库故障处理优质文章汇总（含Oracle、MySQL、MogDB等）
数据库告警.紧急问题处理这些项目对于大多数朋友来讲应该不陌生了.从墨天轮社区整理的"最受DBA欢迎的技术文档合辑"系列中可以发现,大家对"故障诊断专题"的热情居 ...
Maven的安装部署（不踩雷版）
在idea中配置maven需注意maven版本和idea版本相匹配.本人使用idea版本为2020.3,jdk1.8,maven3.6.3可以与之相匹配. 一.下载maven maven下载官网地址: ...
Tarjan缩点题单刷题题解
Tarjan缩点可以将一个图的每个强连通分量缩成一个点,然后构建新图,该图就会变成一个有向无环图.变成有向无环图之后就能结合最短路,拓扑......解决相应题目洛谷题单分享: https://www ...
KubeSphere 在互联网电商行业的应用实践
来自社区用户(SRE运维手记)投稿背景在云原生的时代背景下,Kubernetes 已经成为了主流选择.然而,Kubernetes 的原生操作复杂性和学习曲线较高,往往让很多团队在使用和管理上遇到挑 ...
某制造企业基于 KubeSphere 的云原生实践
背景介绍随着业务升级改造与软件产品专案的增多,常规的物理机和虚拟机方式逐渐暴露出一些问题: 大量服务部署在虚拟机上,资源预估和硬件浪费较大: 大量服务部署在虚拟机上,部署时间和难度较大,自动化程度较 ...
LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV'24
现有的方法通过利用视觉-语言模型(VLMs)(如CLIP)强大的开放词汇识别能力来增强开放词汇目标检测,然而出现了两个主要挑战:(1)概念表示不足,CLIP文本空间中的类别名称缺乏文本和视觉知识.(2 ...
Stream流，集合与基本数组的相互转换
Arrays类的Api stream()方法传入数组,返回对应的stream流. Collection集合的Api: stream()不传参数,返回Stream流. 有了上述Api可以完成如下转换.. ...
不敢相信，Nginx 还能这么玩？
大家好,我是程序员鱼皮.今天来聊聊 Nginx 技术,这是一个企业项目必用,但是却经常被程序员忽略的技术.学好 Nginx,可以助你在求职中脱颖而出. 或许你会想:"Nginx 不就是用来部 ...