【Python】【爬虫】【爬狼】004_正则规则模板及其应用

# 正则规则模板与应用（一）

先看这些视频，是在哪个div里面的

    for datapage in soup.find_all("div", class_="lpic"):

        # 一个li标签，包含一个视频

        for data in datapage.find_all("li"):

    # 不知道soup代表着什么，没关系，也别急着写，继续往后看

我们要获取的是

1.视频的标题

2.视频的类型

3.视频的介绍

4.视频的详情页链接

5.视频的封面图链接

正则规则模板

    # 正则规则开始

    gz_fan_title = re.compile(r'''<a href=".*?" title=".*?">(.*?)</a>''',re.S)

    gz_fan_url = re.compile(r'''<a href="(.*?)"''',re.S)

    gz_fan_url_img = re.compile(r'''referrerpolicy="no-referrer" src="(.*?)"''',re.S)

    gz_fan_type = re.compile(r'''<span>类型：(.*?)</span>''',re.S)

    gz_fan_message = re.compile(r'''<p>(.*?)</p>''', re.S)

    # 正则规则结束

应用正则规则模板

 		data = str(data)

                fan_title = re.findall(gz_fan_title, data)

                fan_url = re.findall(gz_fan_url, data)

                fan_img = re.findall(gz_fan_url_img, data)

                fan_type = re.findall(gz_fan_type, data)

                fan_message = re.findall(gz_fan_message, data)

那么上面的data是什么，怎么获得呢？

# 假设搜索love

pageNumber = xrilag_SearchAll("love")

# xrilag_SearchAll是自定义函数，想了解其具体代码的请查看博客https://www.cnblogs.com/mllt/p/python_pc_pl_edu_003.html

# pageNumber是搜索结果的总页数

# 使用for循环，一页一页进行处理

for page in range(pageNumber):

	# 根据页面跳转的地址改变规则写出页面含变量链接，然后进行源码获取，后面便可以对这一页展开分析与爬取数据了（https://www.cnblogs.com/mllt/p/python_pc_pl_edu_003.html）

    html_Document = xrilang_UrlToDocument("https://www.yhdmp.cc/s_all?kw=love&pagesize=24&pageindex=" + str(page))

    # xrilang_UrlToDocument是自定义函数，作用是获取网页源码。想了解其具体内容，请查看博客https://www.cnblogs.com/mllt/p/python_pc_pl_edu_002.html

    # 创建一个Beautiful Soup对象

    soup = BeautifulSoup(html_Document, "html.parser")  # parser是解释器

    # 使用了.kpic样式的div，包含且只包含了此页的所有视频列表

    for datapage in soup.find_all("div", class_="lpic"):

        # 一个li标签，包含一个视频

        for data in datapage.find_all("li"):

            # 应用正则规则模板

            data = str(data)

            fan_title = re.findall(gz_fan_title, data)

            fan_url = re.findall(gz_fan_url, data)

            fan_img = re.findall(gz_fan_url_img, data)

            fan_type = re.findall(gz_fan_type, data)

            fan_message = re.findall(gz_fan_message, data)

【Python】【爬虫】【爬狼】004_正则规则模板及其应用的更多相关文章

python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

Java日期时间API系列35-----Jdk8中java.time包中的新的日期时间API类应用，微秒和纳秒等更精确的时间格式化和解析。
通过Java日期时间API系列1-----Jdk7及以前的日期时间类中得知,Java8以前除了java.sql.Timestamp扩充纳秒,其他类最大只精确到毫秒:Java8 time包所有相关类都支 ...
PostgreSQL 15新版本特性解读（含直播问答、PPT资料汇总）
2022年6月23日,墨天轮技术社区联合PostgreSQL中文社区共同举办[PostgreSQL 15 新特性解读]直播活动. 小编在这里整理了直播间的代表性问题,请老师为大家解答.并在文末附上视频 ...
010 Python 重中之重的变量
#!/usr/bin/env python # -*- coding:utf-8 -*- # Datatime:2022/7/16 20:32 # Filename:010 Python 重中之重的变 ...
Python 潮流周刊#72：Python 3.13.0 最终版已发布！（摘要）
本周刊由 Python猫出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...
放大招！青云企业级容器平台 QKCP 迎来重磅升级
青云企业级容器平台 QKCP 3.2 重磅发布.QKCP(QingCloud KubeSphere Container Platform)是青云科技基于 KubeSphere 开源容器平台打造的企业级 ...
【2022noip多校】异或
[题目描述] 对于一个元素介于 \([0,2^m)\) 且互不相同的长度为 \(n\) 的序列 \(a_1, a_2 ...,a_n\) ,定义它的特征序列为 \(p_0,p_1,...,p_{2^m ...
CMDB实践指南：项目规划与实施策略解析
随着现代企业IT系统的日益复杂,如何有效管理这些庞大的IT资产和资源,成为每个企业必须面对的重要问题.CMDB应运而生,帮助企业集中管理IT资源,维护系统的稳定性,并支持故障排查与决策制定.本文将深入 ...
SQL Server创建用户只能访问指定数据库和视图
我们在给数据库用户赋予权限时,有时候不想让该用户看到太多过程表和过程视图,这时就需要限定用户的访问权限第一步:创建用户创建数据库连接后,进入安全性--登录名,单击右键,新建登录名,并设置默认数据库 ...
如何在Spark键值对数据中，对指定的Key进行输出/筛选/模式匹配
在用键值对RDD进行操作时,经常会遇到不知道如何筛选出想要数据的情况,这里提供了一些解决方法目录 1.对固定的Key数据进行查询 2.对不固定的Key数据进行模糊查询 1.对固定的Key数据进行查询 ...
题解：CF888G Xor-MST
题解:CF888G Xor-MST 题目大意:给定 \(n\) 个点的点权, 任意两点间边权是点权的异或和.求这张完全图的 MST 的权值. 思路: Boruvka + Trie树 + 按位贪心. 关 ...

【Python】【爬虫】【爬狼】004_正则规则模板及其应用

【Python】【爬虫】【爬狼】004_正则规则模板及其应用的更多相关文章

随机推荐

热门专题