使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了

BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库

那需要怎么使用呢?

首先我们要安装一下这个库

1.pip install beautifulsoup4

2.pip install lxml

随便来一段html代码

html_doc = """

<html><head><title>学习python的正确姿势</title></head>

<body>

<p class="title"><b>我要学爬虫</b></p>

<p class="story">有一天，小邓想找工作实习单位了,不知道怎么选

<a href="http://example.com/1" class="sister" id="link1">一个钱多职位低</a>,

<a href="http://example.com/2" class="sister" id="link2">一个钱少职位高</a> ,

他问我,我到底选钱多还是钱少的？</p>

<p class="story">...</p>

"""

接着将 html 的源代码传给 BeautifulSoup

soup=BeautifulSoup(html_doc,"lxml")

然后就不需要写正则匹配了

以下为方法以及实例

#获得标签内的文本

# 学习python的正确姿势

#

# 我要学爬虫

# 有一天，小邓想找工作实习单位了,不知道怎么选

# 一个钱多职位低,

# 一个钱少职位高 ,

# 他问我,我到底选钱多还是钱少的？

# ...

print(soup.text)

# 获取标题的内容

# 学习python的正确姿势

print(soup.title.string)

# 获取 title 的父级标签

# head

print(soup.title.parent.name)

# 获取超链接

# <a class="sister" href="http://example.com/1" id="link1">一个钱多职位低</a>

print(soup.a)

# 获取所有超链接

# [<a class="sister" href="http://example.com/1" id="link1">一个钱多职位低</a>, <a class="sister" href="http://example.com/2" id="link2">一个钱少职位高</a>]

print(soup.find_all('a'))

# 获取 id 为 link2 的超链接

# <a class="sister" href="http://example.com/2" id="link2">一个钱少职位高</a>

print(soup.find(id="link2"))

除了find方法之外,如果你对css比较熟悉也可以使用 select 方法

soup = BeautifulSoup(html_doc,'lxml')

print(soup.select("title"))

print(soup.select("body a"))

print(soup.select("p > #link1"))

以上就是 BeautifulSoup 常用的方法

进一步了解可去

BeautifulSoup文档

有了它,妈妈再也不用担心我的正则表达式了,下次还有人这样问你

年轻人，不会正则表达式你睡得着觉？有点出息没有？

你可以傲娇的告诉他

我可以睡个安稳觉咧!

爬虫的教程都是我找网上大佬学的

本篇章到此结束!

使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了的更多相关文章

python爬虫07 | 有了 BeautifulSoup ，妈妈再也不用担心我的正则表达式了
我们上次做了你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍有些朋友觉得利用正则表达式去提取信息太特么麻烦了有没有什么别的方式更方便过滤我们想要的内容啊 emmmm 你还别说还 ...
妈妈再也不用担心别人问我是否真正用过redis了
1. Memcache与Redis的区别 1.1. 存储方式不同 1.2. 数据支持类型 1.3. 使用底层模型不同 2. Redis支持的数据类型 3. Redis的回收策略 4. Redis小命令 ...
有了 tldr，妈妈再也不用担心我记不住命令了
引言有一次我在培训时说「程序员要善于使用 Terminal 以提高开发效率」,一位程序员反驳道:「这是 21 世纪,我们为什么要用落后的命令行,而不是先进的 GUI?」是的,在一些人眼里,这个黑黑 ...
教会舍友玩 Git （再也不用担心他的学习）
舍友长大想当程序员,我和他爷爷奶奶都可高兴了,写他最喜欢的喜之郎牌Git文章,学完以后,再也不用担心舍友的学习了(狗头)哪里不会写哪里 ~~~ 一先来聊一聊太多东西属于,总在用,但是一直都没整理的 ...
保姆级神器 Maven，再也不用担心项目构建搞崩了
今天来给大家介绍一款项目构建神器--Maven,不仅能帮我们自动化构建,还能够抽象构建过程,提供构建任务实现:它跨平台,对外提供了一致的操作接口,这一切足以使它成为优秀的.流行的构建工具,从此以后,再 ...
锋利的js之妈妈再也不用担心我找错钱了
用js实现收银功能. <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <hea ...
【阿里云产品公测】离线归档OAS，再也不用担心备份空间了
[阿里云产品公测]离线归档OAS,再也不用担心备份空间了作者:阿里云用户莫须有3i 1 起步 1.1 初识OAS 啥是OAS,请看官方说明: 引用: 开放归档服务(Open Archive Se ...
妈妈再也不用担心我使用git了
妈妈再也不用担心我使用git了 Dec 29, 2014 git git由于其灵活,速度快,离线工作等特点而倍受青睐,下面一步步来总结下git的基本命令和常用操作. 安装msysgit 下载地址:ms ...
利用CH341A编程器刷新BIOS，恢复BIOS，妈妈再也不用担心BIOS刷坏了
前几天,修电脑主析就捣鼓刷BIOS,结果刷完黑屏开不了机,立刻意识到完了,BIOS刷错了.就从网上查资料,各种方法试了个遍,什么用处都没有.终于功夫不负有心人,找到了编码器,知道了怎么用.下面看看具体 ...

随机推荐

SpringBoot 启动慢？那是因为你不知道它
前言在 2021 年这个小学作文中的未来年份,没有想象中的汽车满天飞,也没有实现机器人满地跑.但牛逼的是我们都有一个共识: 知乎达到了人均 "谢邀~ 人在美国刚下飞机"的生活水平 ...
网页解析：Xpath 与 BeautifulSoup
1. Xpath 1.1 Xpath 简介 1.2 Xpath 使用案例 2. BeautifulSoup 2.1 BeautifulSoup 简介 2.2 BeautifulSoup 使用案例 1) ...
istio之envoy常见术语及状态码
基本术语 Downstream(下游):下游主机连接到 Envoy,发送请求并接收响应,即发送请求的主机. Upstream(上游):上游主机接收来自 Envoy 的连接和请求,并返回响应,即接受请求 ...
这一篇文章帮你搞定Java（含Java全套资源）
当下想学习Java开发的人越来越多,对于很多零基础的人来说,没有相关的视频教程及相关的学习线路,学起来是一件很费劲的事情,还有很多人从网上及其它渠道购买视频,这些视频资料的价格对于刚毕业的大学生来说也 ...
CSS快速入门基础篇，让你快速上手（附带代码案例）
1.什么是CSS 学习思路 CSS是什么怎么去用CSS(快速上手) CSS选择器(难点也是重点) 网页美化(文字,阴影,超链接,列表,渐变等) 盒子模型浮动定位网页动画(特效效果) 项目格式: ...
Nginx配置图片请求
Nginx的下载安装这里就不赘述了, 在Nginx的配置文件nginx.conf 或者自定义的配置文件中加入如下配置. server { listen 80; server_ ...
《机器学习Python实现_10_09_集成学习_bagging_stacking原理及实现》
介绍前面对模型的组合主要用了两种方式: (1)一种是平均/投票: (2)另外一种是加权平均/投票: 所以,我们有时就会陷入纠结,是平均的好,还是加权的好,那如果是加权,权重又该如何分配的好?如果我们 ...
POJ2186 强联通
题意: 有一群老牛,给你一些关系,a b表示牛a仰慕牛b,最后问你有多少个牛是被所有牛仰慕的. 思路: 假如这些仰慕关系不会出现环,那么当且仅当只有一只牛的出度为0的时候答案才 ...
xposed结合Zygote分析
android中zygote相信大家都很熟悉,它执行的函数是app_main.cpp,而xposed主要实现的就是替换app_main.cpp.所以在分析xposed时有必要来认识下zygote.好了 ...
Nmap 扫描器的使用技巧
1.nmap语法 -A 全面扫描/综合扫描例如:nmap -A 127.0.0.1 扫描指定段例如:nmap 127.0.0.1-200&nmap 127.0.0.1/24 2.Nmap ...

使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了

使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了的更多相关文章

随机推荐

热门专题