本篇文章主要讲bs4模块(BeautifulSoup),这个模块能做么呢？用一句话来概括的话：beautifulsoup4 从HTML或XML文件中提取数据的Python库,用它来解析爬取回来的xml。从而从网站中精准爬取自己想要的内容。

它是Python的第三方模块，因此需要下载

pip install pip install beautifulsoup4

这个模块与另一个lxml(解析库)模块配合这个用

pip install lxml

最基本用法

html_doc = '需要解析的HTML内容'

soup = BeautifulSoup(html_doc, 'lxml')

一、BeautifulSoup遍历文档树

1. 美化，不是标准xml，完成美化

print(soup.prettify())

2. 遍历文档树(通过点来遍历)

print(soup.html.body.p)  # 一层一层找

3. 获取标签的名称

print(soup.a.name)

4. 获取标签的属性

print(soup.a.attrs.get('class'))

5. 获取标签的内容

print(soup.p.text)

print(list(soup.p.strings)) # generator

二、BeautifulSoup搜索文档树

2. 通过find或find_all来搜索

# 1 字符串--->查询的条件是字符串

res=soup.find_all(name='p')

res=soup.find_all('p')

print(res)

# 2 正则表达式

import re

res=soup.find_all(class_=re.compile('^s'))

print(res)

# 3 列表

res=soup.find_all(id=['link1','link2'])

print(res)

print(soup.find_all(name=['a','b']))

print(soup.find_all(['a','b']))

# 4 True

res=soup.find_all(id=True)  # 所有有id的标签

res=soup.find_all(href=True)

res=soup.find_all(class_=True)

print(res)

3. 通过css选择器来搜索

其实css选择器是前端重点内容，但是对于后端程序员而言会用就行，这里我放大招哈哈哈

首先去浏览器右键检查、然后用定位箭头定位目的地、点击对用的HTML右键、选择copy、再现在copy selector 按照这个步骤就快速得到一个css选择器咯,css选择器大痛点解决之后，接下来咱看一下如何用css选择器搜索文档树吧，具体请看如下代码框

from bs4 import BeautifulSoup

import requests

res=requests.get('https://www.w3school.com.cn/css/css_selector_attribute.asp')

soup=BeautifulSoup(res.text,'lxml')

print(soup.select('#intro > p:nth-child(1) > strong')[0].text)

BeautifulSoup模块的使用方法的更多相关文章

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
requsets模块和beautifulsoup模块
2.requests模块方法 requests是基于Python开发的HTTP库,使用Requests可以轻而易举的完成浏览器可有的任何操作. request.get() request.post() ...
BeautifulSoup 模块详解
BeautifulSoup 模块详解 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HT ...
03 解析库之Beautifulsoup模块
Beautifulsoup模块一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 ...
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctype ...
常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件 bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctyp ...
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1 (完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内 ...
bs4——BeautifulSoup模块：解析网页
解析由requests模块请求到的网页 import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/ ...

随机推荐

python日期时间、时间戳互相转换
日期时间格式字符串转时间戳: 1 import time 2 3 def produce_ctime(stringTime): 4 """ 5 日期时间格式字符串 -&g ...
curl从入门到精通教程
直接看英文版 https://catonmat.net/cookbooks/curl
memoのVIM
必须给今天看到的vim相关的东西记录一下! vim文档中文化 https://github.com/yianwillis/vimcdoc 速查表 https://github.com/skywind3 ...
STM32F103 的 USART5使用
STM32F103zet6 的串口5是UART5 不是 USART5
Python 默认环境
查看pip默认安装目录 python -m site 查看已安装 pip list installed 查看安装位置 pip show PyMySQL
Java集合-LinkedHashSet
LinkedHashSet 重点: LinkedHashSet 不允许重复元素,与 HashSet的区别是:它是有序的 LinkedHashSet 底层结构是数组table + 双向链表 [介绍] ...
WebService接口实际场景应用（一）
背景:要求写一套接口测试工具.过程中遇到了WebService接口的问题,遂写下本篇文章. 阶段问题1: 需要利用数据驱动,然后读取excel中的数据并直接调用.但是webService接口与http ...
CSS尺寸设置的单位：px、rem、em、vw、vh
px:pixel像素的缩写,绝对长度单位,它的大小取决于屏幕的分辨率,是开发网页中常常使用的单位. em:相对长度单位,在 `font-size` 中使用是相对于父元素的字体大小,在其他属性中使用是相 ...
Opengl数学markdown
# opengl数学 $$\begin{Bmatrix} {A_{x}}\\ {A_{y}}\\ {A_{z}}\\ \end{Bmatrix} * \begin{Bmatrix} {B_{x}}\\ ...
pycharm cv2 的方法不能智能提示
按住ctrl,光标放在cv2上,就能跳转到cv2的__init__.py文件全选,按Ctrl+/注释掉所有语句,然后将如下语句添加到__init__.py中 import sys import os ...