BS4便捷查询
- 属性

BS4便捷查询

准备：

import requests, re

from bs4 import BeautifulSoup, NavigableString

URL = 'www.XXX.com'

res = requests.get(URL)

soup = BeautifulSoup(res.text, 'lxml')  # 使用lxml解析器需要安装C语言库，不想装可以用内置的html.parser， 当然也有其他选项：["lxml-xml"] / "xml" /  "html5lib"

属性

子节点

soup.contents

soup.children 

soup.descendants # 所有子节点

父节点

soup.parent

soup.parents

兄弟节点

soup.next_sibling

soup.next_siblings

soup.previous_sibling

soup.previous_siblings

soup.next_element

soup.next_elements

soup.previous_element

soup.previous_elements

格式化输出

soup.prettify()

str(soup)

soup.get_text('|', strip=True) # '|'是分隔符， strip去空白

soup.text   # 也可以使用 get_text()

soup.string   # 如果只有一个，返回包含的文本信息

soup.strings  # 如果有多个子节点，则返回 None

soup.stripped_strings  # 去除多余空格空行

搜索文档树

soup.find()

soup.find_all(['a','b']) # 查找这两个标签

soup.find_all(re.complie("^b"))  # 过滤器

soup.find_all(True) # 所有Tag，不会返回字符串节点

soup.find_all(匹配方法)  # 自定义方法 teturn True | False

soup.find_all(name, attrs, recursive, string, **kwargs)

# name : tag 的 name 如 ： img

# attrs : tag 的 属性 如 ： class

# BS4会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False

# string ： 匹配包含的文本信息

# kwargs : 如 id="123"

# limit : 限制最多返回多少个

soup.title(string=True) # 等同于soup.title.find_all(string=True)

soup.find_parent()

soup.find_parents()

...

soup.select(selector)  # selector : 标签选择器

soup.select_one()

修改文档树

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')

tag = soup.b

tag.name = "div"

tag["class"] = "cls"

tag.string = "New String"

tag.append("str")

new_tag = soup.new_tag("tag_name", href="http://...")

tag.append(new_tag)

tag.insert(index, "str")

tag.insert_before("str" | tag)

tag.insert_after()

tag.clear() # 清楚标签内文本

tag.extract()      # 将当前tag移除文档树，并作结果返回

tag.decompose()    # 将当前tag移除文档树，并完全销毁

tag.replace_with() # 将当前tag移除文档树，并作结果返回 且用新的节点替换

tag.wrap(soup.new_tag("div")) # 用div包装

tag.a.unwrap() # 解包，移除tag内的所有a标签，并返回

Beautiful Soup 4 方法便捷查询的更多相关文章

转：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup教程转
Python中使用Beautiful Soup库的超详细教程转 http://www.jb51.net/article/65287.htm 作者:崔庆才字体:[增加减小] 类型:转载时间:20 ...
python中html解析-Beautiful Soup
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
Python之Beautiful Soup的用法
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
Beautiful Soup 学习手册
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式快速开始下面的一段HTML代码将作为例 ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...
python Beautiful Soup的使用
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫B ...
Beautiful Soup 4.2.0 文档
Beautiful Soup 4.2.0 文档 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方 ...
爬虫---Beautiful Soup 初始
我们在工作中,都会听说过爬虫,那么什么是爬虫呢? 什么是网络爬虫爬虫基本原理所谓网络爬虫就是一个自动化数据采集工具,你只要告诉它要采集哪些数据,丢给它一个 URL,就能自动地抓取数据了.其背后的基 ...

随机推荐

【译】Introducing YARP Preview 1
1 YARP YARP是一个项目,用于创建反向代理服务器.它开始于我们注意到来自微软内部团队的一系列问题.他们要么为其服务构建反向代理,要么询问 API 和用于构建 API 的技术.因此我们决定让他们 ...
[转载]win&office 激活教程,详细
因为可能的版权&法律问题, 我也为了自我保全哈~ 不能直接转原文,详见官方文档 https://v0v.bid/kms.html https://v0v.bid 任何问题请联系作者欢迎分享
Linux服务器安装python3.6
CentOS 7上默认安装的python版本是2.7.5,系统自带的旧版本python被系统很多其他软件环境依赖,因此不能卸载原Python,直接选择Python3.6.5进行全新安装. 1 安装Py ...
恕我直言你可能真的不会java第1篇：lambda表达式会用了么？
本文配套教学视频:B站观看地址在本号之前写过的一些文章中,笔者使用了lambda表达式语法,一些读者反映说代码看不懂.本以为java 13都已经出了,java 8中最重要特性lambda表达式大家应 ...
嵌入式QT开发视频教程-供参考
免费嵌入式QT开发视频教程 https://pan.baidu.com/s/1bprhJ2Z QT初级到高级编程视频教程--丁林松.rarhttp://www.jisoupan.com/share/2 ...
swiper 实现滑动解锁
最近项目中有这样一个需求,研究了两种写法一个原生,一个使用框架原生写法: <!DOCTYPE html> <html> <head> <meta chars ...
RocketMQ(1)---架构原理及环境搭建
一.架构简述 RocketMQ阿里开源的一个分布式消息传递和流媒体平台,具有低延迟,高性能和可靠性, 万亿级容量和灵活的可伸缩性.跟其它中间件相比,RocketMQ的特点是纯JAVA实现,在发生宕机和 ...
Python3-socket模块-低级网络接口
Python3中的socket模块提供了对访问套接字(socket)的接口 socket可以理解为是一个管道,通过这个管道可以使两个不同的程序通过网络进行通信,在Python中的scoket()函数可 ...
Vue基础篇 (1) —— Vue-Router的使用
Vue-Cli中Vue-Router的使用一.创建vue-cli的项目 npm create myproject vue create 为vue.js 3.0构建项目的命令,2.0版本可以通过vue ...
Flutter开发初探
目前跨端开发比较热门的就是 React Native 和 Flutter 了,到底该选哪门技术似乎也快成了大前端圈的一个热门话题.对于web前端来说,基于web生态的 React Native 应该是 ...

Beautiful Soup 4 方法便捷查询

BS4便捷查询

属性

子节点

父节点

兄弟节点

格式化输出

搜索文档树

修改文档树

Beautiful Soup 4 方法便捷查询的更多相关文章

随机推荐

热门专题