简介：

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

使用

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="sister"><b>$37</b></p>

<p class="story" id="p">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" >Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

生成beautifulSoup对象：

方式一:

soup = BeautifulSoup(html_doc, "lxml")

print(soup)

方式二:

soup = BeautifulSoup(open('a.html'), "lxml")

print(soup)

soup = BeautifulSoup(html_doc, "lxml")

常用获取方法：

自动补全

soup.prettify()

print(soup.p)

获取p标签下的b标签

print(soup.p.b)

 获取p标签下的b标签下的文本

print(soup.p.b.text)

找body内的所有标签

print(soup.body.contents)

获取p标签属性

print(soup.p.attrs)

获取p标签的孩子， 返回一个iter对象

print(list(soup.p.children))

获取p标签的子子孙孙

print(list(soup.p.descendants))

获取p标签的爸爸

print(soup.p.parent)

获取p标签的爸爸， 获取p标签的爸爸的爸爸， 获取p标签的爸爸的爸爸的爸爸

print(list(soup.p.parents))

获取a标签内的href属性

print(soup.a.attrs['href'])

五种过滤器：

搜索文档树
1.文本查找

通过文本查找p标签

print(soup.find_all(name='p'))

通过文本查找文本为$37的p标签

print(soup.find_all(name='p', text='$37'))

通过文本查找id为link3的a标签

print(soup.find_all(name='a', attrs={"id": "link3"}))

2.正则查找

通过正则查找所有p标签

import re

print(soup.find_all(name=re.compile("^p")))

通过正则查找所有a标签

print(soup.find_all(name=re.compile("^a")))

通过正则查找所有id为link的p标签

print(soup.find_all(name="p", attrs={"id": re.compile("^link")}))

通过正则查找所有id为link的a标签

print(soup.find_all(name="a", attrs={"id": re.compile("^link")}))

通过正则查找所有class为story的p标签

print(soup.find_all(name="p", attrs={"class": re.compile("story")}))

3.列表

通过列表查找所有的a、p标签

print(soup.find_all(name=['p', 'a']))

通过列表查找所有的正则匹配有Elsie的文本

print(soup.find_all(text=[re.compile("Elsie")]))

通过列表查找所有的正则匹配有Elsie的文本的a标签

print(soup.find_all(name=['a'], text=[re.compile("Elsie")])

4.True

获取所有标签

print(soup.find_all(name=True))

获取所有有id的a标签

print(soup.find_all(name="a", attrs={"id": True}))

# 获取所有有class的a标签

print(soup.find_all(name="a", attrs={"class": True}))

5.方法

def have_id_not_class(a):

# if tag.has_attr('id') and not tag.has_attr('class'):

# return tag

if a.has_attr('class') and not a.has_attr('id'):

return a

通过方法查找所有有class没id的标签

print(soup.find_all(have_id_not_class))

BeautifulSoup解析模块的更多相关文章

Python爬虫 | Beautifulsoup解析html页面
引入大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,在聚焦爬虫中使用数据解析.所以,我们的数据爬取的流程为: 指定url 基于reque ...
浩哥解析MyBatis源码（十一）——Parsing解析模块之通用标记解析器（GenericTokenParser）与标记处理器（TokenHandler）
原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/6724223.html 1.回顾上面的几篇解析了类型模块,在MyBatis中类型模块包含的 ...
python命令行参数解析模块argparse和docopt
http://blog.csdn.net/pipisorry/article/details/53046471 还有其他两个模块实现这一功能,getopt(等同于C语言中的getopt())和弃用的o ...
MyBatis源码解析（十一）——Parsing解析模块之通用标记解析器（GenericTokenParser）与标记处理器（TokenHandler）
原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/6724223.html 1.回顾上面的几篇解析了类型模块,在MyBatis中类型模块包含的 ...
BeautifulSoup解析器的选择
BeautifulSoup解析器在我们使用BeautifulSoup的时候,选择怎样的解析器是至关重要的.使用不同的解析器有可能会出现不同的结果! 今天遇到一个坑,在解析某html的时候.使用htm ...
python命令行解析模块--argparse
python命令行解析模块--argparse 目录简介详解ArgumentParser方法详解add_argument方法参考文档: https://www.jianshu.com/p/aa ...
Python3.x的BeautifulSoup解析html常用函数
Python3.x的BeautifulSoup解析html常用函数 1,初始化: soup = BeautifulSoup(html) # html为html源代码字符串,type(html) == ...
Python3.x：BeautifulSoup()解析网页内容出现乱码
Python3.x:BeautifulSoup()解析网页内容出现乱码问题: start_html = requests.get(all_url, headers=Hostreferer) Beau ...
$命令行参数解析模块argparse的用法
argparse是python内置的命令行参数解析模块,可以用来为程序配置功能丰富的命令行参数,方便使用,本文总结一下其基本用法. 测试脚本把以下脚本存在argtest.py文件中: # codin ...

随机推荐

Blink: How Alibaba Uses Apache Flink
This is a guest post from Xiaowei Jiang, Senior Director of Alibaba’s search infrastructure team. Th ...
容易被误读的IOSTAT
iostat(1)是在Linux系统上查看I/O性能最基本的工具,然而对于那些熟悉其它UNIX系统的人来说它是很容易被误读的.比如在HP-UX上 avserv(相当于Linux上的 svctm)是最重 ...
解析Object.defineProperty的作用
对象是由多个名/值对组成的无序的集合.对象中每个属性对应任意类型的值. 定义对象可以使用构造函数或字面量的形式: 除了以上添加属性的方式,还可以使用Object.defineProperty定义新属性 ...
java 下载word freemaker
网上有很多优质的博文了,这里这篇博客就是记录一下字自己,写demo的历程,坑和收获在java程序中下载word 有6中方式,此处省略(嘻嘻),不过大家公认的是 freemaker 和 PageOff ...
day4-python基础-数据类型
今日份小技巧 a =3 b=4, 最快将a和b值替换的方法为 a,b =b,a 今日内容 1. 字典 2. 集合 3.hash 4.基本数据类型总结 5.循环之for循环 6.range的使用 7.深 ...
8-过滤器Filter和监听器Listener
一.web监听器:监听特殊事件的发生1.监听实现步骤 a.写一个java类,实现特定的接口,重写相关方法 b.在web.xml中,牌配置 <listener> <listener-c ...
【Topcoder 10689】TheSoccerDivOne
题意:给$n$个队伍的积分,它们要踢足球,每个队伍剩下4场没有踢. 问踢完后$0$队伍最高排名. 思路:首先想了贪心,可惜不对. 那么老实dp. 首先:每个队伍具体和哪个人踢了没有关系. 那么 ...
WebApi的自定义Filter
using System; using System.Collections.Generic; using System.Linq; using System.Net.Http; using Syst ...
すぬけ君の塗り絵 / Snuke's Coloring AtCoder - 2068 （思维，排序，贡献）
Problem Statement We have a grid with H rows and W columns. At first, all cells were painted white. ...
Shell命令-文件及目录操作之pwd、rm
文件及目录操作 - pwd.rm 1.pwd:显示当前所在位置信息 pwd命令的功能说明 pwd命令用于显示当前工作目录的绝对路径,以便在各个目录间来回切换. pwd命令的语法格式 pwd [OPTI ...

BeautifulSoup解析模块

简介：

使用

生成beautifulSoup对象：

常用获取方法：

五种过滤器：

BeautifulSoup解析模块的更多相关文章

随机推荐

热门专题