Python beautifulsoup模块

BeautifulSoup中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

BeautifulSoup下载：http://www.crummy.com/software/BeautifulSoup/

解压到任意目录

在cmd控制台下进入目录

执行：python setup.py install即可；

执行完后命令行进入python使用import bs4命令验证是否成功：

假设content变量里存着整个网页的字符串，或者是urllib.request.urlopen(url)的返回值

首先，导入模块，然后把content打包进soup里

from bs4 import BeautifulSoup
soup = BeautifulSoup(content,'html.parser')

1.将字符串以网页的形式美化显示(返回的是一个字符串)

print(soup.prettify())

2.提取出网页中的特定标签

比如：提取出所有<a>标签

soup = BeautifulSoup(content,'html.parser')

print(soup.find_all('a'))

或者提取出所有<a>标签和标签

soup = BeautifulSoup(content,'html.parser')

print(soup.find_all(['a','b']))

或者提取出所有class为t-large的标签（也就是所有类似于的标签）

soup = BeautifulSoup(content,'html.parser')

print(soup.find_all('span','t-large'))

　　或者提取出所有有class属性没有id属性的标签

def has_class_but_no_id(tag):

    return tag.has_attr('class') and not tag.has_attr('id')

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all(has_class_but_no_id))

　　或者提取出所有id等于"link2"的标签

soup = BeautifulSoup(content,'html.parser')

print(soup.find_all(id="link2"))

3.获取一个标签（一个soup对象）的内容.contents

print(soup.contents)

print(soup.a.contents)

4.获取一个标签的class属性（要特别注意返回的是list，哪怕只有一个元素，因为HTML新特性——多属性导致的）

print(soup.a['class'])

5.删除一个标签

>>> soup = BeautifulSoup('<script>a</script>baba<script>b</script>')

>>> [s.extract() for s in soup('script')]

>>> soup

baba

6.删除一个特定class的标签

from bs4 import BeautifulSoup

markup = '<a>This is not div <div class="1">This is div 1</div><div class="2">This is div 2</div></a>'

soup = BeautifulSoup(markup,"html.parser")

a_tag = soup

soup.find('div',class_='').decompose()

print a_tag

#<a>This is not div <div class="1">This is div 1</div></a>

7.注意在beautifulsoup中， 标签写成

8.提取一个soup里的所有字符串

for string in soup.strings:

    print(repr(string))

提取一个soup里的非空行非空白字符串

for string in soup.stripped_strings:

    print(repr(string))

Python beautifulsoup模块的更多相关文章

python BeautifulSoup模块的简要介绍
常用介绍: pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(ht ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
python中BeautifulSoup模块
BeautifulSoup模块是干嘛的? 答:通过html标签去快速匹配标签中的内容.效率相对比正则会好的多.效率跟xpath模块应该差不多. 一:解析器: BeautifulSoup(html,&q ...
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1 (完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内 ...
Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
python 常用模块（转载）
转载地址:http://codeweblog.com/python-%e5%b8%b8%e7%94%a8%e6%a8%a1%e5%9d%97/ adodb:我们领导推荐的数据库连接组件bsddb3:B ...
Python - BeautifulSoup 安装
BeautifulSoup 3.x 1. 下载 BeautifulSoup. [huey@huey-K42JE python]$ wget http://www.crummy.com/software ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...

随机推荐

《分销系统-原创第一章》之“多用户角色权限访问模块问题”的解决思路（位运算 + ActionFilterAttribute ）
此项目需求就是根据给用户分配的权限,进行相应的权限模块浏览功能,因为项目不是很大,所以权限没有去用一张表去存,我的解决思路如下,希望大家给点建议. 数据库用户表结构如下: 数据库表梳理: BankUs ...
UVA 350 Pseudo-Random Numbers 伪随机数（简单）
题意:给定Z, I, M, L,根据随机数产生式k=(Z*L+I)%M.但是L表示的是上一个产生的数,比如根据产生式产生了序列{2,5,4,3}那么5是由L=2算来的,4由L=5算来的..第1个所产 ...
图文详解YUV420数据格式
YUV格式有两大类:planar和packed.对于planar的YUV格式,先连续存储所有像素点的Y,紧接着存储所有像素点的U,随后是所有像素点的V.对于packed的YUV格式,每个像素点的Y,U ...
C# chart绑定数据的方式整理
C#chart 画图曲线的条数决定是你的数据源也就Series.Series是对象你动态创建就可以了. 一.数组, List 等简单Collection类型的方式 Series s1= new Se ...
【Android】以SimpleAdapter做适配器的ListView和GridView
SimpleAdapter介绍 SimpleAdapter是一个简单的适配器,可以将静态数据映射到XML文件中定义好的视图. 构造函数 public SimpleAdapter (Context co ...
网站eurl.axd报错的解决方法
网站eurl.axd报错的解决方法错误发生的原因是当ASP.NET检测到Web站点配置为使用ASP.NET 4.0,本地ASP.NET 4.0 的组件会传递一个不能扩展的 URL到ASP.NET的管 ...
【LeetCode 99】Recover Binary Search Tree
Two elements of a binary search tree (BST) are swapped by mistake. Recover the tree without changing ...
Authentication with SignalR and OAuth Bearer Token
Authentication with SignalR and OAuth Bearer Token Authenticating connections to SignalR is not as e ...
ubuntu 下数学库编译链接时找不到各种数学问题解决方法 can not fon atan 等等
解决参考 http://askubuntu.com/questions/190246/ld-cannot-find-math-library you should use -lm at the end ...
3D 矩阵旋转
如图,需要将点(向量) v(x, y, 0) 绕 z 轴旋转角度 θ,求旋转后的点(向量) v'(x', y', 0). 大概思路: 1. 将 v(x, y, 0) 分解, v(x, y, 0) = ...

Python beautifulsoup模块

Python beautifulsoup模块的更多相关文章

随机推荐

热门专题