Beautiful Soup 4.2.0

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式

快速开始

pip install beautifulsoup4

下面的一段HTML代码将作为例子

content="""

<div id="post_detail">

	<div class="post">

		<h2>

			<a id="cb_post_title_url" href="http://www.cnblogs.com/Mainz/archive/2009/03/14/1411359.html">实用正则表达式匹配和替换</a>

		</h2>

		<div class="postText"><div id="cnblogs_post_body" class="blogpost-body"><p>正则表达式非常有用，查找、匹配、处理字符串、替换和转换字符串，输入输出等。而且各种语言都支持，例如.NET正则库，JDK正则包, Perl, JavaScript等各种脚本语言都支持正则表达式。下面整理一些常用的正则表达式。</p>

<table style="width: 710px;" border="1" cellspacing="0" cellpadding="2">

"""

from bs4 import BeautifulSoup

soup=BeautifulSoup(content,'html.parser')

从文档中找到所有<p>标签的链接

tag=soup.find(name="p")

print(tag)

从文档中找到所有<a>标签的链接:

for link in soup.find_all('a'):

    print(link.get('href'))

从文档中获取所有文字内容:

print(soup.get_text())    

每个tag都有自己的名字,通过 .name 来获取:

tag.name = "div"

tag.name

一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

tag['class']

也可以直接”点”取属性, 比如: .attrs

tag.attrs

tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样

tag['class'] = 'post'

tag['id'] = 1

tag

# <div class="post" id="1">Extremely bold</div>

del tag['class']

del tag['id']

tag

# <div>Extremely bold</div>

tag['class']

# KeyError: 'class'

print(tag.get('class'))

多值属性

Beautiful Soup 4.2.0的更多相关文章

Beautiful Soup 4.2.0 文档
Beautiful Soup 4.2.0 文档 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方 ...
Beautiful Soup 4.4.0 基本使用方法
Beautiful Soup 4.4.0 基本使用方法Beautiful Soup 安装 pip install beautifulsoup4 标准库有html.parser解析器但速度不是很快一般 ...
吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup 4.2.0 doc_tag、Name、Attributes、多值属性
找到了bs4的中文文档,对昨天爬虫程序里所涉及的bs4库进行学习.这篇代码涉及到tag.Name.Attributes以及多值属性. ''' 对象的种类 Beautiful Soup将复杂HTML文档 ...
Beautiful Soup 4.2.0 文档（一）
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
转：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup 中文文档
Beautiful Soup 3.0 中文文档说明: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html Be ...
python标准库Beautiful Soup与MongoDb爬喜马拉雅电台的总结
Beautiful Soup标准库是一个可以从HTML/XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup将会节省数小 ...
Beautiful Soup 学习手册
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式快速开始下面的一段HTML代码将作为例 ...

随机推荐

QT (QSS) 编程， QSS语法概述。。setstylesheet
http://www.cnblogs.com/davesla/archive/2011/01/30/1947928.html 转载] QT皮肤(QSS)编程借用css 的灵感, Qt也支持Qt自己的 ...
3Sum,4Sum问题
//三数和为0的问题.要求去重,并且输出数字有序.public List<List<Integer>> threeSum(int[] nums) { Arrays.sort(n ...
浏览器指纹--纯js拿到浏览器指纹
序言: 前两天有接收到一下问题,如何拿到浏览器指纹中的位置信息和CPU,在这之前完全没有接触过浏览器指纹,抱着学习和好奇的心态,就去网上查了大量的资料.下面我将学习过程和成果贴出来给大家. 步骤 1. ...
jspxcms笔记三
首页 index.html site :站点对象栏目 cover.html list.html node :栏目对象, text :正文详细 info.html node :栏目对象, info :文 ...
php get_magic_quotes_gpc()
magic_quotes_gpc函数在php中的作用是判断解析用户输入的数据,如包括有:post.get.cookie过来的数据增加转义字符“\”,以确保这些数据不会引起程序异常,特别是数据库语句因为 ...
智课雅思词汇---二十、前缀syn-sym-syl是什么意思
智课雅思词汇---二十.前缀syn-sym-syl是什么意思一.总结一句话总结:l,m,n是可以互换前缀:sy-, syn-, sym-, syl- [词根含义]:共同,同时 [词根来源]:(s ...
mac系统卸载mono
官方页面:http://www.mono-project.com/docs/about-mono/supported-platforms/osx/#uninstalling-mono-on-mac-o ...
你妹的IOS7
第一时间升级到了IOS7,想体验一把,界面卡就算了,付费的软件闪退也就罢了,耗电发烫也算球了!你妹的,连个电话都打不了了,刚说几句话就黑屏了,要你还有啥用了,果断降级,IOS6已经下载完了,刷机去!
动态加载CSS，JS文件
var Head = document.getElementsByTagName('head')[0],style = document.createElement('style'); //文件全部加 ...
hibernate.spring.xml
 <!-- <bean id="dataSource" class="com.mchange.v2. ...

Beautiful Soup 4.2.0

Beautiful Soup 4.2.0的更多相关文章

随机推荐

热门专题