BeautifulSoup类

 from bs4 import BeautifulSoup

 soup1 = BeautifulSoup("<html>data</html>","html.parser")

 soup2 = BeautifulSoup(open("D://demo.html"),"html.parser")

BeautifulSoup库解析器：

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'html5lib')	pip install html5lib

BeautifulSoup类的基本元素：

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<></>表明开头和结尾
Name	标签的名字，<p>...</p>的名字是'p',格式：<tag>.name
Attributes	标签的属性，字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性字符串，<>...</>中字符串，格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

 import request

 from bs4 import BeautifulSoup

 r = requests.get('http://www.baidu.com')

 r.raise_for_status()

 r.encoding = r.apparent_encoding

 demo = r.text

 soup = BeautifulSoup(demo,"html.parser")

 print(soup.title)#打印title标签

 tag = soup.a

 prnt(tag)#打印a标签，有时候一个页面里面有很多个a标签，可是这个方法只能获得第一个a标签

 print(soup.a.name)#获得a标签的名字，即a

 print(soup.a.parent.name)#获得a标签的上一级标签

 print(soup.a.parent.parent.nama)#获得a标签的祖父的标签名字

 print(tag.attrs)#获得标签的属性

 print(tag.attrs['class'])#获得a标签的class属性

 print(tag.attrs['href'])#获得a标签的href属性，即相关链接

 print(type(tag.attrs))#获得标签的属性，即字典型<class 'dict'>

 print(type(tag))#获得标签的类型，<class 'bs4.element.Tag'>

 print(soup.a.string)#获得a标签里面的信息

 print(soup.p.string)#获得p标签里面的信息

 print(type(soup.p.string))#获得p标签的string的类型，是NavigavleString型，它可以跨越多个标签层次,<class 'bs4.element.NavigableString'>

 newsoup = BeautifulSoup(demo,"html.parser")#这个HTML里面的p标签里面有一个注释的b标签

 print(newsoup.b.string)#b是一个注释标签，但是打印出来的类型把尖括号去掉了,'This is a Comment'

 #小结：

 #<p class="tittle">...</p>

 #<tag.name   tag.attrs>tag.string</tag.name>

BeautifulSoup类的更多相关文章

关于BeautifulSoup类中的tag对象的string和text属性
<dl> <dt> 今开 </dt><dd class="s-down">3.87</dd> </dl> & ...
爬虫之BeautifulSoup类
安装:pip install BeautifulSoup4 下表列出了主要的解析器,以及它们的优缺点:看个人习惯选取自己喜欢的解析方式 # 获取html代码 import requests r = r ...
requests和BeautifulSoup
一:Requests库 Requests is an elegant and simple HTTP library for Python, built for human beings. 1.安装 ...
Python网络爬虫与信息提取（二）—— BeautifulSoup
BeautifulSoup官方介绍: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 官方 ...
网络爬虫BeautifulSoup库的使用
使用BeautifulSoup库提取HTML页面信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup url='htt ...
python网络爬虫学习笔记（二）BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...
python BeautifulSoup库的基本使用
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以 ...
Beautifulsoup官方文档
Beautiful Soup 中文文档原文 by Leonard Richardson (leonardr@segfault.org) 翻译 by Richie Yan (richieyan@gma ...
python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...

随机推荐

元类实现ORM
1. ORM是什么 ORM 是 python编程语言后端web框架 Django的核心思想,"Object Relational Mapping",即对象-关系映射,简称ORM. ...
java多线程高并发
旭日Follow_24 的CSDN 博客 ,全文地址请点击: https://blog.csdn.net/xuri24/article/details/81293321 “高并发和多线程”总是被一起提 ...
如何给localStorage设置一个过期时间？
原文:如何给localStorage设置一个过期时间? 作者:苏南 - 首席填坑官公众号:IT平头哥联盟 Fundebug经授权转载,版权归原作者所有. 引言这个话题其实在上次分享已经讲过(大佬可 ...
linux 下修改mysql下root 权限来允许远程连接
MySQL默认只允许root帐户在本地登录,如果要在其它机器上连接mysql,必须修改root允许远程连接. 其操作简单,如下所示: 1. 进入mysql: /usr/local/mysql/bin/ ...
undefined 与 xx is not defined 的区别
undefined 与 xx is not defined 的区别 1. undefined 表示是javascript中的一种数据类型,当被定义的变量没有被赋值或者某个被调用的函数没有定义返回值时候 ...
网页导航栏 html + css的代码实现
一般来讲,我们的网页导航栏是这么个模式来构建在结构上:1.首先我们需要给导航栏的div 给个类名一般为nav2.然后就是一个无序表格 3.由于导航栏的文字一般都是链接用来跳转页面要在li里面包含一 ...
[新特性]PeopleTools8.54+:PeopleSoft Application Engine新特性
PeopleTools 8.54 的Application Engine 已经被更新,特别是在AE跟踪设置中有了更多的选项,本文将帮助您了解8.54的新AE特性以及如何使用这些特性. AE trace ...
【爬虫】使用xpath与lxml移除特定标签
移除标签的两种方式可以用xpath定位 for bad in html.xpath(".//table"): bad.getparent().remove(bad) 参考:htt ...
章节七、4-Sets
一.set中不允许存在相同的元素 package ZangJie7; import java.util.ArrayList; import java.util.HashSet; import java ...
HTML+JS+JQuery不可以使用status
可能是JQuery的内部定义了status的原因!在HTML中的元素如果声明了ID为status的话,脚本中是不能访问这个对象的,会成为一个字符串对象.

BeautifulSoup类

BeautifulSoup类的更多相关文章

随机推荐

热门专题