BeautifulSoup库

<html>

    <body>

        <p class='title'></p>

    </body>

</html>

BeautifulSoup库是解析、遍历、维护、"标签树"的功能库

对标签的理解

<p class='title'></p>

<!--成对的尖括号和属性-->

导入beautifulsoup库

from bs4 import BeautifulSoup

import bs4

构造解析html的BeautifulSoup对象

from bs4 import BeautifulSoup

soup1=BeautifulSoup("<html>data</html>","html.parser")

soup2=BeautifulSoup(open("D://demo.html"),"html.parser")

BeautifulSoup库对应一个HTML/XML文档的全部内容

四种解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的xml解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'html5lib')	pip install html5lib

五种基本元素

基本元素	说明
Tag	标签，<>开头和</>结尾
Name	标签的名字，格式.name
Attribute	标签的属性，字典形式进行组织,.attrs
NavigatableString	标签内非属性字符串，格式.string
Comment	标签内字符串注释部分

获取页面信息demo

from bs4 import BeautifulSoup

import requests

html=requests.get('http://python123.io/ws/demo.html').text

soup=Beautiful(demo,'html.parser')

tag=soup.a#获取第一个a标签

name=tag.name#'a'，标签的名称

parentName=soup.a.parent.name#获取父亲节点的名称

attr=tag.attrs#属性值，字典

attr['class']#访问对应标签的属性

type(attr)#字典

tag.a.string#标签之间的信息

newsoup=BeautifulSoup('<b><!--This is a comment-->></b><p>

This is not a comment</p>','html.parser')

type(newsoup.b.string)#注释类型

type(newsoup.p.string)#文本类型

BeautifulSoup库的基本元素的更多相关文章

python BeautifulSoup库的基本使用
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以 ...
python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...
Python爬虫利器：BeautifulSoup库
Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...
BeautifulSoup库整理
BeautifulSoup库一.BeautifulSoup库的下载以及使用 1.下载 pip3 install beautifulsoup4 2.使用 improt bs4 二.BeautifulS ...
BeautifulSoup库的安装与使用
BeautifulSoup库的安装 Win平台:“以管理员身份运行” cmd 执行 pip install beautifulsoup4 演示HTML页面地址:http://python123.io/ ...
Python中的BeautifulSoup库简要总结
一.基本元素 BeautifulSoup库是解析.遍历.维护“标签树”的功能库. 引用 from bs4 import BeautifulSoup import bs4 html文档-标签树-Beau ...
requests 库和beautifulsoup库
python 爬虫和解析库的安装:pip install requests; pip install beautifulsoup4 requests 的几个常用方法: requests.reques ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
BeautifulSoup库children(),descendants()方法的使用
BeautifulSoup库children(),descendants()方法的使用示例网站:http://www.pythonscraping.com/pages/page3.html 网站内容 ...

随机推荐

APIview的请求生命周期源码分析
目录 APIview的请求生命周期源码分析请求模块解析模块全局配置解析器局部配置解析器响应模块异常处理模块重写异常处理函数渲染模块 APIview的请求生命周期源码分析 Django项 ...
018：include函数详解
include函数详解(了解——虽然用的很少): include函数的用法,目前有三种使用方式: 1.include(module,namespace=None): module:子url的模块字符串 ...
HTML5测试（二）
HTML5测试(四) 1.input 元素中,下列哪个类型属性定义了输入电话号码的控件? A.mob B.tel C.mobile D.telephone 答案:B 具有 type 属性的 input ...
linux-awk-3
awk 基础语法 Awk –Fs '/pattern/ {action}' input-file (或者) Awk –Fs '{action}' input-file -F 为字段分界符.如果不指定, ...
在vue中结合render函数渲染指定的组件到容器中
1.demo 项目结构: index.html <!DOCTYPE html> <html> <head> <title>标题</title> ...
json 的简单应用
今天做爬虫时的一点盲区 :字符串, 字典,写到同一个文件中.难以利用!比如这样的数据:str = “hi,budy. i like 52pojie!”dirt = {“陈墨”:["男&quo ...
python中继承、定制类
2.4python中继承继承中不要忘了调用super().__init__ def __init__(self,args) super(subclass,self).__init___(args) ...
自定义springmvc参数解析器
实现spring HandlerMethodArgumentResolver接口通过使用@JsonArg自定义注解来解析json数据(通过fastjson的jsonPath),支持多个参数(@Req ...
springboot(五).如何在springboot项目中使用拦截器
在每个项目中,拦截器都是我们经常会去使用的东西,基本上任一一个项目都缺不了拦截器的使用. 如日志记录.登录验证,session验证等,都需要拦截器来拦截URL请求,那springboot中的拦截器是如 ...
vue中的methods，conputed，watcher
todo 1,computed(计算属性) 属性的结果会被缓存, 除非依赖的响应式属性变化才会重新计算, 主要当做属性来使用;(虽然是个方法,但是当做属性使用)(场景:引用一些经过操作的数据) co ...

BeautifulSoup库的基本元素

BeautifulSoup库

对标签的理解

导入beautifulsoup库

构造解析html的BeautifulSoup对象

四种解析器

五种基本元素

获取页面信息demo

BeautifulSoup库的基本元素的更多相关文章

随机推荐

热门专题