bs4-BeautifulSoup

1.BeautifulSoup下载

pip install BeautifulSoup4 或者 pip install bs4

pip install lxml　　　　　　#解析器

2.BeautifulSoup支持的解析器

解析器	使用方法	优势	劣势
python标准解析库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	`BeautifulSoup(markup, ["lxml-xml"])` `BeautifulSoup(markup, "xml")`	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	`BeautifulSoup(markup, "html5lib")`	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

3.BeautifulSoup常用方法

 soup = BeautifulSoup(目标字符串,'解析器')

 #根据标签名查找

 soup.a  #只能查找得到第一个符合要求的节点,是一个对象，bs4自己封装类的对象

 #获取属性

 soup.a.attrs   #获取得到所有属性和值，是一个字典

 soup.a.attrs['href']  #获取指定的属性值

 soup.a['href'] #简写形式

 #获取文本(如果标签里面还有标签,那么string为空)

 soup.a.string

 soup.a.text

 soup.a.get_text()

 #DOM树操作

 #子节点

 #.content返回列表 .children返回生成器

 #所有子孙节点

 #.descendants生成器

 #父节点

 #.parent

 #全部父节点

 #.parents生成器

 #兄弟节点

 #.next_silbling .previous_silbling

 #兄弟节点可以理解为和本节点在统一级的节点

 #全部兄弟节点

 #.next_silblings .previous_silblings生成器

 #前后节点

 #.next_element .previous_element

 #与兄弟界节点不同，并不针对与兄弟节点，而是再有节点，部分层次

 #find_all方法

 #返回的是一个列表，列表里面都是节点对象

 soup.find_all('a')#找到所有a

 soup.find_all('a', limit=2)# 提取符合要求的前两个a

 soup.find_all(['a', 'li'])# 查找得到所有的a和li

 soup.find_all('a', class_='xxx')#查找得到所有class是xxx的a

 soup.find_all('li', class_=re.compile(r'^xiao'))#查找所有的class以xiao开头的li标签

官方帮助文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

bs4-BeautifulSoup的更多相关文章

关于爬虫中常见的两个网页解析工具的分析 —— lxml / xpath 与 bs4 / BeautifulSoup
http://www.cnblogs.com/binye-typing/p/6656595.html 读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可 ...
bs4.BeautifulSoup的基础用法
导入模块 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,"html.parser") 下面看下常见的用法 ...
python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）
结合个人需求,从某个网站获取一些数据,发现网页链接是隐藏的,需要通过浏览器看后面的代码来获取真实的链接. 下面这个案例,直接是从真实的链接中爬去数据. 此外,发现用pandas的read_html不能 ...
bs4——BeautifulSoup模块：解析网页
解析由requests模块请求到的网页 import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/ ...
python bs4 BeautifulSoup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫. 安装命令:pip in ...
Bs4 BeautifulSoup取值
原文网址:https://blog.csdn.net/u010244522/article/details/79627073 从网页获取HTML数据后,获取对应标签.属性的值取值方法主要有以下几种: ...
python库：bs4，BeautifulSoup库、Requests库
Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Beautiful Soup 4.2.0 文档 htt ...
使用beautifulsoup与requests爬取数据
1.安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2.常见问题 1> lxml安装问题如果遇到lxm ...
【爬虫】python之BeautifulSoup用法
1.爬虫网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.通过分析和过滤HTML 代码,实现对图片.文字等资源的获取. 2.pytho ...
Python -- BeautifulSoup的学习使用
BeautifulSoup4.3 的使用下载和安装 # 下载 http://www.crummy.com/software/BeautifulSoup/bs4/download/ # 解压后使用r ...

随机推荐

《ElasticSearch6.x实战教程》之父-子关系文档
第七章-父-子关系文档打虎亲兄弟,上阵父子兵. 本章作为复杂搜索的铺垫,介绍父子文档是为了更好的介绍复杂场景下的ES操作. 在非关系型数据库数据库中,我们常常会有表与表的关联查询.例如学生表和成绩表 ...
HTTPS协议学习笔记
在前一段时间准备面试的时候,面试官反复提到了HTTPS这个协议.我只是单纯的知道,HTTPS是安全的应用层协议是HTTP更安全的版本,通过对称密钥加密.但是具体的其他的,可能我不太了解.今天就专门抽 ...
Excel催化剂开源第29波-在Winform上使用富文本编辑器控件
富文本编辑器,一般都是BS架构专利一般,好像百度有一个开源的比较出名,但无奈这些都只能用在JS上,在BS网页端开发上使用.像Winform开发的VSTO,只能羡慕的份.和一般Winform上用的Ric ...
Spring_简单入门（学习笔记1）
Spring是一个分层的JavaSE/EE full-stack(一站式) 轻量级开源框架. 具体介绍参考一:IoC(Inversion of Control)控制反转,将创建对象实例反转给spri ...
fjnu2016-2017 低程 PROBLEM C 汪老司机
动态规划方程 #include <iostream>#include <iomanip>#include <cmath>#include <algorith ...
更简洁的log4j日志输出
参考博客:https://blog.csdn.net/guoquanyou/article/details/5689652 只输出到文本,不输出到控制台 log4j.rootLogger=debug, ...
林大妈的JavaScript基础知识（二）：编写JavaScript代码前的一些简单工作
在介绍JavaScript语法前,我们需要知道,学习语法必须要多利用手敲代码来巩固记忆.因此,由于JavaScript的特性,它不能像C++和Java一样独立地编译及运行,我们需要在调试运行JavaS ...
isMemberOfClass、isKindOfClass原理分析
isMemberOfClass - 调用者必须是传入的类的实例对象才返回YES- 判断调用者是否是传入对象的实例,别弄反了,如 [s1 isMemberOfClass:p1] ,意思是s1是否是p1的 ...
git删除分支步骤
在本地删除一个分支: git branch -D <本地分支> 在github远程端删除一个分支: git push origin :<远程端分支> 唯一不同的就是冒号代表了删 ...
WebGL简易教程(一)：第一个简单示例
目录 1. 概述 2. 示例:绘制一个点 1) HelloPoint1.html 2) HelloPoint1.js (1) 准备工作 (2) 着色器 (3) 顶点着色器 (4) 片元着色器 (5) ...

bs4-BeautifulSoup

bs4-BeautifulSoup的更多相关文章

随机推荐

热门专题