lxml库和BeautifulSoup库常用点小结

算是本人的学习笔记吧，仅供个人学习使用。

以下内容摘自《Python3网络爬虫开发实战--崔庆才著》

1.lxml库

XPath 常用规则：

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

具体阐述：

目的	示例	含义
所有节点	//li	以//开头，表示获取所有li节点
子节点选取	//li	获取所有li节点
	//li/a	获取所有li节点的所有直接a子节点
	//li//a	获取li节点下的所有子孙a节点
	//a[@href="link4.html"]	获取href属性为link4.html的a节点
父节点选取	//a[@href="link4.html"]/..	获取href属性为link4.html的a节点的父节点
文本获取	text()	获取节点内部的文本
	//li[@class="item-0"]/text()	选取class属性为item-0的li节点的直接子节点内部的文本
	//li[@class="item-0"]//text()	选取class属性为item-0的li节点的子孙节点内部的文本
属性获取	@	获取节点的属性
	//li/a/@href	获取所有li节点的直接子节点a的href属性，返回内容可能为"link4.html"
属性多值匹配	contains(classname,classvalue)方法	第一个参数传入属性名称，第二个参数传入属性值
	//li[contains(@class,"li")]/a/text()	获取class属性值包含"li"的li节点的直接子节点a内部的文本
多属性匹配	and运算符	根据多个属性确定一个节点
	//li[contains(@class,"li") and @name="item"]/a/text()	需要同时根据class和name属性的值来确定li节点

2.BeautifulSoup库的方法选择器

载入库

from bs4 import BeautifulSoup

soup=BeautifulSoup(html,"lxml") #进行BeautifulSoup对象的初始化

find_all(name,attrs,recursive,text,**kwargs)：查询所有符合条件的元素；find()返回的是第一个匹配的元素

参数	作用	示例
name	根据节点名查询元素	`soup.fina_all(name="ul")` #查询所有的ul节点
attrs	根据属性查询	`soup.find_all(attrs={'id':'list-1'}))` #查询id属性值为list-1的节点
text	匹配节点的文本	`soup.find_all(text=re.compile('link'))` #返回所有匹配正则表达式的节点的文本组成的列表

lxml库和BeautifulSoup库常用点小结的更多相关文章

requests 库和beautifulsoup库
python 爬虫和解析库的安装:pip install requests; pip install beautifulsoup4 requests 的几个常用方法: requests.reques ...
python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...
BeautifulSoup库整理
BeautifulSoup库一.BeautifulSoup库的下载以及使用 1.下载 pip3 install beautifulsoup4 2.使用 improt bs4 二.BeautifulS ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
【Python】在Pycharm中安装爬虫库requests , BeautifulSoup , lxml 的解决方法
BeautifulSoup在学习Python过程中可能需要用到一些爬虫库例如:requests BeautifulSoup和lxml库前面的两个库,用Pychram都可以通过 File--> ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
beautifulsoup库使用
介绍与安装 Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.BeautifulSoup 用来解析 HTML 比较简单, API非常人 ...
BeautifulSoup库的使用
1.简介 BeautifulSoup库也是一个HTML/XML的解析器,其使用起来很简单,但是其实解析网站用xpath和re已经足矣,这个库其实很少用到.因为其占用内存资源还是比xpath更高. '' ...
BeautifulSoup库
'''灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便的实现网页信息的提取.''' BeautifulSoup库包含的一些解析库: 解析库使用方法优势劣势 py ...
python BeautifulSoup库的基本使用
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以 ...

随机推荐

vue学习笔记：vue.js基础语法
一.VUE 概述 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架.与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用.Vue 的核心库只关注视图层,不仅 ...
C++跨平台类库导出宏
// Macros.h #pragma once #if defined(__GNUC__) #define _DEPRECATED_ __attribute__((deprecated)) #def ...
一个方便IO单元测试的C#扩展库
对于我们.Net程序员,System.Web.Abstractions我们都非常熟悉,主要作用于Web可以实现单元测试,他是在.Net framework 3.5 sp1开始引入的,很好的解决项目表示 ...
洛谷 P6021 洪水
题意给定一棵有 \(n\) 个结点的树,点有点权:一共有 \(m\) 次操作,每次操作包括以下两种: 在一个点的子树中删去一些结点,使得该子树中所有叶结点与该子树的根结点不连通,并且使删去的点的点权 ...
WeNet调试
运行: 参照:markdown 问题: CMake Error: Error: generator : Ninja Ninja:提高构建速度 wenet/runtime/libtorch/fc_bas ...
react 04 生命周期
生命周期的三个状态 mounting : 组件插入到dom updating: 将数据更新到dom unmounting:将组件移除dom 生命周期的钩子函数 ComponentWillMount: ...
vue样式穿透滚动条隐藏原生样式修改
样式穿透:deep,否则可能不能覆盖原有样式,vue2使用/v-deep/或者::v-deep,或者取消scoped,但不推荐,因为会影响到其他页面样式 <style lang="sc ...
Software_programming_Config_HOCON
05:09:37 HOCON github https://github.com/lightbend/config/blob/master/HOCON.md 相较于 XML, JSON, YAML 更 ...
CentOS 7.9 环境下构建 Python 3.9
sudo yum -y update sudo yum -y install yum-utils sudo yum-builddep -y python3 curl -O https://www.py ...
MSSQL执行超大.sql脚本
1.打开mssql安装路径:找到Microsoft SQL Server Management Studio的图标,点击右键属性>打开文件位置 2.在安装路径下打开cmd控制台 3.输入命令: ...

lxml库和BeautifulSoup库常用点小结

lxml库和BeautifulSoup库常用点小结的更多相关文章

随机推荐

热门专题