《爬虫学习》（四）（使用lxml,bs4库以及正则表达式解析数据）

1.XPath：

XPath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

工具：扩展商店里搜索：XPath Helper（我是QQ浏览器）

XPath的语法:

使用举例：

2. lxml库：

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据

下载：pip install lxml

基本使用：在lxml中使用xpath语法

3.bs4库的使用：

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。

安装：pip install bs4

bs4的简单使用：

from bs4 import BeautifulSoup

html = """

一段HTML代码

"""

#创建 Beautiful Soup 对象

# 使用lxml来进行解析

soup = BeautifulSoup(html,"lxml")

print(soup.prettify())

举例使用：

# bs4库的使用

# from bs4 import BeautifulSoup

# html = 'xxxx'

# bs4底层由lxml实现

# bs = BeautifulSoup(html, 'lxml')

# .获取所有span标签

# spans = bs.find_all('span')

# for span in spans:

#     print(span)

# .获取前二个span标签(limit=)中的第二个span标签([])   下标：从0开始

# span = bs.find_all('span', limit=)[]

# print(span)

# .获取所有dl中class等于bottom的标签

# dls = bs.find_all('dl', class_='bottom')

# for dl in dls:

#     print(dl)

# 或者使用attrs标签（attrs=一个字典）

# dls = bs.find_all('dl', attrs={'class':'bottom'})

# for dl in dls:

#     print(dl)

# .获取所有a标签的href属性

# aList = bs.find_all('a')

# for a in aList:

#     # .使用下标方法（推荐）

#     href = a['href']

#     # .使用attrs方式

#     href2 = a.attrs['href']

#     print(href2)

4.还有一种方法解析数据：正则表达式

以下内容从别人博客转载，方便复习

《爬虫学习》（四）（使用lxml,bs4库以及正则表达式解析数据）的更多相关文章

爬虫（四）：BeautifulSoup库的使用
一:beautifulsoup简介 beautifulsoup是一个非常强大的工具,爬虫利器. beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析 ...
爬虫学习（十一）——bs4基础学习
ba4的介绍: bs4是第三方提供的库,可以将网页生成一个对象,这个网页对象有一些函数和属性,可以快捷的获取网页中的内容和标签 lxml的介绍 lxml是一个文件的解释器,python自带的解释器是: ...
Python爬虫学习==>第八章：Requests库详解
学习目的: request库比urllib库使用更加简洁,且更方便. 正式步骤 Step1:什么是requests requests是用Python语言编写,基于urllib,采用Apache2 Li ...
python之爬虫（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
(转)Python爬虫学习笔记（2）：Python正则表达式指南
以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 1. 正则表达式基础 1.1. 简单介绍正则表达式并 ...
一只简单的网络爬虫（基于linux C/C++）————利用正则表达式解析页面
我们向一个HTTP的服务器发送HTTP的请求后,服务器会返回可能一个HTML页面(当然也可以是其他的资源),我们可以利用返回的HTML页面,在其中寻找其他的Url,例如我们可以这样在浏览器上查看一下H ...
一起来开发Android的天气软件（四）——使用Gson解析数据
离上一篇文章过去才4.5天,我们赶紧趁热打铁继续完毕该系列的天气软件的开发. 承接上一章的内容使用Volley实现网络的通信.返回给我们的是这一串Json数据{"weatherinfo&qu ...
python网络爬虫学习笔记（二）BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...

随机推荐

AutoHotKey 用打码的快捷键
本文告诉大家如何使用 AutoHotKey 将 - 键默认输入的时候是下划线,因为使用下划线在写代码的时候是用在私有字段,而 - 很少使用我打码经常需要使用下划线_而下划线需要按shift+- 两个 ...
2019-8-31-C#-匹配可空变量
title author date CreateTime categories C# 匹配可空变量 lindexi 2019-08-31 16:55:58 +0800 2019-06-01 08:40 ...
Sql Server知识点拨
一.Sql Server异常捕获try catch 二.集增加与修改的存储过程三.显示某一列中有重复值的行转载自:https://www.cnblogs.com/527289276qq/
螺旋矩阵O(1)根据坐标求值
传送门洛谷2239 •题意从矩阵的左上角(第11行第11列)出发,初始时向右移动: 如果前方是未曾经过的格子,则继续前进,否则右转: 重复上述操作直至经过矩阵中所有格子. 根据经过顺序,在格子中依 ...
Team Foundation Server 2015使用教程【6】：新增权限为读取器的团队
IntelliJ IDEA+springboot+jdbctemplet+easyui+maven+oracle搭建简易开发框架（一）
前言: 这两天为了巩固easyui的各个控件用法,搭建了一个简易的框架用于开发,大家可以用来参考,如果发现文章中有哪些不正确不合理的地方,也请各位不吝赐教,感激不尽.文章最下面有源码,可以用于参考.整 ...
Spark RDD的弹性到底指什么
RDD(Resiliennt Distributed Datasets)抽象弹性分布式数据集对于Spark来说的弹性计算到底提现在什么地方? 自动进行内存和磁盘数据这两种存储方式的切换 Spark 可 ...
CSP201903-2二十四点
如图所示先处理乘号和除号,再处理加减. #include<bits/stdc++.h> using namespace std; ];int main(){ int n; cin>& ...
关于面试题：[1, 2, 3].map(parseInt)问题的剖析
一.前言最近有小伙伴在公号中咨询了胡哥这道面试题,窃以为是比较有意思的一道面试题,于此分享给各位小伙伴.先把答案给了各位,和你理解的一样吗?! [1, 2, 3].map(parseInt) // ...
HDFS的HA集群原理分析
1.简单hdfs集群中存在的问题不能存在两个NameNode 单节点问题单节点故障转移 2.解决单节点问题找额外一个NameNode备份原有的数据会出现脑裂脑裂:一个集群中多个管理者数据 ...

《爬虫学习》（四）（使用lxml,bs4库以及正则表达式解析数据）

《爬虫学习》（四）（使用lxml,bs4库以及正则表达式解析数据）的更多相关文章

随机推荐

热门专题