lxml的使用（节点与xpath爬取数据）

lxml安装

　　lxml是python下功能很丰富的XML和HTML解析库，性能非常的好，是对libxml3和libxlst的封装。在Windows下载这个库直接使用 pip install lxml 即可。CentOS下载可使用以下命令。

 yum install libxml3-devel libxslt-devel 

 pip install lxml

lxml构建HTM

　　在lxml下，很大程度上运用了DOM树的概念，他能够结合XPath很方便的获取到我们想要的数据。

　　在lxml中，我们必须学会一些最基本的使用方法，首先是他提供的etree。

　　下面代码提供了使用etree构建HTML的基本方法

 1 '''

 2 @Description: lxml创建html页面

 3 @Version: 1.0

 4 @Autor: Montoin Yan

 5 @Date: 2020-02-05 20:01:17

 6 @LastEditors  : Montoin Yan

 7 @LastEditTime : 2020-02-05 21:06:31

 8 '''

 9 from lxml import etree

10

11 root = etree.Element('html') #创建一个父节点

12 body = etree.Element('body') #创建第二个节点

13

14 root.append(body) #以root为父节点将body作为添加到root的字节点中

15 print(etree.tostring(root))

16

17 div1 = etree.SubElement(body,'div') #设置div块将其设置为body中的子节点

18 div2 = etree.SubElement(body,'div') #同上

19

20 print(etree.tostring(root,pretty_print=True).decode()) #按照root作为父节点将所有内容漂亮的打印出来

21

22 etree.HTML(text) #解析HTML文档，并返回根节点

lxml中etree模块使用

　　lxml还提供了两个很有用的函数，即

etree.HTML(text)  #解析HTML文档，返回DOM根节点

anode.xpath("xpath绝对路径")  #对节点使用xpath语法

　　下面的例子使用lxml+xpath爬取豆瓣一周口碑榜

 1 '''

 2 @Description: lxml爬取豆瓣一周口碑榜

 3 @Version: 1.0

 4 @Autor: Montoin Yan

 5 @Date: 2020-02-05 21:16:02

 6 @LastEditors  : Montoin Yan

 7 @LastEditTime : 2020-02-05 21:44:28

 8 '''

 9 from lxml import etree

10 import requests

11 import random

12

13 #设置多个请求头，防止被反扒措施进行拦截

14 ua_list = [

15     "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",

16     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",

17     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",

18     "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"

19 ]

20 #随机pick one

21 ua = random.choice(ua_list)

22

23 url = "https://movie.douban.com/"

24 response = requests.request('GET',url,headers={

25     'User-agent':ua

26 })

27

28 content = response.text

29 # print(content) #HTML内容

30

31 #XPath  //div[@class='billboard-bd']//tr//a/text()

32 html = etree.HTML(content) #使用XPath解析上下文，返回DOM根节点

33 titles = html.xpath("//div[@class='billboard-bd']//tr//a/text()") #依照XPath要求获取需要的文本

34 for i in titles:

35     print(i)

lxml的使用（节点与xpath爬取数据）的更多相关文章

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
案例_(单线程)使用xpath爬取糗事百科
案例_(单线程)使用xpath爬取糗事百科步骤如下: 首先通过xpath插件找出我们要爬取的信息的匹配规则 url = "https://www.qiushibaike.com/8hr/p ...
使用Xpath爬取酷狗TOP500的歌曲信息
使用xpath爬取酷狗TOP500的歌曲信息, 将排名.歌手名.歌曲名.歌曲时长,提取的结果以文件形式保存下来.参考网址:http://www.kugou.com/yy/rank/home/1-888 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

随机推荐

GeforceRTX系列参数对比
GeforceRTX系列参数对比
mybatis学习——多对一和一对多查询
首先先来说明一下数据库,数据库有两张表student表和teacher表: student表如下: teacher表如下: 两张表的关系:多个学生关联一位老师(多对一) *其中tid是外键需要sql ...
十五、.net core（.NET 6）搭建RabbitMQ消息队列生产者和消费者的简单方法
搭建RabbitMQ简单通用的直连方法如果还没有MQ环境,可以参考上一篇的博客,在windows系统上的rabbitmq环境搭建.如果使用docker环境,可以直接百度一下,应该就一个语句就可以搞定 ...
【NX二次开发】Block UI 集列表
属性说明属性类型描述常规 BlockID String 控件ID Enable Logical 是否可操作 Group ...
k8s service不能访问排错
简介对于新安装的 Kubernetes,经常出现的一个问题是 Service 没有正常工作.如果您已经运行了 Deployment 并创建了一个 Service,但是当您尝试访问它时没有得到响应,希 ...
webpack 快速入门系列 - 自定义 wepack 上
其他章节请看: webpack 快速入门系列自定义 wepack 上通过"初步认识webpack"和"实战一"这 2 篇文章,我们已经学习了 webpac ...
SpringBoot_登录注册
学习SpringBoot需要的前期基础 Spring(Bean容器 IOC set 构造方法 AOP) SpringMVC(GET POST Restful) 对于SpringBoot,约定大于配置 ...
Linux环境下安装配置vsftpd服务(三种认证模式)
一.FTP简介文件传输协议(英文:File Transfer Protocol,缩写:FTP)是用于在网络上进行文件传输的一套标准协议.它工作于网络传输协议的应用层,使用客户/服务器模式,主要是用来 ...
ClickHouse学习系列之七【系统命令介绍】
背景前面介绍了ClickHouse相关的系列文章,该系列文章包括了安装.权限管理.副本分片.配置说明等.这次介绍一些ClickHouse相关的系统命令,如重载配置文件.关闭服务和进程.停止和启动后 ...
第2章：Kubernetes核心概念
Kubernetes是Google在2014年开源的一个容器集群管理系统,Kubernetes简称K8S. Kubernetes用于容器化应用程序的部署,扩展和管理,目标是让部署容器化应用简单高效. ...

lxml的使用（节点与xpath爬取数据）

lxml的使用（节点与xpath爬取数据）的更多相关文章

随机推荐

热门专题