lxml库

lxml是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML数据。

基本使用：

1.我们可以利用他来解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范，他会自动的进行补全。

#使用lxml的etree库

from lxml import etree

text = """

<div id="usrbar" alog-group="userbar" alog-alias="hunter-userbar-start"></div>

<ul id="header-link-wrapper" class="clearfix">

<li><a href="https://www.baidu.com/" data-path="s?wd=">网页</a></li>

<li style="margin-left:21px;"><span>新闻</span></li>

<li><a href="http://tieba.baidu.com/" data-path="f?kw=">贴吧</a></li>

<li><a href="https://zhidao.baidu.com/" data-path="search?ct=17&pn=0&tn=ikaslist&rn=10&lm=0&word=">知道</a></li>

<li><a href="http://music.baidu.com/" data-path="search?fr=news&ie=utf-8&key=">音乐</a></li>

<li><a href="http://image.baidu.com/" data-path="search/index?ct=201326592&cl=2&lm=-1&tn=baiduimage&istype=2&fm=&pv=&z=0&word=">图片</a></li>

<li><a href="http://v.baidu.com/" data-path="v?ct=3019898888&ie=utf-8&s=2&word=">视频</a></li>

<li><a href="http://map.baidu.com/" data-path="?newmap=1&ie=utf-8&s=s%26wd%3D">地图</a></li>

<li><a href="http://wenku.baidu.com/" data-path="search?ie=utf-8&word=">文库</a></li>

<div class="header-divider"></div>

</ul>

</div>

"""

#利用etree.HTML,将字符串解析为HTML文档

html_text = etree.HTML(text)        #html_text为Element对象    （可以执行xpath语法）

#将字符串序列化HTML文档

result = etree.tostring(html_text,encoding='utf-8').decode('utf-8')

print(result)

2.从文件中读取html代码：

from lxml import etree

#读取外部文件 hello.html

html = etree.parse('hello.html')

result = etree.tostring(html,pretty_print=True,encoding='utf-8').decode('utf-8')

print(result)

在上代码中，如果html代码不是很规范的话会报错，这时就要更改解析器

from lxml import etree

#读取外部文件 hello.html

parser = etree.HTMLParser(encoding='utf-8')                    #用html解析器

html = etree.parse('hello.html',parser=parser)              #.parse默认解析是以xml    我们要解析html就要改为HTML解析器

result = etree.tostring(html,pretty_print=True,encoding='utf-8').decode('utf-8')

print(result)

lxml结合xpath：

from lxml import etree

parser = etree.HTMLParser(encoding='utf-8')

html = etree.parse("tencent.html",parser=parser)

#1.获取所有tr标签

#trs = html.xpath("//tr")

#for tr in trs:

#    print(etree.tostring(tr,encoding='utf-8').decode("utf-8"))

#2.获得第2个tr标签

#tr = html.xpath("//tr[2]")[0]

#print(etree.tostring(tr,encoding='utf-8').decode("utf-8"))

#3.获取所有class等于even的tr标签

#trs = html.xpath("//tr[@class='even']")

#for tr in trs:

#    print(etree.tostring(tr,encoding='utf-8').decode("utf-8"))

#4.获取所有a标签的href属性

# trs = html.xpath("//a/@href")           #只选择href的值 跟上面不同的是不是一个标签内容

# for tr in trs:

#     print(tr)

#5.获取所有的职位信息（纯文本）

trs = html.xpath("//tr[position()>1]")

positions = []

for tr in trs:

    href = tr.xpath(".//a/@href")[0]           # .意思是在当前标签（第一个tr）下查找

    fullurl = "http://hr.tencent.com/" + href

    title = tr.xpath("./td[1]//text()")

    category = tr.xpath("./td[2]/text()")

    nums = tr.xpath("./td[3]/text()")

    address = tr.xpath("./td[4]/text()")

    pubtime = tr.xpath("./td[5]/text()")

    position = {

        'url': fullurl,

        'title': title,

        'category': category,

        'nums': nums,

        'address':address,

        'pubtime': pubtime

    }

    positions.append(position)

print(positions)

lxml库的更多相关文章

windows下使用pip安装python的第三方lxml库
lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库.lxml库的安装和python其他第三方库的安装方法是一样的,只是可能由于一些细节上的失误导致安装失败. 工具 Pyt ...
Python爬虫11-XML与XPath概述及lxml库的应用
GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/ ...
Windows环境下使用pip install安装lxml库
lxml是Python语言和XML以及HTML工作的功能最丰富和最容易使用的库.lxml是为libxml2和libxslt库的一个Python化的绑定.它与众不同的地方是它兼顾了这些库的速度和功能完整 ...
python简单爬虫用lxml库解析数据
目标:爬取湖南大学2018年本科招生章程 url:http://admi.hnu.edu.cn/info/1026/2993.htm 页面部分图片: 使用工具: Python3.7 火狐浏览器 PyC ...
python lxml库生成xml文件-节点命名空间问题
lxml库,处理xml很强大,官方文档:https://lxml.de/tutorial.html#namespaces 例如: 我们要生成如下格式的报文: <ttt:jesson xmlns: ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...
xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
爬虫（3）- lxml库和贴吧图片下载案例
lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据. lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解 ...
python爬虫之路——初识lxml库和xpath语法
lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码. 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本 ...

随机推荐

CF1129B 【Wrong Answer】
既然 $ n \leq 2000$ 那我们就假使所有的 $n = 2000 $ 主要是为了方便.再使 $x = \sum_{i=1} ^ {1999}$ 以及 $a_1=a_2=a_3=...=a ...
setTimeout与setInterval
setTimeout() 方法用于在指定的毫秒数后调用函数或计算表达式. 语法:setTimeout(code/function, milliseconds, param1, param2, ...) ...
C++：普通变量C++命名规则
C++提倡使用拥有一定意义的变量名,使程序代码更有阅读性,命名是必须使用的几种简单的C++命名规则: 命名时只能使用:字母字符.数字和下划线(_); 第一个字符不能是数字: 区分大小写(C++对大小写 ...
Security+ 认证考过经验分享 802分飘过
PART 1/考前准备 1.针对与新人.学生建议看每一节直播课程,老师会结合自己的工作工作经验讲解课程,可以帮助学生理解知识. 2.备考期间建议官方指导手册至少看两遍以上,我在结合自己的做题库时发现有 ...
jstl标签库需要两个包jstl.jar和standard.jar
要使用jstl的标签库,将文件复制到WEB-INF/lib目录下,需要在jsp源文件的首部加入如下声明语句(一般放在page语句之后) 核心(core) <%@ taglib uri=&qu ...
(Python)PO设计模式
无规矩不成方圆.编写代码也是,如果没有大概的框架,管理代码将会是一件很头疼的事. 先看看笔者以前写的python脚本: 如果只有一个用例,这样看着好像挺整洁的.但是当用例越来越多后,如果元素定位发生了 ...
Dynamics CRM 日常使用JS整理（三）
一.指定 Partylist 类型字段能 lookup 的实体(以 Appointment 中某个字段为例子): var control = Xrm.Page.getControl("req ...
DirectX11 With Windows SDK--23 立方体映射：动态天空盒的实现
前言上一章的静态天空盒已经可以满足绝大部分日常使用了.但对于自带反射/折射属性的物体来说,它需要依赖天空盒进行绘制,但静态天空盒并不会记录周边的物体,更不用说正在其周围运动的物体了.因此我们需要在运 ...
【ShaderToy】画一个球体
嗯,其实渲染球体,可以看做就是一个2d圆形图案+渲染光泽的函数. 定义球体结构——半径,球心坐标 struct Sphere { vec3 center; float radius; };edzx- ...
记一场与 cookie 的相遇
简介: cookie 翻译过来为 “小甜点,一种酥性甜饼干,很美味的...”,咳咳,打住!我们这里说的是 “甜点” 文件,它是浏览器储存在用户电脑上的一小段纯文本格式的文件. 由于 http 是一种无 ...

lxml库

lxml库

基本使用：

lxml库的更多相关文章

随机推荐

热门专题