lxml解析库的安装和使用

一、lxml的安装
lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。本节中，我们了解一下lxml的安装方式，这主要从Windows、Linux和Mac三大平台来介绍。
官方网站：http://lxml.de
GitHub：https://github.com/lxml/lxml
PyPI：https://pypi.python.org/pypi/lxml

在Windows下，可以先尝试利用pip安装，此时直接执行如下命令即可：

pip3 install lxml

如果出现报错，比如提示缺少libxml2库等信息，可以采用wheel方式安装。
推荐直接到这里（链接为：http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml）下载对应的wheel文件，找到本地安装Python版本和系统对应的lxml版本，例如Windows 64位、Python 3.6，就选择lxml‑4.2.3‑cp36‑cp36m‑win_amd64.whl，将其下载到本地。
然后利用pip安装即可，命令如下：

pip3 install 路径/lxml‑4.2.3‑cp36‑cp36m‑win_amd64.wh

在Linux平台下安装问题不大，同样可以先尝试pip安装，命令如下：
pip3 install lxml
如果报错，可以尝试下面的解决方案。

CentOS、Red Hat
执行如下命令安装所需的库即可：

sudo yum groupinstall -y development tools

sudo yum install -y epel-release libxslt-devel libxml2-devel openssl-devel

主要是libxslt-devel和libxml2-devel这两个库，lxml依赖它们。安装好之后，重新尝试pip安装即可。

Ubuntu、Debian和Deepin
在这些系统下，报错的原因同样可能是缺少了必要的类库，执行如下命令安装：

sudo apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

安装好之后，重新尝试pip安装即可。

Python命令行下测试：

>>> import lxml #不报错即可

lxml解析库的安装和使用的更多相关文章

网络爬虫之Selenium模块和Xpath表达式+Lxml解析库的使用
实际生产环境下,我们一般使用lxml的xpath来解析出我们想要的数据,本篇博客将重点整理Selenium和Xpath表达式,关于CSS选择器,将另外再整理一篇! 一.介绍: selenium最初是一 ...
Beautiful Soup解析库的安装和使用
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式.官方文档:https://www.crummy.co ...
第二节：web爬虫之lxml解析库
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高.
ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr
lxml 的安装(xpath) pip3 install lxml 可能会缺少以下依赖: sudo apt-get install -y python3-dev build-e ssential li ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
文件解析库doctotext安装和使用
安装doctotext 1 安装GCC到4.6以上 tar jxf gcc-4.7.0.tar.bz2 cd gcc-4.7.0 编译 ./contrib/download_prerequisites ...
Python 之lxml解析库
一.XPath常用规则二.解析html文件 from lxml import etree # 读取HTML文件进行解析 def parse_html_file(): html = etree.par ...
Pyquery解析库的安装和使用
Pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便.GitHub:https://github.com/gawel/pyqu ...
爬虫解析库re,Beautifulsoup,
re模块点我回顾 Beautifulsoup模块 #安装 Beautiful Soup pip install beautifulsoup4 #安装解析器 Beautiful Soup支持Pytho ...

随机推荐

[BZOI2014]大融合——————线段树进阶
竟然改了不到一小时就改出来了, 可喜可贺 Description Solution 一开始想的是边两侧简单路径之和的乘积,之后发现这是个树形结构,简单路径数就是节点数. 之后的难点就变成了如何求线段树 ...
Machine learning（2-Linear regression with one variable ）
1.Model representation Our Training Set [训练集]: We will start with this ''Housing price prediction'' ...
Linux上Qt旋转显示
对于嵌入式设备来说用于显示的LCD总是千奇百怪,比如说明明是一个竖屏,但是客户却要当横屏使用,也就是意味着我们需要将整个屏幕上显示的内容旋转90度或者270度. 这个操作对于Android系统来说相当 ...
Python正则表达式使用小记
最近做Python课实验发现正则表达式和它在py中的的标准库re有很多能多琢磨一下的点,遂决定写成一篇小记,以后想复习能再来看看. 名词因为不同文献书籍对正则表达式的描述有差别,我在这里列出一下我已 ...
为什么IDEA不推荐你使用@Autowired ？
@Autowired注解相信每个Spring开发者都不陌生了!在DD的Spring Boot基础教程和Spring Cloud基础教程中也都经常会出现. 但是当我们使用IDEA写代码的时候,经常会发现 ...
C# WINFORM进销存系统开发（内涵免费源码+部分实操视频讲解）
互联网的时代,电商火爆,大家都开始进行线上销售货品,那你是如何管理你的商品库存和进销问题?软积木--小敏用的是C# WINFORM进销存系统来管理我的数据,给我带来了很多便利. 它是高频需求项目,很多 ...
【JAVA】笔记（5）--- final；抽象方法；抽象类；接口；解析继承，关联，与实现；
final: 1.理解:凡是final修饰的东西都具有了不变的特性: 2.修饰对象: 1)final+类--->类无法被继承: 2)final+方法--->方法无法被覆盖: 3)final ...
Python基础（@property）
class Point(object): # def get_score(self): # return self.score # def set_score(self,value): # if no ...
菜鸡的Java笔记第二十三 - java 抽象类的概念
abstractClass 抽象类的概念 1.抽象类的基本定义 2.抽象类的使用原则不会抽象类与接口,java = 没学 ...
算法学习->整数拆分问题
动态规划典型题目/ 00 题目将正整数n无需拆分为最大数为k的拆分方案有多少种?要求所有的拆分方案不重复. 示例: 输入:n=5,k=5 输出:(5,5)=7 示例分析: 5=5 5=4+1 5= ...

lxml解析库的安装和使用

lxml解析库的安装和使用的更多相关文章

随机推荐

热门专题