python爬虫之路——初识lxml库和xpath语法

lxml库：是xml解析库，也支持html文档解析功能，实用功能：自动修正补全html代码。

使用流程：①导入lxml中的etree库，②利用etree.HTML(文件名)或etree.parse(本地打开，路径)进行初始化，③etree库把HTML文档解析为Element对象。

from lxml import etree

text="""

<div >

<div class="sidebarContent">sdssdds

</div>

"""

html=etree.HTML(text)

result=etree.HTML(html)

print(result)

xpath语法：是一门在xml文档中查找信息的语言，对html文档也有很好的支持。

节点分类

先辈节点

父节点

同胞节点《=本节点

子节点

后代节点

xpath 的语法

分三部分：/ div [1]

①/或//或.或.. 只有/表示确定剩下都表示不确定要根据节点谓语确定。

②div 表示标签

③[1]第一个节点

做模糊查询

表达式中有非（/）符号就是。

分叉路径的内容寻找。思路：先抓大后抓小，寻找循环点。

①有共同先辈节点

import requests

from lxml import etree

header={

Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36

}

url='https://www.baidu.com/?tn=90278658_hao_pg'

res=requests.get(url,heads=heads)

selector=etree.HTML(res.test)

#运用两次xpath方法

url_infos=selector.xpath('//div[@class="asd asdf"]')

for url_info in url_infos:

　　id=url_info.xpath('div[2]/a[1]/text()')[0]

print (id)

②互为同胞节点（标签名相同，属性不同）

from lxml import etree

html1="""

<li class="tag-1">内容1</li>

<li class="tag-1">内容2</li>

<li class="tag-1">内容3</li>

<li class="tag-1">内容4</li>

"""

selector=etree.HTML(html1)

contents=elector.xpath('//li[starts-with(@class,"tag")]/text()')

for content in contents:

　　print(content)

③为父子关系

from lxml import etree

html1="""

<li class="red">内容1

<h1>内容2</h1>

</li>

"""

selector=etree.HTML(html1)

content1=selector.xpath('//div[@class="red"]')[0]

#string(.)方法可用于标签套标签情况

content2=content1.xpath('string(.)')

　　print(content2)

python爬虫之路——初识lxml库和xpath语法的更多相关文章

python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...
python爬虫之路——初识爬虫原理
爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要 ...
python爬虫之路——初识函数与控制语句
介绍python函数的定义与使用方法,介绍Python的常用控制语句:判断和循环函数: 格式 def 函数名(参数1,参数2): return ‘结果’ 判断语句:就是多选一二选一: if c ...
python爬虫之路——初识数据库存储
非关系型数据库:MongoDB.关系型数据库:MySQL 关系型和非关系型的区别: 安装: 使用: 应用场景: mongoDB是一种非关系型数据库,分为四大类:键值存储数据库,列存储数据库,文档型数据 ...
python爬虫之路——初识基本页面构造原理
通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
(转)Python爬虫利器一之Requests库的用法
官方文档以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考官方文档安装利用 pip 安装 $ pip install requests 或者利用 easy_install ...
Python爬虫利器一之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...

随机推荐

VIM显示utf-8乱码
找到vim的根目录下的vimrc文件打开,加入下面三行,保存.重开vim即可. set encoding=utf-8 set langmenu=zh_CN.UTF-8 language message ...
POJ 1064 Cable master (二分)
题意:给定 n 条绳子,它们的长度分别为 ai,现在要从这些绳子中切出 m 条长度相同的绳子,求最长是多少. 析:其中就是一个二分的水题,但是有一个坑,那么就是最后输出不能四舍五入,只能向下取整. 代 ...
Javascript 获取客户端的运营商 IP 地址等
客户端获取运营商会弹出安全隐患问题,需要修改IE activx 选项, 非常麻烦,用我的代码可以轻松获取. <script src="JS/jquery-1.4.1.js" ...
讨论：研发团队到底应该是制定OKR还是制定KPI？
在讨论之前我们先来了解两个概念: 一.KPI KPI是一套绩效管理的方法.全称为:Key Performance Indicator.中文叫:关键绩效指标. KPI,和我们的“任务分解”不同.任务分解 ...
luogu P2570 [ZJOI2010]贪吃的老鼠【二分+最大流】
首先考虑只满足第一个条件,二分答案,把过期时间加上mid之后的2n个时间离散,老鼠拆成每个时间的,第i个时间第j个老鼠为id[i][j],连接(s,i,p[i]),对于离散后时间(g[j-1]~g[j ...
codevs 3342绿色通道
3342 绿色通道时间限制: 1 s 空间限制: 256000 KB 题目等级 : 黄金 Gold
css清除浮动的方法总结
在各种浏览器中显示效果也有可能不相同,这样让清除浮动更难了,下面总结8种清除浮动的方法,测试已通过 ie chrome firefox opera,需要的朋友可以参考下清除浮动是每一个 we ...
程序员除了会CRUD之外，还应该知道什么叫CQRS！
今天主要跟大家分享一下什么是 CQRS,以及在项目中如何去使用. CRUD系统我们平常最熟悉的就是三层架构,通常都是通过数据访问层来修改或者查询数据,一般修改和查询使用的是相同的实体.然后通过业 ...
SpringBoot2.0 基础案例(07)：集成Druid连接池，配置监控界面
一.Druid连接池 1.druid简介 Druid连接池是阿里巴巴开源的数据库连接池项目.Druid连接池为监控而生,内置强大的监控功能,监控特性不影响性能.功能强大,能防SQL注入,内置Login ...
一个小时学会 MySQL 数据库
随着移动互联网的结束与人工智能的到来大数据变成越来越重要,下一个成功者应该是拥有海量数据的,数据与数据库你应该知道. 一.数据库概要数据库(Database)是存储与管理数据的软件系统,就像一个存入 ...

python爬虫之路——初识lxml库和xpath语法

python爬虫之路——初识lxml库和xpath语法的更多相关文章

随机推荐

热门专题