Xpath解析

XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。

Xpath使用

1.下载：pip install lxml

2.导包：from lxml import etree

3.将html文档或者xml文档转换成一个etree对象，然后调用对象中的方法查找指定的节点

　　3.1 本地文件：tree = etree.parse(文件名)

                tree.xpath("xpath表达式")

　　3.2 网络数据：tree = etree.HTML(网页内容字符串)

                tree.xpath("xpath表达式")

Xpath表达式

测试页面数据

<html lang="en">

<head>

    <meta charset="UTF-8" />

    <title>测试bs4</title>

</head>

<body>

    <div>

        <p>百里守约</p>

    </div>

    <div class="song">

        <p>李清照</p>

        <p>王安石</p>

        <p>苏轼</p>

        <p>柳宗元</p>

        <a href="http://www.song.com/" title="赵匡胤" target="_self">

            <span>this is span</span>

        宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱</a>

        <a href="" class="du">总为浮云能蔽日,长安不见使人愁</a>

        <img src="http://www.baidu.com/meinv.jpg" alt="" />

    </div>

    <div class="tang">

        <ul>

            <li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></li>

            <li><a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></li>

            <li><a href="http://www.126.com" alt="qi">岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li>

            <li><a href="http://www.sina.com" class="du">杜甫</a></li>

            <li><a href="http://www.dudu.com" class="du">杜牧</a></li>

            <li><b>杜小月</b></li>

            <li><i>度蜜月</i></li>

            <li><a href="http://www.haha.com" id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li>

        </ul>

    </div>

</body>

</html>

常用Xpath表达式

'''

属性定位：

    #找到class属性值为song的div标签

    //div[@class="song"]     # // 表示整个文档下

层级&索引定位：

    #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a

    //div[@class="tang"]/ul/li[2]/a

逻辑运算：

    #找到href属性值为空且class属性值为du的a标签

    //a[@href="" and @class="du"]

模糊匹配：

    //div[contains(@class, "ng")]

    //div[starts-with(@class, "ta")]

取文本：

    # /表示获取某个标签下的文本内容

    # //表示获取某个标签下的文本内容和所有子标签下的文本内容

    //div[@class="song"]/p[1]/text()

    //div[@class="tang"]//text()

取属性：

    //div[@class="tang"]//li[2]/a/@href

'''

03 数据解析-Xpath的更多相关文章

爬虫-数据解析-xpath
xpath 解析模块安装 : pip install lxml xpath的解析原理实例化一个etree类型的对象,且将页面源码数据加载到该对象中需要调用该对象的xpath方法结合着不同形式的x ...
iOS - XML 数据解析
前言 @interface NSXMLParser : NSObject public class NSXMLParser : NSObject 1.XML 数据 XML(Extensible Mar ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Ob ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
数据解析（XML和JSON数据结构）
一解析二 XML数据结构三 JSON 数据结构一解析 1 定义: 从事先规定好的格式中提取数据解析的前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照 ...
【原】iOS学习38网络之数据解析
1. 解析的基本的概念解析:从事先规定好的格式中提取数据解析前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照格式获取数据 iOS开发常见的解析:XML解析.JOSN解析 2. X ...
iOS GET、POST数据解析
在实际开发中,JSON数据解析更简单易行,一般均使用json数据解析,因此,程序猿们请务必和后台搞好关系,让他给你json数据. XML解析: ios SDK提供了NSXMLParser和lib ...

随机推荐

Luogu P1265修复公路【Prim最小生成树】By cellur925
题目传送门政府审批的规则如下: (1)如果两个或以上城市申请修建同一条公路,则让它们共同修建: (2)如果三个或以上的城市申请修建的公路成环.如下图,A申请修建公路AB,B申请修建公路BC,C申请修 ...
CI框架错误汇总
2017年1月13日12:09:02 [1] A PHP Error was encounteredSeverity: NoticeMessage: Undefined variable: aticl ...
Jumping on Walls CodeForces - 198B
Jumping on Walls CodeForces - 198B 应该是一个隐式图的bfs,或者叫dp. 先是一个TLE的O(nklogn) #include<cstdio> #inc ...
Random Query CodeForces - 846F
题目翻译: 给出一个n个数字的数列a[1],...,a[n],f(l,r)表示使a[l],a[l+1],...,a[r]组成的新序列中的重复元素只保留一个后,剩下元素的数量(如果l>r,则在计 ...
131 Palindrome Partitioning 分割回文串
给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串.返回 s 所有可能的分割方案.例如,给出 s = "aab",返回[ ["aa"," ...
[已读]HTML5与CSS3权威指南第二版(下)
去年下半年前公司给买的(老付对我们确实蛮好的),一人挑一本,我当时一定是秀逗了.看的时候就发现,这本书的内容过时严重,即便它是新出不久的第.二.版.其他没什么说的,总之,不推荐看.
NTP服务简介
定义:NTP全称为Network Time Protocol,即网络时间协议.是用来使计算机时间同步的一种协议.它可以使计算机对服务器或时钟源做同步,可以提供高精度的时间校正(LAN 上与标准时间小于 ...
android开发学习 ------- json数据与实体类之间的相互转换
在网络请求的时候,会返回给我们实体类,我们需要将实体类转化为json字符串,方便处理数据: 有时候也会将json数据转换为实体类. 在Android Studio中,json要互相转换,需要用到gso ...
AngularJS 表单验证手机号(非必填)
代码: <form ng-app="myApp" ng-controller="validateCtrl" name="myForm" ...
亲身经历，Java面试题整理
博主在2015年暑期参加过一些Java开发工程师实习的面试和笔试,在此将重点整理出来,以供大家学习. 资料1: 一.单继承 1.1Java类是否支持多重继承? 答:继承的基本原则是: 子类继承父类的所 ...

03 数据解析-Xpath

Xpath解析

Xpath使用

Xpath表达式

测试页面数据

常用Xpath表达式

03 数据解析-Xpath的更多相关文章

随机推荐

热门专题