爬虫 - xpath 匹配

例题


import lxml.html

test_data = """

        <div>

            <ul>

                 <li class="item-0"><a href="link1.html" id="places_neighbours__row">9,596,960first item</a></li>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html" id="places_neighbours__row">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a></li>

                 <li class="good-0"><a href="link5.html">fifth item</a></li>

             </ul>

             <book>

                    <title lang="aaengbb">111111</title>

                    <price id="places_neighbours__row">29.99</price>

            </book>

            <book>

                <title lang="zh">222222</title>

                <price>39.95</price>

            </book>

            <book>

                <title>33333</title>

                <price>40</price>

            </book>

         </div>

        <a>

            <book>

                <title>123</title>

            </book>

        </a>

        """

"""

/ 从根标签开始 必须具有严格的父子关系

// 从当前标签  后续节点含有即可选出

* 通配符，选择所有

//div/book[1]/title 选择div下第一个book标签的title元素

//div/book/title[@lang="zh"]选择title属性含有lang且内容是zh的title元素

//div/book/title //book/title //title //div//title 具有相同的结果，因为使用相对路径最终都指向title

//book/title/@* 将title所有的属性值选择出来

//book/title/text() 将title的内容选择出来，使用内置text()函数

//a[@href="link1.html" and @id="places_neighbours__row"]

//a[@href="link1.html" or @id="places_neighbours__row"]

//div/book[last()]/title/text() 将最后一个book元素选出

//div/book[price > 39]/title 将book子标签price数值大于39的选择出来

//li[starts-with(@class,'item')] 将class属性前缀是item的li标签选出

//title[contains(@lang,'eng')] 将title属性lang含有eng关键字的标签选出

"""

html = lxml.html.fromstring(test_data)

#html_data = html.xpath('//div/book/title/text()')

#html_data = html.xpath('//div/book[1]/title/text()')

#html_data = html.xpath('//div/book/title[@lang="zh"]/text()')

#html_data = html.xpath('//div/book/title/text()')

# html_data = html.xpath('//book/title/text()')

# html_data = html.xpath('//title/text()')

# html_data = html.xpath('//div//title/text()')

# html_data = html.xpath('//book/title/@*')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/text()')

#html_data = html.xpath('//a[@href="link2.html"]/text()')

# html_data = html.xpath('//div/ul/li/a[@id]/text()')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/@*')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/@href')

# html_data = html.xpath('//a[@href="link1.html" or @id="places_neighbours__row"]/text()')

# html_data = html.xpath('//div/book[last()]/title/text()')

#html_data = html.xpath('//div/book[price > 39]/title/text()')

# html_data = html.xpath('//li[starts-with(@class,"item")]/a/text()')

html_data = html.xpath('//title[contains(@lang,"eng")]/text()')

for i in html_data:

    print(i)

爬虫 - xpath 匹配的更多相关文章

笔记-爬虫-XPATH
笔记-爬虫-XPATH 1. xpath XPath是W3C的一个标准.它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计.目前有XPath1.0和XPath2.0两 ...
爬虫——xpath
1.什么是xpath? Xpath,全称XML Path Language,即XML路径语言.它是一门在XML之后查找信息的语言,也同样适用于HTML文档的搜索.在做爬虫的时候,我们用XPath语言来 ...
python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...
python中用xpath匹配文本段落内容的技巧
content = item.xpath('//div[@class="content"]/span')[0].xpath('string(.)') content = item. ...
Python网络爬虫-xpath模块
一.正解解析单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\ ...
XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法
XPath当匹配标签判断text()判断内容失败的问题及解决问题复现在爬取网站的时候我使用XPath去抓取网页上的内容,XPath表达式来精准获取需要的标签内容. 当我对如下一段html代码编写X ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
[Python 练习爬虫] XPATH基础语法
XPATH语法: // 定位根标签 / 往下层寻找 /text() 提取文本内容 /@xxx 提取属性内容 Sample: import requests from lxml import etree ...

随机推荐

LeetCode赛题393----UTF-8 Validation
393. UTF-8 Validation A character in UTF8 can be from 1 to 4 bytes long, subjected to the following ...
Install and Configure OSSEC on Debian 7&8
Install and Configure OSSEC on Debian 7&8 Contributed by Sunday Ogwu-Chinuwa Updated Friday, Feb ...
Linux开篇
1.为什么学习Linux? 2.学习Linux的资料
centos下安装ipython(minglnghang命令行)
下载文件 wget https://bootstrap.pypa.io/get-pip.py --no-check-certificate 执行安装 python get-pip.py 这就安装好了 ...
No value specified for 'Date'错误
今天使用 BeanUtils.copyProperties(m,n); 遇到 No value specified for 'Date' 这个错误,以前用的时候都不需要加 try 今天使用发现需 ...
Protocol Buffer学习笔记
Protocol Buffer Protobuf基础概念 Protobuf是google开发的数据结构描述语言,能够将结构化数据序列化与反序列化,取代json和xml,常用于服务器通信协议.RPC系统 ...
oracle 大表已有大数据量建索引防卡 nologging
create index idx_th_user_info_fans_name on th_user_info(fans_name) nologging;
EF学习之CodeFirst（一）--创建Model
一.创建Model 创建Model类有两种方式: 1.直接创建model 所有约束条件都以特性的方式写在model的属性上面,映射到数据库的table表名标识在class上,例如: [Table(&q ...
[Codeup 25482] Beauty
25482: Beauty 时间限制: 1 Sec 内存限制: 128 MB献花: 7 解决: 3[献花][花圈][TK题库] 题目描述一年一度的星哥选美又拉开了帷幕 N个人报名参加选拔,每个人 ...
Economy a Two-Edged Sword for Democrats
2017-05-03 12:05:07 https://www.usnews.com/news/blogs/ken-walshs-washington/2014/10/03/economy-a-two ...

爬虫 - xpath 匹配

爬虫 - xpath 匹配的更多相关文章

随机推荐

热门专题