爬虫 - xpath 匹配

例题


import lxml.html

test_data = """

        <div>

            <ul>

                 <li class="item-0"><a href="link1.html" id="places_neighbours__row">9,596,960first item</a></li>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html" id="places_neighbours__row">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a></li>

                 <li class="good-0"><a href="link5.html">fifth item</a></li>

             </ul>

             <book>

                    <title lang="aaengbb">111111</title>

                    <price id="places_neighbours__row">29.99</price>

            </book>

            <book>

                <title lang="zh">222222</title>

                <price>39.95</price>

            </book>

            <book>

                <title>33333</title>

                <price>40</price>

            </book>

         </div>

        <a>

            <book>

                <title>123</title>

            </book>

        </a>

        """

"""

/ 从根标签开始 必须具有严格的父子关系

// 从当前标签  后续节点含有即可选出

* 通配符，选择所有

//div/book[1]/title 选择div下第一个book标签的title元素

//div/book/title[@lang="zh"]选择title属性含有lang且内容是zh的title元素

//div/book/title //book/title //title //div//title 具有相同的结果，因为使用相对路径最终都指向title

//book/title/@* 将title所有的属性值选择出来

//book/title/text() 将title的内容选择出来，使用内置text()函数

//a[@href="link1.html" and @id="places_neighbours__row"]

//a[@href="link1.html" or @id="places_neighbours__row"]

//div/book[last()]/title/text() 将最后一个book元素选出

//div/book[price > 39]/title 将book子标签price数值大于39的选择出来

//li[starts-with(@class,'item')] 将class属性前缀是item的li标签选出

//title[contains(@lang,'eng')] 将title属性lang含有eng关键字的标签选出

"""

html = lxml.html.fromstring(test_data)

#html_data = html.xpath('//div/book/title/text()')

#html_data = html.xpath('//div/book[1]/title/text()')

#html_data = html.xpath('//div/book/title[@lang="zh"]/text()')

#html_data = html.xpath('//div/book/title/text()')

# html_data = html.xpath('//book/title/text()')

# html_data = html.xpath('//title/text()')

# html_data = html.xpath('//div//title/text()')

# html_data = html.xpath('//book/title/@*')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/text()')

#html_data = html.xpath('//a[@href="link2.html"]/text()')

# html_data = html.xpath('//div/ul/li/a[@id]/text()')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/@*')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/@href')

# html_data = html.xpath('//a[@href="link1.html" or @id="places_neighbours__row"]/text()')

# html_data = html.xpath('//div/book[last()]/title/text()')

#html_data = html.xpath('//div/book[price > 39]/title/text()')

# html_data = html.xpath('//li[starts-with(@class,"item")]/a/text()')

html_data = html.xpath('//title[contains(@lang,"eng")]/text()')

for i in html_data:

    print(i)

爬虫 - xpath 匹配的更多相关文章

笔记-爬虫-XPATH
笔记-爬虫-XPATH 1. xpath XPath是W3C的一个标准.它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计.目前有XPath1.0和XPath2.0两 ...
爬虫——xpath
1.什么是xpath? Xpath,全称XML Path Language,即XML路径语言.它是一门在XML之后查找信息的语言,也同样适用于HTML文档的搜索.在做爬虫的时候,我们用XPath语言来 ...
python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...
python中用xpath匹配文本段落内容的技巧
content = item.xpath('//div[@class="content"]/span')[0].xpath('string(.)') content = item. ...
Python网络爬虫-xpath模块
一.正解解析单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\ ...
XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法
XPath当匹配标签判断text()判断内容失败的问题及解决问题复现在爬取网站的时候我使用XPath去抓取网页上的内容,XPath表达式来精准获取需要的标签内容. 当我对如下一段html代码编写X ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
[Python 练习爬虫] XPATH基础语法
XPATH语法: // 定位根标签 / 往下层寻找 /text() 提取文本内容 /@xxx 提取属性内容 Sample: import requests from lxml import etree ...

随机推荐

react项目跨域问题
在用知乎写demo的时候碰到了跨域问题解决跨域如下: 跨域代理解决 "proxy":"https://news-at.zhihu.com", 请求的时候, ...
专访探探DBA张文升：PG在互联网应用中同样也跑的很欢畅
张文升认为,PG无论在可靠性和性能方面都不输其它任何关系型数据库张文升,探探DBA,负责探探的数据库架构.运维和调优的工作.拥有8年开发经验,曾任去哪儿网DBA. 9月24日,张文升将参加在 ...
try catch 一点小记录
这两天做了新的需求,做完之后在测试环境下完美通关.之后部署到了预发布环境,然而怎么尝试都不通过.刚开始看到预发布的一个配置文件错了.发邮件改了下,但是依然流程跑不通.之后一步步在测试环境看代码 ...
Eclipse 中出现红色下划波浪线与红色感叹号
一直用eclipse写Python,老是看到一些字符串都给出红色波浪线, 看着就不舒服.弄了老半天终于消除了,原来是拼写检查 Windows->Preferences->General-& ...
如何在CentOS 6.7上将PHP 5.3升级到PHP 5.6
如何在CentOS 6.7上将PHP 5.3升级到PHP 5.6 andyz 博客 45评论 Facebook的TwitterGoogle+Reddit 在本文中,我将介绍如何在CentOS ...
乘风破浪：LeetCode真题_002_Add Two Numbers
乘风破浪:LeetCode真题_002_Add Two Numbers 一.前言这次的题目是关于链表方面的题目,把两个链表对应节点相加,还要保证进位,每个节点都必须是十进制的0~9.因此主要 ...
省事之通用Makefile模版
现在编译方案都偏爱使用cmake解决问题,这两条做unity插件,还是用Makefile,居然忘得光光,好记性不如烂笔头. 后面,翻箱倒柜找到以前为炼金术写的Makefiel,发现还真是挺好用,贴出来 ...
[Codeup 25481] swan
莫名其妙还找到了另一个铟炔锶烃的OJ : Codeup墓地 25481: swan 时间限制: 1 Sec 内存限制: 128 MB献花: 86 解决: 13[献花][花圈][TK题库] 题目描述 ...
弹框插件self(动效兼容到IE9，功能兼容IE6)
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
Django template for 循环用法
当列表为空或者非空时执行不同操作: {% for item in list %} ... {% empty %} ... {% endfor %} 使用forloop.counter访问循环的次数,下 ...

爬虫 - xpath 匹配

爬虫 - xpath 匹配的更多相关文章

随机推荐

热门专题