python爬虫----XPath

1.知道本节点元素，如何定位到兄弟元素

详情见博客

XML代码见下

bt1在文档中只出现一次，所以很容易获取到bt1中内容，那怎么根据<td class='bt1'>来获取bt2中的内容

                content_title = driver.find_element_by_xpath("//td[@class='bt1']").text

                # 获取content_title的父节点的哥哥节点

                content_subtitle = driver.find_element_by_xpath("//td[@class='bt1']/../following-sibling::tr[1]").text
                # 获取第二个tr下面td的父节点的弟弟节点
                conten_subtitle = driver.find_element_by_xpath("//td[@class='bt1']/../preceding-sibling::tr[1]").text

　返回的内容为：高起点高水平推进福州新区建设

尤权于伟国赴福州新区调研

‘’

2.元素替换，查找元素位置可以用变量替换字符串

>>> driver.find_element_by_xpath("//*[@id='mp1057136']").click()

>>> a='mp1057136'

>>> driver.find_element_by_xpath("//*[@id='%s']"% a).click()

>>>

3.用webdriver获取网页上影藏的文字

网页格式和源码如下所示，网页上的内容被隐藏了，需要点击一下才会完全显示。右边是没有点击前页面的源码，可以看到完整的内容其实已经在页面上了，于是我通过下面方式获取

>>> driver.find_element_by_xpath(".//*[@id='company_base_info_detail']").text

''

>>> driver.find_element_by_xpath("//script[@id='company_base_info_detail']").text

''

　通过定位获取到的竟然为空，并不想通过模拟点击生成新页面再来获取内容，看到网上博主有提到另一种获取隐藏信息的方式

driver.execute_script("return arguments[0].textContent",c)获取文字或者

driver.execute_script("return arguments[0].innerHTML",c)获取源码

>>> c=driver.find_element_by_xpath("//div[@class='sec-c2 over-hide']")

>>> driver.execute_script("return arguments[0].textContent",c)

'简介：淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬...\n                  淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬件，网络技术产品，多媒体产品等。\n                详情'

>>> driver.execute_script("return arguments[0].innerHTML",c)

'<span><span class="sec-c3">简介：</span>淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬...</span><script type="text/html" id="company_base_info_detail">\n                  淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬件，网络技术产品，多媒体产品等。\n                </script><span class="c9 point hover_underline" onclick="companyDetail()">详情</span>'

>>> c=driver.find_element_by_xpath("//div[@class='sec-c2 over-hide']//script")

>>> driver.execute_script("return arguments[0].textContent",c)

'\n                  淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬件，网络技术产品，多媒体产品等。\n                '

>>>

　　后面我重新定义了c使得最终得到我想要的企业完整简介

3.查找所有id都包含相同字符串的元素

tables = driver.find_elements_by_xpath("//div[contains(@id,'_container_')]")

4、查找标签

tag = driver.find_elements_by_xpath("//div[@class='search_right_item']")

tag[0].find_element_by_tag_name('a').click()

base = driver.find_element_by_xpath("//div[@class='company_header_width ie9Style']/div")

查找div标签中class属性等于’company_header_width ie9Style‘的子div

python爬虫----XPath的更多相关文章

python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
Python爬虫 | xpath的安装
错误信息:程序包无效.详细信息:“Cannot load extension with file or directory name . Filenames starting with "& ...
python爬虫前提技术
1.BeautifulSoup 解析html如何使用转自:http://blog.csdn.net/u013372487/article/details/51734047 #!/usr/bin/py ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
小白学 Python 爬虫（19）：Xpath 基操
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

解决maltab的中文和英文字体问题，中文乱码
用比较好看的编程字体,偏偏不显示中文,用支持中文的字体,英文不是等宽的,非常难看. 最近在网上找这方面的解决方法,发现解决问题的方法还是有的. 其实这个问题的原因就是系统自带的等宽字体,不支持中文,解 ...
ibatis注意要点
一.ibatis的关键字like查询 select * from t_student where s_name '%张%'; 这种like语句在ibatis中怎么写,他们现在的项目是用ibatis作为 ...
CURL模拟表单post提交及相关常用参数的使用（包括提交表单同时上传文件）
转载自:https://blog.csdn.net/freedomwjx/article/details/43278157 (注:在curl前面加上time如time curl xxx,可以在最后显示 ...
通过sftp操作Linux服务器上的文件(java)
本文为实现对linux服务器文件的操作.windows服务器不支持. 引入jar包:jsch-0.1.42.jar package com.csvreader.sftp; import java.io ...
线段树区间覆盖蛤玮打扫教室（zzuli 1877）
http://acm.zzuli.edu.cn/zzuliacm/problem.php?id=1877 Description 现在知道一共有n个机房,算上蛤玮一共有m个队员,教练做了m个签,每 ...
JavaScript常用事件参考
onabort 图像加载被中断 onblur 元素失去焦点 onchange 用户改变域的内容 onclick 鼠标点击某个对象 ondblclick 鼠标双击某个对象 onerror 当加载文档 ...
POJ 1191棋盘分割问题
棋盘分割问题题目大意,将一个棋盘分割成k-1个矩形,每个矩形都对应一个权值,让所有的权值最小求分法很像区间DP,但是也不能说就是我们只要想好了一个怎么变成两个,剩下的就好了,但是怎么变,就是变化 ...
poj1573模拟
Robot Motion Time Limit: 1000 MS Memory Limit: 10000 KB 64-bit integer IO format: %I64d , %I64u Java ...
Delphi TStringHelper用法详解
Delphi TStringHelper用法详解 (2013-08-27 22:45:42) 转载▼ 标签: delphi_xe5 it 分类: Delphi Delphi XE4的TStringHe ...
MarkdownPad 2 for Windows 10 预览问题解决方案。
知乎问题: Windows 10 下 MarkdownPad2 预览无法显示是怎么回事? 文章提供的解决方法可以奏效.具体如下: 在我的 Win10 上测试了一次,确实会遇到这个问题,官方的说法是从 ...

python爬虫----XPath

python爬虫----XPath的更多相关文章

随机推荐

热门专题