小记----采集之Xpath

一、XPATH简介

Xpath是XML路径语言，它是一种确定XML文档中某部分位置的语言

二、XPATH语法

XPATH使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。

/div/a[1]	选取属于div的子元素第一个a元素
/div/a[last()]	选取属于div的子元素的最后一个a元素
/div/a[last()-1	选取属于div的子元素的倒数第二个a元素
/div/a[position()<3]	选取属于div的子元素的前两个a元素
//title[@lang]	选取所有含有lang属性的title元素
//title[@lang='eng']	选取所有lang属性是eng的title元素
//div/a[price>35]	选取属于div的子元素a且price的值大于35的元素
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

/div/*	选取div元素的所有子元素
//*	选取所有元素
//title[@*]	选取所有带属性的title元素

选取若干路径

//book/title \| //book/price	选取book中所有title和price元素
//title \| //price	选取所有的title和price元素
/books/book/title \| //price	选取books元素的book元素的所有title元素和文档中所有price元素

安装谷歌XPATH插件

标签页输入chrome://extensions/ 打开开发者工具选项。然后把下载的XPATH插件拖进去即可，

小记----采集之Xpath的更多相关文章

HtmlAgilityPack.dll的使用获取HTMLid
简介本文介绍net处理html页面元素的工具类(HtmlAgilityPack.dll)的使用,用途比较多的应该是例如采集类的功能,采集到的html字符串要怎样处理是一个头痛的问题,如果是截取就太麻 ...
C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel, ...
网页采集(通过HtmlAgilityPack+XPath)
有HtmlAgilityPack这个类库可以更方便地对HTML内容进行分析和提取.因此今天特别学习和实践了一下HtmlAgilityPack和XPath,并作下笔记. 1.下载HtmlAgilityP ...
python3 多线程采集 xpath
#!/usr/bin/python # -*- coding: UTF-8 -*- '''Thread3 多线程测试采集''' import threading,time,queue,Mongo_ut ...
小记---------网页采集之selenium
1.元素定位 ID定位元素: findElement(By.id(“”)); 通过元素的名称定位元素: findElement(By.name(“”)); 通过元素的html中的位置定位元素 ...
小记---------网页采集之Jsoup
Jsoup是一款Java解析器,相当于httpClient解析器功能:①:从一个URL,文件或字符串中解析HTML ②:使用DOM或CSS选择器来查找.取出数据 ...
再谈C#采集，一个绕过高强度安全验证的采集方案？方案很Low，慎入
说起采集,其实我是个外行,以前拔过阿里巴巴的客户数据,在我博客的文章:C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 中,介绍过采集用的工具,其实很Low的,分析 ...
Hawk 3. 网页采集器
1.基本入门 1. 原理(建议阅读) 网页采集器的功能是获取网页中的数据(废话).通常来说,目标可能是列表(如购物车列表),或是一个页面中的固定字段(如JD某商品的价格和介绍,在页面中只有一个).因此 ...
利用nodejs+phantomjs+casperjs采集淘宝商品的价格
因为一些业务需求需要采集淘宝店铺商品的销售价格,但是淘宝详情页面的价格显示是通过js动态调用显示的.所以就没法通过普通的获取页面html然后通过正则或者xpath的方式获取到想到的信息了. 所幸我们现 ...

随机推荐

QT:设置布局边缘
QHBoxLayout * horizontalLayout = new QHBoxLayout; //setContentsMargins(int left, int top, int right, ...
字典树Trie--实现敏感词过滤
序言 Trie树资料 https://blog.csdn.net/m0_37907797/article/details/103272967?utm_source=apphttps://blog.c ...
JSP大文件上传断点续传解决方案
我们平时经常做的是上传文件,上传文件夹与上传文件类似,但也有一些不同之处,这次做了上传文件夹就记录下以备后用. 首先我们需要了解的是上传文件三要素: 1.表单提交方式:post (get方式提交有大小 ...
javascript中的原型和原型链(四)
new运算符工作原理
poj 3320 jessica's Reading PJroblem 尺取法 -map和set的使用
jessica's Reading PJroblem Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 9134 Accep ...
source和resource的区别
idea中,有时新导入的工程会出现类的标识为红色的J,此时为无效,并且该类不能被编译,这是因为该类所在的文件夹java没有被标记为Sources Root,而放置配置文件的resources文件夹没 ...
RMQ的ST算法
·RMQ的ST算法状态设计: F[i, j]表示从第i个数起连续2^j个数中的最大值状态转移方程(二进制思想): F[i, j]=max(F[i,j-1], ...
客户端框架-MVP
MVP Model-View-Presenter MVP是把MVC中的Controller换成了Presenter(呈现),目的就是为了完全切断View跟Model之间的联系,由Presenter充当 ...
自定义实现Java动态代理
转自:https://www.cnblogs.com/rjzheng/p/8750265.html 一借助JDK的API实现: 1.先创建一个接口,并实现它 public interface Per ...
.tcc文件
今天看源码时碰到一个MemoryPool.h文件和MemoryPool.tcc文件,毫不犹豫在vs工程下把.tcc加到了源文件文件夹下, 把.h文件放到了头文件文件夹下.结果闹了笑话: 以下是解释, ...

小记----采集之Xpath

小记----采集之Xpath的更多相关文章

随机推荐

热门专题