Python 爬虫知识点

一、基础介绍

<bookstore>
　　<book>
　　　　<title>Harry Potter</title>
　　　　<author>J K. Rowling</author>
　　　　<year>2005</year>
　　　　<price>29.99</price>
　　</book>
</bookstore>

bookstore : 选取 bookstore 元素的所有子节点。
/bookstore : 选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book : 选取属于 bookstore 的子元素的所有 book 元素。
//book : 选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book : 选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang : 选取名为 lang 的所有属性。

/bookstore/book[1] : 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] : 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] : 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3] : 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] : 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’] : 选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00] : 选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title : 选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

二、使用场景

http://category.dangdang.com/pg2-cp01.54.06.00.00.00.html

定位链接和标题

response.xpath("//a[@class="pic"]/@href").extract()

response.xpath("//a[@class="pic"]/@title").extract()

定位评论

response.xpath("//a[@name="P_pl"]/text()").extract()

Python 爬虫知识点 - XPath的更多相关文章

Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
python爬虫知识点详解
python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使 ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续一）
通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksT ...
Python 爬虫知识点
一.基础知识 1.HTML分析 2.urllib爬取导入urilib包(Python3.5.2) 3.urllib保存网页 import urllib.requesturl = "http ...
python爬虫知识点总结（八）Selenium库详解
官方学习文档:http://selenium-python.readthedocs.io/api.html 一.什么是Selenium? 答:自动化测试工具,支持多种浏览器.用来驱动浏览器,发出指令让 ...
python爬虫知识点总结(一)库的安装
环境要求: 1.编程语言版本python3: 2.系统:win10; 3.浏览器:Chrome68.0.3440.75:(如果不是最新版有可能影响到程序执行) 4.chromedriver2.41 注 ...

随机推荐

gulp入门与一些基本设置
这里是gulp入门的一些操作,实现了编译sass文件.压缩.合并.添加版本号等基本功能. 友情提示,如果npm出现无法下载可以安装 cnpm.在安装完Nodejs 后 npm install cnpm ...
错误地使用catch
try { // do something } catch (Exception e) { } 错误:这里,catch了Exception,但是在catch中什么动作都没做,那么所有的Exceptio ...
百度地图 JSAPI使用定位当前地址与路径规划
http://lbsyun.baidu.com/index.php?title=jspopular api http://developer.baidu.com/map/jsdemo.htm#a1 ...
webRTC开启摄像头
配置htts之后就可以开启webRTC了. <!DOCTYPE html> <html> <head> <title>OpenCamera</ti ...
基于jQuery带进度条全屏图片轮播代码
基于jQuery带进度条全屏图片轮播代码.这是一款基于jQuery实现的oppo手机官网首页带进度条全屏图片轮播特效.效果图如下: 在线预览源码下载实现的代码. html代码: <div ...
loadrunner11 测试restful
loadrunner不知道为啥会有这么大的体积. 一开始用的是c脚本,可是恶心的是又不是完全的c,读文件的fseek居然没有. 后来又折腾java脚本,发现loadrunner11 java要用jdk ...
[posix]Posix多线程编程
就不排版了,可以到原作者博客下看转自:http://www.cnblogs.com/zhangsf/archive/2013/09/09/3309867.html 目录表摘要译者序 Pthre ...
[shell]shell脚本统计数值大小
#! /bin/bash array=( ... ) var1= var2= ;i<=;i++)); do array[i]="$( cat /sys/bus/iio/devices/ ...
（转）Linux下PS命令详解
(转)Linux下PS命令详解整理自:http://blog.chinaunix.net/space.php?uid=20564848&do=blog&id=74654 要对系统中进 ...
HTML资料——做网页时遇到的
HTML <meta> 标签浏览器支持 IE Firefox Chrome Safari Opera 所有浏览器都支持 <meta> 标签. 定义和用法 ...

Python 爬虫知识点 - XPath

Python 爬虫知识点 - XPath的更多相关文章

随机推荐

热门专题