Python 爬虫知识点

一、基础介绍

<bookstore>
　　<book>
　　　　<title>Harry Potter</title>
　　　　<author>J K. Rowling</author>
　　　　<year>2005</year>
　　　　<price>29.99</price>
　　</book>
</bookstore>

bookstore : 选取 bookstore 元素的所有子节点。
/bookstore : 选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book : 选取属于 bookstore 的子元素的所有 book 元素。
//book : 选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book : 选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang : 选取名为 lang 的所有属性。

/bookstore/book[1] : 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] : 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] : 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3] : 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] : 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’] : 选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00] : 选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title : 选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

二、使用场景

http://category.dangdang.com/pg2-cp01.54.06.00.00.00.html

定位链接和标题

response.xpath("//a[@class="pic"]/@href").extract()

response.xpath("//a[@class="pic"]/@title").extract()

定位评论

response.xpath("//a[@name="P_pl"]/text()").extract()

Python 爬虫知识点 - XPath的更多相关文章

Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
python爬虫知识点详解
python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使 ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续一）
通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksT ...
Python 爬虫知识点
一.基础知识 1.HTML分析 2.urllib爬取导入urilib包(Python3.5.2) 3.urllib保存网页 import urllib.requesturl = "http ...
python爬虫知识点总结（八）Selenium库详解
官方学习文档:http://selenium-python.readthedocs.io/api.html 一.什么是Selenium? 答:自动化测试工具,支持多种浏览器.用来驱动浏览器,发出指令让 ...
python爬虫知识点总结(一)库的安装
环境要求: 1.编程语言版本python3: 2.系统:win10; 3.浏览器:Chrome68.0.3440.75:(如果不是最新版有可能影响到程序执行) 4.chromedriver2.41 注 ...

随机推荐

LeetCode: Longest Consecutive Sequence 解题报告
Longest Consecutive Sequence Given an unsorted array of integers, find the length of the longest con ...
response.setContentType 与response.setCharacterEncoding
response.setContentType 设置发送到客户端的响应的内容类型,可以包括字符编码说明. 也就是说在服务器端坐了这个设置,那么他将在浏览器端起到作用,在你打开浏览器时决定编码方式 ...
续写上一篇的数组or指针操作
C语言,同样使用if else while 这样的语法,但不同的人,就是有不同的实现方式,甚至是技巧. eg: #include <stdio.h> #include<string. ...
如何设置Windows server 2008 R2登陆密码？
我第一次用该系统,登陆系统需要设置新密码,科沃怎么设置新密码都是新密码不符合条件,不允许我创建,该怎么办? 答案: 至少6个字符,要包括大小写.符号.数字这四组字符中的三组.如12abAB是有效密码, ...
【WPF/C#】拖拽Image图片控件
需求:使得Image图片控件能够被拖动. 思路:关键是重写Image控件的几个鼠标事件,实现控制. 前台: <Image Source="C:\Users\Administrator\ ...
Quartz 与 Spring集成
http://www.cnblogs.com/pigwing/archive/2011/07/12/2104002.html http://blog.arganzheng.me/posts/quart ...
ATM交换机和普通交换机区别
运行在 ATM协议上的交换机普通的是运行在以太网协议上的 ATM交换机转发的是广域网二层协议数据包,以太网交换机转发的是局域网二层协议数据包. 网络的ATM是指:异步传输模式,全称是什么 Asy ...
关于B/S和C/S模式
B/S注重的是 1.服务想玩游戏的时候,就出现想看电影的时候,就出现不用下载客户端太麻烦看个电影还要下载一大堆东西,不看了 2.维护升级软件不用一台一台地重新更新,百度一直在更新,但是我们感觉不到 3 ...
Semi-Supervised Classification with Graph Convolutional Networks
Kipf, Thomas N., and Max Welling. "Semi-supervised classification with graph convolutional netw ...
Gray Code - 格雷码
基本概念格雷码是一种准权码,具有一种反射特性和循环特性的单步自补码,它的循环.单步特性消除了随机取数时出现重大误差的可能,它的反射.自补特性使得求反非常方便.格雷码属于可靠性编码,是一种错误最小化的 ...

Python 爬虫知识点 - XPath

Python 爬虫知识点 - XPath的更多相关文章

随机推荐

热门专题