Scrapy下xpath基本的使用方法

　　Scrapy是基于python的开源爬虫框架，使用起来也比较方便。具体的官网档：http://doc.scrapy.org/en/latest/

　　之前以为了解python就可以直接爬网站了，原来还要了解HTML，XML的基本协议，在了解基础以后，在了解下xpath的基础上，再使用正则表达式(python下的re包提供支持)提取一定格式的信息（比如说url），就比较容易处理网页了。

　　xpath是Scrapy下快速提取特定信息（如title,head,href等）的一个接口。

　　几个简单的例子：

　　/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
　　/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
　　//td: 选择所有 <td> 元素
　　//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

　　基本的路径意义：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

　　具体的使用实例：

　　比如对http://www.dmoz.org/Computers/Programming/Languages/Python/Books/ 网站提取特定的信息

　　1）、先在第一层tutorial文件夹下，在cmd中输入： scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/

　　2）、现在比如我们需要抓取该网页的tittle，由于前面的shell命令已经实例化了一个selector的对象sel，就输入 sel.xpath('//title') 获取了网页的标题。

　　3）、比如我们想要知道该网页下的www.****.com形式的链接，可以使用xpath 结合正则表达式re提取信息，输入 sel.xpath('//@href').re("www.[0-9a-zA-Z]+\.com")

部分参考：http://blog.csdn.net/pleasecallmewhy/article/details/19642329

正则表达式参考：http://blog.csdn.net/pleasecallmewhy/article/details/8929576

Scrapy下xpath基本的使用方法的更多相关文章

使用scrapy中xpath选择器的一个坑点
情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...
Linux下Git和GitHub使用方法总结
来源:Linux下Git和GitHub使用方法总结 1 Linux下Git和GitHub环境的搭建第一步: 安装Git,使用命令 “sudo apt-get install git” 第二步: 到G ...
Linux下清理内存和Cache方法 /proc/sys/vm/drop_caches
Linux下清理内存和Cache方法 /proc/sys/vm/drop_caches 频繁的文件访问会导致系统的Cache使用量大增 $ free -m total used free shared ...
linux系统下yum 安装mysql的方法
菜鸟一个,记录下yum 安装mysql的方法,给需要的朋友也做个参考吧. 弄了个新vps,想安装最新版的mysql,网上查了相关资料,记录如下: 1.安装查看有没有安装过: yum ...
Ubuntu下deb包的安装方法 (zz)
Ubuntu下deb包的安装方法分类: Ubuntu10使用技巧 2010-10-11 23:49 42969人阅读评论(3) 收藏举报 ubuntudebdebianlinux deb是deb ...
linux下生成core dump文件方法及设置
linux下生成core dump文件方法及设置 from:http://www.cppblog.com/kongque/archive/2011/03/07/141262.html core ...
ubuntu下deb包的安装方法
ubuntu下deb包的安装方法简介 deb是debian linus的安装格式,跟red hat的rpm非常相似,最基本的安装命令是:dpkg -i file.deb dpkg 是Debian P ...
Linux下memcached安装和启动方法
Linux下memcached安装和启动方法 1. 首先下载memcached 和 libevent 包. Memcached用到了libevent这个库用于Socket的处理.下面是下载的两个包文件 ...
mac下使用glew库，方法
mac下使用glew库,方法分类: OpenGL2015-01-15 15:52 210人阅读评论(0) 收藏举报目录(?)[+] 主要参考http://www.cnblogs.com ...

随机推荐

DB2开发系列之二——SQL过程
1.SQL 过程的结构 1)SQL过程的结构 CREATE PROCEDURE proc_name IN, OUT, INOUT parameters optional clauses S ...
learning uboot auto switch to stanbdy system in qca4531 cpu
design: when uboot load kerne failed,we can switch to stanbdy system; how to realize: when boot fail ...
install rabbitvcs in ubuntu16.04
reference: https://github.com/rabbitvcs/rabbitvcs how to install : sudo apt-get install rabbitvcs-cl ...
javascript的replace之正则表达式的浅析
在javascript中,字符串的replace方法可以指定替换某些字符串. 1.直接替换字符串 "yy/MM/dd".replace("yy","2 ...
设置MyEclipse字体大小
设置MyEclipse字体大小
Python 数值计算库之-[Pandas]（六）
【DevExpress v17.2新功能预告】增强ASP.NET GridView的功能
在下一个主要版本v17.2中,我们将为DevExpress ASP.NET GridView添加一些优秀的新功能.在本文中为大家介绍的所有功能都可用于 GridView的ASP.NET WebForm ...
JAVA中int转string及String.valueOf()的使用
日常java开放中,经常会遇到int和String的互转,一般图省事的做法就是: String length = ""+100; length的生成需要使用两个临时字符串" ...
Alpha阶段敏捷冲刺---Day6
一.Daily Scrum Meeting照片二.今天冲刺情况反馈今天的任务标志着我们项目进入收尾阶段,今天将完成大部分程序的功能,例如主界面设计,彻底完成计算模块,服务器随机生成题目等等,这些任 ...
php 文件上传处理
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAS4AAACvCAIAAADMuaTdAAAcaklEQVR4nO2da3Abx33Az3H6JdNx2i

Scrapy下xpath基本的使用方法

Scrapy下xpath基本的使用方法的更多相关文章

随机推荐

热门专题