scrapy 的 selector 练习

网页结构：

<html>

 <head>

  <base href='http://example.com/' />

  <title>Example website</title>

 </head>

 <body>

  <div id='images'>

   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

  </div>

 </body>

</html>

连接:

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

Play:

注意xapth与css两种方式的区别与联系

# selector

response.selector.xpath('//title/text()').extract()

response.selector.css('title::text').extract()

# response的selector的xpath与css太常用了，所以提供了简捷写法：

# 文本一

response.xpath('//title/text()').extract()

response.css('title::text').extract()

# 文本 包括子节点

sel.xpath("//a[1]//text()").extract()

# 文本 包括子节点

sel.xpath("string(//a[1])").extract()

# 属性

response.xpath('//img/@src').extract()

response.css('img::attr(src)').extract()

# 混合

response.css('img').xpath('@src').extract()

response.xpath('//img').css('::attr(src)').extract()

# 精确

response.xpath('//div[@id="images"]/a/text()').extract()

response.css('div[id=images] a::text').extract()

# 模糊

response.xpath('//div[contains(@id, "image")]/a/text()').extract()

response.css('div[id*=image] a::text').extract()

# 正则

response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

scrapy 的 selector 练习的更多相关文章

scrapy 中用selector来提取数据的用法
一. 基本概念 1. Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,如下 from sc ...
scrapy中Selector的使用
scrapy的Selector选择器其实也可以用来解析,今天主要总结下css和xpath的用法,其实我个人最喜欢用css 以慕课网嵩天老师教程中的一个网页为例,python123.io/ws/demo ...
使用scrapy选择器selector解析获取百度结果
0x00 概述需要成功安装scrapy,安装方法与本文无关,不在这多说. 0x01 配置settings 由于百度对于user-agent进行验证,所以需要添加. settings.py中找到DEF ...
scrapy框架Selector提取数据
从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢. lxml 是一套使用c语言编写的xml解析 ...
18.scrapy中selector的用法
Selector是一个独立的模块. Selector主要是与scrapy结合使用的. 开启Scrapy shell: 1.打开命令行cmd 2.scrapy shell http://doc.scra ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Scrapy提取多个标签的text
对于要提取嵌套标签所有内容的情况, 使用string或//text(), 注意两者区别 >>> from scrapy import Selector >>> &g ...
scrapy 选择器官方文档
当抓取网页时,常见的任务是从HTML源码中提取数据.现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制.它们被称作选择器(seletors), ...

随机推荐

mysql高可用之LVS + KEEPALIVE + MYSQL
1.架构图注意 (一) Mysql需要把bind-address的配置去掉,否则无法实现虚拟ip访问 (二) 关闭所有linux防火墙:/sbin/iptables –F(可能没用) (三) ...
删除CListCtrl中具有某一相同数据的所有行
删除CListCtrl中具有某一相同数据的所有行 ================================== 本文原创,转载请注明出处:http://blog.csdn.net/wlsgzl ...
JS对URL字符串进行编码/解码分析
一.为什么要进行js编码和解码? 只有字母和数字[0-9a-zA-Z].一些特殊符号“$-_.+!*'(),”[不包括双引号].以及某些保留字,才可以不经过编码直接用于URL. 出现的情况: 网址路径 ...
shell 脚本关键字&符号
shell概念 "shell"既是一种解释型编程语言,也是一个这种编程语言的解释器的名字 shell是解释型语言,就是解释器会一条一条的翻译每一条语句并执行,对比之下,C语言是编译 ...
Eclipse 启动Tomcat 超时报错的解决方案
在用eclipse开发项目用tomcat发布项目的时候会提示超时, Server Tomcat v7.0 Server at localhost was unable to start wit ...
python 发送邮件函数模块
发送邮件函数功能 #!/usr/bin/env python # -*- coding:utf-8 -*- import smtplib from email.mime.text import MIM ...
POJ 2406 Power Strings (KMP)
Power Strings Time Limit: 3000MSMemory Limit: 65536K Total Submissions: 29663Accepted: 12387 Descrip ...
用VB实现点名程序
用vb实现点名程序主要是随机变量的产生和数据的读取和存储以及计时器程序的设计,读取的文件命名为data.txt,书写格式为第一行为总人数下面的每行为一个人名,在应用时最好把data文件和程序文件放在一 ...
How to use python remove the '^M' when copy words from Windows to Linux
今天帮同事用Python写了一个小工具,实现了在linux下批量文件名和去掉windows 文件到linux过程中产生^M的脚本,代码如下: !/opt/exptools/bin/python imp ...
storm的并发和消息保障性
Storm并发配置的优先级: defaults.yaml < storm.yaml < topology-specific configuration < internal com ...

scrapy 的 selector 练习

scrapy 的 selector 练习的更多相关文章

随机推荐

热门专题