第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

标签选择器对象

HtmlXPathSelector()创建标签选择器对象，参数接收response回调的html对象
需要导入模块：from scrapy.selector import HtmlXPathSelector

select()标签选择器方法，是HtmlXPathSelector里的一个方法，参数接收选择器规则，返回列表元素是一个标签对象

extract()获取到选择器过滤后的内容，返回列表元素是内容

选择器规则

　　//x 表示向下查找n层指定标签，如：//div 表示查找所有div标签
　　/x 表示向下查找一层指定的标签
　　/@x 表示查找指定属性,可以连缀如：@id @src
　　[@class="class名称"] 表示查找指定属性等于指定值的标签,可以连缀，查找class名称等于指定名称的标签
　　/text() 获取标签文本类容
　　[x] 通过索引获取集合里的指定一个元素

获取指定的标签对象

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from urllib import request                     #导入request模块

import os

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        hxs = HtmlXPathSelector(response)               #创建HtmlXPathSelector对象，将页面返回对象传进去

        items = hxs.select('//div[@class="showlist"]/li')  #标签选择器，表示获取所有class等于showlist的div，下面的li标签

        print(items)                                       #返回标签对象

循环获取到每个li标签里的子标签，以及各种属性或者文本

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from urllib import request                     #导入request模块

import os

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        hxs = HtmlXPathSelector(response)               #创建HtmlXPathSelector对象，将页面返回对象传进去

        items = hxs.select('//div[@class="showlist"]/li')  #标签选择器，表示获取所有class等于showlist的div，下面的li标签

        # print(items)                                     #返回标签对象

        for i in range(len(items)):                        #根据li标签的长度循环次数

            title = hxs.select('//div[@class="showlist"]/li[%d]//img/@alt' % i).extract()   #根据循环的次数作为下标获取到当前li标签，下的img标签的alt属性内容

            src = hxs.select('//div[@class="showlist"]/li[%d]//img/@src' % i).extract()     #根据循环的次数作为下标获取到当前li标签，下的img标签的src属性内容

            if title and src:

                print(title,src)  #返回类容列表

将获取到的图片下载到本地

urlretrieve()将文件保存到本地，参数1要保存文件的src，参数2保存路径
urlretrieve是urllib下request模块的一个方法，需要导入from urllib import request

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from urllib import request                     #导入request模块

import os

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        hxs = HtmlXPathSelector(response)               #创建HtmlXPathSelector对象，将页面返回对象传进去

        items = hxs.select('//div[@class="showlist"]/li')  #标签选择器，表示获取所有class等于showlist的div，下面的li标签

        # print(items)                                     #返回标签对象

        for i in range(len(items)):                        #根据li标签的长度循环次数

            title = hxs.select('//div[@class="showlist"]/li[%d]//img/@alt' % i).extract()   #根据循环的次数作为下标获取到当前li标签，下的img标签的alt属性内容

            src = hxs.select('//div[@class="showlist"]/li[%d]//img/@src' % i).extract()     #根据循环的次数作为下标获取到当前li标签，下的img标签的src属性内容

            if title and src:

                # print(title[0],src[0])                                                    #通过下标获取到字符串内容

                file_path = os.path.join(os.getcwd() + '/img/', title[0] + '.jpg')          #拼接图片保存路径

                request.urlretrieve(src[0], file_path)                          #将图片保存到本地，参数1获取到的src，参数2保存路径

xpath()标签选择器，是Selector类里的一个方法，参数是选择规则【推荐】

选择器规则同上

selector()创建选择器类，需要接受html对象
需要导入：from scrapy.selector import Selector

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        items = Selector(response=response).xpath('//div[@class="showlist"]/li').extract()

        # print(items)                                     #返回标签对象

        for i in range(len(items)):

            title = Selector(response=response).xpath('//div[@class="showlist"]/li[%d]//img/@alt' % i).extract()

            src = Selector(response=response).xpath('//div[@class="showlist"]/li[%d]//img/@src' % i).extract()

            print(title,src)

正则表达式的应用

正则表达式是弥补，选择器规则无法满足过滤情况时使用的，

分为两种正则使用方式

　　1、将选择器规则过滤出来的结果进行正则匹配

　　2、在选择器规则里应用正则进行过滤

1、将选择器规则过滤出来的结果进行正则匹配，用正则取最终内容

最后.re('正则')

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        items = Selector(response=response).xpath('//div[@class="showlist"]/li//img')[0].extract()

        print(items)                                     #返回标签对象

        items2 = Selector(response=response).xpath('//div[@class="showlist"]/li//img')[0].re('alt="(\w+)')

        print(items2)

# <img src="http://www.shaimn.com/uploads/170724/1-1FH4221056141.jpg" alt="人体艺术mmSunny前凸后翘性感诱惑写真">

# ['人体艺术mmSunny前凸后翘性感诱惑写真']

2、在选择器规则里应用正则进行过滤

[re:正则规则]

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        items = Selector(response=response).xpath('//div').extract()

        # print(items)                                     #返回标签对象

        items2 = Selector(response=response).xpath('//div[re:test(@class, "showlist")]').extract()  #正则找到div的class等于showlist的元素

        print(items2)

第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签的更多相关文章

第三百二十八节，web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
第三百二十三节，web爬虫，scrapy模块以及相关依赖模块安装
第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装当前环境python3.5 ,windows10系统 Linux系统安装在线安装,会自动安装scrapy模块以及相关依赖模块 pip ...
第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
第三百二十六节，web爬虫，scrapy模块,解决重复ur——自动递归url
第三百二十六节,web爬虫,scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 ...
第三百二十四节，web爬虫，scrapy模块介绍与使用
第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
第三百八十五节，Django+Xadmin打造上线标准的在线教育平台—登录功能实现，回填数据以及错误提示html
第三百八十五节,Django+Xadmin打造上线标准的在线教育平台—登录功能实现 1,配置登录路由 from django.conf.urls import url, include # 导入dja ...
第三百七十五节，Django+Xadmin打造上线标准的在线教育平台—创建课程机构app，在models.py文件生成3张表，城市表、课程机构表、讲师表
第三百七十五节,Django+Xadmin打造上线标准的在线教育平台—创建课程机构app,在models.py文件生成3张表,城市表.课程机构表.讲师表创建名称为app_organization的课 ...
第三百六十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...
第一百二十五节，JavaScript，XML
JavaScript,XML 学习要点: 1.IE中的XML 2.DOM2中的XML 3.跨浏览器处理XML 随着互联网的发展,Web应用程序的丰富,开发人员越来越希望能够使用客户端来操作XML技术. ...

随机推荐

开发中遇到的一些mongoose的问题
save方法,这个方法可以用来创建新的文档,也可以用来修改已有文档 1,save创建新文档 var Tank = mongoose.model('Tank', yourSchema); 2 var s ...
关于angular的$resource中的isArray属性问题
在之前的文章中讲到了在使用$resource的时候,有一个isArray属性. 这个属性在两个地方有提到: 1. angular学习笔记(二十八)-$http(6)-使用ngResource模块构建R ...
[AWS vs Azure] 云计算里AWS和Azure的探究(4)
云计算里AWS和Azure的探究(4) ——Amazon EC2 和 Windows Azure Virtual Machine 接下来我们来看看Azure VM的创建.Azure里面虚拟机的创建跟A ...
JAVA Zero Copy的相关知识【转】
转自:https://my.oschina.net/cloudcoder/blog/299944 摘要: java 的zero copy多在网络应用程序中使用.Java的libaries在linux和 ...
WeakReference 学习和使用
本文转自:http://qifuguang.me/2015/09/02/[Java%E5%B9%B6%E5%8F%91%E5%8C%85%E5%AD%A6%E4%B9%A0%E4%B8%83]%E8% ...
Centos7.4使用SoftEther搭建V.PN
参考: https://blog.csdn.net/qq_39591494/article/details/78625394?locationNum=9&fps=1 https://www.b ...
关于IT学习的老马私人订制服务
各位寒门学子好,老马的前端教程发布以来,受到好多同学的关注.老马辛勤付出也收货了很多好评.在这非常感谢大家. 最近一段时间来,老马已经完成了html.css.css项目.js基础.js高级.dom与特 ...
JAVA-JSP内置对象之exception对象用来处理错误异常
相关资料:<21天学通Java Web开发> exception对象1.exception对象用来处理错误异常.2.如果要使用exception对象,必须指定page中的isErrorPa ...
phalcon无法更新分区字段解决办法
表里面有个分区字段,更新后,保存成功,结果实际上数据库没有更新. 后来使用原生sql,解决了这个问题. 获取di中的数据库连接,直接执行sql语句即可,下面的db为注册的数据库服务名 $db = $t ...
出去html中的标签
C#写法 public static string StripHTML(string strHtml) { string strOutput = strHtml; Regex regex = new ...

第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签的更多相关文章

随机推荐

热门专题