四 web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

标签选择器对象

HtmlXPathSelector()创建标签选择器对象，参数接收response回调的html对象
需要导入模块：from scrapy.selector import HtmlXPathSelector

select()标签选择器方法，是HtmlXPathSelector里的一个方法，参数接收选择器规则，返回列表元素是一个标签对象

extract()获取到选择器过滤后的内容，返回列表元素是内容

选择器规则

　　//x 表示向下查找n层指定标签，如：//div 表示查找所有div标签
　　/x 表示向下查找一层指定的标签
　　/@x 表示查找指定属性,可以连缀如：@id @src
　　[@class="class名称"] 表示查找指定属性等于指定值的标签,可以连缀，查找class名称等于指定名称的标签
　　/text() 获取标签文本类容
　　[x] 通过索引获取集合里的指定一个元素

获取指定的标签对象

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from urllib import request                     #导入request模块

import os

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        hxs = HtmlXPathSelector(response)               #创建HtmlXPathSelector对象，将页面返回对象传进去

        items = hxs.select('//div[@class="showlist"]/li')  #标签选择器，表示获取所有class等于showlist的div，下面的li标签

        print(items)                                       #返回标签对象

循环获取到每个li标签里的子标签，以及各种属性或者文本

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from urllib import request                     #导入request模块

import os

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        hxs = HtmlXPathSelector(response)               #创建HtmlXPathSelector对象，将页面返回对象传进去

        items = hxs.select('//div[@class="showlist"]/li')  #标签选择器，表示获取所有class等于showlist的div，下面的li标签

        # print(items)                                     #返回标签对象

        for i in range(len(items)):                        #根据li标签的长度循环次数

            title = hxs.select('//div[@class="showlist"]/li[%d]//img/@alt' % i).extract()   #根据循环的次数作为下标获取到当前li标签，下的img标签的alt属性内容

            src = hxs.select('//div[@class="showlist"]/li[%d]//img/@src' % i).extract()     #根据循环的次数作为下标获取到当前li标签，下的img标签的src属性内容

            if title and src:

                print(title,src)  #返回类容列表

将获取到的图片下载到本地

urlretrieve()将文件保存到本地，参数1要保存文件的src，参数2保存路径
urlretrieve是urllib下request模块的一个方法，需要导入from urllib import request

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from urllib import request                     #导入request模块

import os

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        hxs = HtmlXPathSelector(response)               #创建HtmlXPathSelector对象，将页面返回对象传进去

        items = hxs.select('//div[@class="showlist"]/li')  #标签选择器，表示获取所有class等于showlist的div，下面的li标签

        # print(items)                                     #返回标签对象

        for i in range(len(items)):                        #根据li标签的长度循环次数

            title = hxs.select('//div[@class="showlist"]/li[%d]//img/@alt' % i).extract()   #根据循环的次数作为下标获取到当前li标签，下的img标签的alt属性内容

            src = hxs.select('//div[@class="showlist"]/li[%d]//img/@src' % i).extract()     #根据循环的次数作为下标获取到当前li标签，下的img标签的src属性内容

            if title and src:

                # print(title[0],src[0])                                                    #通过下标获取到字符串内容

                file_path = os.path.join(os.getcwd() + '/img/', title[0] + '.jpg')          #拼接图片保存路径

                request.urlretrieve(src[0], file_path)                          #将图片保存到本地，参数1获取到的src，参数2保存路径

xpath()标签选择器，是Selector类里的一个方法，参数是选择规则【推荐】

选择器规则同上

selector()创建选择器类，需要接受html对象
需要导入：from scrapy.selector import Selector

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        items = Selector(response=response).xpath('//div[@class="showlist"]/li').extract()

        # print(items)                                     #返回标签对象

        for i in range(len(items)):

            title = Selector(response=response).xpath('//div[@class="showlist"]/li[%d]//img/@alt' % i).extract()

            src = Selector(response=response).xpath('//div[@class="showlist"]/li[%d]//img/@src' % i).extract()

            print(title,src)

正则表达式的应用

正则表达式是弥补，选择器规则无法满足过滤情况时使用的，

分为两种正则使用方式

　　1、将选择器规则过滤出来的结果进行正则匹配

　　2、在选择器规则里应用正则进行过滤

1、将选择器规则过滤出来的结果进行正则匹配，用正则取最终内容

最后.re('正则')

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        items = Selector(response=response).xpath('//div[@class="showlist"]/li//img')[0].extract()

        print(items)                                     #返回标签对象

        items2 = Selector(response=response).xpath('//div[@class="showlist"]/li//img')[0].re('alt="(\w+)')

        print(items2)

# <img src="http://www.shaimn.com/uploads/170724/1-1FH4221056141.jpg" alt="人体艺术mmSunny前凸后翘性感诱惑写真">

# ['人体艺术mmSunny前凸后翘性感诱惑写真']

2、在选择器规则里应用正则进行过滤

[re:正则规则]

# -*- coding: utf-8 -*-

import scrapy       #导入爬虫模块

from scrapy.selector import HtmlXPathSelector  #导入HtmlXPathSelector模块

from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):

    name = 'adc'                                        #设置爬虫名称

    allowed_domains = ['www.shaimn.com']

    start_urls = ['http://www.shaimn.com/xinggan/']

    def parse(self, response):

        items = Selector(response=response).xpath('//div').extract()

        # print(items)                                     #返回标签对象

        items2 = Selector(response=response).xpath('//div[re:test(@class, "showlist")]').extract()  #正则找到div的class等于showlist的元素

        print(items2)

四 web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签的更多相关文章

第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...
爬虫scrapy模块
首先下载scrapy模块这里有惊喜 https://www.cnblogs.com/bobo-zhang/p/10068997.html 创建一个scrapy文件首先在终端找到一个文件夹输入 s ...
scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址
通过scrapy内置到ImagePipeline下载图片到本地在settings中打开 ITEM_PIPELINES的注释,并在这里面加入 'scrapy.pipelines.images.Imag ...
使用a标签直接下载图片
通常情况下,使用a标签链接到图片,会在浏览器中打开这个图片,而不会下载如果要直接下载这个图片,可以使用download属性配合href属性 <a href="./1.jpg" ...
在html使用a标签直接下载图片不通过后台实现直接下载
由于a标签在HTML中链接图片会被识别并打开到网页上如果想下载这个图片的话就需要连接到后台读取文件并生成一个头信息下载.不过可以先给a标签加上一个download属性即可直接下载了. <a ...
scrapy操作mysql/批量下载图片
1.操作mysql items.py meiju.py 3.piplines.py 4.settings.py -------------------------------------------- ...
十四 web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
打码接口文件 # -*- coding: cp936 -*- import sys import os from ctypes import * # 下载接口放目录 http://www.yundam ...
Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
爬虫3 requests基础之下载图片用content(二进制内容)
res = requests.get('http://soso3.gtimg.cn/sosopic/0/11129365531347748413/640') # print(res.content) ...

随机推荐

sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别
参考:https://stackoverflow.com/questions/45384185/what-is-the-difference-between-linearsvc-and-svckern ...
Python高级教程-返回函数
函数作为返回值高阶函数除了可以接收函数作为参数外,还可以把函数作为结果值返回. 要实现一个可变参数的求和.通常情况下,求和的函数是这样定义的: def calc_sum(*args): ax = 0 ...
docker的安装以及jdk和tomcat的环境配置
准备工作:需要Linux kernel 3.8支持查看linux内核的版本:root@ubuntu-dev:~# cat /proc/version查看linux版本:root@ubuntu-dev: ...
Java基础—枚举
定义枚举(enum)类型是Java 5新增的特性,它是一种新的类型,允许用常量来表示特定的数据片断,而且全部都以类型安全的形式来表示. 为什么要用枚举在java语言中还没有引入枚举类型之前,表示枚 ...
Matplot相关(二)——统计图
Matplotlib:其能够支持所有的2D作图和部分3D作图.能通过交互环境做出印刷质量的图像. ————————缩写定义———————— import matplot.pyplot as plt — ...
POJ 2516 Minimum Cost (KM最优匹配)
题意:有N家家店,每家店都对K种货物有需求:同时有M家仓库,对K钟货物有供应.对于每种货物,每个仓库送至每家店都有自己的单位费用.求满足所有店所有货物的最小费用分析:对于每一种货物,如果总需求大于总 ...
了解IE中filter属性的应用！
在设置不透明属性时,经常用opacity来增加层次感或者增加用户体验,但这个属性是css3属性,对于低级浏览器的兼容性来说就达不到预期的效果. 一般而言,我们都尽可能少用一些浏览私有属性-webkit ...
make cmake catkin_make
在Linux下进行C语言编程,必然要采用GNU GCC来编译C源代码生成可执行程序. 一.GCC快速入门 Gcc指令的一般格式为:Gcc [选项] 要编译的文件 [选项] [目标文件] 其中,目标文件 ...
Linux x86架构下ACPI PNP Hardware ID的识别机制
转:https://blog.csdn.net/morixinguan/article/details/79343578 关于Hardware ID的用途,在前面已经大致的解释了它的用途,以及它和AC ...
linux驱动分层分离思想
转:https://blog.csdn.net/zqixiao_09/article/details/51088887 前面我们学习I2C.USB.SD驱动时,有没有发现一个共性,就是在驱动开发时,每 ...

四 web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

四 web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签的更多相关文章

随机推荐

热门专题