scrapy框架抓取表情包/(python爬虫学习)

抓取网址：https://www.doutula.com/photo/list/?page=1

1.创建爬虫项目：scrapy startproject biaoqingbaoSpider

2.创建爬虫文件：scrapy genspider biaoqingbao doutula.com

xpath提取图片链接和名字：

提取网址后缀，用于实现自动翻页

3.编写爬虫文件：

# -*- coding: utf-8 -*-

import scrapy

import requests

class BiaoqingbaoSpider(scrapy.Spider):

    name = 'biaoqingbao'

    allowed_domains = ['doutula.com']

    start_urls = ['http://www.doutula.com/photo/list/?page=1']

    def parse(self, response):

        #提取地址和图片名称

        pictureUrls = response.xpath("//a[@class='col-xs-6 col-sm-3']/img/@data-original").extract()

        pictureName = response.xpath("//a[@class='col-xs-6 col-sm-3']/p/text()").extract()

        #提取网址后缀，用于实现自动翻页

        next_page = response.xpath("//li/a[@aria-label='Next »']/@href").extract_first()

        for i in range(len(pictureUrls)):

            url = pictureUrls[i]

            name = pictureName[i]

            self.getPicture(url=url, name=name) #对每个图片调用getPicture下载图片并命名

        #自动翻页

        if next_page:

            next_url = response.urljoin(next_page) #返回新的网址

            yield scrapy.Request(next_url, callback=self.parse) #回调函数

    #自定义函数，用于下载图片，因为刚学太菜，就只有先用requests下载了

    def getPicture(self, url, name):

        response = requests.get(url)

        suffix = url.split(".")[-1] #提取图片链接地址的后缀，因为有jpg和gif图片格式

        #二进制格式写入图片

        with open("biaoqingbaoSpider/spiders/images/"+name+ "." + suffix, "wb") as fp:

            fp.write(response.content)

4.执行爬虫文件：scrapy crawl biaoqingbao

切记：觉得爬差不多ctrl + c中止，不中止它会自动爬取到最后一页（3000页），当然也可以自己在代码里设置爬取多少页

5.结果：

scrapy框架抓取表情包/(python爬虫学习)的更多相关文章

利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
scrapy框架简介和基础应用(python爬虫)
一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍,所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,持久化等)的具有 ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
tcpdump抓取HTTP包
tcpdump抓取HTTP包 tcpdump -XvvennSs 0 -i eth0 tcp[20:2]=0x4745 or tcp[20:2]=0x4854 0x4745为"GET&quo ...
利用Fiddler抓取websocket包
一.利用fiddler抓取websockt包打开Fiddler,点开菜单栏的Rules,选择Customize Rules... 这时会打开CustomRules.js文件,在class Handl ...
使用wireshark抓取TCP包分析1
使用wireshark抓取TCP包分析1 前言介绍目的准备工作传输创建连接握手生成密钥发送数据断开连接结论前言介绍本篇文章是使用wireshrak对某个https请求的tcp ...
【转载】ASP.NET以Post方式抓取远程网页内容类似爬虫功能
使用HttpWebRequest等Http相关类,可以在应用程序中或者网站中模拟浏览器发送Post请求,在请求带入相应的Post参数值,而后请求回远程网页信息.实现这一功能也很简单,主要是依靠Http ...
手机通过Charles抓取https包
因为fiddler不能在mac上使用,而Charles是跨平台的,可以在mac上使用,所以需要了解一下Charles的使用安装破解版Charles 下载破解版包,先启动一次未破解版的Ch ...

随机推荐

浅谈Java中switch分支语句
前言: 在程序中遇到多分支选择的时候,想必大家都喜欢用if...else if...else...语句,尤其是初学者,因为在了解switch语句之前,我也是只会用if...else语句.那么现在看完这 ...
[转]C++字符串操作函数_tcschr、_tcsrchr
原文出处:https://blog.csdn.net/eickandy/article/details/50083169 C++标准库函数提供了字符和字符串的操作函数,并提供了其UNICODE版本,本 ...
form分辨率
近期做项目时,遇到开发的winform在自己电脑上可以正常显示,共享到其他电脑就事儿不能显示了: [转载自:http://blog.csdn.net/lcawen88/article/details/ ...
【JavaScript】使用document.write输出覆盖HTML问题
您只能在 HTML 输出中使用 document.write.如果您在文档加载后使用该方法,会覆盖整个文档. 分析 HTML输出流是指当前数据形式是HTML格式的数据,这部分数据正在被导出.传输或显示 ...
重温《NoSQL精粹》
前言在网上有关Redis相关文章满天飞的时候,它是什么,用于解决什么问题,有哪些相类似的技术,与传统的关系型数据库有哪些差别,什么时候使用?这个时候我决定重温一下<NoSQL精粹>. 也 ...
html之form表单
目录 form表单表单属性 action method input标签 select标签 textarea标签 form表单表单能够获取用户输入,用于向服务器传输数据,从而实现用户与web服务器的 ...
自动化部署-svn hook触发构建
目的之前是通过轮询的形式,2分钟更新一次svn,即时性不高,现在想要实现提交代码时直接触发构建方案使用svn的服务器hook,当有代码提交时请求jenkins api实现构建具体实现 1.je ...
git笔录
[一]git介绍初始的项目版本管理可以在本地赋值备份之前版本代码,项目较小时还可以,但项目较大时,这种方法显得有点捉襟见肘 ... ... 后期也出现了很多版本管理工具,例如svn.vcs.vss等 ...
HTTP 与HTTPS 简单理解
HTTP协议,即超文本传输协议(Hypertext transfer protocol).是一种详细规定了浏览器和万维网(WWW = World Wide Web)服务器之间互相通信的规则,通过因 ...
django登录页面设计：
urls: """day42 URL Configuration The `urlpatterns` list routes URLs to views. For mor ...

scrapy框架抓取表情包/(python爬虫学习)

scrapy框架抓取表情包/(python爬虫学习)的更多相关文章

随机推荐

热门专题