spider_爬取斗图啦所有表情包（图片保存）

"""
爬取斗图吧里面的所有表情包

知识点总结：
 一、使用requests库进行爬取，随机请求头（网站反爬措施少。挂个请求头足矣）
 二、具体思路：
               1.先爬取所有的图片url，放在列表里
               2.循环遍历url请求这些图片，
               3.将图片进行分类保存
三、分类保存用到一个知识点，endwith（以***结尾）
               使用这个函数，将jpg，gif，png等不同类型的图片分开
四、演示案例中，只爬取了前20页。
五、各个定义的数字变量意思为：
               n=1     网页页数
               num=1   保存图片数

注：该案例主要是练习
　　　　1.图片的保存，应注意，保存时使用字节流的形式。
　　　　2.书写爬虫代码的逻辑思维。
"""
from fake_useragent import FakeUserAgent
import requests
import re
import time
import random
def getUrls():
    # 将获取到的url列表在放到list这个列表里
    url_list=[]
    n=1
    while True:
        url = f"http://www.doutula.com/article/list/?page={n}"
        headers = {
            "User-Agent":FakeUserAgent().random
        }
        htmlStr = requests.get(url,headers=headers).text
        # print(htmlStr)

        # 定义   提取图片url的正则
        urls = r'data-original="(.*?)"'
        # 编译
        urls = re.compile(urls)
        #正则提取
        urls = re.findall(urls,htmlStr)
        url_list.append(urls)
        print("正在收集第%s页的图片"%n)
        n = n + 1
        # 设置延时
        time.sleep(0.5)
        # 当n=21的时候，爬虫程序停止.为了演示方便只保存前二十页其实共有615页
        if n == 21:
            break
    print(len(url_list))
    return url_list

# 保存图片
# 以字节的形式将图片保存
def download(url_list):
    num = 1
    for urls in url_list:
        for url in urls:
            header={
                "User-Agent":FakeUserAgent().random
            }
            # 因为爬取到的图片有两种，所以写了一个判断条件，分类保存，
            if url.endswith('.jpg'):
                # 保存到本地
                with open('./img/%s.jpg'%num,'wb') as file:
                    # 获取到图片  字节
                    img = requests.get(url, headers=header)
                    file.write(img.content)
                    print("正在保存第%s张图片"%num)
                    num += 1
                    time.sleep(0.3)
            elif url.endswith('.gif'):
                # 保存到本地
                with open('./img/%s.gif' % num, 'wb') as file:
                    # 获取到图片  字节
                    img = requests.get(url, headers=header)
                    file.write(img.content)
                    print("正在保存第%s张图片" % num)
                    num += 1
                    time.sleep(0.3)

if __name__ == '__main__':
    url_list=getUrls()
    download(url_list)

spider_爬取斗图啦所有表情包（图片保存）的更多相关文章

python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
python爬取斗图网中的 “最新套图”和“最新表情”
1.分析斗图网斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页可见,每一页的地址栏只有后面的pag ...
Python爬取斗图表情，让你成为斗图大佬
话不多说,上结果(只爬了10页内容) 上代码:(可直接运行) 用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/ ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
py3+requests+urllib+bs4+threading，爬取斗图图片
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688. ...
shell爬取斗图网
#!/bin/bash read -p "请输入要爬取的页面数(默认为10):" page_num page_num=${page_num:-} echo $page_num re ...
Python 2.7和3.6爬取妹子图网站单页测试图片
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
scrapy-爬取斗图
scrapy-爬取斗图代码 <一> 开局三连杀 1.创建run的文件

随机推荐

数据结构-详解优先队列的二叉堆（最大堆）原理、实现和应用-C和Python
一.堆的基础 1.1 优先队列和堆优先队列(Priority Queue):特殊的"队列",取出元素顺序是按元素优先权(关键字)大小,而非元素进入队列的先后顺序. 若采用数组或链 ...
RabbitMQ.Client.Exceptions.BrokerUnreachableException:“None of the specified endpoints were reachabl
1.问题复现 RabbitMQ新建账户进行具体操作时报如题错误,没有一个指定的端点是可到达的 2.解决办法 ① 控制台命令进入sbin所在文件夹 ② 输入命令设置权限 rabbitmqctl set_ ...
【Vue】计算属性监听属性组件通信动态组件插槽 vue-cli脚手架
目录昨日回顾 1 计算属性插值语法+函数使用计算属性计算属性重写过滤案例 2 监听属性 3 组件介绍和定义组件之间数据隔离 4 组件通信父子通信之父传子父子通信之子传父 ref属性扩展 ...
2 .NET Core笔试题
1.说说在Linux系统部署ASP.NET Core项目的步骤. 2.说说热重载是什么. 3.如何理解鉴权和授权两个词 4.说说.NET7包含了几大方向的开发? 5.如何理解云原生? 6.ASP.NE ...
2020.11.30【NOIP提高A组】模拟
总结与反思很不幸,估分 $170$,可惜 $T2$ 暴力 $50pts$ 全掉了 $T1$ 结论题,如果想到了,$O(n)$ 过,只有十几行代码感觉不好想,不过还是 $A$ ...
JZOJ 6904. 【2020.11.28提高组模拟】T3 树上询问(query)
题目你有一棵 $n$ 节点的树 ,回答 $m$ 个询问,每次询问给你两个整数 $l,r$ ,问存在多少个整数 $k$ 使得从 $l$ 沿着 $l \to r$ 的简单路径走 ...
Ubuntu18.04安装教程
转载csdn: Ubuntu18.04安装教程_Sunshine的博客-CSDN博客_ubuntu安装教程
KMP字符串 AcWing 831
题目:https://www.acwing.com/problem/content/833/ 题意:求子串在母串中每次出现时的下标位置. 题解:哈哈哈,敲题时想到之前看到一个人叫 kmp 算法为看毛 ...
Where do I Turn?（叉积）
题目: Trouble came from the overseas lands: a three-headed dragon Gorynych arrived. The dragon settled ...
HDMI转USB视频采集卡（ACASIS 1080P高清视频采集卡）--九五小庞
ACASIS阿卡西斯是深圳市菲德越科技有限公司旗下数码科技品牌.菲德越是2008年成立的一家专注于采集卡.硬盘盒.集线器等专业3C配件产品,集研发.设计.生产.销售于一体的高新科技公司,我们公司以向客 ...

spider_爬取斗图啦所有表情包（图片保存）

spider_爬取斗图啦所有表情包（图片保存）的更多相关文章

随机推荐

热门专题