Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

斗图啦表情包多线程爬取-写在前面

今天在CSDN博客，发现好多人写爬虫都在爬取一个叫做斗图啦的网站，里面很多表情包，然后瞅了瞅，各种实现方式都有，今天我给你实现一个多线程版本的。关键技术点 aiohttp ，你可以看一下我前面的文章，然后在学习一下。

网站就不分析了，无非就是找到规律，拼接URL，匹配关键点，然后爬取。

斗图啦表情包多线程爬取-撸代码

首先快速的导入我们需要的模块，和其他文章不同，我把相同的表情都放在了同一个文件夹下面，所以需要导入os模块

import asyncio

import aiohttp

from lxml import etree

import os

编写主要的入口方法

if __name__ == '__main__':

    url_format = "http://www.doutula.com/article/list/?page={}"

    urls = [url_format.format(index) for index in range(1,586)]

    loop = asyncio.get_event_loop()

    tasks = [x_get_face(url) for url in urls]

    results = loop.run_until_complete(asyncio.wait(tasks))

我们是为了学习，不是为了攻击别人服务器，所以限制一下并发数量

sema = asyncio.Semaphore(3)

async def x_get_face(url):

    with(await sema):

        await get_face(url)

最后，一顿操作猛如虎，把所有的代码补全，就搞定了，这部分没有什么特别新鲜的地方，找图片链接，然后下载。

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}

async def get_face(url):

    print("正在操作{}".format(url))

    async with aiohttp.ClientSession() as s:

        async with s.get(url,headers=headers,timeout=5) as res:

            if res.status==200:

                html = await res.text()

                html_format = etree.HTML(html)

                hrefs = html_format.xpath("//a[@class='list-group-item random_list']")

                for link in hrefs:

                    url = link.get("href")

                    title = link.xpath("div[@class='random_title']/text()")[0]  # 获取文件头部

                    path = './biaoqings/{}'.format(title.strip())  # 硬编码了，你要先在项目根目录创建一个biaoqings的文件夹

                    if not os.path.exists(path):

                        os.mkdir(path)

                    else:

                        pass

                    async with s.get(url, headers=headers, timeout=3) as res:

                        if res.status == 200:

                            new_html = await res.text()

                            new_html_format = etree.HTML(new_html)

                            imgs = new_html_format.xpath("//div[@class='artile_des']")

                            for img in imgs:

                                try:

                                    img = img.xpath("table//img")[0]

                                    img_down_url = img.get("src")

                                    img_title = img.get("alt")

                                except Exception as e:

                                    print(e)

                                async with s.get(img_down_url, timeout=3) as res:

                                    img_data = await res.read()

                                    try:

                                        with open("{}/{}.{}".format(path,img_title.replace('\r\n',""),img_down_url.split('.')[-1]),"wb+") as file:

                                            file.write(img_data)

                                    except Exception as e:

                                        print(e)

                        else:

                            pass

            else:

                print("网页访问失败")

等着，大量的表情包就来到了我的碗里。

爬虫源码下载地址

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取的更多相关文章

Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
requests入门实践02_下载斗图拉最新表情包
新版本移步:https://www.cnblogs.com/zy7y/p/13376228.html 下载斗图拉最新表情包要爬取的目标所在网址:http://www.doutula.com/phot ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...

随机推荐

input autocomplete属性设计输入框自动联想（php实现）
因为客户临时要求加一个输入框自动联想,就开始了解这块.结合网上总结最难的一点就是找好对应的js版本以及相应的jQuery-ui: 以下是我用的版本,以及连接地址: jQuery的js文件: <s ...
BFS —— 信息学一本通（1451：棋盘游戏）
题目描述在一个4*4的棋盘上有8个黑棋和8个白棋,当且仅当两个格子有公共边,这两个格子上的棋是相邻的.移动棋子的规则是交换相邻两个棋子.现在给出一个初始棋盘和一个最终棋盘,要求你找出一个最短的移动序 ...
HDU-AcmKeHaoWanLe训练实录
菜鸡队训练实录. 现场赛记录:[名称:奖项/排名] 2017: ICPC Shenyang:Gold/3 CCPC Hangzhou:Gold/3 ICPC Beijing:Gold/13 CCPC ...
解决audio控制播放音量
在写手机端项目时,可能会遇到使用audio播放音乐,那么怎样控制audio默认播放的音量呢?下面时解决办法 volume 属于是控制audio 播放音乐的音量,其范围0-1,1表示音量最大 getVi ...
Syntax error, insert "}" to complete ClassBody错误解决
Syntax error, insert "}" to complete ClassBody 报该错误是因为我从网页上粘贴了别人的代码,并没有发现什么异常但还是编译器报红叉. 解决 ...
HBase MVCC 机制介绍
关键词:MVCC HBase 一致性本文最好结合源码进行阅读什么是MVCC ? MVCC(MultiVersionConsistencyControl , 多版本控制协议),是一种通过数据的多版本 ...
C# CSV 文件转换成DataTable
{ DataTable dt = new DataTable(); FileStream fs = new FileStream(fileName, FileMode.Open, FileAccess ...
2019_BUAAOO_第二单元总结
第一次作业:单部多线程傻瓜调度电梯设计策略本次作业我才用的是生产者消费者模式,创建一个RequestList类,将输入线程InputThread作为生产者,负责将请求放入RequestList:将 ...
通过ffi在node.js中调用动态链接库[转]
http://blog.csdn.net/zhulin2609/article/details/51474676
python语法_函数
---恢复内容开始--- 函数: 1 减少重复代码 2 定义一个功能,需要直接调用 3 保持代码一致性 def funcation_name(参数s): 功能代码块0 参数可以为多个,传入时按照前后 ...

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

斗图啦表情包多线程爬取-写在前面

斗图啦表情包多线程爬取-撸代码

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取的更多相关文章

随机推荐

热门专题