Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

斗图啦表情包多线程爬取-写在前面

今天在CSDN博客，发现好多人写爬虫都在爬取一个叫做斗图啦的网站，里面很多表情包，然后瞅了瞅，各种实现方式都有，今天我给你实现一个多线程版本的。关键技术点 aiohttp ，你可以看一下我前面的文章，然后在学习一下。

网站就不分析了，无非就是找到规律，拼接URL，匹配关键点，然后爬取。

斗图啦表情包多线程爬取-撸代码

首先快速的导入我们需要的模块，和其他文章不同，我把相同的表情都放在了同一个文件夹下面，所以需要导入os模块

import asyncio

import aiohttp

from lxml import etree

import os

编写主要的入口方法

if __name__ == '__main__':

    url_format = "http://www.doutula.com/article/list/?page={}"

    urls = [url_format.format(index) for index in range(1,586)]

    loop = asyncio.get_event_loop()

    tasks = [x_get_face(url) for url in urls]

    results = loop.run_until_complete(asyncio.wait(tasks))

我们是为了学习，不是为了攻击别人服务器，所以限制一下并发数量

sema = asyncio.Semaphore(3)

async def x_get_face(url):

    with(await sema):

        await get_face(url)

最后，一顿操作猛如虎，把所有的代码补全，就搞定了，这部分没有什么特别新鲜的地方，找图片链接，然后下载。

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}

async def get_face(url):

    print("正在操作{}".format(url))

    async with aiohttp.ClientSession() as s:

        async with s.get(url,headers=headers,timeout=5) as res:

            if res.status==200:

                html = await res.text()

                html_format = etree.HTML(html)

                hrefs = html_format.xpath("//a[@class='list-group-item random_list']")

                for link in hrefs:

                    url = link.get("href")

                    title = link.xpath("div[@class='random_title']/text()")[0]  # 获取文件头部

                    path = './biaoqings/{}'.format(title.strip())  # 硬编码了，你要先在项目根目录创建一个biaoqings的文件夹

                    if not os.path.exists(path):

                        os.mkdir(path)

                    else:

                        pass

                    async with s.get(url, headers=headers, timeout=3) as res:

                        if res.status == 200:

                            new_html = await res.text()

                            new_html_format = etree.HTML(new_html)

                            imgs = new_html_format.xpath("//div[@class='artile_des']")

                            for img in imgs:

                                try:

                                    img = img.xpath("table//img")[0]

                                    img_down_url = img.get("src")

                                    img_title = img.get("alt")

                                except Exception as e:

                                    print(e)

                                async with s.get(img_down_url, timeout=3) as res:

                                    img_data = await res.read()

                                    try:

                                        with open("{}/{}.{}".format(path,img_title.replace('\r\n',""),img_down_url.split('.')[-1]),"wb+") as file:

                                            file.write(img_data)

                                    except Exception as e:

                                        print(e)

                        else:

                            pass

            else:

                print("网页访问失败")

等着，大量的表情包就来到了我的碗里。

爬虫源码下载地址

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取的更多相关文章

Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
requests入门实践02_下载斗图拉最新表情包
新版本移步:https://www.cnblogs.com/zy7y/p/13376228.html 下载斗图拉最新表情包要爬取的目标所在网址:http://www.doutula.com/phot ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...

随机推荐

记录一些基本的git命令
本地操作向git仓库添加文件 git status 查看工作区文件状态 git add a.php 将文件添加到暂存区 git commit -m "描述" 将文 ...
linux学习之命令的排列、替换和别名--2019-04-23
1.命令的排列 1)使用“;” 使用“;”命令时,不管命令1是否出错,接下来都执行命令2. 2)使用“&&” 使用“&&”命令时,只有命令1正确运行,接下来才会执行命令 ...
展开被 SpringBoot 玩的日子《六》整合 Mybatis
上次整合了JPA ,但是很多人觉得JPA 并不是那么好用,这都是习惯问题,我本人也比较习惯Mybatis ,所以,今天就整合一下Mybatis,到网上找了一下关于spring boot和mybatis ...
noi2018还没想好记
前面说点什么.. 没想到吧嘴上说着不写的彩笔博主最后还是写了这篇东西.. Day -inf 在雅礼集训,打了四场模拟赛.. 真正说打得好的.. 也就那么一场身体很差心态很差状态很差虽然有书读 ...
CentOS7上Docker简单安装及nginx部署
安装如果原来安装过docker,先把原来的删掉,再安装(如果是首次安装docker忽略第一步,直接在第二步看起) 1.1先查看下已经安装了那些docker yum list installed | ...
用generator改写ajax
function request(url) { // this is where we're hiding the asynchronicity, // away from the main code ...
Spring AOP Capabilities ang goals
Spring AOP 是用纯JAVA 实现的. 不需借助JAVA代码在编译处理阶段来实现. Spring 是在运行期实现的.AOP的实现可以在编译,加载,运行三个阶段来实现:Spring AOP 也不 ...
使用IDEA时跳转到.class的解决办法
项目背景:jdk1.8 软件环境:IDEA 问题: 1. 两个不同的项目,在A项目中写了一个实体类.B项目中引用.在B项目中CTRL+鼠标左键点击进入,正常情况下是进入了源码文件,也就是.JAVA文件 ...
Vue（三十二）SSR服务端渲染Nuxt.js
初始化Nuxt.js项目步骤 1.使用脚手架工具 create-nuxt-app 创建Nuxt项目使用yarn或者npm $ yarn create nuxt-app <项目名> 注:根 ...
gridlayout代码注释
<div class="wrapper"> //定义一节或者一部分区域,它的css样式对应的css中class选择器的wrapper <div class=&qu ...

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

斗图啦表情包多线程爬取-写在前面

斗图啦表情包多线程爬取-撸代码

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取的更多相关文章

随机推荐

热门专题