用python爬取app照片

首先下载一个斗鱼（不下载也可以，url都在这了对吧）

　　通过抓包，抓取到一个json的数据包，得到下面的地址

　　观察测试可知，通过修改offset值就是相当于app的翻页

　　访问这个url，返回得到的是一个大字典，字典里面两个索引，一个error，一个data。而data又是一个长度为20的数组，每个数组又是一个字典。每个字典中又有一个索引，vertical_src。

　　我们的目标就是它了！

 import urllib.parse

 import urllib

 import json

 import urllib.request

 data_info={}

 data_info['type']='AUTO'

 data_info['doctype']='json'

 data_info['xmlVersion']='1.6'

 data_info['ue']='UTF-8'

 data_info['typoResult']='true'

 head_info={}

 head_info['User-Agent']='DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)'

 url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset=20'

 data_info=urllib.parse.urlencode(data_info).encode('utf-8')

 print(data_info)

 requ=urllib.request.Request(url,data_info)

 requ.add_header('Referer','http://capi.douyucdn.cn')

 requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')

 response=urllib.request.urlopen(requ)

 print(response)

 html=response.read().decode('utf-8')

这短短20多行代码就能返回得到json数据了。然后再通过对这json代码的切片，分离得到每个主播照片的url地址。

然后得到这一页的照片

 import json

 import urllib.request

 data_info={}

 data_info['type']='AUTO'

 data_info['doctype']='json'

 data_info['xmlVersion']='1.6'

 data_info['ue']='UTF-8'

 data_info['typoResult']='true'

 url+str(i)='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)

 data_info=urllib.parse.urlencode(data_info).encode('utf-8')

 print(data_info)

 requ=urllib.request.Request(url,data_info)

 requ.add_header('Referer','http://capi.douyucdn.cn')

 requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')

 response=urllib.request.urlopen(requ)

 print(response)

 html=response.read().decode('utf-8')

 '''

  print(type(dictionary))

 print(type(dictionary[data]))

 '''

 dictionary=json.loads(html)

 data_arr=dictionary["data"]

 for i in range(0,19):

     name=data_arr[i]["nickname"]

     img_url=data_arr[i]["vertical_src"]

29     print(type(img_url))

     respon_tem=urllib.request.urlopen(img_url)

31     anchor_img=respon_tem.read()

     with open('../photos/'+name+'.jpg','wb') as f:

         f.write(anchor_img)

然后修改一下，让它有了翻页的功能

 import urllib.parse

 import urllib

 import json

 import urllib.request

 data_info={}

 data_info['type']='AUTO'

 data_info['doctype']='json'

 data_info['xmlVersion']='1.6'

 data_info['ue']='UTF-8'

 data_info['typoResult']='true'

 data_info=urllib.parse.urlencode(data_info).encode('utf-8')

 for x in range(0,195):

     url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)

     print(data_info)

     requ=urllib.request.Request(url,data_info)

     requ.add_header('Referer','http://capi.douyucdn.cn')

     requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')

     response=urllib.request.urlopen(requ)

     print(response)

     html=response.read().decode('utf-8')

     dictionary=json.loads(html)

     data_arr=dictionary["data"]

     for i in range(0,19):

         name=data_arr[i]["nickname"]

         img_url=data_arr[i]["vertical_src"]

         print(type(img_url))

         respon_tem=urllib.request.urlopen(img_url)

         anchor_img=respon_tem.read()

         with open('../photos/'+name+'.jpg','wb') as f:

             f.write(anchor_img)

然后就等着吧~~

最好设置一下时间，每隔多久爬一次，或者每隔多久更换一次ip。就行了

用python爬取app照片的更多相关文章

教你用python爬取抖音app视频
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思 ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
python 虾米停服了...用python爬取虾米最近播放的1000首歌
1. 虾米关服在这里插入图片描述用了5年多的音乐软件就这么说关就关了,确实让人心里不好受 ,虽然再去一个新的app里,让它们的算法熟悉你的喜好也不是很困难,可我还是习惯虾米的界面.虾米现在可以支持 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

随机推荐

JS难点--组件开发
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px Consolas; color: #a5b2b9 } span.Apple-tab-span ...
Java常用类（四）之数组工具类Arrays
前言数组的工具类java.util.Arrays 由于数组对象本身并没有什么方法可以供我们调用,但API中提供了一个工具类Arrays供我们使用,从而可以对数据对象进行一些基本的操作. 一.Arra ...
Python BDD自动化测试框架初探
1. 什么是BDD BDD全称Behavior Driven Development,译作"行为驱动开发",是基于TDD (Test Driven Development 测试驱动 ...
vb.net 代码建立控件，并显示在窗体上
Dim lb As New Label lb.Text = "hello" lb.Top = 200 lb.Left = 100 ...
django 实现同一个ip十分钟内只能注册一次
很多小伙伴都会有这样的问题,说一个ip地址十分钟内之内注册一次,用来防止用户来重复注册带来不必要的麻烦逻辑: 取ip,在数据库找ip是否存在,存在判断当前时间和ip上次访问时间之差,小于600不能注 ...
关于php的命名空间
php定义命名空间要使用namespace关键字,例:namespace Database 使用命名空间中的类要使用use关键字,也可以在use后面加as给类取别名,例:use Database\SQ ...
js中的浅复制和深复制
浅复制:浅复制是复制引用,复制后的引用都是指向同一个对象的实例,彼此之间的操作会互相影响深复制:深复制不是简单的复制引用,而是在堆中重新分配内存,并且把源对象实例的所有属性都进行新建复制,以保证深复 ...
Node.js Buffer
Buffer(缓冲区) JavaScript 语言自身只有字符串数据类型,没有二进制数据类型. 但在处理像TCP流或文件流时,必须使用到二进制数据.因此在 Node.js中,定义了一个 Buffer ...
MD5加密（前端JS）
var password = $('#password').val();//获取密码框的值 var passwordMD5 = md5(password);//调用MD5,传入密码,返回MD5加密后的 ...
SQL Server 行转列，列转行。多行转成一列
一.多行转成一列(并以","隔开) 表名:A 表数据: 想要的查询结果: 查询语句: SELECT name , value = ( STUFF(( SELECT ',' + va ...

用python爬取app照片

首先下载一个斗鱼（不下载也可以，url都在这了对吧）

用python爬取app照片的更多相关文章

随机推荐

热门专题