python 手机App数据抓取实战二抖音用户的抓取
前言
什么?你问我国庆七天假期干了什么?说出来你可能不信,我爬取了cxk坤坤的抖音粉丝数据,我也不知道我为什么这么无聊。
本文主要记录如何使用appium自动化工具实现抖音App模拟滑动,然后分析数据得到粉丝用户信息。
环境准备
- fiddler
- appium
- mitmproxy(mitmdump)
- python3.6
- 自带root的安卓虚拟机
- Android SDK
安卓模拟器需要安装xposed框架并安装JustTrustMe组件,因为抖音会有ssl验证,会导致我们在将数据发送到我们的抓包工具的时候无法联网,所以需要安装这个组件来关闭ssl验证
mitmproxy、AndroidSDK需要加入环境变量,这步就不再叙述
项目准备
首先我们需要给虚拟机安装fiddler、mitmproxy的证书
1)fiddler 主要设置如下



端口设置可以随意更改,本文设置为8889
电脑主机打开命令行 输入ipconfig查看本机IP

设置模拟器的代理

接下来打开浏览器,输入 ip:prot 如本机为 117.90.211.134:8889 下载安装fiddler证书 如下步骤


接下来我们就可以使用fiddler正确的抓取手机数据包了
2)mitmproxy证书
我们在Windows系统上常用的是mitmproxy的mitmdump 打开cmd输入mitmdump -p 端口号 就可以启动服务

为了方便我们将端口号也设置为8889 但是开启这个的时候需要先关闭fiddler 不然会端口冲突,然后打开模拟器的浏览器看看能否接受数据

我们发现出问题了,发现现在直接提示空的响应而不是证书的问题,看到mitmdump报的错误是 killed by block_global 是什么原因呢?
这是mitmdump的自我保护措施,它防止全球网络的连接,意思就是如果是本地局域网它不会阻拦,那该怎么办呢?
有两种解决办法:第一种,将模拟器的网络连接设置为桥接模式,这样就不会出现问题;
第二种办法是启动的时候加入参数 mitmdump -p 8889 --set block_global=false 如下图

接下来 安装mitmproxy的证书 浏览器输入网址 mitm.it 然后安装证书


现在再打开网页就不会出现证书的提醒了
这时候我们需要用的主要两个抓包工具的证书就安装完成了,需要注意的是我们每次测试都可能需要重新安装证书,因为我们的主机IP可能会变
App分析
首先呢我们先确认模拟器中的xposed框架的JustTrustMe组件是否开启 不然我们抖音App不能正常访问网络

注意以下步骤只能在网络桥接模式下使用(或者使用真机与电脑在同一个网络) 否则fiddler无法抓取到所有的包
首先使用fiddler分析,打开fiddler 并打开抖音进行操作 本项目是爬取cxk坤坤的粉丝数据,所以我们先进入他的抖音主页点进粉丝列表

粉丝好多,我们接下来向下滑动,看看当向下滑动刷新出更多粉丝的时候 fiddler会抓取到什么数据

会发现每次向下滑动的时候都会有一个含有 aweme/v1/user/follower/list/ 的网址,我们怀疑这就是粉丝数据的接口 我们把这个网址返回来的数据放入 json.cn 看看


还真的就是粉丝数据,会发现每次滑动更新的是二十个粉丝,所以我们就找对了方向,下面我们来分析这个请求
GET https://aweme-hl.snssdk.com/aweme/v1/user/follower/list/?user_id=103313639528&sec_user_id=MS4wLjABAAAAxj2Cuu75g3I2pGOs7jtw5XN6WMiCKbA-jfIjlONRRvM&max_time=1570336550&count=20&offset=0&source_type=1&address_book_access=1&gps_access=1&openudid=3ca06768d1f58615&version_name=8.1.1&ts=1570336895&device_type=OPPO%20R11&ssmix=a&iid=87664447665&app_type=normal&os_api=19&mcc_mnc=46007&device_id=68799320259&resolution=720*1280&device_brand=OPPO&aid=1128&manifest_version_code=811&app_name=aweme&_rticket=1570336895512&os_version=4.4.2&device_platform=android&version_code=811&update_version_code=8112&ac=wifi&dpi=240&uuid=866174010601603&language=zh&channel=tengxun_new HTTP/1.1
我们会发现这个请求的url带有很多很多的参数,没错,这是抖音自身的加密方法,要破解这个可得好一会了,所以我们无法使用requests直接构造请求来获得数据了,那我们该如何获取数据呢?
没错就是使用mitmdump,mitmdump有个最大的好处就是可以与python文件交互,我们可以直接使用python写好命令,使用mitmdump抓包,我们手动的滑动就可以解析出数据了
编写douyin_mitmdump.py文件 代码如下:
import json #函数名必须这样写 这是mitmdump规则
def response(flow):
#下面这个网址是通过fiddler获取到的 但是有些数据我们无法解密,所以需要用mitmdump捕获数据包然后做分析
if 'aweme-hl.snssdk.com/aweme/v1/user/follower/list' in flow.request.url:
for user in json.loads(flow.response.text)['followers']:
user_info={}
user_info['nickname'] = user['nickname']
user_info['share_id'] = user['uid']
user_info['douyin_id'] = user['short_id']
#有的用户修改了抖音号
if user_info['douyin_id'] == '':
user_info['douyin_id'] = user['unique_id']
print(user_info)
现在打开cmd并切换到项目目录下 执行命令 mitmdump -p 8889 -s douyin_mitmdump.py

接下来手动滑动界面看看会不会解析数据

好的 现在我们已经成功的分析出来了粉丝数据,但是我们总不能一直鼠标滑动吧?所以我们现在需要使用Appium进行自动化测试模拟滑动
Appium自动化测试模拟滑动
配置信息
Appium是一个开源测试自动化框架,可用于原生,混合和移动Web应用程序测试。 它使用WebDriver协议驱动iOS,Android和Windows应用程序。
比如本文我们就使用appium来实现从点开程序到模拟滑动的全部操作。
首先我们需要在电脑上安装Appium

这个相当于appium服务端,我们在执行自动化测试的时候需要先在电脑上打开服务端,然后我们使用程序连接虚拟机或真机执行脚本进行自动化测试 点击start server打开服务端

我们首先使用appium 自带的测试程序来试一下如何操作 点击右上角的放大镜符号
进入配置选项界面 开始填写选项信息

下面我来解释每个参数都是如何得到的
1)platformName 这是平台名称 我们填写 Andriod 相信不用过多解释
2)platformVersion 这是问平台版本信息,根据各个手机不同自主填写,本文使用的是 Andriod4.4.2
3)deviceName 这个是设备的名称,我们如何获取呢?
这个时候就用到了我们AndroidSDK中的adb工具了 adb是用来连接电脑与手机的工具 我们把手机进入开发者选项并打开允许USB调试,然后打开命令行输入命令 adb devices看看有没有输出

返回的127.0.0.1:52001就是设备名称 这个是模拟器的名称,使用真机会不同 (如果没有返回就关闭开发者模式重新打开USB调试多试几次)
4)appPackage、appActivity这俩个参数非常重要,它指定了我们自动化测试的app,这两个参数获取有点麻烦,下面详解如何获取
首先手机打开App,本文就是抖音了,然后电脑命令行输入 adb shell 进入交互界面 然后输入命令 dumpsys activity | grep mFocusedActivity

第一个就是包名,第二个就是activity名 我们记下来一会编写进去(activity名称前要跟着包名)
即 包名com.ss.android.ugc.aweme activity名com.ss.android.ugc.aweme.main.MainActivity
5)noReset unicodekeyboard resetkeyboard解释会在一会的程序中
然后点击右下方保存配置信息并start session 如果点击start session发现手机自动打开抖音时,就说明我们的配置信息写对了,就可以开始使用了
这些配置信息一会要在我们的python脚本中使用,所以一定要填写正确
内容分析
其实app自动化测试跟网页爬虫很相似,首先分析我们该怎么做
点开抖音这一步已经不用我们去做 然后我们需要依次点左上角放大镜按钮、点击搜索框输入抖音号、点击搜索、点击用户、点击进入主页、点击粉丝、向上滑动






我们该如何定位按钮以及输入信息呢?
这又得使用AndroidSDK中的工具了 这次使用 AndroidSDK\tools\monitor.bat 中的monitor 可能有的小伙伴会问 为什么不使用可以查看xpath的魔改版的uiautomatorviewer呢?这是因为我在测试的时候发现现在抖音加入了某种时钟,我们都知道uiautomatorviewer无法获取动态页面的数据,而我发现monitor有的界面却可以,所以使用monitor,下面开始

首先用鼠标点击左边画蓝色圈的地方获取当前手机界面数据,然后鼠标点击我们需要的控件,之后右边出现的就是我们需要的信息,我们可以通过resource-id查找指定数据
现在先来编写douyin_appium.py文件测试下能否自动打开抖音并点击左上方放大镜按钮
from appium import webdriver
#WebDriverWait用来加入时间判断,有时候控件元素需要过一段时间才会出现
from selenium.webdriver.support.ui import WebDriverWait
import time #配置信息
option={
"platformName": "Android",
"platformVersion": "4.4.2",
"deviceName": "127.0.0.1:52001",
#自动化测试包名
"appPackage": "com.ss.android.ugc.aweme",
#自动化测试Activity
"appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
#再次启动不需要再次安装
"noReset": True,
#unicode键盘 我们可以输入中文
"unicodekeyboard": True,
#操作之后还原回原先的输入法
"resetkeyboard":True
} #其中的4723就是appium服务启动时的端口号
driver = webdriver.Remote("http://localhost:4723/wd/hub",option) #放大镜按钮
try:
#使用resource-id查找按钮
if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/b3o')):
#点击按钮
driver.find_element_by_id('com.ss.android.ugc.aweme:id/b3o').click()
except:
pass
运行之前首先要开启 appium 服务端,即start server
然后运行python文件

好的我们发现已经可以自动的点击放大镜按钮了,那么接下来只需要继续编写文件即可以完成自动化操作了 代码如下
from appium import webdriver
#WebDriverWait用来加入时间判断,有时候控件元素需要过一段时间才会出现
from selenium.webdriver.support.ui import WebDriverWait
import time #配置信息
option={
"platformName": "Android",
"platformVersion": "4.4.2",
"deviceName": "127.0.0.1:52001",
#自动化测试包名
"appPackage": "com.ss.android.ugc.aweme",
#自动化测试Activity
"appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
#再次启动不需要再次安装
"noReset": True,
#unicode键盘 我们可以输入中文
"unicodekeyboard": True,
#操作之后还原回原先的输入法
"resetkeyboard":True
} #其中的4723就是appium服务启动时的端口号
driver = webdriver.Remote("http://localhost:4723/wd/hub",option) #放大镜按钮
try:
#使用resource-id查找按钮
if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/b3o')):
#点击按钮
driver.find_element_by_id('com.ss.android.ugc.aweme:id/b3o').click()
except:
pass #得到窗口大小
def get_size():
x=driver.get_window_size()['width']
y=driver.get_window_size()['height']
return (x,y) #搜索框
try:
# 定位搜索框
if WebDriverWait(driver,3).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/ad1')):
#点击搜索框
driver.find_element_by_id('com.ss.android.ugc.aweme:id/ad1').click()
#输入抖音号并点解搜索
driver.find_element_by_id('com.ss.android.ugc.aweme:id/ad1').send_keys("")
driver.find_element_by_id('com.ss.android.ugc.aweme:id/dy8').click()
#点击用户 注意写法 这个控件由于无法获取resource_id与xpath的值 所以只能通过text来查找
driver.find_element_by_android_uiautomator("text(\"用户\")").click()
except:
pass #点进去具体界面
try:
if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/bck')):
#进入用户信息界面
driver.find_element_by_id('com.ss.android.ugc.aweme:id/bck').click()
time.sleep(2)
#点击粉丝数
driver.find_element_by_id('com.ss.android.ugc.aweme:id/akf').click()
except:
pass #得到屏幕尺寸
size = get_size()
#定义滑动
x1 = int(size[0]*0.5)
x2 = int(size[0]*0.7)
y1 = int(size[1]*0.9)
y2 = int(size[1]*0.2) while(True):
time.sleep(0.5)
#模拟滑动
driver.swipe(x1, y1, x2, y2)
效果如下gif图 可以实现从打开抖音到滑动的模拟操作

数据入库
现在我们已经完成了appium的自动化模拟滑动,同时我们最开始又写了获取粉丝数据的mitmdump脚本,现在我们将这两个脚本结合起来就可以实现自动分析数据了
第一步运行mitmdump脚本 即到项目目录下运行命令
D:\pythonwork\AppSpiders\douyin_test>mitmdump -s douyin_mitmdump.py -p --set block_global=false
--set block_global=false如果手机和电脑在同一个局域网可以不加这条指令
然后将手机连接代理到我们主机 ,接着运行douyin_appium.py 现在就可以完成自动拉取粉丝数据了
效果如下图

我们还差什么呢?我们总不能在命令行看粉丝数据吧,所以我们需要把抓取到的数据放入本地mongo数据库,首先编写一个douyin_db.py 代码如下
import pymongo
from pymongo.collection import Collection client = pymongo.MongoClient(host='127.0.0.1',port=27017)
#数据库名
db = client['douyin_test'] #存入获取的粉丝数据部分信息
def save_task(item):
task_id_collection = Collection(db, 'task_id')
#updata方法,如果存在相同的share_id就更新,不存在就构建
task_id_collection.update({'share_id':item['share_id']},item,True)
然后我们在 douyin_mitmdump.py中引用这个刚刚编写的入库函数 douyin_mitmdump.py引用如下:
import json
#导入编写的入库函数
from douyin_test.douyin_db import save_task #函数名必须这样写 这是mitmdump规则
def response(flow):
#下面这个网址是通过fiddler获取到的 但是有些数据我们无法解密,所以需要用mitmdump捕获数据包然后做分析
if 'aweme-hl.snssdk.com/aweme/v1/user/follower/list' in flow.request.url:
for user in json.loads(flow.response.text)['followers']:
user_info={}
user_info['nickname'] = user['nickname']
user_info['share_id'] = user['uid']
user_info['douyin_id'] = user['short_id']
#有的用户修改了抖音号
if user_info['douyin_id'] == '':
user_info['douyin_id'] = user['unique_id']
#数据入库
save_task(user_info)
再次运行mitmdump命令与douyin_appium.py 现在就可以实现数据入库了,结果如下

以上就是我们爬取到的cxk的粉丝数据,有小伙伴可能会说这种模拟滑动的很慢,可是有些app做了很高级别的加密,我们迫不得已只能用这种方式爬取,本次教程到此结束
python 手机App数据抓取实战二抖音用户的抓取的更多相关文章
- python 手机App数据抓取实战一
前言 当前手机使用成为互联网主流,每天手机App产生大量数据,学习爬虫的人也不能只会爬取网页数据,我们需要学习如何从手机 APP 中获取数据,本文就以豆果美食为例,讲诉爬取手机App的流程 环境准备 ...
- python 手机app数据爬取
目录 一:爬取主要流程简述 二:抓包工具Charles 1.Charles的使用 2.安装 (1)安装链接 (2)须知 (3)安装后 3.证书配置 (1)证书配置说明 (2)windows系统安装证书 ...
- Python爬虫入门教程 29-100 手机APP数据抓取 pyspider
1. 手机APP数据----写在前面 继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程 ...
- 使用Fiddler抓取手机APP数据包--360WIFI
使用Fiddler抓取手机APP流量--360WIFI 操作步骤:1.打开Fiddler,Tools-Fiddler Options-Connections,勾选Allow remote comput ...
- Fiddler高级用法-抓取手机app数据包
在上一篇中介绍了Fiddler的基本使用方法.通过上一篇的操作我们可以直接抓取浏览器的数据包.但在APP测试中,我们需要抓取手机APP上的数据包,应该怎么操作呢? Andriod配置方法 1)确保手机 ...
- 用Fiddler抓取手机APP数据包
Fiddler下载地址 1.允许远程连接 2.允许监听https 3.重启Fiddler 这步很重要,不要忘了 4.手机配置 用ipconfig命令查询当前PC的局域网IP 将手机连接上同一个WIFI ...
- android愤怒小鸟游戏、自定义View、掌上餐厅App、OpenGL自定义气泡、抖音电影滤镜效果等源码
Android精选源码 精练的范围选择器,范围和单位可以自定义 自定义View做的小鸟游戏 android popwindow选择商品规格颜色尺寸效果源码 实现Android带有锯齿背景的优惠样式源码 ...
- Fiddler抓取手机APP数据包
第一步:下载神器Fiddler,下载链接: http://w.x.baidu.com/alading/anquan_soft_down_ub/10963 下载完成之后,傻瓜式的安装一下了! 第二步:设 ...
- 图解Fiddler如何抓手机APP数据包过滤抓取
使用fidder抓取浏览器的包相信不是问题,那么使用fidder 抓取app的数据包呢??? 于是,找了一篇博客来学习一下,可以参考一下,根据自己的需求来实现. 在网上自己学习,然后整理了我所用到的, ...
随机推荐
- [bzoj 5143][Ynoi 2018]五彩斑斓的世界
传送门 Descroption 给了你一个长为n的序列a,有m次操作 1.把区间[l,r]中大于x的数减去x 2.查询区间[l,r]中x的出现次数 Solution 分块 对于每个块,我们都分别维护: ...
- 去掉 webstorm 灰色的数据类型提示
- [WEB安全]给BurpSuite设置非本地的网络代理
目录 0x01 一般情况 0x02 移动端流量抓取 0x03 多重代理的情形 0x04 参考链接 在Web渗透测试过程中,BurpSuite是不可或缺的神器之一. BurpSuite的核心是代理Pro ...
- 【零基础】神经网络优化之L1、L2
一.序言 前面的文章中,我们逐步从单神经元.浅层网络到深层网络,并且大概搞懂了“向前传播”和“反向传播”的原理,比较而言深层网络做“手写数字”识别已经游刃有余了,但神经网络还存在很多问题,比如最常见的 ...
- [Android] i2c-toos 在 Android 上使用
CPU:RK3399 系统:Android 7.1 i2c-tools 是一款免费开源的工具,可以检测 i2c 总线上的设备,可以读写寄存器等等 可以从下面路径下载需要的版本: https://www ...
- docker-compose EFK查看docker及容器的日志
上一篇<docker-compose ELK+Filebeat查看docker及容器的日志>已经演示了如何在docker中使用docker-compose创建容器,并将docker中的所有 ...
- 【Java】 HashMap
Java HashMap 标签(空格分隔): Java source-code hash-map 总结 HashTable的基本数据结构 Entry的hash与table的长度计算indexFor才能 ...
- 安装navicat后C盘多了好多链接文件夹
安装完最新的navicat后C盘多了好多连接文件夹 多了一堆链接的文件夹,里面就是 这些文件,但是吧强迫症怎么能让C盘那么多没有用的文件夹存在呢 最起码是这样的吧: 怎么办呢?找navicat的设 ...
- redis不支持多个数据库实例但是支持多个字典
Redis多个数据库 注意:Redis支持多个数据库,并且每个数据库的数据是隔离的不能共享,并且基于单机才有,如果是集群就没有数据库的概念. Redis是一个字典结构的存储服务器,而实际上一个Redi ...
- Intel AI Cloud 使用
1.申请AI Cloud A ‘training-ready’ hardware like Amazon® EC2, Intel® AI DevCloud, or a GPU-based system ...