基本环境配置

版本：Python3

系统：Windows

需要安装：

1.JDK - Download JDK，Appium要求用户必须配置JAVA环境, 否则启动Seesion报错。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：1097524789

2.Appium - Download Appium, 安装过程请自行搜索。

3.Android SDK - Download SDK

4. Selenium - 建议使用低版本的Python Selenium库，在Chrome高版本可能会报错。例如：

pip3 install selenium==2.48.0

5. chromedriver.exe - Download Chromedriver, 确保版本要匹配, 然后将 .exe 程序放在"..Python\Python36\Scripts"目录下。

6. pymongo

pip3 install pymongo

7. MongoDB Server - Download MongoDB

爬取思路

爬取思路：

模拟登录
抓取动态
保存数据

Android SDK的安装与配置

打开Android Studio, 选择"Configure->SDK Manager->Apperance&Behavior->System Settings->Android SDK", 选择对应安卓机版本的SDK，如图：

此外，还需要将SDK所在路径添加到系统环境变量中，否则报错。

Desired Capabilites 参数

分别是：platfornName, deviceName, appPackage, appActivity。前两个可通过如下命令获取, 前提是连接手机、打开USB调试：

adb devices -l

后两个参数请移步：获取appPackage和appActivity

开启安卓的" 开发者选项、USB调试 "

测试之前，确保打开开发者选项、USB调试。开发者模式确保调试程序在手机安装辅助软件：Unlock, Appium Settings；USB调试主要是利用Appium内置驱动打开APP。此外，要保持屏幕常亮。

5. 节点ID或XPATH值获取

安卓微信节点获取，相对比较容易获取，比如获取"登录"ID值，启动Session后只需点击屏幕左侧安卓屏的登录按钮，中间就会自动定位到所在节点，最右侧还会显示该节点的所有属性。如图：

对于文本输入框，只需要点击最右侧的"send text"即可。

"是否匹配通讯录"

这里选择"否", 理由：重新登录进入微信后会自动加载本地数据，耗时较长，如果匹配通讯录好友，增加耗时，可能在TIMEOUT时间内获取不到节点，导致程序终止。我这里选择了"是", 如图：

朋友圈信息获取思路

获取当前显示的朋友圈每条状态对应的区块元素，遍历每个区块元素，再获取内部显示的用户名、正文、发布时间，代码如下：

# items存储当前页面所有发布的朋友圈信息

items = self.wait.until(

 EC.presence_of_all_elements_located(

 # 每个ej9节点对应一条朋友圈数据

 (By.XPATH, '//*[@resource-id="com.tencent.mm:id/ej9"]/android.widget.LinearLayout')))

for item in items:

 try:

 # 昵称

 nickname = item.find_element_by_id('com.tencent.mm:id/b5o').get_attribute('text')

 # 正文

 content = item.find_element_by_id('com.tencent.mm:id/ejc').get_attribute('text')

 # 日期

 date = item.find_element_by_id('com.tencent.mm:id/eec').get_attribute('text')

 # 处理日期

 date = self.processor.date(date)

 data = {

 'nickname': nickname,

 'content': content,

 'date': date,

 }

日期处理

日期处理的实现方式，代码如下：

class Processor():

 def date(self, datetime):

 """

 格式化时间

 :param date: 原始时间

 :return: 处理后时间

 """

 if re.match('\d+分钟前', datetime):

 minute = re.match('(\d+)', datetime).group(1)

 datetime = time.strftime('%Y-%m-%d', time.localtime(time.time() - float(minute) * 60))

 if re.match('\d+小时前', datetime):

 hour = re.match('(\d+)', datetime).group(1)

 datetime = time.strftime('%Y-%m-%d', time.localtime(time.time() - float(hour) * 60 * 60))

 if re.match('昨天', datetime):

 datetime = time.strftime('%Y-%m-%d', time.localtime(time.time() - 24 * 60 * 60))

 if re.match('\d+天前', datetime):

 day = re.match('(\d+)', datetime).group(1)

 datetime = time.strftime('%Y-%m-%d', time.localtime((time.time()) - float(day) * 24 * 60 * 60))

 return datetime

完整代码

注意事项：

代码中所有节点都须提前通过 Appium新建Session获取(亲测同版本的微信中vivo_x7和Mi_8节点相同,其余机型未知)
建议使用高性能手机测试(MI_8|MI_9等)

运行结果

Python自动化爬取App数据的更多相关文章

python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
Python 逆向抓取 APP 数据
今天继续给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固 ...
python爬虫爬取天气数据并图形化显示
前言使用python进行网页数据的爬取现在已经很常见了,而对天气数据的爬取更是入门级的新手操作,很多人学习爬虫都从天气开始,本文便是介绍了从中国天气网爬取天气数据,能够实现输入想要查询的城市,返回该 ...
使用python爬虫爬取股票数据
前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中系统环境: 64位win10系统,64位python3.6, ...
python爬虫----爬取阿里数据银行websocket接口
业务需求:爬取阿里品牌数据银行的自定义模块==>>>人群透视==>>>查看报告==>>数据发现:数据通过websocket接口传递,此类型接口的详细理 ...
Selenium2+python自动化58-读取Excel数据（xlrd）
前言当登录的账号有多个的时候,我们一般用excel存放测试数据,本节课介绍,python读取excel方法,并保存为字典格式. 一.环境准备 1.先安装xlrd模块,打开cmd,输入pip inst ...
Selenium2+python自动化58-读取Excel数据（xlrd）【转载】
前言当登录的账号有多个的时候,我们一般用excel存放测试数据,本节课介绍,python读取excel方法,并保存为字典格式. 一.环境准备 1.先安装xlrd模块,打开cmd,输入pip inst ...
爬虫再探实战（五）———爬取APP数据——超级课程表【四】——情感分析
仔细看的话,会发现之前的词频分析并没有什么卵用...文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳...不过还是忍不住在坑边上往下瞅瞅2333. 言归正传,今天刚了解到boson公司有py ...

随机推荐

浏览器常见攻击方式（XSS和CSRF）
常见的浏览器攻击分为两种,一种为XSS(跨站脚本攻击),另一种则为CSRF(跨站请求伪造). XSS(跨站脚本攻击) 定义 XSS 全称是 Cross Site Scripting,为了与“CSS”区 ...
CentOS开机启动不了修复
1,如果启动时进度条,先修改为日志启动启动后快速按任何键(Enter除外)进入如下界面在按e进入选择第二个选项卡在按e进入将红色部分 rhgb quiet 删除,然后按Enter,在按b重启 ...
Python Ethical Hacking - Intercepting and Modifying Packets
INTERCEPTING & MODIFYING PACKETS Scapy can be used to: Create packets. Analyze packets. Send/rec ...
在docker中写个Hello World
Hello World Docker 示例准备hello.cpp #include<stdio.h> int main(){ printf("Hello World Docke ...
由一个计数器出发：关于vue使用独立js文件的问题
最近有个vue项目要用ztree. 然后,我想把一些逻辑提出来作为公共的方法,放到独立的js文件里. ztreeTool.js import $ from 'jquery' export defaul ...
android手机号和密码输入框的一个范例
https://blog.csdn.net/androidmsky/article/details/49870823
理解k8s资源限制系列（二）:cpu time
本文介绍几种在K8S中限制资源使用的几种方法. 资源类型在K8S中可以对两类资源进行限制:cpu和内存. CPU的单位有: 正实数,代表分配几颗CPU,可以是小数点,比如0.5代表0.5颗CPU,意 ...
python的常用模块
一.random随机数模块使用随机数模块需要导入随机数模块import random 1.random.random() 生成[0,1)之间的随机小数 2.random.randint(a,b) 生 ...
transaction already active
这个问题是使用spring 事务管理时经常出现的错误,最开始时相当令我头疼,也不知道是哪里出现的问题.在网上找了一阵后,依然无解.意思就是说上一个事务处于激活状态中,不能开始新的数据库更新操作. // ...
animate动画基础
定义: animate() 方法执行 CSS 属性集的自定义动画. 1.该方法通过CSS样式将元素从一个状态改变为另一个状态.CSS属性值是逐渐改变的,这样就可以创建动画效果. 2.只有数字值可创建动 ...

Python自动化爬取App数据