python3编写网络爬虫19-app爬取

一、app爬取

前面都是介绍爬取Web网页的内容，随着移动互联网的发展，越来越多的企业并没有提供Web页面端的服务，
而是直接开发了App，更多信息都是通过App展示的

App爬取相比Web端更加容易反爬虫能力没有那么强，而且数据大多数是以JSON形式传递的解析更加简单

在Web端我们可以通过浏览器开发者工具监听到各个网络请求和响应过程在App端查看内容就需要抓包软件
例如 WireShark Fiddler Charles mitmproxy AnyProxy等它们原理基本相同

可以通过设置代理的方式将手机处于抓包软件的监听下就可以看到App运行过程中发生的所有请求和响应
相当于分析Ajax一样

如果参数程序是有规律的直接用程序模拟爬取即可
如果没有规律可以通过mitmdump 对接Python脚本处理response

如果需要自动化可以使用Appium

1.charles的使用

简介：是一个网络抓包工具可以用它来做app抓包分析类似Web浏览器的开发者工具

安装官网：

https://www.charlesproxy.com

下载地址：

 https://www.charlesproxy.com/dowload

默认安装即可

charles 是收费软件免费试用30天

证书配置

现在很多页面都在向HTTPS方向发展 HTTPS通信协议应用越来越广泛如果一个App通信应用了HTTPS协议
那么它的通信数据都会被加密常规的截包方法无法识别内部数据

需要配置SSL证书

Charles是运行在PC端的抓取的是App端的数据所以PC和移动端都要安装证书

PC端安装证书

打开charles 点击Help -> SSL Proxying -> Install Charles Root Certificate 进入安装证书的页面

点击安装证书点击下一步选择将所有证书放入下列存储点击浏览选择存储位置为受信任的根证书颁发机构点击确定

如果报错存储已满或者只读解决办法

win+R 输入mmc 点击文件添加删除管理单元
点击证书点击添加选择计算机账户下一步确定

重新导入证书

移动端安装证书

首先保证手机和电脑在同一局域网（有网线的情况下）手机设置选择wifi 手动代理添加charles的ip和端口
设置完电脑会弹出是否信任此设备点击allow即可

手机浏览器（尽量不要用默认的浏览器可以使用QQ浏览器）打开chls.pro/ssl 给证书添加个名字点击确定就能完成证书的安装

手机访问互联网数据包会流经charles charles再转发数据包到真实服务器服务器在返回数据包流经charles
在转发给手机

设置好charles并且配置好证书

示例打开京东选一个商品打开商品评论页面不断下拉加载评论

左侧会有一个api.m.jd.com 点击其中一条切换到contents选项卡可以看到JSON数据核对结果和app上看到的内容一致
这样就捕获到了在上拉刷新的请求和响应内容

重发 charles另一个强大功能可以将捕获的请求加以修改并重新发送

可以用来做调试

2.mitmproxy的使用

是一个支持HTTP和HTTPS的抓包程序类似Fiddler charles 只不过是一个控制台形式操作

mitmproxy还有两个相关组件 mitmdump 命令行接口利用它可以对接python脚本
另一个是mitmweb 一个web程序通过它可以清楚观察捕获的请求

安装

下载地址：

https://github.com/mitmproxy/mitmproxy/releases

默认安装即可

证书配置

启动mitmdump 找到mitmproxy文件下ca证书双击mitmproxy-ca.pl2 默认下一步即可
选择将所有证书放入下列存储点击浏览选择存储位置为受信任的根证书颁发机构点击确定

手机将文件发送到手机点击安装

通过手机微信助手发送 mitmproxy-ca-cert.cer 手机点击wifi 高级设置安装证书默认download 返回上一级内部存储空间

tencent -> MicroMsg -> Download 点击安装

运行 mitmdump 是mitmproxy的命令行接口同时可以对接python脚本

示例：

可以使用命令启动mitmproxy 例如 mitmdump -w outfile 截获的数据都会被保存到此文件中

指定脚本来处理截获的数据使用-s参数

mitmdump -s test.py

脚本文件内容如下

def request(flow):

flow.request.headers['User-Agent'] = 'MitmProxy'

print(flow.request.headers)

这里定义一个request（）方法参数为flow 通过request属性获取当前请求对象打印输出请求的请求头
将User-Agent修改成了MitmProxy

手机端访问 http://httpbin.org/get

日志输出

mitmdump 提供了专门的日志传输系统可以设定不同颜色输出结果修改脚本如下：

确保安装好mitmproxy pip install mitmproxy

from mitmproxy import ctx

def request(flow):

flow.request.headers['User-Agent'] = "MitmProxy"

ctx.log.info(str(flow.request.headers))#输出白色

ctx.log.warn(str(flow.request.headers))#输出黄色

ctx.log.error(str(flow.request.headers))#输出红色

request

示例

from mitmproxy import ctx

def request(flow):

　　request = flow.request

　　info = ctx.log.info

　　info(request.url)

　　info(str(request.headers))

　　info(str(request.cookies))

　　info(request.host)

　　info(request.method)

　　info(str(request.post))

　　info(request.scheme)

修改脚本手机打开百度分别输出请求链接请求头 cookies host 请求方法端口协议

同时还可以对任意属性进行修改就像最初修改Headers一样直接赋值

示例：

def request(flow):

　　url = 'https://httpbin.org/get'

　　flow.request.url = url

更多属性参考 http://docs.mitmproxy.org/en/latest/scripting/api.html

响应

response() 方法

示例：

from mitmproxy import ctx

def response(flow):

　　response = flow.response

　　info = ctx.log.info

　　info(str(response.status_code))

　　info(str(response.headers))

　　info(str(response.cookies))

　　info(str(response.text))

打印出响应状态码 headers cookies 网页源代码等

python3编写网络爬虫19-app爬取的更多相关文章

python3编写网络爬虫13-Ajax数据爬取
一.Ajax数据爬取 1. 简介:Ajax 全称Asynchronous JavaScript and XML 异步的Javascript和XML. 它不是一门编程语言,而是利用JavaScript在 ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...
python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
python3编写网络爬虫22-爬取知乎用户信息
思路选定起始人选一个关注数或者粉丝数多的大V作为爬虫起始点获取粉丝和关注列表通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息获取列表每个用户的详细信息获取每个用户的粉丝和关注 ...

随机推荐

Linux命令-用户及权限管理
一.权限管理linux系统中对文件权限的描述机制: u g od r w x r w x r - x (r读,w写,x执行)文件所有者所属组其他人可以表示为二进制: 111 111 101也可以 ...
南大算法设计与分析课程复习笔记(1) L1 - Model of computation
一.计算模型 1.1 定义: 我们在思考和处理算法的时候是机器无关.实现语言无关的.所有的算法运行在一种“抽象的机器”之上,这就是计算模型. 1.2 种类图灵机是最有名的计算模型,本课使用更简单更合 ...
vs2010打不开vs2017的.sln文件，出现错误提示 “选择的文件是解决方案文件但是用此应用程序的较新版本创建的，无法打开”
解决方案: 1.复制下面这段语句 Microsoft Visual Studio Solution File, Format Version 11.00 # Visual Studio 2010 2. ...
C#自动关闭弹出提示框
自动关闭弹出提示框(用一个小窗体显示提示信息):例如在一个form窗体中弹出自动关闭的提示框1.首先创建一个弹出提示信息的窗体 AutoCloseMassageBox,在里面拖一个lable控件,去掉 ...
python面向对象学习（五）多态
多态多态:不同的子类对象调用相同的父类方法,产生不同的执行结果多态可以增加代码的灵活度以继承和重写父类方法为前提是调用方法的技巧,不会影响到类的内部设计多态案例练习需求 ...
js 属性增改删操作
js 属性增改删操作,可参看菜鸟教程,这里记录一个小问题:disabled属性使用setAttribute操作无法禁用disabled属性,需使用removeAttribute操作,原因是只要有d ...
1970年／／ iPhone “变砖”后可继续正常使用的解决方案
0.解决方案说话先说重点,“变砖”后的iphone怎么正常使用. 拆开后盖,给电源和处理器之间断下电就OK了. 1.事件来源对于iPhone和iPad,把时间手动设置到1970年5月以前会出现“变 ...
python地理处理包——geopy使用之地理编码与反地理编码
由于专业需要,经常接触一些地理处理的工具包,文档都是英文的,自己看的同时将其翻译一下,一方面自己学习的同时有个记录,要是能同时给一起的学习的童鞋们一些帮助,想想也是极好的.以下的文档内容主要翻译自官方 ...
Android笔试题三
1.java堆得Young区由哪些组成: Java堆由Perm区和Heap区组成,Heap区由Old区和New区(也叫Young区)组成,New区由Eden区.From区和To区(Survivor)组 ...
viewPager+fragment如何刷新缓存fragment
最近在做一个项目,有一个功能是答题翻页.于是需要实现在这一页的时候就缓存下一页. 刚刚开始我是用 setOnPageChangeListener方法监听,滑到这一页的时候才刷新这一页: public ...

python3编写网络爬虫19-app爬取

python3编写网络爬虫19-app爬取的更多相关文章

随机推荐

热门专题