Fiddler 手机爬虫
Fiddler抓包工具
配置Fiddler
- 添加证书信任,Tools - Options - HTTPS,勾选 Decrypt Https Traffic 后弹出窗口,一路确认
- ...from browsers only 设置只抓取浏览器的数据包
- Tools - Options - Connections,设置监听端口(默认为8888)
- 关闭Fiddler,再打开Fiddler,配置完成后重启Fiddler(重要)
配置浏览器代理
1、安装Proxy SwitchyOmega插件
2、浏览器右上角:SwitchyOmega->选项->新建情景模式->AID1901(名字)->创建
输入 :HTTP:// 127.0.0.1 8888
点击 :应用选项
3、点击右上角SwitchyOmega可切换代理
Fiddler常用菜单
1、Inspector :查看数据包详细内容
整体分为请求和响应两部分
2、常用菜单
Headers :请求头信息
WebForms: POST请求Form表单数据 :<body>
GET请求查询参数: <QueryString>
Raw 将整个请求显示为纯文本
手机设置
正常版
1、设置手机







2、设置Fiddler



最后重启Fiddler。
如果遇到问题
在计算机中win+R,输入regedit打开注册表,找到fiddler,右键新建点击OWORD(64位)值Q,
名称:80;类型:REG_DWORD;数据:0x00000000(0)
Fiddler在上面的设置下,加上:菜单栏Rules-->Customize Rules...-->重启Fiddler
移动端app数据抓取
有道翻译手机版破解案例
import requests
from lxml import etree
word = input('请输入要翻译的单词:')
url = 'http://m.youdao.com/translate'
data = {
'inputtext': word,
'type': 'AUTO',
}
html = requests.post(url,data=data).text
parse_html = etree.HTML(html)
result = parse_html.xpath('//ul[@id="translateResult"]/li/text()')[0]
print(result)
途牛旅游
目标:完成途牛旅游爬取系统,输入出发地、目的地,输入时间,抓取热门景点信息及相关评论
地址
1、地址: http://www.tuniu.com/
2、热门 - 搜索
3、选择: 相关目的地、出发城市、出游时间(出发时间和结束时间)点击确定
4、示例地址如下:
http://s.tuniu.com/search_complex/whole-sh-0-%E7%83%AD%E9%97%A8/list-a{触发时间}_{结束时间}-{出发城市}-{相关目的地}/
项目实现
1、创建项目
scrapy startproject Tuniu
cd Tuniu
scrapy genspider tuniu tuniu.com
2、定义要抓取的数据结构 - items.py
# 一级页面
# 标题 + 链接 + 价格 + 满意度 + 出游人数 + 点评人数 + 推荐景点 + 供应商
title = scrapy.Field()
link = scrapy.Field()
price = scrapy.Field()
satisfaction = scrapy.Field()
travelNum = scrapy.Field()
reviewNum = scrapy.Field()
recommended = scrapy.Field()
supplier = scrapy.Field()
# 二级页面
# 优惠券 + 产品评论
coupons = scrapy.Field()
cp_comments = scrapy.Field()
3、爬虫文件数据分析与提取
页面地址分析
http://s.tuniu.com/search_complex/whole-sh-0-热门/list-a20190828_20190930-l200-m3922/
# 分析
list-a{出发时间_结束时间-出发城市-相关目的地}/
# 如何解决?
提取 出发城市及目的地城市的字典,key为城市名称,value为其对应的编码
# 提取字典,定义config.py存放
代码实现
# -*- coding: utf-8 -*-
import scrapy
from ..config import *
from ..items import TuniuItem
import json
class TuniuSpider(scrapy.Spider):
name = 'tuniu'
allowed_domains = ['tuniu.com']
def start_requests(self):
s_city = input('出发城市:')
d_city = input('相关目的地:')
start_time = input('出发时间(20190828):')
end_time = input('结束时间(例如20190830):')
s_city = src_citys[s_city]
d_city = dst_citys[d_city]
url = 'http://s.tuniu.com/search_complex/whole-sh-0-%E7%83%AD%E9%97%A8/list-a{}_{}-{}-{}'.format(start_time,end_time,s_city, d_city)
yield scrapy.Request(url, callback=self.parse)
def parse(self, response):
# 提取所有景点的li节点信息列表
items = response.xpath('//ul[@class="thebox clearfix"]/li')
for item in items:
# 此处是否应该在for循环内创建?
tuniuItem = TuniuItem()
# 景点标题 + 链接 + 价格
tuniuItem['title'] = item.xpath('.//span[@class="main-tit"]/@name').get()
tuniuItem['link'] = 'http:' + item.xpath('./div/a/@href').get()
tuniuItem['price'] = int(item.xpath('.//div[@class="tnPrice"]/em/text()').get())
# 判断是否为新产品
isnews = item.xpath('.//div[@class="new-pro"]').extract()
if not len(isnews):
# 满意度 + 出游人数 + 点评人数
tuniuItem['satisfaction'] = item.xpath('.//div[@class="comment-satNum"]//i/text()').get()
tuniuItem['travelNum'] = item.xpath('.//p[@class="person-num"]/i/text()').get()
tuniuItem['reviewNum'] = item.xpath('.//p[@class="person-comment"]/i/text()').get()
else:
tuniuItem['satisfaction'] = '新产品'
tuniuItem['travelNum'] = '新产品'
tuniuItem['reviewNum'] = '新产品'
# 包含景点+供应商
tuniuItem['recommended'] = item.xpath('.//span[@class="overview-scenery"]/text()').extract()
tuniuItem['supplier'] = item.xpath('.//span[@class="brand"]/span/text()').extract()
yield scrapy.Request(tuniuItem['link'], callback=self.item_info, meta={'item': tuniuItem})
# 解析二级页面
def item_info(self, response):
tuniuItem = response.meta['item']
# 优惠信息
coupons = ','.join(response.xpath('//div[@class="detail-favor-coupon-desc"]/@title').extract())
tuniuItem['coupons'] = coupons
# 想办法获取评论的地址
# 产品点评 + 酒店点评 + 景点点评
productId = response.url.split('/')[-1]
# 产品点评
cpdp_url = 'http://www.tuniu.com/papi/tour/comment/product?productId={}'.format(productId)
yield scrapy.Request(cpdp_url, callback=self.cpdp_func, meta={'item': tuniuItem})
# 解析产品点评
def cpdp_func(self, response):
tuniuItem = response.meta['item']
html = json.loads(response.text)
comment = {}
for s in html['data']['list']:
comment[s['realName']] = s['content']
tuniuItem['cp_comments'] = comment
yield tuniuItem
4、管道文件处理 pipelines.py
print(dict(item))
5、设置settings.py
获取出发城市和目的地城市的编号
tools.py
# 出发城市
# 基准xpath表达式
//*//*[@id="niuren_list"]/div[2]/div[1]/div[2]/div[1]/div/div[1]/dl/dd/ul/li[contains(@class,"filter_input")]/a
name : ./text()
code : ./@href [0].split('/')[-1].split('-')[-1]
# 目的地城市
# 基准xpath表达式
//*[@id="niuren_list"]/div[2]/div[1]/div[2]/div[1]/div/div[3]/dl/dd/ul/li[contains(@class,"filter_input")]/a
name : ./text()
code : ./@href [0].split('/')[-1].split('-')[-1]
代码实现
import requests
from lxml import etree
url = 'http://s.tuniu.com/search_complex/whole-sh-0-%E7%83%AD%E9%97%A8/'
headers = {'User-Agent':'Mozilla/5.0'}
html = requests.get(url,headers=headers).text
parse_html = etree.HTML(html)
# 获取出发地字典
# 基准xpath
li_list = parse_html.xpath('//*[@id="niuren_list"]/div[2]/div[1]/div[2]/div[1]/div/div[3]/dl/dd/ul/li[contains(@class,"filter_input")]/a')
src_citys = {}
dst_citys = {}
for li in li_list:
city_name_list = li.xpath('./text()')
city_code_list = li.xpath('./@href')
if city_name_list and city_code_list:
city_name = city_name_list[0].strip()
city_code = city_code_list[0].split('/')[-1].split('-')[-1]
src_citys[city_name] = city_code
print(src_citys)
# 获取目的地字典
li_list = parse_html.xpath('//*[@id="niuren_list"]/div[2]/div[1]/div[2]/div[1]/div/div[1]/dl/dd/ul/li[contains(@class,"filter_input")]/a')
for li in li_list:
city_name_list = li.xpath('./text()')
city_code_list = li.xpath('./@href')
if city_name_list and city_code_list:
city_name = city_name_list[0].strip()
city_code = city_code_list[0].split('/')[-1].split('-')[-1]
dst_citys[city_name] = city_code
print(dst_citys)
Fiddler 手机爬虫的更多相关文章
- Fiddler手机抓包工具如何设置过滤域名?
fiddler手机抓包工具如何设置过滤域名?如题.fiddler抓包可以完成我们移动开发者的调试测试需求.所以说抓包尤其重要,但是多余的网页请求和手机的其他链接影响我们手机开发的需求.下面我教大家怎么 ...
- fiddler 手机 https 抓包 以及一些fiddler无法解决的https问题http2、tcp、udp、websocket证书写死在app中无法抓包
原文: https://blog.csdn.net/wangjun5159/article/details/52202059 fiddler手机抓包原理 fiddler手机抓包的原理与抓pc上的web ...
- 使用Fiddler手机抓包https-----重要
Fiddler不仅可以对手机进行抓包,还可以抓取别的电脑的请求包,今天就想讲一讲使用Fiddler手机抓包! 使用Fiddler手机抓包有两个条件: 一:手机连的网络或WiFi必须和电脑(使用fidd ...
- Fiddler手机https抓包
Fiddler手机抓包:https://blog.csdn.net/wangjun5159/article/details/52202059 fiddler 使用说明:https://www.cnbl ...
- fiddler手机抓包配置方法
一.下载工具包 百度搜索”fiddler 下载“ ,安装最新版本 下载的软件安装包为“fiddler_4.6.20171.26113_setup.exe”格式,双击安装.安装成功,在“开始”-“所有程 ...
- fiddler 手机 https 抓包
fiddler手机抓包原理fiddler手机抓包的原理与抓pc上的web数据一样,都是把fiddler当作代理,网络请求走fiddler,fiddler从中拦截数据,由于fiddler充当中间人的角色 ...
- fiddler手机抓包教程
序言 记录一下自己第一次使用fiddler抓取手机的信息,做一个备忘 实现步骤 一.首先设置一下fiddler,使其对HTTPS协议进行抓包 二.然后设置fidder使得fiddler支持远程计算机连 ...
- [fiddler] 手机抓包
最近工作涉及到与原生app联调,需要抓取手机上的请求.借此机会研究了下fiddler,简直神器. 以下简单介绍通过fiddler进行手机抓包的方法,之后也会陆续更新fiddler的其他功能 设置fid ...
- 使用fiddler手机抓包
Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求. Fiddler能捕获IOS设备发出的请求,比如IPhone, IPad, MacBook ...
随机推荐
- 邮件服务配置(虚拟域&虚拟用户)
邮件服务配置(虚拟域&虚拟用户) 现在我做的是: Linux + httpd + php + mariadb + postfix + dovecot + phpMyAdmin + postfi ...
- 9-1、大型项目的接口自动化实践记录----数据库结果、JSON对比
上一篇写了如何从DB获取预期.实际结果,这一篇分别对不同情况说下怎么进行对比. PS:这部分在JSON对比中也适用. 1.结果只有一张表,只有一条数据 数据格式:因为返回的是dicts_list的格式 ...
- ContentProvider 使用详解
极力推荐文章:欢迎收藏 Android 干货分享 阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android 本篇文章主要介绍 Android 开发中的部分知识点,通过阅读本篇文章,您将收获以 ...
- Git命令备忘录
目录 前言 基本内容 开始之前 基础内容 远程仓库 分支管理 前言 Git在平时的开发中经常使用,整理Git使用全面的梳理. 基本内容 开始之前 请自行准备好Git工具以及配置好Git的基本配置 基础 ...
- 腾讯物联TencentOS tiny上云初探
2017年中旬曾写过一篇关于物联网平台的文章<微软最完善,百度最“小气” 看微软阿里百度三大物联网云平台对比>.现在已经过去两年了,物联网的格局又发生了不少的变化.不过针对腾讯来说,其物联 ...
- JDK集合面试20问
1. HashMap的内部实现原理是什么? HashMap内部实现原理是数组+链表,通过散列算法将key值散列到数组中,如果到相同的位置,则通过拉链法解决散列冲突.在JDK8中新增了红黑树结构,当Ha ...
- 种族并查集模板题分析 -----P2024 [NOI2001]食物链
本文参考了:洛谷p2024题解 题目描述 动物王国中有三类动物 A,B,C,这三类动物的食物链构成了有趣的环形.A 吃 B,B 吃 C,C 吃 A. 现有 N 个动物,以 1 - N 编号.每个动物都 ...
- [HAOI2018]苹果树(组合数学,计数)
[HAOI2018]苹果树 cx巨巨给我的大火题. 感觉这题和上次考试gcz讲的那道有标号树的形态(不记顺序)计数问题很类似. 考虑如果对每个点对它算有贡献的其他点很麻烦,不知怎么下手.这个时候就想到 ...
- 如何使用python records 库优雅的操作数据库
今天要介绍的这个python第三方库非常厉害,完美操作各种数据库.名字叫 records, 在网上很少有这个库的相关资料,但是在开源社区可是很火热的哦.如果这还不能打消你的顾虑,再告诉你一件事:如果你 ...
- 06 css选择器
选择器的作用:选中标签 1.基本选择器 标签选择器 id选择器 class选择器 *通配符选择器 权重:行内样式 1000 > id选择器 100 > 类选择器10 > 标签选择器 ...