Fiddler是一个常见的抓包分析软件,同时我们可以利用它详细地对HTTP请求进行分析,并模拟对应的HTTP请求。

为什么使用Fiddler软件?

网络爬虫是自动爬取网页的程序,在爬取的过程中必然涉及客户端和服务器端之间的通信,自然也需要发送一些HTTP请求,并接收服务器返回的结果。在一些稍复杂的网络请求中,我们直接看网址变化是看不出规律的,此时如果要进行自动化爬取网页,就必须要通过程序构造这些请求,而通过程序构造这些请求,就必须首先分析这些请求的规律。所以此时我们要使用工具截获这些请求,对其分析,这个过程如果使用抓包软件配合进行,则会变得更加轻松。

Fiddler的基本原理

在下图可以看出,如果没有Fiddler,本地应用如果要与服务器进行通信,可以直接向服务器发送Request请求,待服务器处理之后将处理结果返回本地,本地应用接收响应response。

如果有Fiddler,本地应用与服务器之间所有的Request和Response都将经过Fiddler,由Fiddler进行转发,可以看出,此时Fiddler以代理服务器的方式存在。由于所有的网络数据都会经过Fiddler,自然Fiddler能够截获这些数据,实现网路数据的抓包。

Fiddler的基本界面

在下图中,(1)处指位置为Fiddler的菜单栏,(2)处所指位置为Fiddler的工具栏,(3)处所指为Fiddler的会话列表,我们本地应用与互联网通信的会话信息在此显示,(4)处所指位置是Fiddler的QuickExec命令输入窗口,在此我们可以输入一些Fiddler指令来快速实现某项功能。

Fiddler捕获会话功能

安装完Fiddler后,我们就学习如何使用它捕获浏览器与服务器之间的会话信息。在此以Firefox火狐浏览器为例,让火狐浏览器使用Fiddler作为其代理服务器。设置火狐浏览器的方法如下:

首先点击火狐浏览器的设置,在点击高级,在“高级”中将标签切换成“网络”。

随后在“网络”下方看到“连接”字样“,我们单击”连接“右方的设置,单击后选择”手动配置代理“,并将”HTTP代理“设置为”127.0.0.1“,端口设置为”8888“,因为Fiddler监控的地址是127.0.0.1:8888。设置好之后,点击“确定”。

现在的网站有的使用HTTTP协议,有的使用的是HTTPS协议,如果想让Fiddler能够捕获他们,还需要设置下Fiddler。打开Fiddler,然后单击“Tools”,选择“Fiddler Options”,随后在弹出的界面中选择“HTTPS”标签,将下方选项全部勾选上,配置好之后,现在的Fiddler就能捕获火狐浏览器与服务器之间的HTTTP和HTTPS会话信息了。

任意打开一个网址可以看到一下界面,此时的标签是“Statistics”,显示的是一些页面统计信息。

将标签切换为“Inspectors”,显示的是一些嗅探信息,并且该标签下有很多子标签,比如“Headers”,子标签表示的网页是一些头信息。

使用QuickExec命令行

在Fiddler中我们可以使用命令快速完成一些功能。在Fiddler界面中,会话列表下方有一个输入小框,在此介绍一些常见的Fiddler命令。

1. cls

cls是清屏命令,输入该命令可以清空会话列表的所有会话。有时侯,由于传递的数据增多,在Fiddler会话列表中会出现大量的会话信息,此时界面相对来说较为杂乱,所以可以输入该指令清空会话信息列表。

2. select

通过select命令我们可以选择出某一类型HTTP会话功能,比如想选择出所有的html网页类型的HTTP会话,可以输入命令:select html ,输入命令后回车可以发现。会话列表中所有html类型的会话都已被选中。

如果想选出所有图片类型的会话信息,可以输入命令: select image

3. ?

?命令可以查找出网址中包含某些字符的会话信息,比如“?pic”可以查找出网址中包含“pic”字符串的会话信息。

4.  help命令

help命令可以打开Fiddler官方的使用手册。

爬虫笔记(十)——学会使用Fiddler的更多相关文章

  1. PYTHON 爬虫笔记十:利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB(实战项目三)

    利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB 目标站点分析 淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可 ...

  2. python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例

    python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例 新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...

  3. 《MFC游戏开发》笔记十 游戏中的碰撞检测进阶:地图类型&障碍物判定

    本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9394465 作者:七十一雾央 新浪微博:http:// ...

  4. java jvm学习笔记十(策略和保护域)

    欢迎转载请说明出处:http://blog.csdn.net/yfqnihao/article/details/8271415 前面一节,我们做了一个简单的实验,来说明什么是策略文件,在文章的最后,也 ...

  5. 《C++游戏开发》笔记十四 平滑过渡的战争迷雾(二) 实现:真正的迷雾来了

    本系列文章由七十一雾央编写,转载请注明出处.  http://blog.csdn.net/u011371356/article/details/9712321 作者:七十一雾央 新浪微博:http:/ ...

  6. [Python爬虫笔记][随意找个博客入门(一)]

    [Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假 来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...

  7. 《C++游戏开发》笔记十二 战争迷雾:初步实现

    本系列文章由七十一雾央编写,转载请注明出处.  http://blog.csdn.net/u011371356/article/details/9475979 作者:七十一雾央 新浪微博:http:/ ...

  8. nodejs爬虫笔记(三)---爬取YouTube网站上的视频信息

    思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,发现可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类 ...

  9. nodejs爬虫笔记(二)---代理设置

    node爬虫代理设置 最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...

  10. Python网络爬虫笔记(五):下载、分析京东P20销售数据

    (一)  分析网页 下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1.      翻页的时候,谷歌F12的Network页签可以看到下面 ...

随机推荐

  1. npm、yarn 简单使用记录

    npm.yarn常用命令记录,后续会陆续补充... 经过使用发现yarn再下包是速度快,所以日常以yarn指令应用为主 npm查看仓库地址:npm config get registrynpm设置淘宝 ...

  2. 一天一个设计模式——模板方法(Template Method)模式

    一.模式说明 现实世界中的模板是用于将事物的结构规律予以固定化.标准化的成果,它体现了结构形式的标准化.例如镂空文字印刷的模板,通过某个模板印刷出来的文字字体大小都是一模一样,但是具体使用什么材质的颜 ...

  3. 编写软件动态加载NT式驱动

    NT式设备驱动程序的动态加载主要是由服务控制管理程序(Service Control Manager,即SCM)系统组件来完成的. Windwos服务可以在系统启动时加载,用户也可以按需在服务控制平台 ...

  4. python全局变量、回调函数

    1.python全局变量相关概念及使用 来自菜鸟教程上的例子: http://www.runoob.com/python3/python3-function.html 一.python入参需要注意地方 ...

  5. unzip 小坑

    unzip test.zip 直接将zip解压到当前目录下,保留test级目录. unzip test.war 直接将.war解压到当前目录,不保留test级目录,所以建议使用 unzip test. ...

  6. find: paths must precede expression

    郁闷了今天进行如下的查询居然报告错误, [root@localhost /]# find /root/ -name *.txtfind: paths must precede expressionUs ...

  7. SPOJ 3883. LATGACH3/ UVA 10918

    用1*2的方块去覆盖3*n的方块 http://www.cnblogs.com/staginner/archive/2011/12/16/2290020.html 玉斌大神的题解 其实我昨晚想得跟斌神 ...

  8. cpu压测测试--------自己设定cpu需要跑到的压力

    下载压力测试包 https://pan.baidu.com/s/1DJYAzBHHDxMViy5dMel2Lw 提取码:a5j3 使用方法: 方法一:前端启动,按Ctrl+c结束 java -Dbus ...

  9. 一个或多个实体的验证失败。有关详细信息,请参阅“EntityValidationErrors”属性

    自定义异常类:FormattedDbEntityValidationException public class FormattedDbEntityValidationException : Exce ...

  10. js中将json字符串转换成json对象

    在我们使用js请求后台控制器传回的结果result值的时候,经常会出现返回结果值为json字符串的情况,字符串无法在js中直接使用 返回样式栗子: 这是一个json字符串:result = " ...