在Web数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于Web数据采集。下面是鲲鹏数据的技术人员给出的说明。

根据HTTP代理的匿名性可以将其分为以下几种:

 
1. 透明代理(Transparent Proxies)
目标服务器能够检测到真实的源IP。
 
目标服务器根据HTTP请求头进行检测,判断依据:
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)
HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)
PS:该类型代理不适合用于Web数据采集。
 
2. (普通)匿名代理(Anonymous Proxies)
目标服务器无法检测到真实的源IP,但能够检测到使用了代理。
 
检测依据:
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)
HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP)
PS:该类型代理可以用于Web数据采集,但有被检测到的风险。
 
3. 高匿名代理(High Anonymity Proxies -Elite proxies
目标服务器无法检测到你在是使用代理。
 
检测依据:
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 值为空或无此头
HTTP_X_FORWARDED_FOR = 没数值或无此头
PS:该类型的代理非常适合用户Web数据采集。鲲鹏数据的付费代理方案提供的全部为高匿名类型的代理。
 
另外,不使用代理时发出的头:
REMOTE_ADDR =真实源 IP
HTTP_VIA = 值为空或无此头
HTTP_X_FORWARDED_FOR = 没数值或无此头
 
不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。
 
我们提供了一个代理类型检测接口,在浏览器中访问该接口即可显示出你当前使用的代理类型(如下图):
 

哪种代理适合用于Web数据采集的更多相关文章

  1. Yeoman:适合现代Web应用的现代工作流

    Yeoman:适合现代Web应用的现代工作流   Yeoman是Google的团队和外部贡献者团队合作开发的,他的目标是通过Grunt(一个用于开发任务自动化的命令行工具)和Bower(一个HTML. ...

  2. squid 三种代理实验

    squid 软件既可以做代理,也可以做实现缓存加速,大大降低服务器的I/O.. 1.其中squid代理分为三种,正向代理.透明代理.反向代理. (1)squid正向代理和squid透明代理都位客户端: ...

  3. At.js – 用于 Web 应用程序的自动完成库

    At.js 是一个自动完成库,用来实现自动完成提示,表情等,就像你在 Github 或 Twitter 上看到的一样.它支持 HTML5 contentEditable 元素.你可以听任何字符,而不仅 ...

  4. 10个用于Web开发的最好 Python 框架

    Python 是一门动态.面向对象语言.其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性.除了语言本身的设计目的之外,Python标准 库也是值得大家称赞的,Python甚至还 ...

  5. Java的三种代理模式简述

    本文着重讲述三种代理模式在java代码中如何写出,为保证文章的针对性,暂且不讨论底层实现原理,具体的原理将在下一篇博文中讲述. 代理模式是什么 代理模式是一种设计模式,简单说即是在不改变源码的情况下, ...

  6. 理解java的三种代理模式

    代理模式是什么 代理模式是一种设计模式,简单说即是在不改变源码的情况下,实现对目标对象的功能扩展. 比如有个歌手对象叫Singer,这个对象有一个唱歌方法叫sing(). 1 public class ...

  7. 基于redis的分布式锁(不适合用于生产环境)

    基于redis的分布式锁 1 介绍 这篇博文讲介绍如何一步步构建一个基于Redis的分布式锁.会从最原始的版本开始,然后根据问题进行调整,最后完成一个较为合理的分布式锁. 本篇文章会将分布式锁的实现分 ...

  8. 安装完最小化 RHEL/CentOS 7 后需要做的 30 件事情7. 安装 PHP PHP 是用于 web 基础服务的服务器端脚本语言。它也经常被用作通用编程语言。在最小化安装的 CentOS 中安

    CentOS 是一个工业标准的 Linux 发行版,是红帽企业版 Linux 的衍生版本.你安装完后马上就可以使用,但是为了更好地使用你的系统,你需要进行一些升级.安装新的软件包.配置特定服务和应用程 ...

  9. Spring-Aop的两种代理方式

    Spring-Aop两种代理方式: 1.JDK动态代理:用于目标类实现了接口: 2.Cglib动态代理:用于目标类没有实现接口: spring会依据目标类是否实现接口来选择使用哪种代理方式(目标类:相 ...

随机推荐

  1. 【树形dp】Find Metal Mineral

    [HDU4003]Find Metal Mineral Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65768/65768 K (J ...

  2. 【费用流】hdu5988 Coding Contest

    从源点向每个点连接容量为该点人数,费用为1的边, 把原图中的每条边拆成两条,一条容量为1,费用为1,另一条容量为ci-1,费用为1-pi 从每个点向汇点连接容量为该点面包数量,费用为1的边. 跑的费用 ...

  3. android:scrollbarStyle属性及滚动条和分割线覆盖问题

    android:scrollbarStyle可以定义滚动条的样式和位置,可选值有insideOverlay.insideInset.outsideOverlay.outsideInset四种. 其中i ...

  4. Hiho----有向图欧拉回路

    时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 小Hi和小Ho破解了一道又一道难题,终于来到了最后一关.只要打开眼前的宝箱就可以通关这个游戏了. 宝箱被一种奇怪的机关锁住 ...

  5. Linux下KVM的图形界面管理工具(WebVirtMgr)(Web版)

    WebVirtMgr面板 截图 介绍 WebVirtMgr是一个基于libvirt的Web界面,用于管理虚拟机.它允许您创建和配置新域,并调整域的资源分配.VNC查看器为来宾域提供完整的图形控制台.K ...

  6. <摘录>ldconfig和ldd用法

    ldconfig和ldd用法 关键字: ldconfig ldd /etc/ld.so.conf LD_LIBRARY_PATH一.ldconfig ldconfig --helpUsage: ldc ...

  7. 20 Inno Setup制作安装包的几个问题

    系统开发好之后,通常需要制作成安装包,才能卖给用户.利用Inno Setup的向导可以制作简单的安装包,但是如果要做个好的安装包的话可能会遇到一些麻烦,今日终于抽空解决了,Inno Setup打包的一 ...

  8. 2011年排名前七位的Linux操作系统。

    下面列出了2011年排名前七位的Linux操作系统. Ubuntu Ubuntu 是一个由全球化的专业开发团队建造的操作系统.它包含了所有您需要的应用程序:浏览器.Office 套件.多媒体程序.即时 ...

  9. IP编址

    IP地址 /include/linux/inetdevice.h,定义IPV4专用的网络设备相关的结构.宏等 /net/ipv4/devinet.c.支持IPV4特性的设备操作接口 数据组织 net_ ...

  10. 理解PHP的变量,值与引用的关系

    --- title: 理解PHP的变量,值与引用的关系 createdDate: 2015-03-11 category: php --- PHP的变量与C++中的变量是两种截然不容的概念.如果没有理 ...