爬虫爬取代理IP池及代理IP的验证

最近项目内容需要引入代理IP去爬取内容。

为了项目持续运行，需要不断构造、维护、验证代理IP。

为了绕过服务端对IP 和频率的限制，为了阻止服务端获取真正的主机IP。

一、服务器如何获取客户端IP

　　1.js获取本地IP后提交

　　这种方案可以通过抓包查看交互，伪造包达到目的。本机就可以完成。

　　2.服务端通过 http字段获取真实IP地址

　　可以通过伪造字段来获取（可以自己伪造，也可以通过高匿代理服务器伪造）

　　3.服务端通过tcp连接来确定真实IP地址

　　这个不可能伪造，不然无法建立TCP连接。

综合情况，我们最好通过代理IP服务器（匿名混淆高匿三种代理都可以），交由代理处理字段，让服务端无法得知自己的IP。

二、爬取免费代理（有钱自己买也行）

　　1.寻找代理网站然后爬取内容

　　　　这边找的是xici，然后爬取之后对代理进行了筛选。

　　　　xici代理会对ua封IP，需要伪造ua逃避掉。

　　2.验证并筛选代理IP

　　　　有些代理服务器并不是高匿，虽然声称了高匿，还有广告陷阱。。。

　　　　我们可以自己搭建一个web服务测试，看代理服务器是否隐藏我们的IP，也可以通过确定返回内容长度来确定是否是广告陷阱。

 if(getenv('HTTP_CLIENT_IP') && strcasecmp(getenv('HTTP_CLIENT_IP'), 'unknown')) {

         $ip = getenv('HTTP_CLIENT_IP');

     } elseif(getenv('HTTP_X_FORWARDED_FOR') && strcasecmp(getenv('HTTP_X_FORWARDED_FOR'), 'unknown')) {

         $ip = getenv('HTTP_X_FORWARDED_FOR');

     } elseif(getenv('REMOTE_ADDR') && strcasecmp(getenv('REMOTE_ADDR'), 'unknown')) {

         $ip = getenv('REMOTE_ADDR');

     } elseif(isset($_SERVER['REMOTE_ADDR']) && $_SERVER['REMOTE_ADDR'] && strcasecmp($_SERVER['REMOTE_ADDR'], 'unknown')) {

         $ip = $_SERVER['REMOTE_ADDR'];

     }

     $res =  preg_match ( '/[\d\.]{7,15}/', $ip, $matches ) ? $matches [0] : '';

     echo $res;

返回实际IP的代码

　　　　结果真的好遗憾。xici高匿代理几万条筛出一条就是不错的结果了。。

三、维护IP池

　　开启服务不断爬取筛选,筛选出的IP，需要保存到IP池中。IP池通过消息中间件维护，其他job去访问即可。

　　如何保证从IP池获取到的IP是实时有效且匿名的呢。

　　可以采取惰性验证的手段，还是通过访问服务测试。（这里应该可以优化一下。给IP打上时间戳，一定时间内可以不用再次验证）

爬虫爬取代理IP池及代理IP的验证的更多相关文章

python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
爬取西刺网的免费IP
在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools ...
python爬虫爬取安居客并进行简单数据分析
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理爬取过程一.指定爬取数据二.设置请求头防止反爬三.分析页面并且与网页源码进行比对四.分析页面整理数据 ...
python爬虫爬取策略
爬取策略关注公众号"轻松学编程"了解更多. 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...

随机推荐

(linux)安装redis---简装
redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统.和Memcached类似,但很大程度补偿了memcached的不足,它支持存储的value类型相对更多,包括strin ...
Linux 常用命令一览
本篇博文讲述系统内核.Bash解释器的关系与作用,如何正确的执行Linux命令以及常见排错方法. 经验丰富的运维人员可以恰当的组合命令与参数,使Linux字符命令更加的灵活且相对减少消耗系统资源. 强 ...
spark sql metastore 配置 mysql
本文主要介绍如何为 spark sql 的 metastore 配置成 mysql . spark 的版本 2.4.0 版本 hive script 版本为 hive 1.2.2 mysql 为 5. ...
[JLOI2012]树倍增优化
题目描述在这个问题中,给定一个值S和一棵树.在树的每个节点有一个正整数,问有多少条路径的节点总和达到S.路径中节点的深度必须是升序的.假设节点1是根节点,根的深度是0,它的儿子节点的深度为1.路径不 ...
Linux服务之 Nginx安装
安装包下载: 链接:https://pan.baidu.com/s/1yna9nvT_9iYw4_0uVQRgFw 提取码:nurm yum -y install gcc automake autoc ...
for in在对象和数组中的应用
var obj = { name:'lei', be:'dd', age:23 } for(var poo in obj){ alert('对象的属性和值为:'+poo+':'+obj[poo]); ...
poj 2348 Euclid's Game
题目: 给两个整数a和b,两个人先后用较大的数减去较小数的整数倍,并且保证相减后为非负数.先把一个数变为0的人获胜. 分析: 很显然,当大数是小数的整数倍时为必胜态. 从这道题学会一个叫做自由度的东西 ...
自定义ClassLoader加载加密的class文件
package com.yd.wmsc.util; public class Test { public void say(){ System.out.println("Say Hello& ...
035 Search Insert Position 搜索插入位置
给定一个排序数组和一个目标值,如果在数组中找到目标值则返回索引.如果没有,返回到它将会被按顺序插入的位置.你可以假设在数组中无重复元素.案例 1:输入: [1,3,5,6], 5输出: 2案例 2:输 ...
(转)Xargs用法详解
Xargs用法详解原文:http://czmmiao.iteye.com/blog/1949225 简介之所以能用到这个命令,关键是由于很多命令不支持|管道来传递参数,而日常工作中有有这个必要,所以 ...

爬虫爬取代理IP池及代理IP的验证

爬虫爬取代理IP池及代理IP的验证的更多相关文章

随机推荐

热门专题