分析

蚂蚁代理的列表页大致是这样的：

端口字段使用了图片显示，并且在图片上还有各种干扰线，保存一个图片到本地用画图打开观察一下：

仔细观察蓝色的线其实是在黑色的数字下面的，其它的干扰线也是，所以这幅图是先绘制的干扰线又绘制的端口数字，于是就悲剧了，干扰线形同虚设，所以还是有办法识别的。

然后就是ip字段，看了下ip字段很老实没啥猫腻。

注意到这个列表有一个按端口号筛选的功能，很兴奋的试了一下以为可以绕过去，然后：

端口号是不用图片显示了，但是ip地址的最后一部分用图片显示，还是老老实实识别端口号吧。

另外就是对于端口号图片的url也是先存储在元素属性上然后又设置的，它默认返回的src是空的：

还有就是对于图片的访问需要有一个proxy_token的cookie，否则的话访问不了这张图片，这个算是做的比较好的了，其它的站点一般都是对图片访问没有限制。

这个proxy_token是在页面返回的时候设置的，同时设置了图片的src，可以在页面底部找到这段js：

$(function() {

    document.cookie = "proxy_token=mcmoveng;path=/";

    $("img.js-proxy-img").each(function(index, item) {

        $(this).attr("src", $(this).attr("data-uri")).removeAttr("data-uri");;

    });

});

在页面返回的时候提取出对应的proxy_token即可。

代码实现

识别端口号的话使用这个库：https://github.com/CC11001100/commons-simple-character-ocr

首先需要收集一些图片来生成标注图片，这里选了它的随机选择5位数端口的列表，这样得到的数字更多可以少下几张。

另外需要注意的是对图片去噪音使用的是SingleColorClean，这种过滤器会将图片上除了指定颜色（未指定的话默认是黑色）之外的颜色统统过滤掉，正好适合这里除了字体的黑色其它干扰线统统过滤掉，当然是有一定几率干扰线是黑色的过滤不掉的，几率大概是1/0XFFFFFF吧…haha

下载一些图片生成标注图片：

package org.cc11001100.t1;

import cc11001100.ocr.OcrUtil;

import cc11001100.ocr.clean.SingleColorFilterClean;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import javax.imageio.ImageIO;

import java.awt.image.BufferedImage;

import java.io.ByteArrayInputStream;

import java.io.File;

import java.io.IOException;

import java.nio.charset.StandardCharsets;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

 * @author CC11001100

 */

public class AntProxyGrab {

	private static OcrUtil ocrUtil;

	static {

		ocrUtil = new OcrUtil().setImageClean(new SingleColorFilterClean());

	}

	private static void grabImage(String saveBasePath) {

		String url = "http://www.mayidaili.com/free/fiveport/";

		for (int i = 0; i < 10; i++) {

			String responseContent = getResponseContent(url + i);

			String proxyToken = parseProxyToken(responseContent);

			Document doc = Jsoup.parse(responseContent);

			doc.select(".js-proxy-img").forEach(elt -> {

				String imgLink = elt.attr("data-uri");

				byte[] imgBytes = download(imgLink, proxyToken);

				try {

					BufferedImage img = ImageIO.read(new ByteArrayInputStream(imgBytes));

					String savePath = saveBasePath + "/" + System.currentTimeMillis() + ".png";

					ImageIO.write(img, "png", new File(savePath));

					System.out.println("save img " + imgLink);

				} catch (IOException e) {

					e.printStackTrace();

				}

			});

		}

	}

	private static String parseProxyToken(String responseContent) {

		Matcher matcher = Pattern.compile("proxy_token=(.+);path=/").matcher(responseContent);

		if (matcher.find()) {

			return matcher.group(1);

		}

		return "";

	}

	private static String getResponseContent(String url) {

		byte[] responseBytes = download(url);

		return new String(responseBytes, StandardCharsets.UTF_8);

	}

	private static byte[] download(String url) {

		return download(url, "");

	}

	private static byte[] download(String url, String proxyToken) {

		for (int i = 0; i < 3; i++) {

			try {

				return Jsoup.connect(url).cookie("proxy_token", proxyToken).execute().bodyAsBytes();

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

		return new byte[0];

	}

	public static void main(String[] args) {

		String rawImageSaveDir = "E:/test/proxy/ant/raw/";

		String distinctCharImgSaveDir = "E:/test/proxy/ant/char/";

		grabImage(rawImageSaveDir);

		ocrUtil.init(rawImageSaveDir, distinctCharImgSaveDir);

	}

}

现在去E:/test/proxy/ant/char/将图片名称改为其代表的意思：

上面的标注数据生成完grabImage方法就没用了，在此基础上修改一下爬取前十页的内容并返回：

package org.cc11001100.t1;

import cc11001100.ocr.OcrUtil;

import cc11001100.ocr.clean.SingleColorClean;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import javax.imageio.ImageIO;

import java.awt.image.BufferedImage;

import java.io.ByteArrayInputStream;

import java.io.IOException;

import java.nio.charset.StandardCharsets;

import java.util.ArrayList;

import java.util.List;

import java.util.Objects;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import java.util.stream.Collectors;

/**

 * @author CC11001100

 */

public class AntProxyGrab {

	private static OcrUtil ocrUtil;

	static {

		ocrUtil = new OcrUtil().setImageClean(new SingleColorClean());

		ocrUtil.loadDictionaryMap("E:/test/proxy/ant/char/");

	}

	private static List<String> grabProxyIp() {

		String url = "http://www.mayidaili.com/free/fiveport/";

		List<String> resultList = new ArrayList<>();

		for (int i = 0; i < 10; i++) {

			String responseContent = getResponseContent(url + i);

			String proxyToken = parseProxyToken(responseContent);

			Document doc = Jsoup.parse(responseContent);

			List<String> ipList = doc.select("tbody tr").stream().map(elt -> {

				String ip = elt.select("td:eq(0)").text();

				String imgLink = elt.select(".js-proxy-img").attr("data-uri");

				byte[] imgBytes = download(imgLink, proxyToken);

				try {

					BufferedImage img = ImageIO.read(new ByteArrayInputStream(imgBytes));

					String port = ocrUtil.ocr(img);

					return ip + ":" + port;

				} catch (IOException e) {

					e.printStackTrace();

				}

				return null;

			}).filter(Objects::nonNull).collect(Collectors.toList());

			resultList.addAll(ipList);

		}

		return resultList;

	}

	private static String parseProxyToken(String responseContent) {

		Matcher matcher = Pattern.compile("proxy_token=(.+);path=/").matcher(responseContent);

		if (matcher.find()) {

			return matcher.group(1);

		}

		return "";

	}

	private static String getResponseContent(String url) {

		byte[] responseBytes = download(url);

		return new String(responseBytes, StandardCharsets.UTF_8);

	}

	private static byte[] download(String url) {

		return download(url, "");

	}

	private static byte[] download(String url, String proxyToken) {

		for (int i = 0; i < 3; i++) {

			try {

				return Jsoup.connect(url).cookie("proxy_token", proxyToken).execute().bodyAsBytes();

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

		return new byte[0];

	}

	public static void main(String[] args) {

		grabProxyIp().forEach(System.out::println);

	}

}

蚂蚁代理免费代理ip爬取（端口图片显示+token检查）的更多相关文章

requests 使用免费的代理ip爬取网站
import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...
Scrapy爬取美女图片第三集代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
Scrapy-多层爬取天堂图片网
1.根据图片分类对爬取的图片进行分类开发者选项 --> 找到分类地址爬取每个分类的地址通过回调函数传入下一层 name = 'sky'start_urls = ['http: ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...

随机推荐

webpack打包性能优化
1. 使用 gzip 压缩打包后的 js 文件这个方法优化浏览器下载时的文件大小(打包后的文件大小没有改变) webpack.config.prod.js 中 var CompressionWebp ...
Django：（博客系统）使用使用mysql数据&创建post/category/tag实体，并同步到数据中
背景: 之前也读过一些关于django的一些书,看过别人写的一些博客系统.但是总有一种看别人的都会,但自己写不出来的感觉,于是为了加深对django的学习就开始动手学习了. 环境搭建: 环境:使用py ...
POJ-2923 Relocation---01背包+状态压缩
题目链接: https://vjudge.net/problem/POJ-2923 题目大意: 有n个货物,给出每个货物的重量,每次用容量为c1,c2的火车运输,问最少需要运送多少次可以将货物运完思 ...
[转]解决scrapy下载图片时相对路径转绝对路径的问题
专注自:http://blog.csdn.net/hjy_six/article/details/6862648 这段时间一直在研究利用scrapy抓取图片的问题,我发觉,用官网的http://doc ...
【转载】Ubuntu 12.04 LTS 中文输入法的安装
原文地址 : http://www.cnblogs.com/zhj5chengfeng/archive/2013/06/23/3150620.html 我装的是英文版的 Ubuntu12.04,如果 ...
【SQL.基础构建-第一节(1/4)】
-- Tips:数据库与sql-- 一.What's 数据库-- 1.数据库(Database,DB):将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合.-- ...
bootstrap——bootstrap-table（1）
前言: 特地纪念一下,自己参加这份工作刚好满一年.依旧乐在其中言归正传:之前小接触过bootstrap,只是之后用得少了就生疏了,恰好现在的工作使用到了它,就再拿出来认真研究一下. 过程: 一直以来 ...
前端之旅HTML与CSS篇之自己总结的关于居中的方法
1.text-align:center :在父容器里水平居中 inline 文字,或 inline 元素 2.line-height 与 height 相等时,垂直居中文字(文字垂直水平居中,同时 ...
NC的开发模型
2018-04-1622:35:12 NC的开发模型系统前端为:客户UI代码,UI代码继承ToftPanel,UI代码通过调用远程组件和服务端进行交互,中间传递的数据模型为VO,远程组件调用底层的业 ...
swoole_proces实现多进程
简介 swoole_process 是swoole提供的进程管理模块,用来替代PHP的pcntl扩展. 首先,确保安装的swoole版本大于1.7.2: $ php --ri swoole swool ...

蚂蚁代理免费代理ip爬取（端口图片显示+token检查）

分析

代码实现

蚂蚁代理免费代理ip爬取（端口图片显示+token检查）的更多相关文章

随机推荐

热门专题