分析

蚂蚁代理的列表页大致是这样的:

端口字段使用了图片显示,并且在图片上还有各种干扰线,保存一个图片到本地用画图打开观察一下:

仔细观察蓝色的线其实是在黑色的数字下面的,其它的干扰线也是,所以这幅图是先绘制的干扰线又绘制的端口数字,于是就悲剧了,干扰线形同虚设,所以还是有办法识别的。

然后就是ip字段,看了下ip字段很老实没啥猫腻。

注意到这个列表有一个按端口号筛选的功能,很兴奋的试了一下以为可以绕过去,然后:

端口号是不用图片显示了,但是ip地址的最后一部分用图片显示,还是老老实实识别端口号吧。

另外就是对于端口号图片的url也是先存储在元素属性上然后又设置的,它默认返回的src是空的:

还有就是对于图片的访问需要有一个proxy_token的cookie,否则的话访问不了这张图片,这个算是做的比较好的了,其它的站点一般都是对图片访问没有限制。

这个proxy_token是在页面返回的时候设置的,同时设置了图片的src,可以在页面底部找到这段js:

$(function() {
document.cookie = "proxy_token=mcmoveng;path=/";
$("img.js-proxy-img").each(function(index, item) {
$(this).attr("src", $(this).attr("data-uri")).removeAttr("data-uri");;
});
});

在页面返回的时候提取出对应的proxy_token即可。

代码实现

识别端口号的话使用这个库:https://github.com/CC11001100/commons-simple-character-ocr

首先需要收集一些图片来生成标注图片,这里选了它的随机选择5位数端口的列表,这样得到的数字更多可以少下几张。

另外需要注意的是对图片去噪音使用的是SingleColorClean,这种过滤器会将图片上除了指定颜色(未指定的话默认是黑色)之外的颜色统统过滤掉,正好适合这里除了字体的黑色其它干扰线统统过滤掉,当然是有一定几率干扰线是黑色的过滤不掉的,几率大概是1/0XFFFFFF吧…haha

下载一些图片生成标注图片:

package org.cc11001100.t1;

import cc11001100.ocr.OcrUtil;
import cc11001100.ocr.clean.SingleColorFilterClean;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document; import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.util.regex.Matcher;
import java.util.regex.Pattern; /**
* @author CC11001100
*/
public class AntProxyGrab { private static OcrUtil ocrUtil; static {
ocrUtil = new OcrUtil().setImageClean(new SingleColorFilterClean());
} private static void grabImage(String saveBasePath) {
String url = "http://www.mayidaili.com/free/fiveport/";
for (int i = 0; i < 10; i++) {
String responseContent = getResponseContent(url + i);
String proxyToken = parseProxyToken(responseContent);
Document doc = Jsoup.parse(responseContent);
doc.select(".js-proxy-img").forEach(elt -> {
String imgLink = elt.attr("data-uri");
byte[] imgBytes = download(imgLink, proxyToken);
try {
BufferedImage img = ImageIO.read(new ByteArrayInputStream(imgBytes));
String savePath = saveBasePath + "/" + System.currentTimeMillis() + ".png";
ImageIO.write(img, "png", new File(savePath));
System.out.println("save img " + imgLink);
} catch (IOException e) {
e.printStackTrace();
}
});
}
} private static String parseProxyToken(String responseContent) {
Matcher matcher = Pattern.compile("proxy_token=(.+);path=/").matcher(responseContent);
if (matcher.find()) {
return matcher.group(1);
}
return "";
} private static String getResponseContent(String url) {
byte[] responseBytes = download(url);
return new String(responseBytes, StandardCharsets.UTF_8);
} private static byte[] download(String url) {
return download(url, "");
} private static byte[] download(String url, String proxyToken) {
for (int i = 0; i < 3; i++) {
try {
return Jsoup.connect(url).cookie("proxy_token", proxyToken).execute().bodyAsBytes();
} catch (IOException e) {
e.printStackTrace();
}
}
return new byte[0];
} public static void main(String[] args) {
String rawImageSaveDir = "E:/test/proxy/ant/raw/";
String distinctCharImgSaveDir = "E:/test/proxy/ant/char/";
grabImage(rawImageSaveDir);
ocrUtil.init(rawImageSaveDir, distinctCharImgSaveDir);
} }

现在去E:/test/proxy/ant/char/将图片名称改为其代表的意思:

上面的标注数据生成完grabImage方法就没用了,在此基础上修改一下爬取前十页的内容并返回:

package org.cc11001100.t1;

import cc11001100.ocr.OcrUtil;
import cc11001100.ocr.clean.SingleColorClean;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document; import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.List;
import java.util.Objects;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.stream.Collectors; /**
* @author CC11001100
*/
public class AntProxyGrab { private static OcrUtil ocrUtil; static {
ocrUtil = new OcrUtil().setImageClean(new SingleColorClean());
ocrUtil.loadDictionaryMap("E:/test/proxy/ant/char/");
} private static List<String> grabProxyIp() {
String url = "http://www.mayidaili.com/free/fiveport/";
List<String> resultList = new ArrayList<>();
for (int i = 0; i < 10; i++) {
String responseContent = getResponseContent(url + i);
String proxyToken = parseProxyToken(responseContent);
Document doc = Jsoup.parse(responseContent);
List<String> ipList = doc.select("tbody tr").stream().map(elt -> {
String ip = elt.select("td:eq(0)").text();
String imgLink = elt.select(".js-proxy-img").attr("data-uri");
byte[] imgBytes = download(imgLink, proxyToken);
try {
BufferedImage img = ImageIO.read(new ByteArrayInputStream(imgBytes));
String port = ocrUtil.ocr(img);
return ip + ":" + port;
} catch (IOException e) {
e.printStackTrace();
}
return null;
}).filter(Objects::nonNull).collect(Collectors.toList());
resultList.addAll(ipList);
}
return resultList;
} private static String parseProxyToken(String responseContent) {
Matcher matcher = Pattern.compile("proxy_token=(.+);path=/").matcher(responseContent);
if (matcher.find()) {
return matcher.group(1);
}
return "";
} private static String getResponseContent(String url) {
byte[] responseBytes = download(url);
return new String(responseBytes, StandardCharsets.UTF_8);
} private static byte[] download(String url) {
return download(url, "");
} private static byte[] download(String url, String proxyToken) {
for (int i = 0; i < 3; i++) {
try {
return Jsoup.connect(url).cookie("proxy_token", proxyToken).execute().bodyAsBytes();
} catch (IOException e) {
e.printStackTrace();
}
}
return new byte[0];
} public static void main(String[] args) {
grabProxyIp().forEach(System.out::println);
} }

蚂蚁代理免费代理ip爬取(端口图片显示+token检查)的更多相关文章

  1. requests 使用免费的代理ip爬取网站

    import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...

  2. Scrapy爬取美女图片第三集 代理ip(上) (原创)

    首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...

  3. Scrapy爬取美女图片第四集 突破反爬虫(上)

     本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...

  4. 百度图片爬虫-python版-如何爬取百度图片?

    上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

  5. Python爬取谷歌街景图片

    最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...

  6. Python爬虫学习(6): 爬取MM图片

    为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站 进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...

  7. Scrapy爬取美女图片 (原创)

    有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...

  8. Scrapy-多层爬取天堂图片网

    1.根据图片分类对爬取的图片进行分类 开发者选项 --> 找到分类地址         爬取每个分类的地址通过回调函数传入下一层 name = 'sky'start_urls = ['http: ...

  9. python3爬取女神图片,破解盗链问题

    title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...

随机推荐

  1. Extensions in UWP Community Toolkit - SurfaceDialTextbox

    概述 UWP Community Toolkit Extensions 中有一个为TextBox 提供的 SurfaceDial 扩展 - SurfaceDialTextbox,本篇我们结合代码详细讲 ...

  2. 深入理解Javascript单线程谈Event Loop

    假如面试回答js的运行机制时,你可能说出这么一段话:"Javascript的事件分同步任务和异步任务,遇到同步任务就放在执行栈中执行,而碰到异步任务就放到任务队列之中,等到执行栈执行完毕之后 ...

  3. 区块链3.0:拥抱EOS

    EOS是当下最火的区块链技术,被社会广泛看好为下一代区块链3.0.不同于以太坊的学习,EOS的主语言是C++,本文作为EOS研究的首篇文章,重点介绍EOS的创新点,它的周边生态,各种概念原理的解释,以 ...

  4. 全球性WannaCry蠕虫勒索病毒感染前后应对措施

    前言:针对WannaCrypt勒索病毒的讨论和技术文章是铺天盖地,大量的技术流派,安全厂家等纷纷献计献策,有安全厂家开发各种安全工具,对安全生态来说是一个好事,但对个人未必就是好事,我们国家很多用户是 ...

  5. No mapping found for HTTP request with URI [/user/login.do] in DispatcherServlet with name 'dispatcher'错误

    1.警告的相关信息 七月 24, 2017 3:53:04 下午 org.springframework.web.servlet.DispatcherServlet noHandlerFound警告: ...

  6. ng-select 下拉的两种方式

    <!doctype html><html lang="en"><head> <meta charset="UTF-8" ...

  7. [LeetCode] Smallest Range 最小的范围

    You have k lists of sorted integers in ascending order. Find the smallest range that includes at lea ...

  8. 二 Djano模型层之模型字段选项

    字段选项 以下参数是全部字段类型都可用的,而且是可选的 null 如果为True,Django将在数据库中将空值存储为NULL.默认值为False 对于字符串字段,如果设置了null=True意味着& ...

  9. xcode8的那些坑儿

    前几天手又贱,更新了xcode8....被几个坑玩坏了.最起码,字体改了,我现在还没有适应.下面列举了这两天遇到的问题 1.关于相册,照相,通讯录,麦克风的权限问题 xcode8打完包安装后,你会发现 ...

  10. 机器学习基石:06 Theory of Generalization

    若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...