1. 引子

前两天访问学校自助服务器()缴纳网费,登录时发现这系统的验证码也太过“清晰”了,突然脑袋里就蹦出一个想法:如果能够自动识别验证码,然后采用暴力破解的方式,那么密码不是可以轻易被破解吗?

ps:用户名就是学号,可以轻易获得,而密码是系统随机生成的6位数,组合方式仅有 10^6种,假设每次尝试须要50ms,那么大概需要14个小时,如果采用多线程,多个虚拟机(java)同时工作,估计把所有密码过一遍不会超过1个小时,这效率还凑合吧。。。

2. 分析

问题的关键就在于验证码识别,至于如何请求服务器,用java分分钟搞定。学习了一些网友写的关于验证码识别的blog,如:http://blog.csdn.net/problc/article/details/5794460。发现它的基本步骤就是:【去噪】、【分割】、【匹配】,【识别】。

① 去噪

即去除背景和干扰线,并且将背景置为白色,文字置为黑色,便于后面匹配。验证码获取地址:http://202.118.166.244:8080/selfservice/common/web/verifycode.jsp。通过观察会发现,文字部分颜色较深(r,g,b基本小于110),干扰部分颜色较浅。于是可以这样【去噪】:

public static BufferedImage denoising(BufferedImage image) {
for (int x = 0; x < image.getWidth(); x++) {
for (int y = 0; y < image.getHeight(); y++) {
Color color = new Color(image.getRGB(x, y));
int red = color.getRed();
int green = color.getGreen();
int blue = color.getBlue();
if (red > 105 && green > 105 && blue > 105) {
image.setRGB(x, y, Color.WHITE.getRGB());
} else {
image.setRGB(x, y, Color.BLACK.getRGB());
}
}
}
return image;
}

看看效果:

处理前: 处理后: ,效果还是不错的!

② 分割

分割很简单,将验证码按文字等分。

/**
* 分割图片
*
* @param img
* @param splitNum
* @return
* @throws IOException
*/
public static List<BufferedImage> splitImage(BufferedImage img, int splitNum) throws IOException {
int width = img.getWidth();
int height = img.getHeight();
int splitWidth = width / splitNum;
List<BufferedImage> bufferedImages = new ArrayList<BufferedImage>();
for (int i = 0; i < splitNum; i++) {
bufferedImages.add(img.getSubimage(i * splitWidth, 0, splitWidth, height));
}
return bufferedImages;
}

③ 匹配

在匹配之前,要利用前面的两个方法得到所有字符的片段,用于匹配。像这样:

然后设计匹配算法,这一步比较关键,匹配算法的好坏将直接导致识别的正确与否。因为观察到文字都没有进行旋转,因此这里采用:用一个集合记录下图片每一纵行所拥有的黑色像素点的个数(没有像素的纵行不记录),将这个集合作为对应图片的指纹。然后分割好的验证码片段与上面的标准片段进行一一比对,最后组合在一起,从而可以识别出验证码。

/**
* 单个字符进行匹配
*
* @param img
* @param regularDataList
* @return
*/
public String matchSingleWord(BufferedImage img, List<List<Integer>> regularDataList) {
String result = null;
int maxRank = 0;
List<Integer> matchedData = getFingerprint(img);
for (int i = 0; i < regularDataList.size(); i++) {
int rank = 0;
List<Integer> regularData = regularDataList.get(i);
int minColumn = Math.min(regularData.size(), matchedData.size());
for (int j = 0; j < minColumn; j++) {
if (matchedData.get(j) == regularData.get(j)) {
rank++;
}
}
if (rank > maxRank) {
maxRank = rank;
result = i + "";
}
}
return result;
}
/**
* 获取图像"指纹"
*
* @param image
* @return
*/
private static List<Integer> getFingerprint(BufferedImage image) {
List<Integer> list = new ArrayList<Integer>();
for (int x = 0; x < image.getWidth(); x++) {
int count = 0;
for (int y = 0; y < image.getHeight(); y++) {
// System.out.println(image.getRGB(x, y));
if (image.getRGB(x, y) == 0xFF000000) {
count++;
}
}
if (count != 0) {
list.add(count);
}
}
return list;
}
/**
* 加载作为标准的指纹List
*
* @return
* @throws IOException
*/
private static List<List<Integer>> loadMatchDataList() throws IOException {
List<List<Integer>> matchData = new ArrayList<List<Integer>>();
File dir = new File("C:\\Users\\Administrator\\Desktop\\verifycode\\match");
File[] files = dir.listFiles();
for (File file : files) {
matchData.add(getFingerprint(ImageIO.read(file)));
}
return matchData;
}

④ 识别

将以上识别出的单个字符组合在一起,就得到验证码啦。

public static void main(String[] args) throws Exception {
BufferedImage image = ImageIO.read(new URL("http://202.118.166.244:8080/selfservice/common/web/verifycode.jsp"));
ImageIO.write(image, "png", new File("C:\\Users\\Administrator\\Desktop\\verifycode\\verifycode_src.png"));
image = denoising(image);
// 注意:最好以png格式输出,否则可能导致图片失真
ImageIO.write(image, "png", new File("C:\\Users\\Administrator\\Desktop\\verifycode\\verifycode.png"));
List<BufferedImage> images = splitImage(image, 4);
List<List<Integer>> regularFingerprintList = loadMatchDataList();
String result = "";
for (BufferedImage bufferedImage : images) {
result += matchSingleWord(bufferedImage, regularFingerprintList);
}
System.out.println("验证码是:" + result);
}

结果: ,完全正确。

3. 总结

总的来说,由于该类型验证码本生较为简单,所以处理起来十分顺利。但不管验证码怎么变化,基于这种识别算法的基本就是以上几部,具体做法根据具体案例实现。

最后随便搞一个账号来测试,用时2个多小时跑出了密码。。。

先写到这里,以后再研究其他识别算法。

验证码识别<1>的更多相关文章

  1. 字符型图片验证码识别完整过程及Python实现

    字符型图片验证码识别完整过程及Python实现 1   摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...

  2. 简单的验证码识别(opecv)

    opencv版本: 3.0.0 处理验证码: 纯数字验证码 (颜色不同,有噪音,和带有较多的划痕) 测试时间 :  一天+一晚 效果: 比较挫,可能是由于测试的图片是在太小了的缘故. 原理:  验证码 ...

  3. 利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别

    --------------------------------------------------低调的分割线-------------------------------------------- ...

  4. 基于LeNet网络的中文验证码识别

    基于LeNet网络的中文验证码识别 由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013 ...

  5. Java验证码识别解决方案

    建库,去重,切割,识别. package edu.fzu.ir.test; import java.awt.Color; import java.awt.image.BufferedImage; im ...

  6. 简单验证码识别(matlab)

    简单验证码识别(matlab) 验证码识别, matlab 昨天晚上一个朋友给我发了一些验证码的图片,希望能有一个自动识别的程序. 1474529971027.jpg 我看了看这些样本,发现都是很规则 ...

  7. Python验证码识别处理实例(转载)

    版权声明:本文为博主林炳文Evankaka原创文章,转载请注明出处http://blog.csdn.net/evankaka 一.准备工作与代码实例 1.PIL.pytesser.tesseract ...

  8. 验证码识别--type2

    验证码识别--type2 终于来到了彩色图像,一定有一些特点 这里的干扰项是色彩不是很鲜艳的.灰色的线条,还有单独的干扰点,根据这些特性进行去除 直接ostu的话,有的效果好,有的效果不好   本来是 ...

  9. 验证码识别--type5

    验证码识别--type5 每一种验证码都是由人设计出来.在设计过程中,可能由于多个方面的原因,造成了这样或那样的可以被利用的漏洞.验证码识别,首先需要解决的问题就是发现这些漏洞--然后利用漏洞解决问题 ...

随机推荐

  1. Python列表去重

    标题有语病,其实是这样的: 假设有两个列表 : L1 = [1,2,3,4] ; L2 = [1,2,5,6] 然后去掉L1中包含的L2的元素 直接这样当然是不行的: def removeExists ...

  2. 前端学Markdown

    前面的话   我个人理解,Markdown就是一个富文本编辑器语言,类似于sass对于css的功能,Markdown也可以叫做HTML预处理器,只不过它是一门轻量级的标记语言,可以更简单的实现HTML ...

  3. Linux 添加新磁盘,在线扩充空间

    CentOS 7开发环境中的home 目录空间满了,需要增加空间 到虚拟机上执行"ls /sys/class/scsi_host",然后重新扫描SCSI总线来添加设备.如右图.然后 ...

  4. MongoDB系列(二):C#应用

    前言 上一篇文章<MongoDB系列(一):简介及安装>已经介绍了MongoDB以及其在window环境下的安装,这篇文章主要讲讲如何用C#来与MongoDB进行通讯.再次强调一下,我使用 ...

  5. 模仿Linux内核kfifo实现的循环缓存

    想实现个循环缓冲区(Circular Buffer),搜了些资料多数是基于循环队列的实现方式.使用一个变量存放缓冲区中的数据长度或者空出来一个空间来判断缓冲区是否满了.偶然间看到分析Linux内核的循 ...

  6. [原] KVM虚拟机网络闪断分析

    背景 公司云平台的机器时常会发生网络闪断,通常在10s-100s之间. 异常情况 VM出现问题时,表现出来的情况是外部监控系统无法访问,猜测可能是由于系统假死,OVS链路问题等等.但是在出现网络问题的 ...

  7. 代码的坏味道(20)——过度耦合的消息链(Message Chains)

    坏味道--过度耦合的消息链(Message Chains) 特征 消息链的形式类似于:obj.getA().getB().getC(). 问题原因 如果你看到用户向一个对象请求另一个对象,然后再向后者 ...

  8. jQuery个性化图片轮播效果

    jQuery个性化图片轮播效果 购物产品展示:图片轮播器<效果如下所示> 思路说明: 每隔一段时间,实现图片的自动切换及选项卡选中效果,鼠标划入图片动画停止,划出或离开动画开始 两个区域: ...

  9. 中文 iOS/Mac 开发博客列表

    中文 iOS/Mac 开发博客列表 博客地址 RSS地址 OneV's Den http://onevcat.com/atom.xml 一只魔法师的工坊 http://blog.ibireme.com ...

  10. Linux实战教学笔记01:计算机硬件组成与基本原理

    标签(空格分隔): Linux实战教学笔记 第1章 如何学习Linux 要想学好任何一门学问,不仅要眼睛看,耳朵听,还要动手记,勤思考,多交流甚至尝试着去教会别人. 第2章 服务器 2.1 运维的基本 ...