Web指纹识别目的Discuz识别+粗糙的版本演绎
这个识别程序是本学期在我的职业培训项目。它是做一类似至Zoomeye怪东西,然后使用ES集成,为了让搜索引擎寻找。因此,我们必须首先去网上识别相应的能力Web包裹,如果用户输入的关键词:Discuz X3.0。我就要显示出对应版本号的内容才OK。
作为识别子程序,我这里暂且分享一下识别Web组件的思路。
我是从浅谈web指纹识别技术一文中找到的思路。
对于Discuz的站点。第一时间想的就是识别footer了。可是问题在于。做的好的一些站点往往会将“Powered By”字样改动,所以为了配合footer字样进行识别,我使用了robots.txt和比較隐蔽的meta标签来进行共同识别。
而粗略的版本号信息,则是从robots.txt中获取的。
指纹所有放在一起进行管理,方便日后进行指纹的加入:
discuz_feature.py:
这个文件里仅仅有一个字典用来存放对应的指纹信息,我不可能做得非常细(时间不同意啊),所以仅仅有footer信息、robots信息、meta信息三个类型的指纹。
在主程序中直接load这个指纹库就可以,以下就是识别主程序的代码,程序输入为以回车换行切割的域名列表。输出为结果文件,代码例如以下:
#coding=utf-8
import requests
from bs4 import BeautifulSoup
import re
from discuz_feature import matches
'''
Discuz 指纹识别
1.meta数据元识别
2.intext识别
3.robots.txt识别
'''
class DiscuzDetector():
'''构造方法'''
def __init__(self,url):
if url.startswith("http://"):
self.url = url
else:
self.url = "http://%s" % url
try:
self.r = requests.get(self.url,timeout=8)
self.page_content = self.r.content
except Exception, e:
print e
self.r = None
self.page_content = None '''识别meta标签'''
def meta_detect(self):
if not self.r:
return False
pattern = re.compile(r'<meta name=".*? " content="(.+)" />')
infos = pattern.findall(self.page_content)
conditions = matches['meta'][0] or matches['meta'][1]
if infos:
for x in infos:
if x.count(conditions) != 0:
return True
break
else:
return False '''discuz 版本号识别'''
def robots_dz_xx_detect(self):
if not self.r:
return (False,None)
robots_url = "%s%s" % (self.url,"/robots.txt")
robots_content = requests.get(robots_url).content
if not robots_content:
return (False,None)
robots_feature_xx = matches['robots_for_xx']
robots_feature_Xx = matches['robots_for_Xx']
robots_list = robots_content.split("\r\n")
pattern = re.compile(r'# robots\.txt for (.+)')
version_info = []
for x in robots_list:
#假设robots.txt中含有# robots.txt for Discuz! X3 行 则直接推断版本号
version_info = pattern.findall(x)
if version_info != [] and robots_content.count("Version" and "Discuz!"):
if robots_content.count("Version" and "Discuz!"):
pattern = re.compile(r'# Version (.+)')
version_number = pattern.findall(str(robots_content))
if version_number:
version_info.append(version_number)
return (True,version_info)
else:
#若版本号信息被删除则识别出版本号
is_xx = (x in robots_feature_xx)
is_Xx = (x in robots_feature_Xx)
if is_Xx or is_xx:
#推断为discuz
#推断版本号
if is_Xx == True:
version_info = 'Discuz Xx'
return (True,version_info)
else:
version_info = 'Discuz xx'
return (True,version_info)
#不是discuz
return (False,None) '''检測网页中的discuz字样'''
def detect_intext(self):
if not self.r:
return False
text_feature = matches['intext'][0] or matches['intext'][1]
if self.page_content.count(text_feature) != 0:
return True
else:
return False '''判别方法'''
def get_result(self):
if not self.r:
return (False,'Not Discuz!')
is_meta = self.meta_detect()
res = self.robots_dz_xx_detect()
is_dz_robots = res[0]
version_info = res[1]
print version_info
is_intext = self.detect_intext() if is_meta or is_dz_robots or is_intext:
#print 'Find Discuz!'
if version_info:
# return (True,'Find! Version:%s' % (version_info[0]))
return (True,'%s' % (version_info[0]))
else:
return (True,'Version:Unknown')
else:
return (False,'Not Discuz!') if __name__ == '__main__': '''读文件识别'''
f = open('discuz.txt','r')
wf = open('results.txt','a')
file_content = f.read()
dz_url_list = file_content.split('\n')
for url in dz_url_list:
print url
detector = DiscuzDetector(url)
ret = detector.get_result()
print ret
if ret[0]:
wf.write("%s\t%s\n" % (url,ret[1]))
else:
continue
wf.close()
f.close()
里面的discuz.txt就是须要识别的域名列表文件,输出为results.txt。程序运行例如以下:
看来X3.x的版本号用的挺多。
在某些情况下。须要做批量利用,对这个脚本稍加改动就能够帮助识别出域名数据库中的Discuz的网站。
你须要做的仅仅是把漏洞攻击代码作为兴许模块进行攻击就可以。
当然,关于批量利用,使用web指纹识别这样的方法尽管准确性高,可是比較费时间,不适合大规模的扫描,这样的情况下。一般都是Fuzzing跑字典去做。
使用Elasticsearch整合的效果例如以下:
假设希望做的有模有样的话。那么就要加入后面的监控与漏洞攻击模块了。使用RESTful接口做出API是最好的、最灵活的选择,以后会逐渐完好,争取做出zoomeye的雏形:-)
另外,转载请注明出处啊大哥们!
!
版权声明:本文博主原创文章。博客,未经同意不得转载。
Web指纹识别目的Discuz识别+粗糙的版本演绎的更多相关文章
- 使用C#winform编写渗透测试工具--Web指纹识别
使用C#winform编写渗透测试工具--web指纹识别 本篇文章主要介绍使用C#winform编写渗透测试工具--Web指纹识别.在渗透测试中,web指纹识别是信息收集关键的一步,通常是使用各种工具 ...
- 原创工具14Finger-全能web指纹识别与分享平台
14Finger 功能齐全的Web指纹扫描和分享平台,基于vue3+django前后端分离的web架构,并集成了长亭出品的rad爬虫的功能,内置了一万多条互联网开源的指纹信息. Github:http ...
- python web指纹获取加目录扫描加端口扫描加判断robots.txt
前言: 总结上几次的信息收集构造出来的. 0x01: 首先今行web指纹识别,然后在进行robots是否存在.后面是目录扫描 然后到使用nmap命令扫描端口.(nmap模块在windows下使用会报停 ...
- 基于分布式的短文本命题实体识别之----人名识别(python实现)
目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分. 据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误.在所有的分词错误中,与人名有关的 ...
- uu云验证码识别平台,验证码,验证码识别,全自动验证码识别技术,优优云全自动打码,代答题系统,优优云远程打码平台,uu云打码
uu云验证码识别平台,验证码,验证码识别,全自动验证码识别技术,优优云全自动打码,代答题系统,优优云远程打码平台,uu云打码 优优云验证码识别答题平台介绍 优优云|UU云(中国公司)是全球唯一领先的智 ...
- 移动端车牌识别、行驶证识别OCR为共享汽车APP增添技术色彩
本文主题:移动端车牌识别.行驶证识别OCR为共享汽车APP增添技术色彩 本文关键词:车牌识别,证件识别,移动端车牌识别,行驶证识别,手机车牌识别,驾驶证识别 近两年,随着共享单车以及共享电车的兴起,有 ...
- java web eclipse中项目的加载过程
java web eclipse中项目的加载过程: Tomcat默认从WEB-INF/目录下加载资源,Eclipse在发布程序的时候,并没有把User Libraries的相关资源拷贝到WEB-INF ...
- windows下简单验证码识别——完美验证码识别系统
此文已由作者徐迪授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 讲到验证码识别,大家第一个可能想到tesseract.诚然,对于OCR而言,tesseract确实很强大,自带 ...
- VIN码识别/车架号识别独家支持云识别
VIN码(车架号)对于懂车的人来说并不陌生,不要小看这一串字符,从VIN码中可以读懂车辆的生产厂家.年代.车型.车身型式及代码.发动机代码及组装地点等信息. 一辆汽车的VIN码也是车辆的唯一身份证明, ...
随机推荐
- Codeforces 196 C. Paint Tree
分治.选最左上的点分给根.剩下的极角排序后递归 C. Paint Tree time limit per test 2 seconds memory limit per test 256 megaby ...
- spring MVC拦截器01
spring MVC拦截 作用:身份校验,权限检查,防止非法訪问. 场景:一个bbs系统,用户没有登录就无法发帖或者删除评论; 一个博客系统,没有登录就无法发表博文,无法添加分类,无法删除博文. sp ...
- C++:抽象基类和纯虚函数的理解
转载地址:http://blog.csdn.net/acs713/article/details/7352440 抽象类是一种特殊的类,它是为了抽象和设计的目的为建立的,它处于继承层次结构的较上层. ...
- Nutch+HBase
Nutch+HBase 当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase.我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起 ...
- SPOJ 375(树链剖分)
题目连接:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=28982#problem/I 题意:一棵包含N 个结点的树,每条边都有一个权值, ...
- 聊聊高并发(三十八)解析java.util.concurrent各个组件(十四) 理解Executor接口的设计
JUC包中除了一系列的同步类之外,就是Executor运行框架相关的类.对于一个运行框架来说,能够分为两部分 1. 任务的提交 2. 任务的运行. 这是一个生产者消费者模式,提交任务的操作是生产者,运 ...
- POJ1470 Closest Common Ancestors 【Tarjan的LCA】
非常裸的模版题,只是Tarjan要好好多拿出来玩味几次 非常有点巧妙呢,tarjan,大概就是当前结点和它儿子结点的羁绊 WA了俩小时,,,原因是,这个题是多数据的(还没告诉你T,用scanf!=EO ...
- WPF界面设计技巧(3)—实现不规则动画按钮
原文:WPF界面设计技巧(3)-实现不规则动画按钮 发布了定义WPF按钮的教程后,有朋友问能否实现不规则形状的按钮,今天我们就来讲一下不规则按钮的制作. 不规则按钮的做法实际上和先前我们做不规则窗体的 ...
- android2.2应用开发之IccCard(sim卡或USIM卡)
tyle="margin:20px 0px 0px; font-size:14px; line-height:26px; font-family:Arial; color:rgb(51,51 ...
- HDU 4126 Genghis Khan the Conqueror MST+树形dp
题意: 给定n个点m条边的无向图. 以下m行给出边和边权 以下Q个询问. Q行每行给出一条边(一定是m条边中的一条) 表示改动边权. (数据保证改动后的边权比原先的边权大) 问:改动后的最小生成树的权 ...