【产品需求】

对所有元数据进行分析,匹配出表字段相似度达到阈值的向相似结构表关系数据。

网上没有搜到相关算法实现,只能自己动手了。

【算法实现】

简单点实现的话,可以轮询所有表,每张表都和其它表进行匹配相似度,不过这是人干的事?如果有1W张表岂不要查询1W × 9999次?

1、先统计出相同字段、表、表字段数量,其中相同字段对应的多个表和表字段数量通过行合并成字符串用逗号分隔,BXX:表信息、BZD:表字段信息,查询SQL脚本和查询结果如下:

SELECT
*
FROM (
SELECT BZD.ZDYWM, BZD.ZDZWM, BZD.ZDLX, count(1) AS "same", GROUP_CONCAT(BZD.B_ID) AS "bIds", GROUP_CONCAT(BXX.ZDSL) AS "zdsl"
FROM BZD LEFT JOIN BXX ON BZD.B_ID = BXX.ID
WHERE BXX.SFSC = 'N' AND BZD.SFSC = 'N'
GROUP BY BZD.ZDYWM, BZD.ZDZWM, BZD.ZDLX
) _ALL
WHERE SAME > 1

2、现在已经知道了相同字段和表之间的联系

我们来分析一下,统计出来的一条数据,代表某个字段在多个表同时存在,表和表之间构成了一次相同字段

后面我们只需要把所有数据通过算法计算一边,计算统计数据中表和表之间两两存在相同字段的数量,并和表本身的字段数量比较,达到相似结构表阈值的两张表即互为相似结构表

具体算法如下:

/**
* 相似结构表数据计算写入
* 实现思路:
* 1、group by字段信息表,查询存在重复的字段及表Id、表字段数量;
* 2、查询出的一条数据代表某一字段多个表都存在;
* 3、循环所有数据找出表和表之间存在相同字段的数量累加,数据结构如下;
* -------------------------------------------------------------
* 本表 本表字段数量 -> 可能存在相似结构的表1 相同字段数量
* 可能存在相似结构的表2 相同字段数量
* 可能存在相似结构的表3 相同字段数量
* 可能存在相似结构的表4 相同字段数量
* -------------------------------------------------------------
* 4、根据阈值计算符合相似结构表之间的关系;
*/
@Override
public void insert() { // 查询存在重复字段的表信息
// --------------------------------------------------------------------------------
// 字段英文名、字段中文名、字段类型、bId1,bId2,bId3,bId4、bzdsl1,bzdsl2,bzdsl3,bzdsl4
// --------------------------------------------------------------------------------
List<XsjgbzdxxDTO> xsjgbzdxxes = null;
try {
xsjgbzdxxes = xsjgbDao.selectColumnGroup();
} catch (Exception e) {
log.error("查询存在重复字段的表信息出错", e);
return ;
} // 非空效验
if (CollectionUtils.isEmpty(xsjgbzdxxes)) {
log.warn("没有查询到重复字段的表信息");
return ;
} // 统计相似结果表数据集合
List<Xsjgbxx> xsjgbxxes = null;
xsjgbxxes = new ArrayList<>(); // 同一字段多个表都存在的表Id
List<String> bIds = null;
// 同一字段多个表都存在的表字段数量
List<Integer> zdsl = null; Xsjgbxx b1, b2; // 每行数据都是一个字段多个表都存在的相同字段
for (XsjgbzdxxDTO xsjgbzdxx : xsjgbzdxxes) { // 非空效验
if (StringUtils.isEmpty(xsjgbzdxx.getBIds()) || StringUtils.isEmpty(xsjgbzdxx.getZdsl())) {
log.warn("表Id为空或表字段数量为空, xsjgbzdxx[{}]", JSONObject.toJSONString(xsjgbzdxx));
continue;
} // 获取所有表Id
bIds = Arrays.asList(xsjgbzdxx.getBIds().split(","));
// 获取所有表字段数量
zdsl = Arrays.asList(xsjgbzdxx.getZdsl().split(",")).stream().map(Integer::parseInt).collect(Collectors.toList()); // 相同字段多个表两两配对
for (int i=0 ; i<bIds.size() ; i++) { for (int j=(i+1) ; j<bIds.size() ; j++) { // 查找当前匹配的两张表的相似结构表信息对象
b1 = find(xsjgbxxes, bIds.get(i), zdsl.get(i));
b2 = find(xsjgbxxes, bIds.get(j), zdsl.get(j)); // 当前循环中的两个中互为疑似相似表
// 增加疑似相似表及相似字段数量
this.addColumnNum(b1, b2.getBId());
this.addColumnNum(b2, b1.getBId()); }
} } List<Xsjgb> xsjgbs = this.filter(xsjgbxxes); // 相似结构表数据入库
xsjgbDao.insertList(xsjgbs); } /**
* 根据表Id在相似表统计集合中查找对应的相似结构表信息
* @param xsjgbxxes
* @param bId
* @return
*/
private Xsjgbxx find(List<Xsjgbxx> xsjgbxxes, String bId, Integer zdsl) {
Xsjgbxx xsjgbxx = xsjgbxxes.stream().filter(item -> Objects.equals(item.getBId(), bId)).findFirst().orElse(null);
if (Objects.isNull(xsjgbxx)) {
xsjgbxx = new Xsjgbxx(bId, zdsl);
xsjgbxxes.add(xsjgbxx);
}
return xsjgbxx;
} /**
* 增加表对应的疑似相似结构表相似字段数量
* @param xsjgbxx
* @param xsbId
*/
private void addColumnNum(Xsjgbxx xsjgbxx, String xsbId) {
// 找到相似表信息
XsjgGxbxx xsjgGxbxx = xsjgbxx.getXsjgGxbxxes().stream().filter(item -> Objects.equals(item.getXsbId(), xsbId)).findFirst().orElse(null);
// 判断是否存在相似表信息
if (Objects.isNull(xsjgGxbxx)) {
// 记录新的相似表信息
xsjgbxx.getXsjgGxbxxes().add(new XsjgGxbxx(xsbId));
} else {
// 相似字段数量累加
xsjgGxbxx.increment();
}
} /**
* 根据统计出来的疑似相似结构表和相似度阈值过滤出相似结构表信息
* @param xsjgbxxes
* @return
*/
private List<Xsjgb> filter(List<Xsjgbxx> xsjgbxxes) { List<Xsjgb> xsjgbs = null;
xsjgbs = new ArrayList<>(); for (Xsjgbxx xsjgbxx : xsjgbxxes) { for (XsjgGxbxx xsjgGxbxx : xsjgbxx.getXsjgGxbxxes()) { // 相似表的相似字段数量除以本表的字段数量
// 大于相似度阈值的计入相似结构表
if (new BigDecimal(xsjgGxbxx.getXszdsl()).divide(new BigDecimal(xsjgbxx.getZdsl()), 20, BigDecimal.ROUND_HALF_UP).compareTo(XsjgbServiceImpl.DISTANCE) >= 0) {
xsjgbs.add(new Xsjgb(xsjgbxx.getBId(), xsjgGxbxx.getXsbId()));
} } } return xsjgbs; }
public class XsjgGxbxx implements Serializable {

    private static final long serialVersionUID = -8772273934672363080L;

    /**
* 可能存在相似结构的表Id
*/
private String xsbId; /**
* 相似字段数量
*/
private Integer xszdsl; public XsjgGxbxx(String xsbId) {
this.xsbId = xsbId;
this.xszdsl = new Integer(1);
} public void increment() {
this.xszdsl += 1;
} }
public class Xsjgb extends EntityBean {

    @Transient
private static final long serialVersionUID = 1L;
/**
* 表Id
*/private String bId; /**
* 数据包标识 (可作为表名的组成部分)
*/private String xsjgbId; public Xsjgb(@NotEmpty String bId, @NotEmpty String xsjgbId) {
this.bId = bId;
this.xsjgbId = xsjgbId;
}
}
public class Xsjgbxx implements Serializable {

    private static final long serialVersionUID = -6162813536053634882L;

    /**
* 表Id
*/
private String bId; /**
* 表字段数量
*/
private Integer zdsl; /**
* 可能存在相似结构的表
*/
private List<XsjgGxbxx> xsjgGxbxxes; public Xsjgbxx(String bId, Integer zdsl) {
this.bId = bId;
this.zdsl = zdsl;
this.xsjgGxbxxes = new ArrayList<>();
}
}
public class XsjgbzdxxDTO implements Serializable {

    private static final long serialVersionUID = 8209530764411503009L;

    /**
* 字段英文名
*/
private String zdywm; /**
* 字段中文名
*/
private String zdzwm; /**
* 字段类型
*/
private String zdlx; /**
* 相同字段的表Id,英文逗号分隔
*/
private String bIds; /**
* 相同字段的表字段数量,英文逗号分隔
*/
private String zdsl; }

Java实现相似结构表算法的更多相关文章

  1. java学习-循环结构-查找算法-顺序查找

    今天回顾了简单算法,顺序查找.发现了数组出现重复数字,无法输出第二个位置就跳出循环了. 利用所学知识解决了.放上代码,同时在代码里给大家分享思路. 欢迎大神教导,欢迎指正. ; System.out. ...

  2. 数据结构与算法【Java】08---树结构的实际应用

    前言 数据 data 结构(structure)是一门 研究组织数据方式的学科,有了编程语言也就有了数据结构.学好数据结构才可以编写出更加漂亮,更加有效率的代码. 要学习好数据结构就要多多考虑如何将生 ...

  3. java结构与算法之选择排序

    一 .java结构与算法之选择排序(冒择路兮快归堆) 什么事选择排序:从一组无序数据中选择出中小的的值,将该值与无序区的最左边的的值进行交换. 简单的解释:假设有这样一组数据 12,4,23,5,找到 ...

  4. Java工具类_表结构自动生成对应的实体类、Mapper.xml文件、Dao类

    import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.PrintWrit ...

  5. 深入理解java虚拟机【垃圾回收算法】

    Java虚拟机的内存区域中,程序计数器.虚拟机栈和本地方法栈三个区域是线程私有的,随线程生而生,随线程灭而灭:栈中的栈帧随着方法的进入和退出而进行入栈和出栈操作,每个栈帧中分配多少内存基本上是在类结构 ...

  6. 第一阶段:Java内功秘籍-线性表

    前言 为什么要学习数据结构与算法,如果你学会了做安卓,javaweb,前端等,都是你的武功秘籍,但是如果你的内功不够好,再厉害的功夫也是白费. 数据结构和算法:什么是数据结构,什么是数据,在计算机内部 ...

  7. 翻译Java虚拟机的结构

    英文原版:  https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-2.html 直接谷歌翻译: Java SE规范 > Java虚拟机 ...

  8. Hash表算法

    出处:http://blog.csdn.net/v_JULY_v 第一部分:Top K 算法详解问题描述百度面试题:    搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的 ...

  9. [java基础]循环结构2

    [java基础]循环结构2 写了几个循环结构练习~记录一下~~ 1:99乘法表 /** 文件路径:G:\JavaByHands\循环语句\ 文件名称:GameForFor.java 编写时间:2016 ...

  10. paip.提升性能----java 无锁结构(CAS, Atomic, Threadlocal, volatile, 函数式编码, 不变对象)

    paip.提升性能----java 无锁结构(CAS, Atomic, Threadlocal, volatile, 函数式编码, 不变对象) 1     锁的缺点 2     CAS(Compare ...

随机推荐

  1. ros源的移除

    在Ubuntu上卸载了ros系统后,每次运行源更新命令 sudo apt update 都会报错,提示ros源找不到等问题. 这时,只需要 cd /etc/apt/souce.list.d sudo ...

  2. 【技术积累】Vue.js中的CSS过渡【一】

    CSS过渡是什么 在Vue中,可以使用<transition>组件来实现CSS过渡效果.CSS过渡是指在元素的状态发生改变时,通过添加或移除CSS类来实现平滑的过渡效果. <tran ...

  3. 通过实战操作学git

    虽然说 "好记性不如烂笔头",但是学习不看等于没学,学习不用等于不会,所以说"实战才是检验真理的唯一标准",通过实战则会学到很多东西. 因为陈** 太懒,并且不 ...

  4. 7、Spring之基于注解管理bean

    本质上:所有一切的操作都是Java代码来完成的,XML和注解只是告诉框架中的Java代码如何执行. 7.1.环境搭建 创建名为spring_ioc_annotation的新module,过程参考3.1 ...

  5. 《CTFshow-Web入门》07. Web 61~70

    @ 目录 web61~65 题解 web66 题解 原理 web67 题解 原理 web68 题解 原理 web69 题解 原理 web70 题解 原理 ctf - web入门 web61~65 题解 ...

  6. Anaconda平台下从0到1安装TensorFlow环境详细教程(Windows10+Python)

    1.安装Anaconda Anaconda下载链接:Free Download | Anaconda 下载完成之后,开始安装,修改安装路径至指定文件夹下,由于安装过程比较简单,此处略过: 2.Tens ...

  7. elasticsearch wildcard 慢查询原因分析(深入到源码!!!)

    大家好,我是蓝胖子,前段时间线上elasticsearch集群遇到多次wildcard产生的性能问题, elasticsearch wildcard 一直是容易引发elasticsearch 容易宕机 ...

  8. 使用HTML一键打包EXE工具打包KRPANO全景项目

    HTML一键打包EXE工具(HTML封装EXE, HTML转EXE)能把任意HTML项目(网址)一键打包为单个EXE文件,可以脱离浏览器和服务器,直接双击即可运行. 打包工具群:429338543 最 ...

  9. 15种实时uv实现方案系列(附源码)之一:Flink基于set实时uv统计

    UVStatMultiPlans(GitHub)项目持续收集各种高性能实时uv实现方案并对各种实现方案的优缺点进行对比分析! 需求描述 统计每分钟用户每个页面的uv访问量. Kafka数据格式 {&q ...

  10. PDFPlumber使用入门

    目录 背景 教程开始 应用场景 安装 命令行使用 可选参数 Python包 简单样例 读取PDF pdfplumber.PDF类 pdfplumber.Page类 对象(Object) chars / ...