Java实现相似结构表算法
【产品需求】
对所有元数据进行分析,匹配出表字段相似度达到阈值的向相似结构表关系数据。
网上没有搜到相关算法实现,只能自己动手了。
【算法实现】
简单点实现的话,可以轮询所有表,每张表都和其它表进行匹配相似度,不过这是人干的事?如果有1W张表岂不要查询1W × 9999次?
1、先统计出相同字段、表、表字段数量,其中相同字段对应的多个表和表字段数量通过行合并成字符串用逗号分隔,BXX:表信息、BZD:表字段信息,查询SQL脚本和查询结果如下:
SELECT
*
FROM (
SELECT BZD.ZDYWM, BZD.ZDZWM, BZD.ZDLX, count(1) AS "same", GROUP_CONCAT(BZD.B_ID) AS "bIds", GROUP_CONCAT(BXX.ZDSL) AS "zdsl"
FROM BZD LEFT JOIN BXX ON BZD.B_ID = BXX.ID
WHERE BXX.SFSC = 'N' AND BZD.SFSC = 'N'
GROUP BY BZD.ZDYWM, BZD.ZDZWM, BZD.ZDLX
) _ALL
WHERE SAME > 1
2、现在已经知道了相同字段和表之间的联系
我们来分析一下,统计出来的一条数据,代表某个字段在多个表同时存在,表和表之间构成了一次相同字段
后面我们只需要把所有数据通过算法计算一边,计算统计数据中表和表之间两两存在相同字段的数量,并和表本身的字段数量比较,达到相似结构表阈值的两张表即互为相似结构表
具体算法如下:
/**
* 相似结构表数据计算写入
* 实现思路:
* 1、group by字段信息表,查询存在重复的字段及表Id、表字段数量;
* 2、查询出的一条数据代表某一字段多个表都存在;
* 3、循环所有数据找出表和表之间存在相同字段的数量累加,数据结构如下;
* -------------------------------------------------------------
* 本表 本表字段数量 -> 可能存在相似结构的表1 相同字段数量
* 可能存在相似结构的表2 相同字段数量
* 可能存在相似结构的表3 相同字段数量
* 可能存在相似结构的表4 相同字段数量
* -------------------------------------------------------------
* 4、根据阈值计算符合相似结构表之间的关系;
*/
@Override
public void insert() { // 查询存在重复字段的表信息
// --------------------------------------------------------------------------------
// 字段英文名、字段中文名、字段类型、bId1,bId2,bId3,bId4、bzdsl1,bzdsl2,bzdsl3,bzdsl4
// --------------------------------------------------------------------------------
List<XsjgbzdxxDTO> xsjgbzdxxes = null;
try {
xsjgbzdxxes = xsjgbDao.selectColumnGroup();
} catch (Exception e) {
log.error("查询存在重复字段的表信息出错", e);
return ;
} // 非空效验
if (CollectionUtils.isEmpty(xsjgbzdxxes)) {
log.warn("没有查询到重复字段的表信息");
return ;
} // 统计相似结果表数据集合
List<Xsjgbxx> xsjgbxxes = null;
xsjgbxxes = new ArrayList<>(); // 同一字段多个表都存在的表Id
List<String> bIds = null;
// 同一字段多个表都存在的表字段数量
List<Integer> zdsl = null; Xsjgbxx b1, b2; // 每行数据都是一个字段多个表都存在的相同字段
for (XsjgbzdxxDTO xsjgbzdxx : xsjgbzdxxes) { // 非空效验
if (StringUtils.isEmpty(xsjgbzdxx.getBIds()) || StringUtils.isEmpty(xsjgbzdxx.getZdsl())) {
log.warn("表Id为空或表字段数量为空, xsjgbzdxx[{}]", JSONObject.toJSONString(xsjgbzdxx));
continue;
} // 获取所有表Id
bIds = Arrays.asList(xsjgbzdxx.getBIds().split(","));
// 获取所有表字段数量
zdsl = Arrays.asList(xsjgbzdxx.getZdsl().split(",")).stream().map(Integer::parseInt).collect(Collectors.toList()); // 相同字段多个表两两配对
for (int i=0 ; i<bIds.size() ; i++) { for (int j=(i+1) ; j<bIds.size() ; j++) { // 查找当前匹配的两张表的相似结构表信息对象
b1 = find(xsjgbxxes, bIds.get(i), zdsl.get(i));
b2 = find(xsjgbxxes, bIds.get(j), zdsl.get(j)); // 当前循环中的两个中互为疑似相似表
// 增加疑似相似表及相似字段数量
this.addColumnNum(b1, b2.getBId());
this.addColumnNum(b2, b1.getBId()); }
} } List<Xsjgb> xsjgbs = this.filter(xsjgbxxes); // 相似结构表数据入库
xsjgbDao.insertList(xsjgbs); } /**
* 根据表Id在相似表统计集合中查找对应的相似结构表信息
* @param xsjgbxxes
* @param bId
* @return
*/
private Xsjgbxx find(List<Xsjgbxx> xsjgbxxes, String bId, Integer zdsl) {
Xsjgbxx xsjgbxx = xsjgbxxes.stream().filter(item -> Objects.equals(item.getBId(), bId)).findFirst().orElse(null);
if (Objects.isNull(xsjgbxx)) {
xsjgbxx = new Xsjgbxx(bId, zdsl);
xsjgbxxes.add(xsjgbxx);
}
return xsjgbxx;
} /**
* 增加表对应的疑似相似结构表相似字段数量
* @param xsjgbxx
* @param xsbId
*/
private void addColumnNum(Xsjgbxx xsjgbxx, String xsbId) {
// 找到相似表信息
XsjgGxbxx xsjgGxbxx = xsjgbxx.getXsjgGxbxxes().stream().filter(item -> Objects.equals(item.getXsbId(), xsbId)).findFirst().orElse(null);
// 判断是否存在相似表信息
if (Objects.isNull(xsjgGxbxx)) {
// 记录新的相似表信息
xsjgbxx.getXsjgGxbxxes().add(new XsjgGxbxx(xsbId));
} else {
// 相似字段数量累加
xsjgGxbxx.increment();
}
} /**
* 根据统计出来的疑似相似结构表和相似度阈值过滤出相似结构表信息
* @param xsjgbxxes
* @return
*/
private List<Xsjgb> filter(List<Xsjgbxx> xsjgbxxes) { List<Xsjgb> xsjgbs = null;
xsjgbs = new ArrayList<>(); for (Xsjgbxx xsjgbxx : xsjgbxxes) { for (XsjgGxbxx xsjgGxbxx : xsjgbxx.getXsjgGxbxxes()) { // 相似表的相似字段数量除以本表的字段数量
// 大于相似度阈值的计入相似结构表
if (new BigDecimal(xsjgGxbxx.getXszdsl()).divide(new BigDecimal(xsjgbxx.getZdsl()), 20, BigDecimal.ROUND_HALF_UP).compareTo(XsjgbServiceImpl.DISTANCE) >= 0) {
xsjgbs.add(new Xsjgb(xsjgbxx.getBId(), xsjgGxbxx.getXsbId()));
} } } return xsjgbs; }
public class XsjgGxbxx implements Serializable { private static final long serialVersionUID = -8772273934672363080L; /**
* 可能存在相似结构的表Id
*/
private String xsbId; /**
* 相似字段数量
*/
private Integer xszdsl; public XsjgGxbxx(String xsbId) {
this.xsbId = xsbId;
this.xszdsl = new Integer(1);
} public void increment() {
this.xszdsl += 1;
} }
public class Xsjgb extends EntityBean { @Transient
private static final long serialVersionUID = 1L;
/**
* 表Id
*/private String bId; /**
* 数据包标识 (可作为表名的组成部分)
*/private String xsjgbId; public Xsjgb(@NotEmpty String bId, @NotEmpty String xsjgbId) {
this.bId = bId;
this.xsjgbId = xsjgbId;
}
}
public class Xsjgbxx implements Serializable { private static final long serialVersionUID = -6162813536053634882L; /**
* 表Id
*/
private String bId; /**
* 表字段数量
*/
private Integer zdsl; /**
* 可能存在相似结构的表
*/
private List<XsjgGxbxx> xsjgGxbxxes; public Xsjgbxx(String bId, Integer zdsl) {
this.bId = bId;
this.zdsl = zdsl;
this.xsjgGxbxxes = new ArrayList<>();
}
}
public class XsjgbzdxxDTO implements Serializable { private static final long serialVersionUID = 8209530764411503009L; /**
* 字段英文名
*/
private String zdywm; /**
* 字段中文名
*/
private String zdzwm; /**
* 字段类型
*/
private String zdlx; /**
* 相同字段的表Id,英文逗号分隔
*/
private String bIds; /**
* 相同字段的表字段数量,英文逗号分隔
*/
private String zdsl; }
Java实现相似结构表算法的更多相关文章
- java学习-循环结构-查找算法-顺序查找
今天回顾了简单算法,顺序查找.发现了数组出现重复数字,无法输出第二个位置就跳出循环了. 利用所学知识解决了.放上代码,同时在代码里给大家分享思路. 欢迎大神教导,欢迎指正. ; System.out. ...
- 数据结构与算法【Java】08---树结构的实际应用
前言 数据 data 结构(structure)是一门 研究组织数据方式的学科,有了编程语言也就有了数据结构.学好数据结构才可以编写出更加漂亮,更加有效率的代码. 要学习好数据结构就要多多考虑如何将生 ...
- java结构与算法之选择排序
一 .java结构与算法之选择排序(冒择路兮快归堆) 什么事选择排序:从一组无序数据中选择出中小的的值,将该值与无序区的最左边的的值进行交换. 简单的解释:假设有这样一组数据 12,4,23,5,找到 ...
- Java工具类_表结构自动生成对应的实体类、Mapper.xml文件、Dao类
import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.PrintWrit ...
- 深入理解java虚拟机【垃圾回收算法】
Java虚拟机的内存区域中,程序计数器.虚拟机栈和本地方法栈三个区域是线程私有的,随线程生而生,随线程灭而灭:栈中的栈帧随着方法的进入和退出而进行入栈和出栈操作,每个栈帧中分配多少内存基本上是在类结构 ...
- 第一阶段:Java内功秘籍-线性表
前言 为什么要学习数据结构与算法,如果你学会了做安卓,javaweb,前端等,都是你的武功秘籍,但是如果你的内功不够好,再厉害的功夫也是白费. 数据结构和算法:什么是数据结构,什么是数据,在计算机内部 ...
- 翻译Java虚拟机的结构
英文原版: https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-2.html 直接谷歌翻译: Java SE规范 > Java虚拟机 ...
- Hash表算法
出处:http://blog.csdn.net/v_JULY_v 第一部分:Top K 算法详解问题描述百度面试题: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的 ...
- [java基础]循环结构2
[java基础]循环结构2 写了几个循环结构练习~记录一下~~ 1:99乘法表 /** 文件路径:G:\JavaByHands\循环语句\ 文件名称:GameForFor.java 编写时间:2016 ...
- paip.提升性能----java 无锁结构(CAS, Atomic, Threadlocal, volatile, 函数式编码, 不变对象)
paip.提升性能----java 无锁结构(CAS, Atomic, Threadlocal, volatile, 函数式编码, 不变对象) 1 锁的缺点 2 CAS(Compare ...
随机推荐
- Mysql高级7-存储过程
一.介绍 存储过程是事先经过编译并存储在数据库中的一段sql语句的集合,调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是有好处的.存储过程思 ...
- 问题排查:nginx能跑,但是只能跑一会,不能跑多了
背景 上周都是查测试环境的问题,比如,我上一篇写的问题排查:nginx的反向代理感觉失效了一样,就是说这个事的.在文章里,最终查到是nginx的全连接队列满了(每个监听端口有个队列,完成三次握手的请求 ...
- 《Linux基础》05. 定时任务调度 · 磁盘分区与挂载 · 网络配置
@ 目录 1:定时任务调度 1.1:crontab 1.2:at 2:磁盘分区与挂载 2.1:原理介绍 2.2:硬盘说明 2.3:磁盘目录情况查询 2.3.1:lsblk 2.3.2:df 2.3.3 ...
- Paddle图神经网络训练-PGLBox代码阅读笔记
图存储部分 paddle/fluid/framework/fleet/heter_ps graph_gpu_wrapper.h GPU图主入口 graph_gpu_ps_table.h GPU图的主要 ...
- 使用 Sealos 一键部署高可用 MinIO,开启对象存储之旅
大家好!今天这篇文章主要向大家介绍如何通过 Sealos 一键部署高可用 MinIO 集群. MinIO 对象存储是什么? 对象是二进制数据,例如图像.音频文件.电子表格甚至二进制可执行代码.对象的大 ...
- containerd镜像拉取配置
背景: 公司要求部署最一套新版的k8s系统来部署生产应用,说实话很头疼.因为k8s自1.23版本之后就用不docker作为容器的默认运行时了,而是采用的containerd,这就带来了一系列的问题.没 ...
- md5sum 文件一致性校验
1. 背景 在网络传输.设备之间转存.复制大文件等时,可能会出现传输前后数据不一致的情况.这种情况在网络这种相对更不稳定的环境中,容易出现.那么校验文件的完整性,也是势在必行的. md5sum命令用于 ...
- Sentinel系列之SlotChain、NodeSelectorSlot、ClusterBuilderSlot分析
本文基于Sentinel 1.8.6版本分析 1. SlotChain 我们从入口com.alibaba.csp.sentinel.SphU#entry(java.lang.String) 开始分析. ...
- 前端设计模式:工厂模式(Factory)
00.基础概念 工厂模式封装了对象的创建new(),将消费者(使用)和生产者(实现)解耦. 工厂是干什么的?工厂是生产标准规格的商品的地方,建好工厂,投入原料(参数),产出特定规格的产品.so,工厂模 ...
- DPDK-22.11.2 [四] Virtio_user as Exception Path
因为dpdk是把网卡操作全部拿到用户层,与原生系统驱动不再兼容,所以被dpdk接管的网卡从系统层面(ip a/ifconfig)无法看到,同样数据也不再经过系统内核. 如果想把数据再发送到系统,就要用 ...