前言

所有的故事都有开始,也终将结束。

本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号。

起-NLP 中文形近字相似度计算思路

承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力

转-当代中国最贵的汉字是什么?

不足之处

之所以有本篇,是因为上一次的算法实现存在一些不足。

巴别塔

《圣经》中有关于巴别塔建造,最终人们因为语言问题而停工的故事​。

创11:6 “看哪!他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事,就没有不成就的了。

创11:7 我们下去,在那里变乱他们的口音,使他们的言语彼此不通。”

创11:8 于是,耶和华使他们从那里分散在全地上;他们就停工不造那城了。

为了避免语言问题,我一开始就实现了一个 exe4j 打包的对比程序,自己跑的很顺畅。

小伙伴一跑,运行失败。各种环境配置一顿操作,最后还是报错。

于是,我写了一个 python 简易版本,便于做 NLP 研究的小伙伴们学习。

https://github.com/houbb/nlp-hanzi-similar/releases/tag/pythn

java 是一种语言,python 是一种语言。

编程语言,让人和机器之间可以沟通,却让人与人之间产生了隔阂。

拆字

当代中国最贵的汉字是什么? 一文中,我们首次说明了汉字的拆合。

汉字的拆分实现,核心目的之一就是为了完善汉字的相似度比较。

通过对比汉字的拆分部分,然后获取拆字的相似度,提高对比的准确性。

拆字相似度

简单的需求

为了便于小伙伴们理解,我们用产品经理的思维和大家介绍一下实现方式。

我的需求比较简单。

你看,【明】可以拆分【日】【月】,【冐】也可以拆分为【日】【月】。对比一下,结果是显然的。

怎么实现我不管,明天上线吧。

小伙伴们,应该已经知道怎么实现了吧?

使用体验

诚如产品所言,这个需求已经实现。

maven 引入

<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>nlp-hanzi-similar</artifactId>
<version>1.2.0</version>
</dependency>

使用

double rate1 = HanziSimilarHelper.similar('末', '未');

对应的结果为:0.9696969696969697

更多使用细节,参考开源地址:

https://github.com/houbb/nlp-hanzi-similar

写在完结前

涉及的项目

汉字的相似度计算到这里算是告一段落。

主要涉及的资料及项目有:

拼音

拆字

四角编码词库

汉字结构词库

汉字偏旁词库

笔画数词库

当然,还可以结果 opencc4j 进行繁简体的处理,此处不再延伸。

之后的计划

NLP 的领域还有很多东西需要大家攻克,毕竟中文 NLP 才刚刚开始。

技术尚未成功,同志仍需努力。

据说最近鹅城的某位黄老爷惹得大家怨声载道。

很多小伙伴说,如果有一款软件可以实现【月丷夫马言卂彳山兀攴人言】的沟通功能,那么我肯定会用。

所谓说者无心,听者有意。

写一个通讯软件,主要是为了巩固下 netty 的学习,其他的都不重要。

虽然知道就算有,大家肯定也不太会改变,但是老马还是准备试试。

java 实现思路

警告,如果你头发已经所剩无几,或者对实现并不感兴趣。

那么就可以收藏+点赞+评论【不明觉厉】,然后离开了。

下面是枯燥的代码实现环节。

程序员的思维

下面是程序员的思维。

首先要解决几个问题:

(1)汉字的拆分实现

这个直接复用已经实现的汉字拆分实现。

List<String> stringList = ChaiziHelper.chai(charWord.charAt(0));

相同的一个汉字可以有多种拆分方式,简单起见,我们默认取第一个。

(2)相似的比较

假设我们对比 A B 两个汉字,可以拆分为如下的子集。

A = {A1, A2, ..., Am}

B = {B1, B2, ..., Bm}

/**
* 获取拆分后对应的拆分字符
* @param charWord 字符
* @return 结果
*/
private char[] getSplitChars(String charWord) {
List<String> stringList = ChaiziHelper.chai(charWord.charAt(0)); // 这里应该选择哪一个是有讲究的。此处为了简单,默认选择第一个。
String string = stringList.get(0);
return string.toCharArray();
}

拆分后的子集对比有多种实现方式,简单起见,我们直接遍历元素,判断另一个子集是否存在。

当然,遍历的时候要以拆分数量较少的的为基准。

int minLen = Math.min(charsOne.length, charsTwo.length);

// 比较
double totalScore = 0.0;
for(int i = 0; i < minLen; i++) {
char iChar = charsOne[i];
String textChar = iChar+"";
if(ArrayPrimitiveUtil.contains(charsTwo, iChar)) {
//累加分数
}
}

(3)拆分子集的权重

比如 两个汉字都是子集,但是因为笔画数不同,权重也不同。

我们用一个子集的笔画数占整体汉字的笔画数计算权重。

 int textNumber = getNumber(textChar, similarContext);

double scoreOne = textNumber*1.0 / numberOne * 1.0;
double scoreTwo = textNumber*1.0 / numberTwo * 1.0; totalScore += (scoreOne + scoreTwo) / 2.0;

ps: 这里的除以 2,是为了归一化。保证最后的结果在 0-1 之间。

(4)笔画数

获取笔画数的方式,我们可以直接复用以前的方法。

如果没有匹配的,默认笔画数为 1。

private int getNumber(String text, IHanziSimilarContext similarContext) {
Map<String, Integer> map = similarContext.bihuashuData().dataMap();
Integer number = map.get(text);
if(number == null) {
return 1;
}
return number;
}

java 完整实现

我们把所有的碎片拼接起来,就得到一个完整的实现。

/**
* 拆字
*
* @author 老马啸西风
* @since 1.0.0
*/
public class ChaiziSimilar implements IHanziSimilar { @Override
public double similar(IHanziSimilarContext similarContext) {
String hanziOne = similarContext.charOne();
String hanziTwo = similarContext.charTwo(); int numberOne = getNumber(hanziOne, similarContext);
int numberTwo = getNumber(hanziTwo, similarContext); // 拆分
char[] charsOne = getSplitChars(hanziOne);
char[] charsTwo = getSplitChars(hanziTwo); int minLen = Math.min(charsOne.length, charsTwo.length); // 比较
double totalScore = 0.0;
for(int i = 0; i < minLen; i++) {
char iChar = charsOne[i];
String textChar = iChar+"";
if(ArrayPrimitiveUtil.contains(charsTwo, iChar)) {
int textNumber = getNumber(textChar, similarContext); double scoreOne = textNumber*1.0 / numberOne * 1.0;
double scoreTwo = textNumber*1.0 / numberTwo * 1.0; totalScore += (scoreOne + scoreTwo) / 2.0;
}
} return totalScore * similarContext.chaiziRate();
} /**
* 获取拆分后对应的拆分字符
* @param charWord 字符
* @return 结果
*/
private char[] getSplitChars(String charWord) {
List<String> stringList = ChaiziHelper.chai(charWord.charAt(0)); // 这里应该选择哪一个是有讲究的。此处为了简单,默认选择第一个。
String string = stringList.get(0); return string.toCharArray();
} /**
* 获取笔画数
* @param text 文本
* @param similarContext 上下文
* @return 结果
*/
private int getNumber(String text, IHanziSimilarContext similarContext) {
Map<String, Integer> map = similarContext.bihuashuData().dataMap(); Integer number = map.get(text);
if(number == null) {
return 1;
} return number;
} }

小结

本文引入了汉字拆字,进一步丰富了相似度的实现。

当然,实现本身依然有很多值得提升的地方,比如拆分后的选择,是否可以递归拆分等,这个还是留给后人研究吧。

我是老马,期待与你的下次重逢。

NLP 开源形近字算法补完计划(完结篇)的更多相关文章

  1. [TaskList] 省选前板子补完计划

    省选前本子补完计划 [ ] 带权并查集 [ ] 树上莫队 - UOJ58 [WC2013]糖果公园 loj2485「CEOI2017」Chase

  2. QBXT 2017GoKing problems 补完计划

    10.11 Updata : 烦死了...麻烦死了...不补了..就这些吧 20171001 上: 100 + 90 + 90 = 280 = rank 8 T1 /* T1 从最大的数开始倒着枚举 ...

  3. bzoj Usaco补完计划(优先级 Gold>Silver>资格赛)

    听说KPM初二暑假就补完了啊%%% 先刷Gold再刷Silver(因为目测没那么多时间刷Silver,方便以后TJ2333(雾 按AC数降序刷 ---------------------------- ...

  4. NodeJS学习:爬虫小探补完计划

    说明:本文在个人博客地址为edwardesire.com,欢迎前来品尝. 书接上回,我们需要修改程序以达到连续抓取40个页面的内容.也就是说我们需要输出每篇文章的标题.链接.第一条评论.评论用户和论坛 ...

  5. CodeVS1169 传纸条 [DP补完计划]

    题目传送门 题目描述 Description 小渊和小轩是好朋友也是同班同学,他们在一起总有谈不完的话题.一次素质拓展活动中,班上同学安排做成一个m行n列的矩阵,而小渊和小轩被安排在矩阵对角线的两端, ...

  6. 洛谷P2224 [HNOI2001] 产品加工 [DP补完计划,背包]

    题目传送门 产品加工 题目描述 某加工厂有A.B两台机器,来加工的产品可以由其中任何一台机器完成,或者两台机器共同完成.由于受到机器性能和产品特性的限制,不同的机器加工同一产品所需的时间会不同,若同时 ...

  7. POJ1742 Coin [DP补完计划]

    题目传送门 Coins Time Limit: 3000MS   Memory Limit: 30000K Total Submissions: 41707   Accepted: 14125 Des ...

  8. 洛谷P1280 尼克的任务 [DP补完计划]

    题目传送门 题目描述 尼克每天上班之前都连接上英特网,接收他的上司发来的邮件,这些邮件包含了尼克主管的部门当天要完成的全部任务,每个任务由一个开始时刻与一个持续时间构成. 尼克的一个工作日为N分钟,从 ...

  9. PHP函数补完:stream_context_create()模拟POST/GET

    PHP函数补完:stream_context_create()模拟POST/GET PHP流的创建 在 2011年01月08日 那天写的     已经有 9408 次阅读了 感谢 参考或原文   服务 ...

随机推荐

  1. 题解 [SBCOI2020] 一直在你身旁

    题目传送门 题目大意 给出一个长度为 \(n\) 的单调不减的序列,每次可以选出一个点,产生贡献 \(a_k\),我们可以得知我们需要找到的数是否大于 \(k\).问找到要找到的数最小花费. \(n\ ...

  2. 洛谷3176 [HAOI2015]数字串拆分 (矩阵乘法+dp)

    qwq真的是一道好题qwq自己做基本是必不可能做出来的. 首先,如果这个题目只是求一个\(f\)数组的话,那就是一道裸题. 首先,根据样例 根据题目描述,我们能发现其实同样数字的不同排列,也是属于不同 ...

  3. bzoj2038 小z的袜子 (莫队)

    题目大意 作为一个生活散漫的人,小Z每天早上都要耗费很久从一堆五颜六色的袜子中找出一双来穿.终于有一天,小Z再也无法忍受这恼人的找袜子过程,于是他决定听天由命-- 具体来说,小Z把这N只袜子从1到N编 ...

  4. 【实验向】问题:假设计算机A和计算机B通信,计算机A给计算机B发送一串16个字节的二进制字节串,以数组形式表示:

    问题: 假设计算机A和计算机B通信,计算机A给计算机B发送一串16个字节的二进制字节串,以数组形式表示: unsigned char[16] = {0x3f, 0xa0, 0x00, 0x00, 0x ...

  5. [软工顶级理解组] 团队任务拆解(Alpha)

    一.任务概述 在alpha阶段,我们需要完成功能规格说明书中所提到的所有功能,在一个阶段的开发周期内,交付最小可行的可用版本. 二.任务分配及时长 分组&成员 具体任务 预计时长(小时) 前端 ...

  6. oo第四单元及期末总结

    一.第四单元作业架构总结 第一次UML作业: 在分析各指令所需要的信息后建立了类(class),操作(operation),属性(Attribute)这几个类用来存储分析后的结果,而接口在本次作业中与 ...

  7. netty入门实现简单的echo程序

    最近看以往在程序中编写的代码,发现有一个功能是使用socket通讯来实现的,而那个时候使用的是基于bio的阻塞io来实现的,最近在看netty,发现可以使用netty来使用nio的方式来实现,此博客记 ...

  8. 安装hexo博客

    前言 ** 跟着步骤一步一步来进行安装 ** 准备环境:node.js和包管理器npm 1:查看包文件 接着安装 淘宝镜像源 sudo这个需要添加获取文件夹访问权限 sudo npm install ...

  9. 你真的了解电子邮件系统的组成和结构吗?(SMTP、POP3、IMAP、MIME……)

    文章转自:https://blog.csdn.net/weixin_43914604/article/details/105896201 学习课程:<2019王道考研计算机网络> 学习目的 ...

  10. 【做题记录】DP 杂题

    P2577 [ZJOI2004]午餐 $\texttt{solution}$ 想到贪心: 吃饭慢的先打饭节约时间, 所以先将人按吃饭时间从大到小排序. 状态: \(f[i][j]\) 表示前 \(i\ ...