创作目的

国内对于文本的相似度计算，开源的工具是比较丰富的。

但是对于两个汉字之间的相似度计算，国内基本一片空白。国内的参考的资料少的可怜，国外相关文档也是如此。

本项目旨在抛砖引玉，实现一个基本的相似度计算工具，为汉字 NLP 贡献一点绵薄之力。

需求

有时候我们并不是需要返回两个字的相似，而是需要返回一个汉字的相似列表。

实现思路

我们可以分别计算所有的汉字之间的相似度，然后保留最大的前100个，放在字典中。

然后实时查询这个字典即可。

实现方式

bihuashu_2w.txt 中我们主要需要的是对应的 2W 常见汉字。

hanzi_similar_list.txt 用来存放汉字和相似字的映射关系。

数据初始化

public static void main(String[] args) {

    final String path = "D:\\code\\coin\\nlp-hanzi-similar\\src\\main\\resources\\hanzi_similar_list.txt";

    // 读取列表

    List<String> lines = FileUtil.readAllLines("D:\\code\\coin\\nlp-hanzi-similar\\src\\main\\resources\\nlp\\bihuashu_2w.txt");

    // 所有的单词

    Set<String> allWordSet = new HashSet<>();

    for(String line : lines) {

        String word = line.split(" ")[0];

        allWordSet.add(word);

    }

    // 循环对比

    for(String word : allWordSet) {

        List<String> list = getSimilarListData(word, allWordSet);

        String line = word +" " + StringUtil.join(list, "");

        FileUtil.append(path, line);

    }

}

优先级队列取前 100 个

我们通过优先级队列存储：

private static List<String> getSimilarListData(String word, Set<String> wordSet) {

    PriorityQueue<SimilarListDataItem> items = new PriorityQueue<>(new Comparator<SimilarListDataItem>() {

        @Override

        public int compare(SimilarListDataItem o1, SimilarListDataItem o2) {

            // 相似度大的放在前面

            return -o1.getRate().compareTo(o2.getRate());

        }

    });

    for(String other : wordSet) {

        if(word.equals(other)) {

            continue;

        }

        // 对比

        double rate = HanziSimilarHelper.similar(word.charAt(0), other.charAt(0));

        SimilarListDataItem item = new SimilarListDataItem(other, rate);

        items.add(item);

    }

    final int limit = 100;

    List<String> wordList = new ArrayList<>();

    for(SimilarListDataItem item : items) {

        wordList.add(item.getWord());

        if(wordList.size() >= limit) {

            break;

        }

    }

    return wordList;

}

相似字的获取

初始化好数据之后，一切就变得非常简单：

接口定义

/**

 * 数据接口-相似列表

 * @author binbin.hou

 * @since 1.3.0

 */

public interface IHanziSimilarListData {

    /**

     * 返回数据信息

     * @param word 单词

     * @return 结果

     * @since 1.3.0

     */

    List<String> similarList(String word);

}

数据获取

public class HanziSimilarListData implements IHanziSimilarListData {

    private static volatile Map<String, List<String>> map = Guavas.newHashMap();

    @Override

    public List<String> similarList(String word) {

        if(MapUtil.isEmpty(map)) {

            initDataMap();

        }

        return map.get(word);

    }

    private void initDataMap() {

        if(MapUtil.isNotEmpty(map)) {

            return;

        }

        //DLC

        synchronized (map) {

            if(MapUtil.isEmpty(map)) {

                List<String> lines = StreamUtil.readAllLines("/hanzi_similar_list.txt");

                for(String line : lines) {

                    String[] words = line.split(" ");

                    // 后面的100个相近词

                    List<String> list = StringUtil.toCharStringList(words[1]);

                    map.put(words[0], list);

                }

            }

        }

    }

}

便利性

为了用户使用方便，我们在 HanziSimilarHelper 中添加 2 个工具类方法：

/**

 * 相似的列表

 * @param hanziOne 汉字一

 * @param limit 大小

 * @return 结果

 * @since 1.3.0

 */

public static List<String> similarList(char hanziOne, int limit) {

    return HanziSimilarBs.newInstance().similarList(hanziOne, limit);

}

/**

 * 相似的列表

 * @param hanziOne 汉字一

 * @return 结果

 * @since 1.3.0

 */

public static List<String> similarList(char hanziOne) {

    return similarList(hanziOne, 10);

}

测试效果

我们使用看一下效果：

我们来看一下【爱】的形近字。

List<String> list = HanziSimilarHelper.similarList('爱');

Assert.assertEquals("[爰, 爯, 受, 爭, 妥, 憂, 李, 爳, 叐, 雙]", list.toString());

开源地址

为了便于大家使用学习，项目已开源。

https://github.com/houbb/nlp-hanzi-similar

小结

一个字的形近字可以做很多有趣的事情，这个要看大家的想象力。

实现方式也不难，最核心的还是相似度的计算。

我是老马，期待与你的下次重逢。

NLP 开源形近字算法之相似字列表（番外篇）的更多相关文章

NLP 开源形近字算法补完计划（完结篇）
前言所有的故事都有开始,也终将结束. 本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号. 起-NLP 中文形近字相似度计算思路承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之 ...
KMP算法番外篇--求解next数组
KMP算法实现字符串的模式匹配的时间复杂度比朴素的模式匹配好很多,但是它时间效率的提高是有前提的,那就是:模式串的重复率很高,不然它的效率也不会凸显出来.在实际的应用中,KMP算法不算是使用率很高的一 ...
数据结构和算法 – 番外篇.时间测试类Timing
public class Timing { //startingTime--用来存储正在测试的代码的开始时间. TimeSpan startingTime; //duration--用来存储正在测试的 ...
CWMP开源代码研究番外篇——博通方案
声明:本篇文章来自于某公司Cable Modem产品的文档资料,源码来自于博通公司,只提供参考(为保护产权,本人没有源码). 前文曾提到会写一篇关于博通的tr069,那么福利来了.福利,福利,福利,重 ...
痞子衡嵌入式：超级下载算法(RT-UFL)开发笔记番外（1） - JLinkScript妙用
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是超级下载算法开发笔记番外篇之JLinkScript妙用. JLinkScript 文件是配套 J-Link 调试器使用的脚本,这个脚本适 ...
Java实现蓝桥杯算法提高周期字串
算法提高周期字串时间限制:1.0s 内存限制:256.0MB 问题描述右右喜欢听故事,但是右右的妈妈总是讲一些"从前有座山,山里有座庙,庙里有个老和尚给小和尚讲故事,讲的什么呢?从前有 ...
zz【清华NLP】图神经网络GNN论文分门别类，16大应用200+篇论文最新推荐
[清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengy ...
Duang的成长——使用造字程序输入生僻字
使用造字程序输入生僻字最近,一个字突然间火了起来,那就是——duang! (图片来自网络) 那么,问题来了!造字程序哪家强?(此处有掌声) 其实,微软早就考虑到各国文字的博大精深,在系统中集成了一个 ...
【开源.NET】轻量级内容管理框架Grissom.CMS（第三篇解析配置文件和数据以转换成 sql）
该篇是 Grissom.CMS 框架系列文章的第三篇, 主要介绍框架用到的核心库 EasyJsonToSql, 把标准的配置文件和数据结构解析成可执行的 sql. 该框架能实现自动化增删改查得益于 E ...
顶级开源项目 Sentry 20.x JS-SDK 设计艺术（Unified API篇）
SDK 开发顶级开源项目 Sentry 20.x JS-SDK 设计艺术(理念与设计原则篇) 顶级开源项目 Sentry 20.x JS-SDK 设计艺术(开发基础篇) 顶级开源项目 Sentry ...

随机推荐

luogu 4886
点分治好题统计距离正常点分治统计即可,我们只需考虑何时达到最优有两种情况: 第一:代价最大的询问两个端点在不同的两个子树中因为这种情况下,无论根向那个子树移动都会等价地增加到达另一个端点的代价, ...
Apache HTTPD 多后缀解析漏洞复现（Kali）
通过vulhub靶场进行复现操作 1.首先搭建靶场环境(采用Kali) cd /vulhub/httpd/apache_parsing_vulnerability //进入对应漏洞目录,具体 ...
python3GUI--打造一款音乐播放器By:PyQt5（附下载地址）
@ 目录一．准备工作 1.PyQt5 2.qtawesome 二．预览 1.启动 2.歌曲搜索 3.歌曲播放 4.评论查看 5.自定义背景 6.设置-基本设置 7.设置-高级设置 8.定时任务三． ...
用shell开火车哈哈
用shell开火车!(σﾟ∀ﾟ)σ⁶⁶⁶⁶⁶⁶⁶⁶⁶⁶ while true; do sl -aFile; done 这个效果更佳
wait_event_interruptible() 等待队列
在Linux驱动程序中,可以使用等待队列(Wait Queue)来实现阻塞进程的唤醒. 1.定义"等待队列头部" wait_queue_head_t my_queue; wait_ ...
Mac Idea2018.1.6版利用脚本激活安装详解
下载安装包:链接: https://pan.baidu.com/s/1W4alLXUeQ6xazkNEtB8I9w 提取码: w6rg 下载脚本:链接: https://pan.baidu.com/s ...
Hyper-V 直连主机USB设备
因为授权问题不让用 Vmware 了.所以换成微软自带的 Hyper V 但是碰到一个很头痛的问题,就是外部设备没法像 Vmware 那样直接连接到虚拟机里面,很多第三方设备没法调试了. 找了很久终于 ...
自动备份一个TXT文件里面的SVN库
之前的项目都是使用SVN进行代码管理,万一SVN挂了,,,项目全部爆炸,,,所以定时备份还是有必要的,,,虽然现在都不用SVN了,,,记录一下自己的备份方法 --------------------- ...
【BFS】算法模板与思路
1.BFS算法的基础理论是什么? BFS算法名叫宽度优先搜索,虽然我能理解深度优先搜索,但我却不是很能理解宽度优先搜索. 一个很关键的点在于:宽度优先搜索是一个迭代的算法,不是递归的算法. 与DFS之 ...
vue +iview Select省市区联动
因为需要保存的表里只有City_id一个字段,所以这边只保存"区"的值 <Row type="flex" justify="start" ...

NLP 开源形近字算法之相似字列表（番外篇）