paip.提升中文分词准确度---新词识别

paip.提升中文分词准确度---新词识别

近来,中文每年大概出现800---1仟个新的词..

60％的分词错误是由新词导致的

作者Attilax 艾龙， EMAIL:1466519819@qq.com

来源：attilax的专栏

地址：http://blog.csdn.net/attilax

新词的概念

目前，在中文分词领域出现了新词（New Words）和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别，认为它们是一样的[12][13]。通常，未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计，将未登录词分为五种类别，包括

(a) 缩略词(abbreviation)，如“中油”、“日韩”；

(b) 专有名词(Proper names)，主要包括人名、地名、机构名。如“张三”、“北京”、“微软”；

(c) 派生词(derived words)，主要指含有后缀词素的词，如“电脑化”；

(d) 复合词(compounds)，由动词或名词等组合而成，如“获允”、“搜寻法”、“电脑桌”；

(e) 数字类复合词(numeric type compounds)，即组成成分中含有数字，包括时间、日期、电话号码、地址、数字等，如“2005年”、“三千”。

新词的识别方法.

1.基与规则::::通过构词，前缀,后缀(词边界),词形,编写规则

....化,....族

大概准确录90%

2.基与统计方法.

俩个/三个相邻单字的频率....大概准确录88%

3.基与搜索引擎

这个准确度非常高.. 几乎95%了...

bg str feodg se hetu,auto pop ...yaos chwlai ,shg word...beir, bsd ..

4.单字构词能力以及频率.

词素级的判断...

5.基与sns。。类似于智能+人工

这个也能是准确度非常高，近乎100% ...因为是人工反馈。。。

/////////垃圾串过滤

能预先界定垃圾串词库..到时过滤..

垃圾串词库的建立也能使用搜索引擎增强判断..

参考:

中文新词识别技术综述_免费下载_百度文库.htm

【论文】Internet中的新词识别_百度文库.htm

【论文】基于词内部模式的新词识别_百度文库.htm

关于新词识别的 - 豆丁网.htm （20个后缀）

【论文】不限领域的中文新词的识别研究_百度文库.htm

新词发现综述_免费下载_百度文库.htm

paip.提升中文分词准确度---新词识别的更多相关文章

Mmseg中文分词算法解析
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...
paip.提升分词---准确度--常用量词表
paip.提升分词---准确度--常用量词表作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.ne ...
Elasticsearch之中文分词器插件es-ik的自定义热更新词库
不多说,直接上干货! 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
paip.中文分词 -- 同义词大全整理
paip.中文分词 -- 同义词大全整理同义词的处理方法: 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blo ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
paip.中文分词 ---paoding 3.1 的使用
paip.中文分词 ---paoding 3.1 的使用 paoding 3.1 下载: 1 设置字典路径 1 测试代码 1 作者Attilax 艾龙, EMAIL:1466519819@qq. ...
SCWS中文分词，向xdb词库添加新词
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_f ...
PyTorch 高级实战教程：基于 BI-LSTM CRF 实现命名实体识别和中文分词
前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理 ...
基于Deep Learning的中文分词尝试
http://h2ex.com/1282 现有分词介绍自然语言处理(NLP,Natural Language Processing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类 ...

随机推荐

linux关闭防火墙
查看防火墙状态: sudo service iptables status linux关闭防火墙命令: sudo service iptables stop linux启动防火墙命令: sudo se ...
解决Linux c语言运行时候“段错误 (核心已转储)”问题-采用gdb 解决
编译没有警告,没有错误,运行就打印段错误 (核心已转储) 网上找了一下,都是各种问题,都推荐用gdb 调试解决,咱也来趁机学习gdb一下. gcc+gdb)输入命令行运行 sudo apt-g ...
springMVC配置（XML配置详解）
原文出自:http://www.newasp.net/tech/71609.html web.xml配置: servlet> <servlet-name>dispatcher< ...
Train Problem I hdu 1022（栈）
http://acm.split.hdu.edu.cn/showproblem.php?pid=1022 题意:给出火车的进站与出站顺序,判断是否可以按照给出的出站顺序出站. #include < ...
mysql术语解释
数据库(database): 数据表的集合: 数据表 (table):数据的矩阵: 列(column): 相同属性的数据的集合: 行(row): 一个对象的各种属性数据的集合: 冗余():一个字段在多 ...
01背包问题：POJ3624
背包问题是动态规划中的经典问题,而01背包问题是最基本的背包问题,也是最需要深刻理解的,否则何谈复杂的背包问题. POJ3624是一道纯粹的01背包问题,在此,加入新的要求:输出放入物品的方案. 我们 ...
10个你必须掌握的Linux超酷VI命令技巧
大部分Linux开发者对vi命令相当熟悉,可是遗憾的是,大部分开发者都只能掌握一些最常用的Linux vi命令,下面介绍的10个vi命令虽然很多不为人知,但是在实际应用中又能让你大大提高效率. 在使用 ...
jsp_注释
jsp支持两种注释的语法操作,一种是显示注释(在客户端允许看的见),另一种是隐式注释显示注释: 隐式注释: 格式一://单行注释格式二:/*多行注释*/ 格式三: ...
去哪儿网mysql语法审核工具Inception正式开源
Inception不仅仅是一个自动化审核工具,同时还具备执行SQL,并且生成对影响数据的回滚语句(类似于闪回的功能),这样一条龙便捷服务的工具.
fancybox iframe 刷新父页面（项目经验）
<script type="text/javascript"> $(document).ready(function() { $(".fancybox&quo ...

paip.提升中文分词准确度---新词识别

paip.提升中文分词准确度---新词识别的更多相关文章

随机推荐

热门专题