Trie树分词

http://www.hankcs.com/program/java/tire-tree-participle.html

最近在看Ansj中文分词的源码，以前没有涉足过这个领域，所以需要做一些笔记。

Trie树

首先是Ansj分词最基本的数据结构——Trie树。Trie树也称字典树，能在常数时间O(len)内实现插入和查询操作，是一种以空间换取时间的数据结构，广泛用于词频统计和输入统计领域。

Ansj作者ansjsun为此数据结构专门开了一个项目，clone下来之后可以用作者提供的一个demo进行测试：

package com.hankcs;

import love.cq.domain.Forest;

import love.cq.library.Library;

import love.cq.splitWord.GetWord;

import java.io.BufferedReader;

import java.io.StringReader;

/**

* @author hankcs

*/

public class Main

{

public static void main(String[] args) throws Exception

{

/**

* 词典的构造.一行一个词后面是参数.可以从文件读取.可以是read流.

*/

String dic =

"中国\t1\tzg\n" +

"人名\t2\n" +

"中国人民\t4\n" +

"人民\t3\n" +

"孙健\t5\n" +

"CSDN\t6\n" +

"java\t7\n" +

"java学习\t10\n";

Forest forest = Library.makeForest(new BufferedReader(new StringReader(dic)));

/**

* 删除一个单词

*/

Library.removeWord(forest, "中国");

/**

* 增加一个新词

*/

Library.insertWord(forest, "中国人");

String content =

"中国人名识别是中国人民的一个骄傲.孙健人民在CSDN中学到了很多最早iteye是java学习笔记叫javaeye但是java123只是一部分"

;

GetWord udg = forest.getWord(content);

String temp = null;

while ((temp = udg.getFrontWords()) != null)

System.out.println(temp + "\t\t" + udg.getParam(1) + "\t\t" + udg.getParam(2));

}

输出：

中国人 null null

中国人民 null null

孙健 null null

人民 null null

CSDN null null

java学习 null null

java null null

这段demo的目的是利用一个小词典对后面一句话进行分词，词典被用来构造了一颗Trie树，也就是代码中的forest。

词典每一行第一列是单词，之后的几列都是param（属性）。

在tree_split中，一棵Trie树有四种不同的节点：

根节点，上图的绿色节点。被称为Forest，没有实际含义，也不含属性。
起始节点，上图的蓝色节点。是一个单词的开头第一个字，不含属性。
中继节点，上图的黄色节点。可能是一个单词的结尾，含属性；也可能是另一个更长的单词的中间某个字，不含属性。
结束节点，上图的红色节点。是一个单词的结尾，含属性。

根节点使用Forest描述，而其它三种节点统一使用Branch描述，并用status = 1 2 3 来区分，它们有如下的类图关系：

Root在构造的时候开了212个空槽以供放置子节点，每个汉字和其他字符都落在这个范围内。每次查找直接用汉字作为下标即可定位，Branch则使用动态数组分配内存，使用二分查找定位，这是Trie树的高速秘诀。Trie树的查询和插入都是类似的方法：从根节点开始沿着词语的开头字符走到结尾字符。在这里除了完成基本的维护操作，还需维护Branch的status。

删除操作比较讨巧，统一将要删除的单词最后一个字对应的节点设为“起始节点”，那么它就不能构成这个词了。

词典分词

词典分词是一种实现简便、速度快但是错误率高的分词方式。用Trie树词典分词就是按照句子的字符顺序从root往下走，每走到一个结束节点则分出一个词。中途遇到的中继节点统统忽略，这种方式也称“最长匹配”，是一种很武断的方式。比如下面这个例子：

package com.hankcs;

import love.cq.domain.Forest;

import love.cq.library.Library;

import love.cq.splitWord.GetWord;

import java.io.BufferedReader;

import java.io.StringReader;

/**

* @author hankcs

*/

public class Main

{

public static void main(String[] args) throws Exception

{

/**

* 词典的构造.一行一个词后面是参数.可以从文件读取.可以是read流.

*/

String dic =

"商品\t1\tzg\n" +

"和服\t2\n" +

"服务\t4\n" ;

Forest forest = Library.makeForest(new BufferedReader(new StringReader(dic)));

String content = "商品和服务";

GetWord udg = forest.getWord(content);

String temp = null;

while ((temp = udg.getFrontWords()) != null)

System.out.println(temp + "\t\t" + udg.getParam(1) + "\t\t" + udg.getParam(2));

}

输出：

1 2	`商品 zg null` `和服 null null`

很明显，效果不好。

要想提高分词效果，就必须引入条件概率（隐马尔可夫模型），这就是Ansj分词的使命吧。

Trie树分词的更多相关文章

Ansj分词双数组Trie树实现与arrays.dic词典格式
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format ...
[转]双数组TRIE树原理
原文名称: An Efficient Digital Search Algorithm by Using a Double-Array Structure 作者: JUN-ICHI AOE 译文: 使 ...
双数组Trie树 (Double-array Trie) 及其应用
双数组Trie树(Double-array Trie, DAT)是由三个日本人提出的一种Trie树的高效实现 [1],兼顾了查询效率与空间存储.Ansj便是用DAT(虽然作者宣称是三数组Trie树,但 ...
trie树信息抽取之中文数字抽取
这一章讲一下利用trie树对中文数字抽取的算法.trie树是一个非常有用的数据结构,可以应用于大部分文本信息抽取/转换之中,后续会开一个系列,对我在实践中摸索出来的各种抽取算法讲开来.比如中文时间抽取 ...
双数组trie树的基本构造及简单优化
一基本构造 Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现.它本质上是一个确定的有限状 ...
从Trie树到双数组Trie树
Trie树原理又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种.它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,能在常数时间O(len)内实现插入和查 ...
python Trie树和双数组TRIE树的实现. 拥有3个功能:插入,删除,给前缀智能找到所有能匹配的单词
#coding=utf- #字典嵌套牛逼,别人写的,这样每一层非常多的东西,搜索就快了,树高26.所以整体搜索一个不关多大的单词表 #还是O(). ''' Python 字典 setdefault() ...
双数组Trie树(DoubleArrayTrie)Java实现
http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE ...
数据结构 | 30行代码，手把手带你实现Trie树
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是算法和数据结构专题的第28篇文章,我们一起来聊聊一个经典的字符串处理数据结构--Trie. 在之前的4篇文章当中我们介绍了关于博弈论的 ...

随机推荐

整理c# 不常用但有用代码
# 整理c# 不常用但有用代码 1.winform窗体右键菜单打开其他窗体 private void contextMenuStripHandler_Click(object sender, Even ...
Linux学习笔记03—初识Linux
命令介绍忘记root密码的处理方法系统安装盘的救援模式的使用一.命令介绍 1.LS命令 ls 查看当前目录下的文件 Ls –l 等同于ll 查看目录的详细信息 Ls –a 查看当前目录下的所有文 ...
j.u.c系列（09）---之并发工具类：CyclicBarrier
写在前面 CyclicBarrier是一个同步辅助类,允许一组线程互相等待,直到到达某个公共屏障点 (common barrier point).因为该 barrier 在释放等待线程后可以重用,所以 ...
Ubuntu 16.04实现SSH无密码登录/免密登录/自动登录（ssh-keygen/ssh-copy-id）
ssh-keygen:产生公钥与私钥(在~/.ssh) ssh-copy-id:将本机的公钥复制到远程机器的authorized_keys文件中(在~/.ssh),ssh-copy-id也能让你有到远 ...
sqlserver2014内存数据库特性介绍
sql server 2014提供了众多激动人心的新功能,但其中我想最让人期待的特性之一就要算内存数据库了,下面就简单介绍一下sql server 2014的内存数据库的一些特性相信大家对内存数 ...
C# 读带复选框的excel，写excel并设置字体、边框、背景色
这是一篇excel读写功能大汇总,通过C#调用Microsoft.Office.Interop.Excel.dll才能完成任何复杂格式excel的读写操作. 本文需要读取的excel格式如下: 可见表 ...
stm32f103串口实现映射功能
在实际开发中,常常遇到串口的默认输出IO口被其它模块占用了,所以我们要用到串口IO口映射功能.是指将原来实现功能的IO口映射到其它指定IO口,其它不变.详细操作例如以下: 先贴出默认下的串口初始化设置 ...
Training JTAG Interface
For most embedded CPU architecture implementations, the JTAG port is used by the debugger to interfa ...
[C# 基础知识系列]专题八: 深入理解泛型(二)
引言: 本专题主要是承接上一个专题要继续介绍泛型的其他内容,这里就不多说了,就直接进入本专题的内容的. 一.类型推断在我们写泛型代码的时候经常有大量的"<"和"& ...
Why I Left the .NET Framework
The .NET Framework was good. Really good. Until it wasn't. Why did I leave .NET? In short, it constr ...

Trie树分词

Trie树

词典分词

Trie树分词的更多相关文章

随机推荐

热门专题