一.背景知识 1.1 什么是分词? NLP的基础任务分为三个部分,词法分析.句法分析和语义分析,其中词法分析中有一种方法叫Tokenization,对汉字以字为单位进行处理叫做分词. Example : 我 去 北 京 S S B E 注:S代表一个单独词,B代表一个词的开始,E表示一个词的结束(北京是一个词). 1.2 什么是词性标注? 句法分析中有一种方法叫词性标注(pos tagging),词性标注的目标是使用类似PN.VB等的标签对句子(一连串…
CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析.命名实体识别.词性标注等.在我看来,CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HMM使用隐含变量生成可观测状态,其生成概率由标注集统计得到,是一个生成模型:而CRF反过来通过可观测状态判别隐含变量,其概率亦通过标注集统计得来,是一个判别模型.由于两者模型主干相同,其能够应用的领域往往是重叠的,但在命名实体.句法分…