HMM实现中文分词

链接：https://pan.baidu.com/s/1uBjLC61xm4tQ9raDa_M1wQ 提取码：f7l1

import sys

sys.path.append('保存文件的路径')  #设置路径
# 下面三个文件在上面 


from prob_emit import P as p_emit

from prob_start import P as p_start

from prob_trans import P as p_trans

obs = '今天我来到北京清华大学'    #观察值

states = 'BMES'

V = [{}]

path = {}

prev_states = {

    'B': 'ES',  # t时刻：t-1时刻

    'M': 'BM',

    'E': 'BM',

    'S': 'SE'

}

# 初始化   第一个字符作为 'BMES' 的概率

for y in states:

    V[0][y] = p_start[y] + p_emit[y][obs[0]]

    path[y] = y

#概率： 输出概率(独立性概率：第k个字符状态为y的概率)  + 转换概率(y0 --> y ) + 上一个字符状态为y0的概率（当前状态与上一个字符的状态有关）

for k in range(1, len(obs)):

    t0 = {}  # 储存概率

    path0 = {}  # 储存路径

    for y in states:

        em_p = p_emit[y][obs[k]]  # 输出概率   表示 第 k 个字符状态为 y 时 的输出概率

        (prob, s0) = max((em_p+p_trans[y0][y]+V[-1][y0], y0) for y0 in prev_states[y])

        # 动态规划

        #上面的prob  s0  就是在下面的每个循环中取tmp_prob tmp_s0 中取得最大值

#         for y0 in prev_states[y]: # prev_state[y] 表示 t时刻 状态为 y 时的 t-1时刻可能出现的状态

#             tmp_prob = em_p + p_trans[y0][y] + V[-1][y0]

#             tmp_s0 = y0

        t0[y] = prob

        path0[y] = path[s0] + y

    path = path0

    V.append(t0)

path

(prob, s0) = max((V[-1][y], y) for y in 'ES')

s2 = []

for i, char in enumerate(obs):

    sign = path[s0][i]

    if(sign == 'B'):

        begin = i

    elif sign == 'E':

        s2.append(obs[begin: i+1])

    elif sign == 'S':

        s2.append(obs[i])

    else :

        pass

s2

HMM实现中文分词的更多相关文章

自制基于HMM的中文分词器
不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...
转：从头开始编写基于隐含马尔可夫模型HMM的中文分词器
http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇首先感谢52nlp的 ...
【中文分词】隐马尔可夫模型HMM
Nianwen Xue在<Chinese Word Segmentation as Character Tagging>中将中文分词视作为序列标注问题(sequence labeling ...
自制基于HMM的python中文分词器
不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...
HMM（隐马尔科夫）用于中文分词
隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程. 本文阅读了2篇blog,理解其中的意思,附上自己的代码,共同学习. 一.理解隐马尔科夫 ...
【中文分词】二阶隐马尔可夫模型2-HMM
在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显--对于词典中的(in-vocabulary, IV)词却未能很好地 ...
ANSJ中文分词使用方法
一.前言之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯.最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之. 二.什么 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
Python中文分词 jieba
三种分词模式与一个参数以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学& ...

随机推荐

逗号字符的使用、字符数组与字符串数组、sizeof与strlen
(1)连接两个表达式为一个表达式 for(ux=0,uxt=1;uxt<444;ux++,uxt++) 允许通过编译:他可以给FOR循环更多的初始化值: (2)一般定义的话要区别只有字符数组 ...
#undef 与 exit(0) 使用
#undef 与 #defined 反,实际使用中较多的是当你需要使用自己定义的标准C里面已经的函数时可以这样操作: exit(0)和exit(1)是系统判断函数是否有正常的退出,一般0表示正常的退 ...
SpringCloud（八）Sleuth 分布式请求链路跟踪
SpringCloud Sleuth 分布式请求链路跟踪概述为什么会出现这个技术?需要解决哪些问题? 在微服务框架中,一个由客户端发起的请求在后端系统中会经过多个不同的的服务节点调用来协同产生最后 ...
Lua学习高级篇
Lua学习高级篇之前已经说了很多,我目前的观点还是那样,在嵌入式脚本中,Lua是最优秀.最高效的,如果您有不同的观点,欢迎指正并讨论,切勿吐槽.这个系列完全来自于<Programming in ...
接触追踪解决方案建立在UWB而不是蓝牙上
接触追踪解决方案建立在UWB而不是蓝牙上 Contact tracing solution builds on UWB rather than Bluetooth 几个月前,当社会距离明显成为对抗CO ...
thymeleaf+Springboot实现自定义标签
在项目开发中,有一些组件不能满足我们快速开发的要求,我们需要封装一些组件来更加的便利我们.比如,我们可以封装一个下拉框组件,只要开发人员只有引用这个组件的标签,就能出现效果,而不用再去请求url,渲染 ...
狂神说Mybatis笔记
环境说明: jdk 8 + MySQL 5.7.19 maven-3.6.1 IDEA 学习前需要掌握: JDBC MySQL Java 基础 Maven Junit 第一节:入门什么是MyBati ...
如何使用perf进行程序分析
1.安装. sudo apt-get install linux-tools 如果提示没有可安装候选.请输入: sudo apt-get install linux-perf-version 其中ve ...
docker入门详解
这可能是最为详细的Docker总结 Docker是什么? 在计算机技术日新月异的今天, Docker 在国内发展的如火如荼,特别是在一线互联网公司, Docker 的使用是十分普遍的,甚至成为了一些企 ...
OpenCV随笔
创建一个窗口#zeros(shape,dtype=float,order='C')#shape:形状,dtype:数据类型,可选参数,默认numpy.float64img = np.zeros((50 ...

HMM实现中文分词

HMM实现中文分词的更多相关文章

随机推荐

热门专题