HMM实现中文分词

链接：https://pan.baidu.com/s/1uBjLC61xm4tQ9raDa_M1wQ 提取码：f7l1

import sys

sys.path.append('保存文件的路径')  #设置路径
# 下面三个文件在上面 


from prob_emit import P as p_emit

from prob_start import P as p_start

from prob_trans import P as p_trans

obs = '今天我来到北京清华大学'    #观察值

states = 'BMES'

V = [{}]

path = {}

prev_states = {

    'B': 'ES',  # t时刻：t-1时刻

    'M': 'BM',

    'E': 'BM',

    'S': 'SE'

}

# 初始化   第一个字符作为 'BMES' 的概率

for y in states:

    V[0][y] = p_start[y] + p_emit[y][obs[0]]

    path[y] = y

#概率： 输出概率(独立性概率：第k个字符状态为y的概率)  + 转换概率(y0 --> y ) + 上一个字符状态为y0的概率（当前状态与上一个字符的状态有关）

for k in range(1, len(obs)):

    t0 = {}  # 储存概率

    path0 = {}  # 储存路径

    for y in states:

        em_p = p_emit[y][obs[k]]  # 输出概率   表示 第 k 个字符状态为 y 时 的输出概率

        (prob, s0) = max((em_p+p_trans[y0][y]+V[-1][y0], y0) for y0 in prev_states[y])

        # 动态规划

        #上面的prob  s0  就是在下面的每个循环中取tmp_prob tmp_s0 中取得最大值

#         for y0 in prev_states[y]: # prev_state[y] 表示 t时刻 状态为 y 时的 t-1时刻可能出现的状态

#             tmp_prob = em_p + p_trans[y0][y] + V[-1][y0]

#             tmp_s0 = y0

        t0[y] = prob

        path0[y] = path[s0] + y

    path = path0

    V.append(t0)

path

(prob, s0) = max((V[-1][y], y) for y in 'ES')

s2 = []

for i, char in enumerate(obs):

    sign = path[s0][i]

    if(sign == 'B'):

        begin = i

    elif sign == 'E':

        s2.append(obs[begin: i+1])

    elif sign == 'S':

        s2.append(obs[i])

    else :

        pass

s2

HMM实现中文分词的更多相关文章

自制基于HMM的中文分词器
不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...
转：从头开始编写基于隐含马尔可夫模型HMM的中文分词器
http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇首先感谢52nlp的 ...
【中文分词】隐马尔可夫模型HMM
Nianwen Xue在<Chinese Word Segmentation as Character Tagging>中将中文分词视作为序列标注问题(sequence labeling ...
自制基于HMM的python中文分词器
不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...
HMM（隐马尔科夫）用于中文分词
隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程. 本文阅读了2篇blog,理解其中的意思,附上自己的代码,共同学习. 一.理解隐马尔科夫 ...
【中文分词】二阶隐马尔可夫模型2-HMM
在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显--对于词典中的(in-vocabulary, IV)词却未能很好地 ...
ANSJ中文分词使用方法
一.前言之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯.最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之. 二.什么 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
Python中文分词 jieba
三种分词模式与一个参数以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学& ...

随机推荐

Linux 仿真终端：SecureCRT 常用配置
SecureCRT 有两类配置选项,分别是会话选项和全局选项. 会话选项:修改配置只针对当前会话有效全局选项:修改配置对所有会话有效一般会先选择全局选项修改全局配置,然后选择会话选项单独修改个别会 ...
2020-1-19 2.港股打新、REITs和分拆
1.港股打新介绍港股打新升级版财属目由尽握手中港股中签率较高 A股提高中签率港股提高中签之后的收益率有可能破发 2.第一版港股打新港股打新第一版 ■第一种策略:只选择低于1.5港币的配售 ...
python内存管理总结
之前在学习与工作中或多或少都遇到关于python内存管理的问题,现在将其梳理一下. python内存管理机制第0层操作系统提供的内存管理接口 c实现第1层基于第0层操作系统内存管理接口包装而成 ...
jq slideDown后里面的A链接失效（已解决）
jq slideDown后里面的A链接失效(解决) 用jq 的 slideDown写了一个二级下拉菜单,但是里面的a标签全部失效了,挂的链接右键菜单可以正常打开,但是左键正常点击不行查阅了很多资料, ...
Lua时间互转
1. 时间戳转成格式化字符串直接利用函数os.date()将时间戳转化成格式化字符串. local timestamp = 1561636137; local strDate = os.date(& ...
checkbox，select，radio 选取值,设定值,回显值
获取一组radio被选中项的值var item = $('input[@name=items][@checked]').val();获取select被选中项的文本var item = $(" ...
快速导入GitHub上面的公钥
有时候新装了一台linux机器, 又要找公钥导进去, 或者在自己电脑上执行ssh-copy-id, 有时候手边没有电脑就比较麻烦, 我们可以将GitHub上配置的公钥导入到机器里首先包装GitHub ...
计图(Jittor) 1.1版本：新增骨干网络、JIT功能升级、支持多卡训练
计图(Jittor) 1.1版本:新增骨干网络.JIT功能升级.支持多卡训练深度学习框架-计图(Jittor),Jittor的新版本V1.1上线了.主要变化包括: 增加了大量骨干网络的支持,增强了辅 ...
PEP 324 subprocess 新的进程模块 -- Python官方文档译文 [原创]
PEP 324 -- subprocess 新的进程模块(subprocess - New process module) 英文原文:https://www.python.org/dev/peps/p ...
三、使用sudo分配管理权限
使用sudo分配管理权限 su命令 su - [账户名称] :切换到用户,不加用户名默认切换到root su - [账户名称] -c '命令' :以xx用户身份执行命令,注意命令需 ...

HMM实现中文分词

HMM实现中文分词的更多相关文章

随机推荐

热门专题