实体识别中，或序列标注任务中的维特比Viterbi解码

看懂这个算法，首先要了解序列标注任务 QQ522414928 可以在线交流

大体做一个解释，首先需要4个矩阵，当然这些矩阵是取完np.log后的结果，

分别是：初始strat→第一个字符状态的概率矩阵，转移概率矩阵，发射概率矩阵，最后一个字符状态→end结束的概率矩阵，

这些概率矩阵可以是通过统计得到，或者是LSTM+crf这种训练迭代得到。

zero_log 指的是在统计中发射概率没有的情况下用这个很小的值来代替，lstm+crf中应该不会出现不存在的发射概率。

然后看代码

一个矩阵V：里面保存的是每个时间步上的每个状态对应的概率

一个字典path：里面保存的是 {当前标签：他之前所经过的路径}

然后最佳路径的计算经过三个部分：初试概率矩阵到第一个字符状态那部分，序列中字符状态转移和发射那部分，最后一个字符状态到end那部分

里边的发射分数和转移分数都使用加法计算是因为发射矩阵和转移矩阵都经过了log取对数运算

def start_calcute(self,sentence):

        '''

        通过viterbi算法计算结果

        :param sentence: "小明硕士毕业于中国科学院计算所"

        :return: "S...E"

        '''

        zero = -3.14e+100

        zero_log = np.log(-3.14e+100)

        init_state = self.prob_dict["PiVector_prob"]

        trans_prob = self.prob_dict["TransProbMatrix_prob"]

        emit_prob = self.prob_dict["EmitProbMartix_prob"]

        end_prob = self.prob_dict["EndProbMatrix_prob"]

        V = [{}] #其中的字典保存 每个时间步上的每个状态对应的概率

        path = {}

        #初始概率

        for y in self.state_list:

            V[0][y] = init_state[y] + emit_prob[y].get(sentence[0],zero_log)

            path[y] = [y]

        #从第二次到最后一个时间步

        for t in range(1,len(sentence)):

            V.append({})

            newpath = {}

            for y in self.state_list: #遍历所有的当前状态

                    temp_state_prob_list = []

                    for y0 in self.state_list: #遍历所有的前一次状态

                        cur_prob = V[t-1][y0]+trans_prob[y0][y]+emit_prob[y].get(sentence[t],zero_log)

                        temp_state_prob_list.append([cur_prob,y0])

					#取最大值，作为当前时间步的概率

                    prob,state =  sorted(temp_state_prob_list,key=lambda x:x[0],reverse=True)[0]

                    #保存当前时间步，当前状态的概率

                    V[t][y] = prob

                    #保存当前的状态到newpath中

                    newpath[y] = path[state] + [y]

			#让path为新建的newpath

            path = newpath

        #输出的最后一个结果只会是S（表示单个字）或者E（表示结束符）

        (prob, state) = max([(V[len(sentence)][y]+end_prob[y], y) for y in ["S","E"]])

        return (prob, path[state])

实体识别中，或序列标注任务中的维特比Viterbi解码的更多相关文章

命名实体识别，使用pyltp提取文本中的地址
首先安装pyltp pytlp项目首页单例类(第一次调用时加载模型) class Singleton(object): def __new__(cls, *args, **kwargs): if n ...
用深度学习做命名实体识别(二)：文本标注工具brat
本篇文章,将带你一步步的安装文本标注工具brat. brat是一个文本标注工具,可以标注实体,事件.关系.属性等,只支持在linux下安装,其使用需要webserver,官方给出的教程使用的是Apac ...
神经网络结构在命名实体识别（NER）中的应用
神经网络结构在命名实体识别(NER)中的应用近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展.作为NLP领域的基础任务-命名实体识别(Named Entity Recognit ...
转：使用RNN解决NLP中序列标注问题的通用优化思路
http://blog.csdn.net/malefactor/article/details/50725480 /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author ...
【神经网络】神经网络结构在命名实体识别（NER）中的应用
命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的 ...
Oracle中的序列
序列是什么? 序列是用来生成唯一.连续的整数的数据库对象.序列通常用来自动生成主键或唯一键的值.序列可以按升序排列,也可以按照降序排列. 其实Oracle中的序列和MySQL中的自增长差不多一个意思. ...
2. 知识图谱-命名实体识别（NER）详解
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...
NLP（十四）自制序列标注平台
背景介绍在平时的NLP任务中,我们经常用到命名实体识别(NER),常用的识别实体类型为人名.地名.组织机构名,但是我们往往也会有识别其它实体的需求,比如时间.品牌名等.在利用算法做实体识别的时候 ...
『深度应用』NLP命名实体识别(NER)开源实战教程
近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...

随机推荐

使用FME对CAD数据进行过滤、中心点替换转为shapefile
1.首先加载CAD数据,并暴露出需要使用到的相关字段.比如:block_number.fme_geometry.fme_type等字段. (本次的管网设备由于是一个圆圈里面有三个文字因此将fme_ty ...
[Asp.Net Core] 为什么选择 Blazor Server Side (一) 快速实现图片验证码
关于Blazor 由于在国内, Blazor一点都不普及, 建议读者翻看我之前写的随笔, 了解Blazor Server Side的特点. 在一段时间内, 我会写一些解说分析型的 "为什么选 ...
JUnit白盒测试之基本路径测试：三次找到假球
前言记录一次软件测试课程的课后作业,作业内容是白盒测试中的基本路径测试,步骤如下分析程序的控制流计算环形复杂度找出基本路径设计测试用例执行测试用例(要求使用JUnit) 作业要求使用白盒 ...
1036 Boys vs Girls (25分)(水)
1036 Boys vs Girls (25分) This time you are asked to tell the difference between the lowest grade o ...
Shell:Day09-2.笔记
4.模式匹配(地址定界) 1.空值,没有定义,默认就将文件中所有的行,放入awk进行循环 2.对固定的 1,3 行进行操作 sed -n '1,3p' /etc/passwd awk '1,3 ...
Windows10系统常规优化及分析（批处理）
对于Win7来说,Win10除了UI的变动外,微软还根据用户体验做了一些功能的增强和更改,在我看来,Win10本身启动的服务都是为了系统运作更加完美而增加的,但是对于很多人来说,Win10的很多功能很 ...
Spring Framework之事务管理
目录问题数据库事务事务的定义事务的目的事务的特性事务隔离级别数据并发问题事务隔离级别对数据并发问题的作用快照读 Spring事务管理事务管理接口 TransactionDefini ...
关于Cookie的相关知识点以及使用方法
首先介绍cookie的一些方法 response.addCookie(Cookie cookie)是将一个cookie对象传入客户端. Cookie cookie=new Cookie(String ...
Exercise 1测试
此篇博客旨在测试Exercise 1,发现其中问题并解决. 首先,我们使用codeblocks对Exercise 1进行编译.结果如下: 可以发现经编译后的Exercise 1并无编译错误,只有两个w ...
redis修改密码以及验证登录，启动服务常用命令
1.通过配置文件,直接修改 2.启动然后使用密码验证登录 3.redis常用命令启动服务:redis-server --service-start重启服务:service redis restart ...

实体识别中，或序列标注任务中的维特比Viterbi解码

实体识别中，或序列标注任务中的维特比Viterbi解码的更多相关文章

随机推荐

热门专题