[转]Kaldi语音识别】的更多相关文章

转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征 3.区分性技术 4.多音字如何处理? 5.Noise Robust ASR 6.Deep Learning[DNN/CNN替换GMM] 7.在手机等资源受限设备 author:Feiteng Email:lifeiteng0422@gmail.com date:2014/08/10 Kaldi训练脚本…
一.简介 Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可.主要供语音识别研究人员使用.Kaldi的目标和范围与HTK类似.目标是拥有易于修改和扩展的现代而灵活的代码.主要功能包括: 1.与有限状态传感器FST的代码进行集成,根据OpenFst工具箱[作为库]进行编译. 2.广泛的线性代数支持,包括一个包装标准BLAS和LAPACK例程的矩阵库. 3.可扩展的设计,以方便使用为目的提供算法. 二.安装Kaidi 1.下载 在Linux你要安装的目录下执行:g…
由于这个开源的语音识别工具Kaldi只能在Linux下面成功编译, 所以这一小节来写如何成功地在Linux下面编译Kaldi工具 (1)第一步,去github 上面把 Kaldi下载下来 git clone https://github.com/kaldi-asr/kaldi.git (2)然后 首先编译openFST有限状态机 进入到tools文件夹中 cd kaldi\tools 之后执行 extras/check_dependencies.sh 来检查该ubantu系统上的依赖软件都有没安…
At the moment Kaldi is targeted more at people who are building ASR systems than those who just want to use them. We may in future cater to needs such as yours. 目前Kaldi面向构建ASR系统的人而不是使用ASR系统的人,以后可能会有API. Regarding API, the idea is that you would write…
注:最近在学习kaldi语音识别工具,在安装过程中遇到了许多问题,在此记录,以备后需. 在一开始,我看了这篇博客(http://blog.topspeedsnail.com/archives/10013), 按照步骤进行,可以顺利下载kaldi源码,安装过程也可以按照其中的INSTALL文件进行, 在tools中编译使用到的工具以及在src中配置kaldi的时候,会提示你需要安装一些必需的软件包,按照提示安装即可. (需要注意的是libatlas3-base软件包无法下载,查询了许多资料以及升级…
该文章为博主原创,如若转载请注明出处:https://www.cnblogs.com/fengleixue/p/9482202.html 因公司业务需要需使用kaldi语音识别工具,现将kaldi环境配置等步骤列出来,用于记录: 1.安装虚拟机: 下载虚拟机VMware,并安装,虚拟机安装比较简单,可自行百度进行安装,在此不再重复. 2.Ubuntu操作系统安装: 下载Ubuntu镜像文件,本人选择的事Ubuntu16.04版本. 3.虚拟机安装Ubuntu系统,该步骤会进行详细说明,如下: 3…
用于数据科学的顶级 C/C++ 机器学习库整理 介绍和动机--为什么选择 C++ C++ 非常适合 动态负载平衡. 自适应缓存以及开发大型大数据框架 和库.Google 的MapReduce.MongoDB以及 下面列出 的大多数 深度学习库都是使用 C++ 实现的. Scylla 以其 超低延迟 和 极高 吞吐量而闻名,它 使用 C++ 进行编码,作为 Apache Cassandra 和 Amazon DynamoDB的替代品. 凭借 C++ 作为编程语言的 一些独特优势(包括内存管理. 性…
前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别).刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(GMM+HMM+NGRAM)概述).一段时间后老板就布置了具体任务:在我们公司自己的ARM芯片上基于kaldi搭建一个在线语音识别系统,三个人花三个月左右的时间完成.由于我们都是语音识别领域的小白,要求可以低些,就用传统的GMM-HMM来实现.说实话接到这个任务我们心里是有点没底的,不知道能不能按时完…
操作系统 : Unbutu18.04_x64 gcc版本 :7.4.0 该模型在thch30数据集上测试的错误率只有8.25%,效果还是不错的. 模型下载地址: http://www.kaldi-asr.org/models/m2 选择模型:CVTE Mandarin Model V2 测试文本: 自然语言理解和生成是一个多方面问题,我们对它可能也只是部分理解. 在线识别 测试脚本 ./online2-wav-nnet3-latgen-faster -- --beam=15.0 --lattic…
先前的文章<三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的>说我们花了不到三个月的时间搭了一个基于kaldi的嵌入式语音识别系统,不过它是基于传统的GMM-HMM的,是给我们练手用的,通过搭这个系统我们累积了一定的语音识别领域的经验,接下来我们就要考虑做什么形态的产品了.语音识别可以分大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition, LVCSR)和关键词识别(Keyword Spotting, KWS)…
接着上一节,在编译完了openFST有限状态机之后,便开始了最重要部分,语音识别插件的编译过程 首先看目录是如下所示的 1.首先添加openBLAS的支持,这是一个矩阵运算库,个人觉得这个矩阵运算库 应该提供 像什么 乔莱斯分解啊  LU分解呀 等优化矩阵运算的方法, 不然的话怎么好意思成为 矩阵运算的库呢 到下面这两个网址去下载openBlAS的程序包 http://sourceforge.net/projects/openblas/files/v0.2.14/OpenBLAS-v0.2.14…
------------------------------------------------------------------------------------------------------------------------------------------------------ 孤立词参考的例子就是yes/no脚本. -------------------------------------------------------------------------------…
阿里巴巴 2018 年开源的语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%.DFSMN 模型,是阿里巴巴的高效工业级实现,相对于传统的 LSTM.BLSTM 等声学模型,该模型具备训练速度更快.识别更高效.识别准确率更高和模型大小压缩等效果. 本场 Chat 的主要内容包括: 语音识别流程简介: Kaldi 的部署使用: 如何训练基于中文的 DFSMN 声学模型: 语音特征提取 MFCC 算法源码解读: 语音识别工具对比. https://gitbook.cn/gitch…
春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟,就开始关注在语音识别上了.对于我们来说,这是个全新的领域(虽然都是语音相关的,但是语音通信偏信号处理,传统语音识别方法偏概率统计),需要学习的知识很多,所以这段时间主要是在学习新知识了,主要学习了数学(高数/线性代数/概率统计,这应该算复习).机器学习基础知识.深度学习.语音识别传统方法等.由于刚…
转自: http://www.jianshu.com/p/5b19605792ab?utm_campaign=maleskine&utm_content=note&utm_medium=pc_all_hots&utm_source=recommendation http://www.jianshu.com/p/6338fab6bd0a 刚刚拿到一个简单语料库练手,发现只有语音和对应文字, 这篇文章记录了从数据预处理到kaldi对数据进行训练和测试的全过程,这里首先训练单音节模型,其…
转自:http://blog.csdn.net/huchad/article/details/52092796 使用kaldi的DNN做音频分类,异常声音检测. HMM/GMM -> HMM/DNN 基本上沿用语音识别的思路,有两点注意一下即可. 1. 在训HMM/GMM时,训到monophone即可,使用monophone的HMM与alignment来训DNN 2.语言模型的准备,手动构造一个一元的简单模型即可 DNN的主要训练步骤如下: #Step 1. Pre-train DBN step…
ASLP(Audio, Speech and Language Processing Group,音频.语音和语言处理组)位于西北工业大学,隶属于陕西省语音和图像信息处理重点实验室(SAIIP). ASLP小组成立于1995年.ASLP小组的使命是促进音频,语音和语言处理学科内的广泛学科的跨学科研究和教育.目前,ASLP集团的研究范围包括人机语音通信,语音和音频信号处理,视听处理,多媒体内容分析和检索. 在2011年,该组由三位正教授,一位副教授,四位兼职教授和三十多位博士和硕士生组成.....…
TIMIT语音库是IT和MIT合作音素级别标注的语音库,用于自动语音识别系统的发展和评估,包括来自美式英语,8个地区方言,630个人. 每个人读10个句子,每个发音都是音素级别.词级别文本标注,16kHz,16bit. 注意:不用使用TIMIT配置作为运行Kaldi的一个通用型例子,因为它不是一个非常标准的结构. 其它的一些配置也是非常好用的. ----------------------------------------------------------------------------…
转:http://blog.csdn.net/wbgxx333/article/details/41019453 深度神经网络已经是语音识别领域最热的话题了.从2010年开始,许多关于深度神经网络的文章在这个领域发表.许多大型科技公司(谷歌和微软)开始把DNN用到他们的产品系统里.(备注:谷歌的应该是google now,微软的应该是win7和win8操作系统里的语音识别和他的SDK等等) 但是,没有一个工具箱像kaldi这样可以很好的提供支持.因为先进的技术无时无刻不在发展,这就意味着代码需要…
转:http://blog.sina.com.cn/s/blog_66f725ba0101bw8i.html 关于语音识别的声学模型训练方法已经是比较成熟的方法,一般企业或者研究机构会采用HTK工具包.Kaldi等进行训练,目前从声学模型出发,提高系统性能的主要策略主要有: 1)增加训练数据.不同的训练数据也会对模型有一定的影响,例如,数据的男女均衡性.采集数据的channel.数据的背景噪声.发音人的方言等等. 2)采用比较好的模型训练方法.以前一般采用基于EM和Baum-Welch算法的最大…
Introduction 跑完kaldi的一些脚本例子,你可能想要自己用Kaldi跑自己的数据集.这里将会阐述如何准备好数据. run.sh较上的部分是有关数据准备的,通常local与数据集相关. 例如:RM数据集 local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang…
1.什么是kaldi kaldi是使用c++写的语音识别的工具,apache 授予了v2.0的证书(果真应验,apache旗下无弱将).kaldi旨在供语音识别研究员使用.kaldi在目标和范围上和HTK相似,目标是用c++写的现代灵活的代码易于修改和扩展. 2.kaldi在ubuntu下的简单配置 假设已经安装了git,在此基础上,使用git去安装kaldi-trunk,因为这个版本时常更新,并且简单安装. git clone https://github.com/kaldi-asr/kald…
翻译:  https://arxiv.org/pdf/1811.07453.pdf ABSTRACT 开源软件的可用性在语音识别和深度学习的普及中发挥了重要作用.例如,Kaldi 现在是用于开发最先进的语音识别器的既定框架. PyTorch 用于使用 Python 语言构建神经网络,并且由于其简单性和灵活性,最近在机器学习社区中引起了极大的兴趣. PyTorch-Kaldi 项目旨在弥合这些流行工具包之间的差距,试图继承 Kaldi 的效率和 PyTorch 的灵活性. PyTorch-Kald…
参考   kaldi 的全部资料_v0.4 cmd.sh 脚本为: 可以很清楚的看到有 3 个分类分别对应 a,b,c.a 和 b 都是集群上去运行这个样子, c 就是我们需要的.我们在虚拟机上运行的.你需要修改这个脚本 # "queue.pl" uses qsub. The options to it are # options to qsub. If you have GridEngine installed, # change this to a queue you have a…
目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型使用了应用较为广泛的递归循环网络中的GRU-CTC的组合,除此之外还引入了科大讯飞提出的DFCNN深度全序列卷积神经网络,也将引入阿里的架构DFSMN. 语言模型有传统n-gram模型和基于深度神经网络的CBHG网络结构,该结构是谷歌用于TTS任务中的tacotron系统,本文中将该系统部分结构移植…
在学习一门语言或者使用一个著名的开源工具时,搭建环境是非常重要的一步,在环境搭建的过程中往往要踩很多坑.昨天一不小心把电脑操作系统整坏了,搞了个通宵算是搞定了,把win10系统重装回win7,但之前搭建的环境都要重新来过.因为之前搭建也是各种查资料,不断试错,花了蛮久才把环境搭完,但忘记整理过程了,以至于又要再次查资料,试错,真是蠢.所以,总结经验教训,打算把搭建环境的关键过程简单整理一下,留以备用,未来学习新东西也要如此. 笔记本电脑环境:64 位win7系统 目前主要安装了python2.7…
在基于GMM-HMM的传统语音识别里,比音素(phone)更小的单位是状态(state).一般每个音素由三个状态组成,特殊的是静音(SIL)由五个状态组成.这里所说的状态就是指HMM里的隐藏的状态,而每帧数据就是指HMM里的观测值.每个状态可以用一个GMM模型表示(这个GMM模型的参数是通过训练得到的).在识别时把每帧数据对应的特征值放进每个状态的GMM里算概率,概率最大的那个就是这帧对应的状态.再从状态得到音素(HMM负责),从音素得到词(字典模型负责),从词得到句子(语言模型负责),最终完成…
学习语音识别有些时间了.老板要求我们基于Kaldi搭一个语音识别系统,在设备上通过MIC讲话,连着设备的PC的console上就能基本实时显示出讲话的内容.由于我们都是小白,刚开始可以要求低些,就用传统的GMM-HMM,能实现孤立词识别就算达标了,后面随着这方面能力的提高,再做更难一点的.任务下达后我根据之前对kaldi的简单理解把模块分成了三部分:数据准备和MFCC.GMM-HMM.解码网络创建和解码,由三个人每人负责一部分学习,掌握基本原理,搞清楚有哪些事情要做.在其他两个同学先挑了模块后就…
在基于DNN-HMM的语音识别中,DNN的作用跟GMM是一样的,即它是取代GMM的,具体作用是算特征值对每个三音素状态的概率,算出来哪个最大这个特征值就对应哪个状态.只不过以前是用GMM算的,现在用DNN算了.这是典型的多分类问题,所以输出层用的激活函数是softmax,损失函数用的是cross entropy(交叉熵).不用均方差做损失函数的原因是在分类问题上它是非凸函数,不能保证全局最优解(只有凸函数才能保证全局最优解).Kaldi中也支持DNN-HMM,它还依赖于上下文(context d…
语音识别简介 语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR).计算机语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT),其目标是以计算机自动将人类的语音内容转换为相应的文字. 按照不同纬度如下分类: 按词汇量(vocabulary)大小分类: 小词汇量:几十个词: 中等词汇量:几百个到上千个词 大词汇量:几…