本文深入探讨语音识别处理环节。

本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。

语音识别

业界流派众多,比如Kaldi、端到端等,具体选择哪一种,需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等,作出相对合理的交付规划。

基于Kaldi的方案,优点在于其发挥稳定,缺点是使用难度比较高,学习曲线比较陡峭,具备使用经验的算法工程师相对比较稀缺。

端到端方案,业界主要基于Google在17年左右发布的文章作为研究、试验的输入,使用Tensorflow或者Pytorch作为训练、工程化的平台,算法工程师的可获得性比较好,但想要获取比较好的效果,仍需要付出相当的努力。

VAD

通常情况下,可以假定人在讲话时,已经结束的句子对于后续语音数据的识别,影响相对比较小。

依据前述假定,可以通过使用VAD有效划分语音识别会话,避免在识别过程中缓存过多的数据,改善语音识别的效率,降低实现的难度,降低对硬件资源的占用情况。

另外可以基于VAD实现断句,即依据前述假定:

  • 对于10秒以内的语音数据,语音识别过程中的断句可以忽略不考虑,此时可以完全不实现断句。
  • 对于超出10秒的语音数据,需要考虑实现断句。

热词

顾名思义,热词的作用在于提示语音识别系统,帮助语音识别系统输出相对靠谱的识别结果。

比如台州和泰州,在标准普通话中,二者发音接近,仅音调存在差异,考虑到口音和发音习惯的影响,假如听众不结合对话的上下文,可能无法正确有效的识别出具体的结果。

对于语音识别系统而言,假如事先给定台州作为热词,则在遇到类似发音时,在输出结果中使用台州,则可以有效改善识别结果的准确性。

实现热词时,可以有不同的选择。

从产品的角度,可以热词作为系统级和会话级。

  • 系统级热词,语音识别系统在启动时加载相关数据。
  • 会话级热词,用户在调用接口时,传入本次会话中可能使用到的热词。

从加载数据的时机,语音识别系统可以考虑提供静态或者动态的支持。

  • 静态,即将热词作为语言模型的一部分,在语音识别过程中固定增加一个环节,用于使用相关数据来校正语音识别的结果。
  • 动态,与静态类似,同样需要在语音识别过程中增加固定环节,用于使用这部分数据来校正语音识别的结果。

对前述方案进行组合,对比各实现:

  • 系统级热词和静态加载

    优点是实现比较简单,缺点是更新热词的模型时,需要重启语音识别系统,在重启过程中将无法对外部提供服务。

  • 系统级热词和动态加载

    实现复杂度有所上升。在更新热词的模型时,考虑到为了保障业务不中断,可能需要保留两个模型的数据,并且隔离相关请求的处理,这增加了实现的复杂度,同时增加了对硬件资源的消耗。

  • 会话级热词和静态加载

    假如用户请求中包含热词,则使用热词对应的模型来改善识别结果;假如用户提供的热词超出了系统已加载模型可支持的范围,则无法支持。

  • 会话级热词和动态加载

    优点是功能最灵活。缺点是实现复杂度最高,增加了对硬件资源的占用,并且增加了处理时延。

不过目前没有看到比较优雅、高效的实现,比较遗憾。

文本的时间偏移

本特性作为语音识别环节的副产品输出,但重要性非常高,可以有效支撑标点符号、大小写等特性的实现,满足字幕相关业务的交付。

基于Kaldi实现的语音识别引擎,声学模型+发音词典+语言模型,实现思路如下:

将语音数据送入识别引擎,引擎除输出识别得到的文本,同时可以得到音素的列表,以及各音素在音频数据中出现的时间偏移量,此时结合文字或者单词和音素之间的映射关系,即可推算出文字或者单词出现在语音数据中的时间偏移量。

本方案比较简单,实现的难度不大,同时对性能、硬件资源的消耗比较小。

不过对于发音词典有要求,一要数据全面,二要标记准确。

不过考虑到人在讲话时,某些字或者单词的发音中可能出现无意义的重复音,这可能导致从音素序列还原为文字或者单词时出现匹配失败的现象,进而导致文本时间偏移的输出的结果不准确,或者完全失败。

讲话人的识别

一般情况下,一段语音数据中存在多人讲话的场景还是比较多的,比如会话录音、公开课、电话录音等。

在语音识别领域,本特性是一个比较复杂的话题。实际应用时,本特性并不是一个必需的特性。比如可以通过人工处理语音识别的结果,结合录音数据,将不同的人的文本区分开。但假如语音识别结果可以提供必要的辅助信息,无疑将改善后期人工投入的工作量。

从人的发音特征上来说,不同人讲话的声音具备一定的唯一性,业界称之为声纹,业界已经有产品利用这一特点,交付比如考勤系统、门禁系统等应用,支撑特定行业的应用。

基于前述理论基础,在语音识别过程中,可以基于时间,将输入的语音数据切割为等分的时间段,使用机器学习的方式,为每个时间段打上标签,结合语音识别结果中的时间偏移的信息,将不同的文本打上各自讲话人的标签。

由于本特性当前没有实际商用的场景,因此暂未在项目中实践前述想法。

ASR项目实战-语音识别的更多相关文章

  1. Asp.Net Core 项目实战之权限管理系统(4) 依赖注入、仓储、服务的多项目分层实现

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  2. 给缺少Python项目实战经验的人

    我们在学习过程中最容易犯的一个错误就是:看的多动手的少,特别是对于一些项目的开发学习就更少了! 没有一个完整的项目开发过程,是不会对整个开发流程以及理论知识有牢固的认知的,对于怎样将所学的理论知识应用 ...

  3. 【腾讯Bugly干货分享】React Native项目实战总结

    本文来自于腾讯bugly开发者社区,非经作者同意,请勿转载,原文地址:http://dev.qq.com/topic/577e16a7640ad7b4682c64a7 “8小时内拼工作,8小时外拼成长 ...

  4. Asp.Net Core 项目实战之权限管理系统(0) 无中生有

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  5. Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  6. Asp.Net Core 项目实战之权限管理系统(2) 功能及实体设计

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  7. Asp.Net Core 项目实战之权限管理系统(3) 通过EntityFramework Core使用PostgreSQL

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  8. Asp.Net Core 项目实战之权限管理系统(5) 用户登录

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  9. Asp.Net Core 项目实战之权限管理系统(6) 功能管理

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

  10. Asp.Net Core 项目实战之权限管理系统(7) 组织机构、角色、用户权限

    0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...

随机推荐

  1. 云上的甜蜜早安:腾讯云云函数助力PHP打造女友专属每日推送

    用腾讯云的云函数做一个微信公众号早安,每天定时发送早安给你的女朋友! 1.首先我们登录腾讯云,在搜索栏搜索云函数,或直接用这个链接进入curl.qcloud.com/Td0IkpmD 2.进入云函数, ...

  2. MySQL系列之——索引作用、索引的种类、B树、聚簇索引构建B树、辅助索引(S)构建B+树、辅助索引细分、索引树的高度、索引的基本管理、执行计划获取及分析、索引应用规范、优化器针对索引、问题汇总

    文章目录 一 索引作用 二 索引的种类(算法) 三 B树 基于不同的查找算法分类介绍 B 树 B+树 B*树 四 在功能上的分类 4.1 聚簇索引构建B树(簇就是区) 4.1.1 前提 4.1.2 作 ...

  3. Lucky Array 题解

    Lucky Array 题目大意 维护一个序列,支持以下操作: 区间加一个大于 \(0\) 的数. 区间查询有多少个数位上只包含 \(4\) 或 \(7\) 的数. 思路分析 看起来很不可做,但考虑到 ...

  4. DRTREE - Dynamically-Rooted Tree 题解

    DRTREE - Dynamically-Rooted Tree 本题建议评蓝. 思路: 题目就是要对一颗不定根树求子树权值和. 这题不带修,如果带修难度会增加一点,就跟 遥远的国度 差不多. 首先分 ...

  5. React项目中webpack的配置过程

    初始化一个web项目 使用npm init -y 初始化一个项目 在项目目录下创建src, dist文件夹,创建webpack.config.js配置文件 然后在src文件夹下创建index.js, ...

  6. 浅析 C# Console 控制台为什么也会卡死

    一:背景 1. 讲故事 在分析旅程中,总会有几例控制台的意外卡死导致的生产事故,有经验的朋友都知道,控制台卡死一般是动了 快速编辑窗口 的缘故,截图如下: 虽然知道缘由,但一直没有时间探究底层原理,市 ...

  7. Splay 详细图解 & 轻量级代码实现

    学 LCT 发现有点记不得 Splay 怎么写,又实在不知道这篇博客当时写了些什么东西(分段粘代码?),决定推倒重写. 好像高一学弟也在学平衡树,但相信大家都比樱雪喵强,都能一遍学会!/kel 写在前 ...

  8. 🔥🔥面试官:你会如何设计QQ中的网络协议?

    引言 在设计QQ这道面试题时,我们需要避免进入面试误区.这意味着我们不应该盲目地开展头脑风暴,提出一些不切实际的想法,因为这些想法可能无法经受面试官的深入追问.因此,我们需要站在前人的基础上,思考如何 ...

  9. Java多线程消费消息

    多线程消费消息 关键词:Java,多线程,消息队列,rocketmq 多线程一个用例之一就是消息的快速消费,比如我们有一个消息队列我们希望以更快的速度消费消息,假如我们用的是rocketmq,我们从中 ...

  10. GPTs 初体验 - 1 分钟就能创建一个自己的 ChatGPT?

    就在 11.10 号早上,ChatGPT 已经偷摸的把GPTs功能,开放给所有尊贵的 Plus 用户了. 随着这波的功能开放,界面也是改了不少.点击左侧的 Explore 或者左下角的用户处,就可以直 ...