本文记录,作为项目主要负责人,完整参与语音识别项目的交付历程。

2019年12月中旬

接到项目交付任务,收集基本知识,启动业务分析工作。

2020年1月

完成竞品分析的整理。

梳理合作伙伴的清单,整理项目计划,启动和各合作伙伴的沟通工作。

启动架构方案、设计方案的准备工作。

2020年2月

和合作伙伴A谈好合作方案,基于云云对接的方式,启动项目交付工作。

架构设计、方案设计(文件转写)完成文档的输出和评审。

月底,支持短文件转写(即时长在60秒以内的语音文件)的服务,在生产环境顺利上线。

按照部门要求,后续按照月度版本的方式组织交付,即月初启动交付,月底完成版本发布和生产环境的变更。

本月版本交付的内容:

  • 短文件转写(即时长在60秒以内的语音文件)的服务。
  • 支持中文的识别。

2020年3月

基于云云对接的方式,支持长文件转写(即时长大于60秒,小于5小时的语音文件)的服务,在生产环境顺利上线。

端侧SDK的第一个版本,完成功能联调。

为支持端侧SDK的瘦身方案,本月启动了一个调测版本的开发工作。

本月版本交付的内容:

  • 支持长文件转写(即时长大于60秒,小于5小时的语音文件)的服务。
  • 输出运维数据。

2020年4月

支持端侧SDK的瘦身方案的版本,本月月底完成开发和交付,并在生产环境顺利上线。

基于集成模型的方式,在生产环境顺利上线如下服务:

  • 支持短文件转写(即时长在60秒以内的语音文件)的服务。
  • 支持实时语音识别(即时长在60秒以内的语音文件)的服务。

本月版本交付的内容:

  • 短文件转写(即时长在60秒以内的语音文件)的服务。
  • 实时语音识别的服务,支持时长在60秒以内。
  • 支持中文、英语的识别。
  • 集成业务运维系统。
  • 集成客户支撑系统。
  • 构建业务流量控制方案。
  • 完善运维数据。

2020年5月

本月版本交付的内容:

  • 例行更新语音识别的模型:

    • 更新中文的模型。
    • 更新英语的模型。
  • 扩充语种,增加对法语的支持。
  • 完善前处理阶段:
    • 支持重采样。
    • 支持多种音频格式,PCM、AAC、AMR。
  • 新增后处理阶段:
    • 支持数字格式归一化,支持中文、英语。
    • 支持标点符号,基于静音时长的规则。
    • 支持大小写,基于规则。
  • 完善运维数据。

2020年6月

本月版本交付的内容:

  • 例行更新语音识别的模型:

    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善后处理阶段:
    • 数字格式归一化,完善中文、英语对特定领域比如计算机、物理等词汇的支持。
  • 完善短文件转写服务:
    • 增加文本的时间偏移的特性。
    • 支持基于URL的方式,加载语音数据文件。

2020年7月

本月版本交付的内容:

  • 例行更新语音识别的模型:

    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善后处理阶段:
    • 数字格式归一化,增加法语的支持。
  • 完善运维能力,把一些复杂的配置项,通过运维系统来管理。

基于云云对接的方案,和合作伙伴B启动集成工作。

由于组织架构调整,项目人力有比较重大的调整,开发团队中的骨干开发人员离开项目,我变成了光标司令。

还好算法团队、测试团队仍然完整,并且战斗力很强。

2020年8月

基于集成模型的方式,在生产环境顺利上线如下服务:

  • 支持长文件转写(即时长在60秒以上,5小时以内的语音文件)的服务。
  • 支持实时语音识别(即时长在60秒以上,5小时以内的语音文件)的服务。

本月版本交付的内容:

  • 例行更新语音识别的模型:

    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 长文件转写服务。
  • 实时语音长时间识别服务。
  • 完善后处理:
    • 基于机器学习模型的方式支持标点符号特性。
    • 基于机器学习模型的方式支持大小写特性。
  • 基于合作伙伴B的能力,支持实时语音识别(时长小于60秒),支持4个小语种。

2020年9月

本版本的交付内容,合并至10月版本一并上线。

2020年10月

本月版本交付的内容:

  • 例行更新语音识别的模型:

    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行标点符号的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行更新大小写的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善文本时间偏移的实现,解决各种场景下不准确、不对齐的问题。
  • 完善系统的可靠性,解决各种奇怪的内存、死锁类的问题。
  • 完善运维系统。
    • 并发路数的分配和管理。
  • 使用逻辑集群的方式支持现有的4款产品,各产品支持独立扩容。
  • 优化文件转写的效率,降低端到端处理时延。

2020年11月

本月版本交付的内容:

  • 例行更新语音识别的模型:

    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行标点符号的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行更新大小写的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善系统的可靠性,解决时序不对齐导致的底层识别会话无法释放的问题。

2020年12月

本月版本交付的内容:

  • 扩充语种,支持西班牙语。

    • 集成语音识别的模型。
    • 集成标点符号的模型。
    • 集成大小写的模型。
    • 增加数字归一化。
  • 完善前处理阶段:
    • 扩充支持音频格式,增加speex。

启动项目交接,语音识别的项目进入维护状态。

2021年1月

正式离开项目。

总结

前期需求交付的路标规划不完整,因此对于人力的诉求,没有明确的估计,导致项目整个交付过程中,受限于人力,进度压力很大,加班很多,项目成员均有怨言。这是后续独立负责项目交付时的一个比较大的改进点。

ASR项目实战-项目交付历程的更多相关文章

  1. 前端开发工程师 - 06.Mini项目实战 - 项目简介

    第6章--Mini项目实战 项目简介 Mini项目简介-Ego社区开发 回顾: 页面制作 页面架构 JavaScript程序设计 DOM编程艺术 产品前端架构 实践课Mini项目--Ego: 主题:漫 ...

  2. 彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-项目入口与路由EP01

    书接上回,我们已经安装好Iris框架,并且构建好了Iris项目,同时配置了fresh自动监控项目的实时编译,万事俱备,只欠东风,彩虹女神蓄势待发.现在我们来看看Iris的基础功能,如何编写项目入口文件 ...

  3. Ant Design Vue Pro 项目实战-项目初始化(一)

    写在前面 时间真快,转眼又是新的一年.随着前后端技术的不断更新迭代,尤其是前端,在目前前后端分离开发模式这样的一个大环境下,交互性.兼容性等传统的开发模式已经显得有些吃力.之前一直用的是react,随 ...

  4. ASP.NET Core 系列视频完结,新项目实战课程发布。

    今天把MVC的章节完成了,给大家从头到尾做了一个登录注册的示例,带前后端Model验证,算是完整的示例.同时借助于eShopOnContainers的示例也做了一个DBContextSeed的包装器来 ...

  5. Asp.Net Core 2.0 项目实战(9) 日志记录,基于Nlog或Microsoft.Extensions.Logging的实现及调用实例

    本文目录 1. Net下日志记录 2. NLog的使用     2.1 添加nuget引用NLog.Web.AspNetCore     2.2 配置文件设置     2.3 依赖配置及调用     ...

  6. net core体系-web应用程序-4asp.net core2.0 项目实战(1)-11项目日志解决方案

    本文目录1. Net下日志记录2. NLog的使用    2.1 添加nuget引用NLog.Web.AspNetCore    2.2 配置文件设置    2.3 依赖配置及调用    2.4 日志 ...

  7. selenium(12)-web UI自动化项目实战(PO模式,代码封装)

    web UI自动化项目实战-项目 项目使用禅道,所以你需要搭建1个禅道,搭建禅道的方法和步骤见 https://www.cnblogs.com/xinhua19/p/13151296.html 搭建U ...

  8. 云计算Docker全面项目实战(Maven+Jenkins、日志管理ELK、WordPress博客镜像)

    2013年,云计算领域从此多了一个名词“Docker”.以轻量著称,更好的去解决应用打包和部署.之前我们一直在构建Iaas,但通过Iaas去实现统一功  能还是相当复杂得,并且维护复杂.将特殊性封装到 ...

  9. 如何用ABP框架快速完成项目(面向项目交付编程面向客户编程篇)(1) - 目录

    昨天发表了<如何用ABP框架快速完成项目 - 自动化测试 - 前端angular e2e protractor>后,大家十分热情,几个小时内就收到了不少问题,包括: 对于ui自动化测试这方 ...

  10. Python+Django+ansible playbook自动化运维项目实战☝☝☝

    Python+Django+ansible playbook自动化运维项目实战☝☝☝  一.入门引导 DevOPSDevOps(英文Development和Operations的组合)是一组过程.方法 ...

随机推荐

  1. HTML一键打包IPA(苹果IOS应用)工具 网站打包 APP

    工具简介 HTML一键打包IPA(苹果应用)工具可以把本地HTML项目或者网站打包为一个苹果应用IPA文件,无需编写任何代码,支持在苹果设备上安装运行. 该软件已经被GDB苹果网页一键打包工具取代,详 ...

  2. 圆柱坐标系(Cylindrical Coordinate System)

    参考:维基百科 圆柱坐标系(英语:cylindrical coordinate system)是一种三维坐标系统.它是二维极坐标系往 z-轴的延伸.添加的第三个坐标 \(z\) 专门用来表示 P 点离 ...

  3. c语言代码练习3改进

    #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> int main() { int x = 0; printf("请输入一 ...

  4. 如何使用Python将PDF转为图片

    将PDF转为图片能方便我们将文档内容上传至社交媒体平台进行分享.此外,转换为图片后,还可以对图像进行进一步的裁剪.调整大小或添加标记等操作. 用Python将PDF文件转JPG/ PNG图片可能是大家 ...

  5. 实战攻防演练-WinRar压缩包创建自解压木马

    前言 在攻防演练中,钓鱼攻击通常采用社会工程学手段,通过伪装成可信的来源,引导用户点击恶意链接或下载恶意文件,进而实现攻击.而使用压缩包自解压技术可以在一定程度上提高攻击成功率.其中包含的自解压木马就 ...

  6. JUC并发编程学习笔记(十)线程池(重点)

    线程池(重点) 线程池:三大方法.七大参数.四种拒绝策略 池化技术 程序的运行,本质:占用系统的资源!优化资源的使用!-> 池化技术(线程池.连接池.对象池......):创建和销毁十分消耗资源 ...

  7. Linux下redis的安装下载以及连接RESP

    一.环境 Centos7.redis-6.2.6.gcc依赖.管理员权限 将防火墙放通6379/tcp端口或直接关闭防火墙 二.安装具体步骤 1. 安装依赖 redis是由C语言开发,因此安装之前必须 ...

  8. FP-Growth算法全解析:理论基础与实战指导

    本篇博客全面探讨了FP-Growth算法,从基础原理到实际应用和代码实现.我们深入剖析了该算法的优缺点,并通过Python示例展示了如何进行频繁项集挖掘. 关注TechLead,分享AI全维度知识.作 ...

  9. Spring Cloud 整合

    前言 玩SpringCloud之前最好懂SpringBoot,别搞撑死骆驼的事.Servlet整一下变成Spring:SSM封装.加入东西就变为SpringBoot:SpringBoot再封装.加入东 ...

  10. Kepware楼宇自控BACnet/IP驱动

    BACnet/IP驱动是楼宇自动化设备驱动的集合,为用户提供一种方便快捷的楼宇自动化设备数采解决方案.只需要通过简单的配置就可以将常见的BACnet/IP协议设备无缝连接到 HMI/SCADA.MES ...