最近在学习pyttsx时,发现中文阅读一直都识别错误,从发音来看应该是字符编码问题,但搜索之后并未发现解决方案.自己一路摸索解决,虽说最终的原因非常可笑,大牛们可能也是一眼就能洞穿,但也值得记录一下.嗯,主要并不在于解决之道,而是探究之旅. 1.版本(python2中谈编码解码问题不说版本都是耍流氓) python:2.7 pyttsx:1.2 OS:windows10中文版 2.系统的各种字符编码 sys.getdefaultencoding() ascii sys.getfilesystem…
目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型使用了应用较为广泛的递归循环网络中的GRU-CTC的组合,除此之外还引入了科大讯飞提出的DFCNN深度全序列卷积神经网络,也将引入阿里的架构DFSMN. 语言模型有传统n-gram模型和基于深度神经网络的CBHG网络结构,该结构是谷歌用于TTS任务中的tacotron系统,本文中将该系统部分结构移植…
目录 基于keras的中文语音识别 音频文件特征提取 文本数据处理 数据格式处理 构建模型 模型训练及解码 aishell数据转化 该项目github地址 基于keras的中文语音识别 该项目实现了GRU-CTC中文语音识别,所有代码都在gru_ctc_am.py中,包括: 音频文件特征提取 文本数据处理 数据格式处理 构建模型 模型训练及解码 之外还包括将aishell数据处理为thchs30数据格式,合并数据进行训练.代码及数据放在gen_aishell_data中. 默认数据集为thchs…
操作系统:Windows10 Python版本:3.9.2 vosk是一个离线开源语音识别工具,它可以识别16种语言,包括中文. 这里记录下使用vosk进行中文识别的过程,以便后续查阅. vosk地址:https://alphacephei.com/vosk/ 使用vosk-server进行语音识别 使用docker启动vosk服务 1.获取vosk [root@host32 ~]# docker search alphacep NAME DESCRIPTION STARS OFFICIAL A…
Android Camera探究之路--起步 Camera在手机中有着举足轻重的地位,无论是二维码还是照片.识别.都离不开摄像头,本文将对Android中的Camera进行全面解析. 权限镇楼: <uses-permission android:name="android.permission.CAMERA"/> <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE&…
下面是API类 Asr.cs using System; using System.Collections; using System.Collections.Generic; using UnityEngine; /// <summary> /// 用户解析token的json数据 /// </summary> class TokenResponse { public string access_token = null; } public class Asr { public…
前言 在Spring Security介绍中,我们分析到了根据请求获取匹配的SecurityFilterChain,这个类中包含了一组Filter 接下来我们从这些Filter开始探究之旅 Spring Security Filter简介 AuthenticationFilter中的attemptAuthentication方法调用AuthenticationManager(interface)的authenticate方法,AuthenticationManager的实际是现实ProvideM…
操作kafka之前,要先启动安装好的zk ,因为kafka的数据都保存在zk中,zk相当于是kafka的数据库吧. 安装的zk kafka 一定要按照书上,网上的教程,将相应的配置文件全部改成自己的,端口号,ip地址,文件目录都要一一确认无误 在后台启动kafka ./kafka-server-start.sh -daemon ../config/server.properties关闭kafkakafka-server-stop.sh Kafka服务关闭失败 No kafka server to…
1.框架与工作流 2 内部结构 kafka的每个主题分区的数据在 first-0(主题名-分区号)文件夹下,保存 n组xxx.log文件与xxx.index文件.log文件存发送消息的元数据,每个大小默认为1G,index为log的索引存这些消息的序号与起始地址.index每个索引大小一样,这样硬件寻址的时候,可以跳跃(n-1)*length个地址,找到第n条数据的信息,查起来很快!  3 分区的接口方法与含义  4  ACK与ISR ACK: 生产者给kakfa集群发送消息后,kafka会给生…
最近的生活.学习节奏很是容易被打断,终于,在今天,既实习结束之后,夏令营也结束了. 前几天,一个人在复习地很累的时候,又重新将Python捡了起来,看了挺多的知识点. 真是太有意(wu)思(liao)了! 环境准备 1️⃣ python2.* 或 python3.* 2️⃣ 安装pywin32扩展库 3️⃣ 安装speech模块 安装Python 2/3 安装Python2还是Python3的选择上,我个人是推荐两个都装上,在某些地方用的时候稍微多个切换环境变量的步骤而已.当然了,我觉得就目前P…