aishell数据处理为thchs30格式

aishell数据格式对于用神经网络处理数据的同学来说比较不友善，因为他只有文字转录和音素级别的转录，并没有拼音的转录。
而thchs30由于有拼音标注的优势被很多同学用来训练神经网络声学模型，因此想通过一些简单的处理，将aishell也转化为方便易用的格式。

aishell数据转换格式
aishell数据转化方法

aishell数据转换格式

废话不多说，转化后数据格式和thchs相同，如下：

thchs30
- train.syllable.txt: A11_0 lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
- train.wav.lst: A11_0 data_thchs30/train/A11_0.wav
aishell
- train.syllable.txt: BAC009S0002W0122 er2 dui4 lou2 shi4 cheng2 jiao1 yi4 zhi4 zuo4 yong4 zui4 da4 de5 xian4 gou4
- train.wav.lst: BAC009S0002W0122 data_aishell/wav/train/S0002/BAC009S0002W0122.wav
  
  数据的标注和读取路径就和thchs30一样了，就能在thchs30的网络中，使用aishell的数据进行训练了。
  
  特别是一些用ctc训练神经网络的同学，就可以使用更多的数据训练了。

aishell数据转化方法

一言不合，直接粘贴。

该脚本和生成的数据也可以去我的GitHub上down下来，代码地址

# -----------------------------------------------------------------------------------------------------

'''

&usage:		aishell数据处理，将汉字处理为拼音，并生成thchs30的数据形式

@author:	hongwen sun

'''

# -----------------------------------------------------------------------------------------------------

from pypinyin import pinyin, lazy_pinyin, Style

import numpy as np

import re

# -----------------------------------------------------------------------------------------------------

'''

usage: 将aishell汉字标注转化为拼音

env: pip install pypinyin

'''

# -----------------------------------------------------------------------------------------------------

def trans_aishell_to_pinyin(word_path, pinyin_path):

	# 需要转换为拼音的中文汉字路径

	textobj = open(word_path, 'r+', encoding='UTF-8')

	# 转化为拼音后的保存txt路径

	savefile = open(pinyin_path, 'w+', encoding='UTF-8')

	# 对aishell进行文本数据处理

	for x in textobj.readlines():

		textlabel = x.strip('\n')

		textlabel = textlabel.split(' ')

		x = pinyin(textlabel,style=Style.TONE3)

		str2 = ''

		for i in x:

			str1 = " ".join(i)

			if (re.search(r'\d',str1)):

				pass

			else:

				str1 += '5'

			str2 = str2 + str1 + ' '

		str2 = str2[:-1]

		# 保存生成的数据

		savefile.write(str2 + "\n")

# -----------------------------------------------------------------------------------------------------

'''

usage: 生成train, dev, test的音频文件列表

'''

# -----------------------------------------------------------------------------------------------------

import os

def gen_wavlist(wavpath,savefile):

	fileids = []

	fileObject = open(savefile, 'w+', encoding='UTF-8')

	for (dirpath, dirnames, filenames) in os.walk(wavpath):

		for filename in filenames:

			if filename.endswith('.wav'):

				str1 =  ''

				filepath = os.sep.join([dirpath, filename])

				fileid = filename.strip('.wav')

				str1 = fileid + ' ' + filepath

				fileObject.write(str1 + '\n')

	fileObject.close()

# -----------------------------------------------------------------------------------------------------

'''

usage: 生成train, dev, test的音频文件对应的标注文件

'''

# -----------------------------------------------------------------------------------------------------

def gen_label(readfile,writefile):

	fileids = []

	content_dict = {}

	allfile = open('aishell_transcript.txt','r+', encoding='UTF-8')

	for textlabel in allfile.readlines():

		textlabel = textlabel.strip('\n')

		textlabel_id = textlabel.split(' ',1)[0]

		textlabel_text = textlabel.split(' ',1)[1]

		content_dict[textlabel_id] = textlabel_text

	listobj = open(readfile, 'r+', encoding='UTF-8')

	labelobj = open(writefile, 'w+', encoding='UTF-8')

	for content in listobj.readlines():

		label = ''

		content = content.strip('\n')

		content_id = content.split(' ',1)[0]

		if content_id in content_dict:

			content_text = content_dict[content_id]

			label = content_id + ' ' + content_text

			labelobj.write(label+'\n')

	labelobj.close()

	allfile.close()

	listobj.close()

# -----------------------------------------------------------------------------------------------------

'''

usage: 修正train, dev, test的音频文件列表，将标注中不存在的文件删除

'''

# -----------------------------------------------------------------------------------------------------

def fix_list(listfile,labelfile):

	fileids = []

	content_dict = {}

	allfile = open(listfile,'r+', encoding='UTF-8')

	for textlabel in allfile.readlines():

		textlabel = textlabel.strip('\n')

		textlabel_id = textlabel.split(' ',1)[0]

		textlabel_text = textlabel.split(' ',1)[1]

		content_dict[textlabel_id] = textlabel_text

	allfile.truncate()

	allfile.close()

	labelobj = open(labelfile, 'r+', encoding='UTF-8')

	listobj = open(listfile, 'w+', encoding='UTF-8')

	for content in labelobj.readlines():

		label = ''

		content = content.strip('\n')

		content_id = content.split(' ',1)[0]

		content_text = content_dict[content_id]

		label = content_id + ' ' + content_text

		listobj.write(label+'\n')

	labelobj.close()

	listobj.close()

# 将汉字标注化为拼音标注

# 在data_aishell同级目录下运行该脚本。

trans_aishell_to_pinyin('E:\\aishell_transcript_v0.8.txt', 'E:\\aishell_transcript1.txt')

# 生成train, dev, test的音频文件列表

gen_wavlist('data_aishell/wav/train','train.wav.lst')

gen_wavlist('data_aishell/wav/test','test.wav.lst')

gen_wavlist('data_aishell/wav/dev','dev.wav.lst')

# 生成train, dev, test的音频文件对应的标注文件

gen_label('train.wav.lst', 'train.syllable.txt')

gen_label('test.wav.lst', 'test.syllable.txt')

gen_label('dev.wav.lst', 'dev.syllable.txt')

# 修正train, dev, test的音频文件列表，将标注中不存在的文件删除

fix_list('train.wav.lst', 'train.syllable.txt')

fix_list('test.wav.lst', 'test.syllable.txt')

fix_list('dev.wav.lst', 'dev.syllable.txt')

通过这个方法将得到和thchs30相同的数据格式，可以用这个变换方法将其他的中文数据都整合成统一格式，就可以增加训练的数据集啦。

当然这也是我的抛转引玉，希望大家也能有更多的方法将不同的数据集给整合起来。

转载请注明出处：hongwen 的博客

aishell数据处理为thchs30格式的更多相关文章

数据处理 array json 格式转换成数组形式
处理这种数据应该使用的方式是 this.cities= res.data.data.cities.sort((a,b)=>{ //排序进行字母排序 return a.pinyin[0].cha ...
GRU-CTC中文语音识别
目录基于keras的中文语音识别音频文件特征提取文本数据处理数据格式处理构建模型模型训练及解码 aishell数据转化该项目github地址基于keras的中文语音识别该项目实现了G ...
最新中国IP段获取办法与转成ROS导入格式
获取中国IP段办法 1.到APNIC获取亚太最新IP分配 http://ftp.apnic.net/apnic/stats/apnic/delegated-apnic-latest 2 ...
非图片格式如何转成lmdb格式--caffe
链接 LMDB is the database of choice when using Caffe with large datasets. This is a tutorial of how to ...
JSON（及其在ajax前后端交互的过程）小识
一. json介绍 json是一种轻量级的数据交换格式,规则很简单: 并列的数据之间用逗号(,)分隔: 映射用冒号(:)表示: 并列数据的集合(数组)用方括号([])表示: 映射的集合(对象)用大括号 ...
如何处理json数据
1. 前台处理方式之一: ★jQuery.parseJSON(json) var parsej = $.parseJSON(data); ...
Caffe使用：如何将一维数据或其他非图像数据转换成lmdb
caffe事儿真多,数据必须得lmdb或者leveldb什么的才行,如果数据是图片的话,那用caffe自带的convert_image.cpp就行,但如果不是图片,就得自己写程序了.我也不是计算机专业 ...
JavaScript脚本语言基础（四）
导读: JavaScript和DOM DOM文档对象常用方法和属性 DOW文档对象运用 JSON数据交换格式正则表达式 1.JavaScript和DOM [返回] 文档对象模型(Document O ...
RTMP协议
Real Time Messaging Protocol(实时消息传送协议协议)概述实时消息传送协议是Adobe Systems公司为Flash播放器和服务器之间音频.视频和数据传输开发的私有协 ...

随机推荐

Linux基础（03）、常用基础指令和操作
目录一.什么是Linux 二.常用基础指令 2.1.vi编辑 2.2.Linux文件类型 2.3.常用指令:增.删.改.查.其他三.Linux的目录和权限 3.1.目录 3.2.权限 3.3.修改 ...
增强for循环和迭代器
package example6; import java.util.ArrayList;import java.util.Iterator;import java.util.List; class ...
文件后缀与Mime类型对照表
以下是一些文件后缀(扩展名)对应的MIME类型的一个对照表,方便iis中或其他服务器对相应的文件进行解析.有些文件的后缀名没有默认解析就出现上传后无法访问或者下载的问题,这个时候就要设置文件后缀对应的 ...
Linux大文件split分割以及cat合并
文件大小分割文件时,需要以-C参数指定分割后的文件大小: $ split -C 100M large_file.txt stxt 如上所示,我们将大文件large_file.txt按100M大小进 ...
VIM 键
输入 vimtutor命令,可以打开Linux使用手册(基本使用). ***. 插入键: A: 行尾插入 a: 字符后面插入 i: 字符前面插入 I: 行首插入 r:只替换一次字符 R:一直替换,直 ...
使用java实现AES加密
公司最近做agent项目,需要对一些远程重要的请求参数进行加密.加密之前选型,选择了AES,而DES算法加密,容易被破解.网上有很多关于加密的算法的Demo案列,我发现这些Demo在Window平台运 ...
AtCoder Regular Contest 098 F.Donation
传送门首先,对于一个点i,进入这个点前必须大于等于Ai,每个点必须捐赠Bi 那么我们可以在每个点最后一次经过的时候再捐赠,这样显然更优现在我们假设每个点都是最后一次经过的时候捐赠.现在我们把捐赠的 ...
java 第七章面向对象高级特性
一.类的继承 (一)继承的含义 1.在Java中定义一个类时,让该类通过关键字extends继承一个已有的类,这就是类的继承(泛化). 2.被继承的类称为父类(超类,基类),新的类称为子类(派生类). ...
canvas画的文字在安卓移动设备上可以显示，但是在ios移动设备上无法显示
不用担心iOS Safari不支持canvas,查看https://caniuse.com/ 发现是支持的 ctx.font = "0.16rem Arial"; 为了适配移动端直 ...
create a nodejs npm package
1. create a folder named m1 2. run command: npm init, this will create the package.json file 3. crea ...

aishell数据处理为thchs30格式

aishell数据转换格式

aishell数据转化方法

aishell数据处理为thchs30格式的更多相关文章

随机推荐

热门专题