记一次语音合成遇到的坑:PCM音频流转WAV
- 需求内容:
预合成音:支持将固定音合成并完成上传操作
- 解决思路: - 调用公有云识别引擎,获取识别引擎合成的音频流,
- 然后将音频流转成wav文件,
- 最后将文件上传到oss服务器上。
 
- 遇到的问题 - 问题主要在于,拿到了引擎给的base64的音频流,将音频流用base64解码转成byte[]数组后写入wav格式文件内,但是这个文件始终无法播放。 
- 排坑过程 - 刚开始一直以为是base64解码有问题,换了多种base64工具解码,还是无法播放; 
 然后找到了
 文件Base64在线编码和解码工具
 这个网站对我生成的文件进行base64编码,再和从引擎获取到的base64对比,发现是一致的,可排除base64解码问题。- 这个花了很长时间去排查,还是未解决。 - 最后请教了识别引擎的研发人员,最终才知道。引擎的返回的是PCM音频流。PCM只是单纯的一个文件流。播放器要想播放,你需要告诉播放器这个文件流是什么采样率的是8bit还是16bit的一共多长。 - pcm流需要专门的软件播放。 - 我是用WAV格式研究PCM流。两个文件只差了一个文件头。 - 最后附上pcm转wav格式的工具类: 
import java.io.FileInputStream;
import java.io.FileOutputStream;
public class Pcm2WavUtils {
    public static void convertAudioFiles(String src, String target) throws Exception {
        FileInputStream fis = new FileInputStream(src);
        FileOutputStream fos = new FileOutputStream(target);
        //计算长度
        byte[] buf = new byte[1024 * 4];
        int size = fis.read(buf);
        int PCMSize = 0;
        while (size != -1) {
            PCMSize += size;
            size = fis.read(buf);
        }
        fis.close();
        //填入参数,比特率等等。这里用的是16位单声道 8000 hz
        WaveHeader header = new WaveHeader();
        //长度字段 = 内容的大小(PCMSize) + 头部字段的大小(不包括前面4字节的标识符RIFF以及fileLength本身的4字节)
        header.fileLength = PCMSize + (44 - 8);
        header.FmtHdrLeth = 16;
        header.BitsPerSample = 16;
        header.Channels = 1;
        header.FormatTag = 0x0001;
        header.SamplesPerSec = 8000;
        header.BlockAlign = (short)(header.Channels * header.BitsPerSample / 8);
        header.AvgBytesPerSec = header.BlockAlign * header.SamplesPerSec;
        header.DataHdrLeth = PCMSize;
        byte[] h = header.getHeader();
        assert h.length == 44; //WAV标准,头部应该是44字节
        //write header
        fos.write(h, 0, h.length);
        //write data stream
        fis = new FileInputStream(src);
        size = fis.read(buf);
        while (size != -1) {
            fos.write(buf, 0, size);
            size = fis.read(buf);
        }
        fis.close();
        fos.close();
    }
}
文件头:WaveHeader
import java.io.ByteArrayOutputStream;
import java.io.IOException;
public class WaveHeader {
	public final char fileID[] = { 'R', 'I', 'F', 'F' };
	public int fileLength;
	public char wavTag[] = { 'W', 'A', 'V', 'E' };;
	public char FmtHdrID[] = { 'f', 'm', 't', ' ' };
	public int FmtHdrLeth;
	public short FormatTag;
	public short Channels;
	public int SamplesPerSec;
	public int AvgBytesPerSec;
	public short BlockAlign;
	public short BitsPerSample;
	public char DataHdrID[] = { 'd', 'a', 't', 'a' };
	public int DataHdrLeth;
	public byte[] getHeader() throws IOException {
		ByteArrayOutputStream bos = new ByteArrayOutputStream();
		WriteChar(bos, fileID);
		WriteInt(bos, fileLength);
		WriteChar(bos, wavTag);
		WriteChar(bos, FmtHdrID);
		WriteInt(bos, FmtHdrLeth);
		WriteShort(bos, FormatTag);
		WriteShort(bos, Channels);
		WriteInt(bos, SamplesPerSec);
		WriteInt(bos, AvgBytesPerSec);
		WriteShort(bos, BlockAlign);
		WriteShort(bos, BitsPerSample);
		WriteChar(bos, DataHdrID);
		WriteInt(bos, DataHdrLeth);
		bos.flush();
		byte[] r = bos.toByteArray();
		bos.close();
		return r;
	}
	private void WriteShort(ByteArrayOutputStream bos, int s)
			throws IOException {
		byte[] mybyte = new byte[2];
		mybyte[1] = (byte) ((s << 16) >> 24);
		mybyte[0] = (byte) ((s << 24) >> 24);
		bos.write(mybyte);
	}
	private void WriteInt(ByteArrayOutputStream bos, int n) throws IOException {
		byte[] buf = new byte[4];
		buf[3] = (byte) (n >> 24);
		buf[2] = (byte) ((n << 8) >> 24);
		buf[1] = (byte) ((n << 16) >> 24);
		buf[0] = (byte) ((n << 24) >> 24);
		bos.write(buf);
	}
	private void WriteChar(ByteArrayOutputStream bos, char[] id) {
		for (int i = 0; i < id.length; i++) {
			char c = id[i];
			bos.write(c);
		}
	}
}
参考:PCM音频流的认识
java将pcm音频转换成wav格式
记一次语音合成遇到的坑:PCM音频流转WAV的更多相关文章
- Android中使用speex将PCM录音格式转Wav格式
		Android中使用speex将PCM录音格式转Wav格式 2013-09-17 17:24:00| 分类: android | 标签:android speex wav |举报|字号 订阅 ... 
- 使用AudioTrack播放PCM音频数据(android)
		众所周知,Android的MediaPlayer包含了Audio和video的播放功能,在Android的界面上,Music和Video两个应用程序都是调用MediaPlayer实现的.MediaPl ... 
- Android OpenSL ES 开发:Android OpenSL 录制 PCM 音频数据
		一.实现说明 OpenSL ES的录音要比播放简单一些,在创建好引擎后,再创建好录音接口基本就可以录音了.在这里我们做的是流式录音,所以需要用至少2个buffer来缓存录制好的PCM数据,这里我们可以 ... 
- Android OpenSL ES 开发:OpenSL ES利用SoundTouch实现PCM音频的变速和变调
		缘由 OpenSL ES 学习到现在已经知道 OpenSL ES 不仅能播放和录制PCM音频数据,还能改变声音大小.设置左声道或右声道播放.还能变速播放,可谓是播放音频的王者.但是变速有一点不好的就是 ... 
- 痞子衡嵌入式:PCM编码与Waveform音频文件(.wav)格式详解
		大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是PCM编码及Waveform音频文件格式. 嵌入式里有时候也会和音频打交道,比如最近特别火的智能音箱产品,离不开前端的音频信号采集.降噪 ... 
- 视音频数据处理入门:PCM音频采样数据处理
		===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB.YUV像素数据处理 视音频数据处理 ... 
- C++ 调节PCM音频音量大小
		在用解码器解码音频数据得到PCM音频数据块之后,可以在将数据送给声卡播放之前调节其音量大小,具体的实现函数如下: void RaiseVolume(char* buf, UINT32 size, UI ... 
- 使用WindowsAPI实现播放PCM音频的方法
		这篇文章主要介绍了使用WindowsAPI实现播放PCM音频的方法,很实用的一个功能,需要的朋友可以参考下 本文介绍了使用WindowsAPI实现播放PCM音频的方法,同前面一篇使用WindowsAP ... 
- pcm数据生成wav文件
		Qt由pcm数据生成wav文件 void AudioGrabber::saveWave(const QString &fileName, const QByteArray &raw, ... 
- 简单实用的PCM音频播放器--沉寂几年之后回归的第一份笔记
		---恢复内容开始--- PCM音频网络流播放,至于用处,就不多解释了. 一个简单的类,基于NAudio,一个简单的拼装类,实例化时三个参数,依次是采样率,系统播放设备Index,播放声道,调用Pla ... 
随机推荐
- JOI Open 2018
			T1 Bubble Sort 2 题意:给定一个长度为 \(n\) 的序列 \(a\),进行 \(q\) 次修改,第 \(i\) 次将第 \(x_i\) 个元素的值修改为 \(y_i\). 对于每次操 ... 
- .NET 内存管理两种有效的资源释放方式
			前言 嗨,大家好!今天我们要聊一聊 .NET 中的内存管理.你知道吗?虽然 .NET 有一个很好的垃圾回收系统来自动清理不再使用的对象,但在某些情况下,我们还需要自己动手来释放一些特殊的资源,比如打开 ... 
- 在 openEuler 22.03 上安装 KubeSphere 实战教程
			作者:老 Z,中电信数智科技有限公司山东分公司运维架构师,云原生爱好者,目前专注于云原生运维,云原生领域技术栈涉及 Kubernetes.KubeSphere.DevOps.OpenStack.Ans ... 
- .NET 开源餐饮系统支持桌面与Web版
			前言 推荐一款优秀的开源免费餐饮系统-蜀味正道,专门针对餐饮行业开发的桌面应用程序,帮助大家提供全面的管理解决方案. 项目介绍 蜀味正道是一款借助 Panuon.UI.Silver控件库开发的餐饮软件 ... 
- 基础控件(ListView,RecyclerView,单位和尺寸,ViewPager,ViewPager2)
			ListView list_item.xml <?xml version="1.0" encoding="utf-8"?> <LinearLa ... 
- python机器学习(第一章 Python机器学习基础)
			第一章 Python机器学习基础 基础: Python官网:https://www.python.org/doc/: 历史版本下载与维护信息:https://www.python.org/downlo ... 
- SQL Server创建用户只能访问指定数据库和视图
			我们在给数据库用户赋予权限时,有时候不想让该用户看到太多过程表和过程视图,这时就需要限定用户的访问权限 第一步:创建用户 创建数据库连接后,进入安全性--登录名,单击右键,新建登录名,并设置默认数据库 ... 
- 使用wxpython开发跨平台桌面应用,基类对话框窗体的封装处理
			在开发桌面界面的时候,往往都需要对一些通用的窗体进行一些抽象封装处理,以便统一界面效果,以及继承一些通用的处理过程,减少重复编码.本篇随笔介绍使用wxpython开发跨平台桌面应用,基类对话框窗体的封 ... 
- Java 面试用什么项目?全是商场秒杀 RPC,我吐了
			看了几百份简历,真的超过 90% 的小伙伴的项目是商城.RPC.秒杀.论坛.外卖.点评等等烂大街的项目,人人都知道这些项目烂大街了,但大部分同学还是得硬着头皮做,没办法,网络上能找到的.教程比较完善的 ... 
- GIt分布式管理工具
			Git(分布式版本控制工具) Git的学习是不依赖我们前面学习的知识,就算没有学习java也可以学习 Git就是一个类似于百度云盘的仓库 重点是要掌握使用idea操作Git,企业用的最多,一般不会去使 ... 
