记一次语音合成遇到的坑：PCM音频流转WAV

需求内容:

预合成音：支持将固定音合成并完成上传操作

解决思路:
1. 调用公有云识别引擎，获取识别引擎合成的音频流，
2. 然后将音频流转成wav文件，
3. 最后将文件上传到oss服务器上。
遇到的问题

问题主要在于，拿到了引擎给的base64的音频流，将音频流用base64解码转成byte[]数组后写入wav格式文件内，但是这个文件始终无法播放。
排坑过程

刚开始一直以为是base64解码有问题，换了多种base64工具解码，还是无法播放；

然后找到了

文件Base64在线编码和解码工具

这个网站对我生成的文件进行base64编码，再和从引擎获取到的base64对比，发现是一致的，可排除base64解码问题。

这个花了很长时间去排查，还是未解决。

最后请教了识别引擎的研发人员，最终才知道。引擎的返回的是PCM音频流。PCM只是单纯的一个文件流。播放器要想播放，你需要告诉播放器这个文件流是什么采样率的是8bit还是16bit的一共多长。

pcm流需要专门的软件播放。

我是用WAV格式研究PCM流。两个文件只差了一个文件头。

最后附上pcm转wav格式的工具类：

import java.io.FileInputStream;

import java.io.FileOutputStream;

public class Pcm2WavUtils {

    public static void convertAudioFiles(String src, String target) throws Exception {

        FileInputStream fis = new FileInputStream(src);

        FileOutputStream fos = new FileOutputStream(target);

        //计算长度

        byte[] buf = new byte[1024 * 4];

        int size = fis.read(buf);

        int PCMSize = 0;

        while (size != -1) {

            PCMSize += size;

            size = fis.read(buf);

        }

        fis.close();

        //填入参数，比特率等等。这里用的是16位单声道 8000 hz

        WaveHeader header = new WaveHeader();

        //长度字段 = 内容的大小（PCMSize) + 头部字段的大小(不包括前面4字节的标识符RIFF以及fileLength本身的4字节)

        header.fileLength = PCMSize + (44 - 8);

        header.FmtHdrLeth = 16;

        header.BitsPerSample = 16;

        header.Channels = 1;

        header.FormatTag = 0x0001;

        header.SamplesPerSec = 8000;

        header.BlockAlign = (short)(header.Channels * header.BitsPerSample / 8);

        header.AvgBytesPerSec = header.BlockAlign * header.SamplesPerSec;

        header.DataHdrLeth = PCMSize;

        byte[] h = header.getHeader();

        assert h.length == 44; //WAV标准，头部应该是44字节

        //write header

        fos.write(h, 0, h.length);

        //write data stream

        fis = new FileInputStream(src);

        size = fis.read(buf);

        while (size != -1) {

            fos.write(buf, 0, size);

            size = fis.read(buf);

        }

        fis.close();

        fos.close();

    }

}

文件头：WaveHeader

import java.io.ByteArrayOutputStream;

import java.io.IOException;

public class WaveHeader {

	public final char fileID[] = { 'R', 'I', 'F', 'F' };

	public int fileLength;

	public char wavTag[] = { 'W', 'A', 'V', 'E' };;

	public char FmtHdrID[] = { 'f', 'm', 't', ' ' };

	public int FmtHdrLeth;

	public short FormatTag;

	public short Channels;

	public int SamplesPerSec;

	public int AvgBytesPerSec;

	public short BlockAlign;

	public short BitsPerSample;

	public char DataHdrID[] = { 'd', 'a', 't', 'a' };

	public int DataHdrLeth;

	public byte[] getHeader() throws IOException {

		ByteArrayOutputStream bos = new ByteArrayOutputStream();

		WriteChar(bos, fileID);

		WriteInt(bos, fileLength);

		WriteChar(bos, wavTag);

		WriteChar(bos, FmtHdrID);

		WriteInt(bos, FmtHdrLeth);

		WriteShort(bos, FormatTag);

		WriteShort(bos, Channels);

		WriteInt(bos, SamplesPerSec);

		WriteInt(bos, AvgBytesPerSec);

		WriteShort(bos, BlockAlign);

		WriteShort(bos, BitsPerSample);

		WriteChar(bos, DataHdrID);

		WriteInt(bos, DataHdrLeth);

		bos.flush();

		byte[] r = bos.toByteArray();

		bos.close();

		return r;

	}

	private void WriteShort(ByteArrayOutputStream bos, int s)

			throws IOException {

		byte[] mybyte = new byte[2];

		mybyte[1] = (byte) ((s << 16) >> 24);

		mybyte[0] = (byte) ((s << 24) >> 24);

		bos.write(mybyte);

	}

	private void WriteInt(ByteArrayOutputStream bos, int n) throws IOException {

		byte[] buf = new byte[4];

		buf[3] = (byte) (n >> 24);

		buf[2] = (byte) ((n << 8) >> 24);

		buf[1] = (byte) ((n << 16) >> 24);

		buf[0] = (byte) ((n << 24) >> 24);

		bos.write(buf);

	}

	private void WriteChar(ByteArrayOutputStream bos, char[] id) {

		for (int i = 0; i < id.length; i++) {

			char c = id[i];

			bos.write(c);

		}

	}

}

参考：PCM音频流的认识

 java将pcm音频转换成wav格式

记一次语音合成遇到的坑：PCM音频流转WAV的更多相关文章

Android中使用speex将PCM录音格式转Wav格式
Android中使用speex将PCM录音格式转Wav格式 2013-09-17 17:24:00| 分类: android | 标签:android speex wav |举报|字号订阅 ...
使用AudioTrack播放PCM音频数据（android）
众所周知,Android的MediaPlayer包含了Audio和video的播放功能,在Android的界面上,Music和Video两个应用程序都是调用MediaPlayer实现的.MediaPl ...
Android OpenSL ES 开发：Android OpenSL 录制 PCM 音频数据
一.实现说明 OpenSL ES的录音要比播放简单一些,在创建好引擎后,再创建好录音接口基本就可以录音了.在这里我们做的是流式录音,所以需要用至少2个buffer来缓存录制好的PCM数据,这里我们可以 ...
Android OpenSL ES 开发：OpenSL ES利用SoundTouch实现PCM音频的变速和变调
缘由 OpenSL ES 学习到现在已经知道 OpenSL ES 不仅能播放和录制PCM音频数据,还能改变声音大小.设置左声道或右声道播放.还能变速播放,可谓是播放音频的王者.但是变速有一点不好的就是 ...
痞子衡嵌入式：PCM编码与Waveform音频文件(.wav)格式详解
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是PCM编码及Waveform音频文件格式. 嵌入式里有时候也会和音频打交道,比如最近特别火的智能音箱产品,离不开前端的音频信号采集.降噪 ...
视音频数据处理入门：PCM音频采样数据处理
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB.YUV像素数据处理视音频数据处理 ...
C++ 调节PCM音频音量大小
在用解码器解码音频数据得到PCM音频数据块之后,可以在将数据送给声卡播放之前调节其音量大小,具体的实现函数如下: void RaiseVolume(char* buf, UINT32 size, UI ...
使用WindowsAPI实现播放PCM音频的方法
这篇文章主要介绍了使用WindowsAPI实现播放PCM音频的方法,很实用的一个功能,需要的朋友可以参考下本文介绍了使用WindowsAPI实现播放PCM音频的方法,同前面一篇使用WindowsAP ...
pcm数据生成wav文件
Qt由pcm数据生成wav文件 void AudioGrabber::saveWave(const QString &fileName, const QByteArray &raw, ...
简单实用的PCM音频播放器--沉寂几年之后回归的第一份笔记
---恢复内容开始--- PCM音频网络流播放,至于用处,就不多解释了. 一个简单的类,基于NAudio,一个简单的拼装类,实例化时三个参数,依次是采样率,系统播放设备Index,播放声道,调用Pla ...

随机推荐

云原生周刊：ingress2gateway 发布 | 2023.10.30
开源项目推荐 m9sweeper m9sweeper 是一个免费且简单的 Kubernetes 安全平台.它将行业标准的开源实用程序集成到一站式 Kubernetes 安全工具中,该工具可以帮助大多数 ...
云原生周刊：Kubernetes v1.28 新特性一览 | 2023.8.14
推荐一个 GitHub 仓库:Fast-Kubernetes. Fast-Kubernetes 是一个涵盖了 Kubernetes 的实验室(LABs)的仓库.它提供了关于 Kubernetes 的各 ...
SpringBoot 设置编码UTF-8
第一种通过过滤器来设置 @Configuration public class UtfConfig { @Bean public FilterRegistrationBean filterRegi ...
使用pandas进行数据分析
目录 1.pandas的特点 2.Series 2.1新建Seriws 2.2使用标签来选择数据 2.3 通过指定位置选择数据 2.4 使用布尔值选择数据 2.5 其他操作 2.5.1 修改数据 2. ...
洛谷：P5707 【深基2.例12】上学迟到（纯净的顺序结构）
本文纯作者吃饱了没事干写的,仅供奇特思路参考和娱乐最近尝试找一个体量精良的刷题平台重新提升一下自己的编程能力,所以选择了洛谷. 题目描述学校和 yyy 的家之间的距离为 s 米,而 yyy 以 v ...
Clickhouse SQL语法
Insert 基本与标准 SQL(MySQL)基本一致 (1)标准 insert into [table_name] values(-),(-.) (2)从表到表的插入 insert into [ta ...
Wgpu图文详解（02）渲染管线与着色器
在本系列的第一篇文章中(<Wgpu图文详解(01)窗口与基本渲染>),我们介绍了如何基于0.30+版本的winit搭建Wgpu的桌面环境,同时也讲解了关于Wgpu一些基本的概念.模块以及架 ...
CommonsCollections1（基于ysoserial）
准备环境 JDK1.7(7u80).commons-collections(3.x 4.x均可这里使用3.2版本) JDK:https://repo.huaweicloud.com/java/jdk/ ...
OSG开发笔记（三十三）：同时观察物体不同角度的多视图从相机技术
前言前面的相机hud可以单独显示图形,继续深入研究相机hud,技术就是子视图了,实现该功能的直接技术是从相机技术. 本篇描述osg从相机技术 Demo 相机视口的关键调用 ...
[昌哥IT课堂]｜如何确定 MySQL 服务器是否为 LTS 版本(译)
根据支持 LTS(长期支持)发布的新发布模型,给定的 MySQL 服务器将分为以下两类: 要么是 LTS 版本. 要么是创新版本. 本博客文章将解释如何确定给定的 MySQL 服务器是否为 LTS 版 ...

记一次语音合成遇到的坑：PCM音频流转WAV

记一次语音合成遇到的坑：PCM音频流转WAV的更多相关文章

随机推荐

热门专题