微信小程序语音与讯飞语音识别接口（Java），Kronopath/SILKCodec，ffmpeg处理silk，pcm，wav转换

项目需求，需要使用讯飞的语音识别接口，将微信小程序上传的录音文件识别成文字返回

首先去讯飞开放平台中申请开通语音识别功能

在这里面下载sdk,然后解压，注意appid与sdk是关联的，appid在初始化接口时候需要

由于是在Linux上开发，所以需要将.so文件和.dll文件上传到Linux服务器上安装的jdk/lib/amd64里面，要不会报引擎错误，window环境直接放在项目跟目录就行.

由于微信小程序上传的文件格式是silk的，而讯飞接口能识别wav 格式的文件，所以需要将小程序上传的silk文件转成wav的格式

由于小程序上传的silk文件是变异的silk（小程序上传的silk文件中在编码头多添加了一个字节）文件，所以需要将他处理成正常的silk文件

由于项目是运行在Linux上，所以写了一个简单的shell脚本以供java程序调用处理

这个脚本的作用是删除输入文件中#！SILK_V3所在行的第一个字节

好了，文件处理完了，现在就是格式转换了

经调研，发现一般是先将silk文件转换成pcm，这里使用的是Kronopath/SILKCodec，下载到linux服务器上，然后在SILK_SDK_SRC_ARM里执行

make lib

make decoder

执行之后会生成命令行工具decoder

使用方法：

./decoder  要转换文件.silk   要生成文件.pcm

执行完上面代码就会生成.pcm文件，然后就是将pcm转成wav格式了，这里使用的是ffmpeg,没有安装的可以参考一下

ubuntu14.04安装ffmpeg：http://blog.csdn.net/leezha/article/details/77849286

阿里云linux安装ffmpeg:http://blog.csdn.net/baijinwen/article/details/77235725

安装ffmpeg可能出现的问题：http://blog.51cto.com/zlyang/1709508

为了保证语音识别的准确性，使用一下代码识别生成的wav文件，讯飞接口识别结果最好

ffmpeg -f s16le -ar 12k -ac  -i /path/to/pcm -f wav -ar 16k -ac  /path/to/wav

下面就是java的讯飞语音接口开发了，直接贴代码

package com.example.utils;

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.List;

/**

 * Created by songzs on 2017/12/12.
 * 封装的转码工具类

 */

public class FFMPEGUtil {

    public static String silk2Pcm(String inputfile,String outputfile){

        List<String> commend = new ArrayList<String>();

        commend.add("/usr/local/silk2pcm_tool/SILKCodec/SILK_SDK_SRC_ARM/./decoder");

        commend.add(inputfile);

        commend.add(outputfile);

        StringBuffer test=new StringBuffer();

        for(int i=0;i<commend.size();i++)

            test.append(commend.get(i)+" ");

        System.out.println("decoder命令:"+test+"");

        exec(test);

        return outputfile;

    }

    public static String pcm2Wav(String inputfile,String outputfile){

        //ffmpeg -f s16le -ar 12k -ac 2 -i /path/to/pcm -f wav -ar 16k -ac 1 /path/to/wav

        List<String> commend = new ArrayList<String>();

        commend.add("ffmpeg");

        commend.add("-f");

        commend.add("s16le");

        commend.add("-ar");

        commend.add("12k");

        commend.add("-ac");

        commend.add("2");

        commend.add("-i");

        commend.add(inputfile);

        commend.add("-f");

        commend.add("wav");

        commend.add("-ar");

        commend.add("16k");

        commend.add("-ac");

        commend.add("1");

        commend.add(outputfile);

        StringBuffer test=new StringBuffer();

        for(int i=0;i<commend.size();i++)

            test.append(commend.get(i)+" ");

        System.out.println("ffmpeg命令:"+test+"");

        exec(test);

        return outputfile;

    }

    public static String silk_remove_word(String filepath){

        List<String> commend = new ArrayList<String>();

        commend.add("/home/workspace/./test.sh");

        commend.add(filepath);

        StringBuffer test=new StringBuffer();

        for(int i=0;i<commend.size();i++)

            test.append(commend.get(i)+" ");

        System.out.println("test命令:"+test+"");

        exec(test);

        return filepath;

    }

    private static void exec(StringBuffer test){

        try {

            Runtime rt = Runtime.getRuntime();

            Process proc = rt.exec(test.toString());

            InputStream stderr = proc.getErrorStream();

            InputStreamReader isr = new InputStreamReader(stderr);

            BufferedReader br = new BufferedReader(isr);

            String line = null;

            while ( (line = br.readLine()) != null) ;

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

语音结果处理工具类（代码简陋，见谅）

package com.example.utils;

import com.alibaba.fastjson.JSON;

import java.util.List;

import java.util.Map;

/**

 * Created by songzs on 2017/12/15.

 */

public class SR2Words {

    public static String sr2words(String jsonString){

        StringBuffer sb = new StringBuffer();

        String[] split = jsonString.split("}]}]}");

        for (int i = 0; i < split.length; i++) {

            String s = split[i] + "}]}]}";

            System.out.println(s);

            Map parse = (Map) JSON.parse(s);

            List<Map> ws = (List<Map>) parse.get("ws");

            for (int i1 = 0; i1 < ws.size(); i1++) {

                List<Map> cw = (List<Map>)ws.get(i1).get("cw");

                String w = cw.get(0).get("w").toString();

                sb.append(w);

            }

        }

        return sb.toString();

    }

}

小程序录音文件上传与讯飞语音识别

package com.example.service.impl;

import com.example.service.XunFeiService;

import com.example.utils.FFMPEGUtil;

import com.example.utils.SR2Words;

import com.example.utils.SRTool;

import org.springframework.stereotype.Service;

import org.springframework.web.multipart.MultipartFile;

import java.io.File;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import java.util.UUID;

/**

 * Created by songzs on 2017/12/12.

 */

@Service

public class XunFeiServiceImpl implements XunFeiService {

    @Override

    public Map<String,String> speechRecognition(MultipartFile multi) {

        Map<String,String> map =new HashMap<>();

        UUID uuid = UUID.randomUUID();

        String path = "/home/workspace/audio";

        String fileName = uuid.toString()+".silk";

        //临时silk文件

        String tempFile = "/home/workspace/audio/"+uuid.toString()+".silk";

        //中间过渡pcm文件

        String pcmFile = "/home/workspace/audio/"+uuid.toString()+".pcm";

        //可识别的wav文件

        String wavFile = "/home/workspace/audio/"+uuid.toString()+".wav";

        File file = new File(path,fileName);

        try {

            multi.transferTo(file);

        } catch (IOException e) {

            e.printStackTrace();

        }

        /*移除临时silk文件首字节start*/

        //标准silk文件

        String silkFile = FFMPEGUtil.silk_remove_word(tempFile);

        /*移除临时silk文件首字节end*/

        //silk文件转换成pcm文件

        String silk2Pcm = FFMPEGUtil.silk2Pcm(silkFile, pcmFile);

        //pcm文件转换成wav文件

        String pcm2Wav = FFMPEGUtil.pcm2Wav(silk2Pcm, wavFile);

        //讯飞语音识别接口识别wav音频文件，转成文字返回

        SRTool sr = new SRTool();

        String words = null;

        try {

            words = sr.voice2words(pcm2Wav);

        } catch (InterruptedException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

        System.out.println("讯飞识别的语音结果："+words);

        if("".equals(words)){

            System.out.println("讯飞识别的语音结果：null");

            map.put("status","error");

            map.put("content","对不起，请您在描述一遍！");

            return map;

        }

        String result = SR2Words.sr2words(words);

        System.out.println("讯飞识别的语音结果："+result);

        map.put("status","success");

        map.put("content",result);

        return map;

    }

}

讯飞语音识别工具类

package com.example.utils;

import com.iflytek.cloud.speech.*;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.util.ArrayList;

/**

 * Created by songzs on 2017/12/4.

 */

public class SRTool {

    private int perWaitTime = 100;

    private StringBuffer mResult = new StringBuffer();

    static {

        SpeechUtility.createUtility("appid=********");//申请的appid

    }

    public String voice2words(String fileName) throws InterruptedException, IOException {

        return to(fileName);

    }

    public String to(String fileName) throws InterruptedException, IOException {

        File file = new File(fileName);

        if(!file.exists()){

            throw new RuntimeException("要读取的文件不存在");

        }

        FileInputStream fis = new FileInputStream(file);

        int len = 0;

        byte[] buf = new byte[fis.available()];

        fis.read(buf);

        fis.close();

        //1.创建SpeechRecognizer对象

        SpeechRecognizer mIat = SpeechRecognizer.createRecognizer();

        //2.设置听写参数，详见《MSC Reference Manual》SpeechConstant类

        mIat.setParameter(SpeechConstant.DOMAIN, "iat");

        mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");

        mIat.setParameter(SpeechConstant.ACCENT, "mandarin ");

        mIat.setParameter(SpeechConstant.AUDIO_SOURCE, "-1");

        //3.开始听写

        mIat.startListening(mRecoListener);

        //voiceBuffer为音频数据流，splitBuffer为自定义分割接口，将其以4.8k字节分割成数组

        ArrayList<byte[]> buffers = splitBuffer(buf, buf.length, 4800);

        for (int i = 0; i < buffers.size(); i++) {

            // 每次写入msc数据4.8K,相当150ms录音数据

            mIat.writeAudio(buffers.get(i), 0, buffers.get(i).length);

        }

        mIat.stopListening();

        while (mIat.isListening()) {

            Thread.sleep(perWaitTime);

        }

        return mResult+"";

    }

    /**

     * 将字节缓冲区按照固定大小进行分割成数组

     *

     * @param buffer 缓冲区

     * @param length 缓冲区大小

     * @param spsize 切割块大小

     * @return

     */

    private ArrayList<byte[]> splitBuffer(byte[] buffer, int length, int spsize) {

        ArrayList<byte[]> array = new ArrayList<byte[]>();

        if (spsize <= 0 || length <= 0 || buffer == null

                || buffer.length < length)

            return array;

        int size = 0;

        while (size < length) {

            int left = length - size;

            if (spsize < left) {

                byte[] sdata = new byte[spsize];

                System.arraycopy(buffer, size, sdata, 0, spsize);

                array.add(sdata);

                size += spsize;

            } else {

                byte[] sdata = new byte[left];

                System.arraycopy(buffer, size, sdata, 0, left);

                array.add(sdata);

                size += left;

            }

        }

        return array;

    }

    //听写监听器

    private RecognizerListener mRecoListener = new RecognizerListener() {

        public void onResult(RecognizerResult results, boolean isLast) {

            System.out.println("Result:" + results.getResultString());

            mResult.append(results.getResultString());

        }

        //会话发生错误回调接口

        public void onError(SpeechError error) {

            System.out.println(error.getErrorCode()+"=========="+error.getErrorDesc());

            System.out.println(error);

        }

        //开始录音

        public void onBeginOfSpeech() {

        }

        //音量值0~30

        public void onVolumeChange(int volume) {

        }

        @Override

        public void onVolumeChanged(int i) {

        }

        @Override

        public void onEndOfSpeech() {

        }

        @Override

        public void onEvent(int i, int i1, int i2, String s) {

        }

    };

}

*小程序上传接口必须是https请求，所以可能需要搭建https,相关内容可以参考我上一篇文章

微信小程序语音与讯飞语音识别接口（Java），Kronopath/SILKCodec，ffmpeg处理silk，pcm，wav转换的更多相关文章

微信小程序语音与讯飞语音识别接口（Java）
项目需求,需要使用讯飞的语音识别接口,将微信小程序上传的录音文件识别成文字返回而微信小程序上传的文件格式是silk的,而讯飞接口能识别wav 格式的文件,所以需要将小程序上传的silk文件转成wav ...
微信小程序集成腾讯云 IM SDK
微信小程序集成腾讯云 IM SDK 1.背景因业务功能需求需要接入IM(即时聊天)功能,一开始想到的是使用 WebSocket 来实现这个功能,然天意捉弄(哈哈)服务器版本太低不支持 wx 协议(也 ...
微信小程序内判断是否关注公众号(JAVA)
微信小程序内判断是否关注公众号(JAVA) 思路来源(第二种): https://blog.csdn.net/Yanheeee/article/details/117295643 /** * 总体思路 ...
微信小程序语音同步智能识别的实现案例
目录一.背景二.同声传译插件介绍 1. 微信小程序后台添加插件 2. 微信小程序启用插件三.语音同步转换的前端实现 1.界面UI与操作 2.代码实现四.后端SpringBoot实现语音文件上传 ...
如何开发一款堪比APP的微信小程序（腾讯内部团队分享）
一夜之间,微信小程序刷爆了行业网站和朋友圈,小程序真的能如张小龙所说让用户"即用即走"吗? 其功能能和动辄几十兆安装文件的APP相比吗? 开发小程序,是不是意味着移动应用开发的一次 ...
微信小程序基于腾讯云对象存储的图片上传
在使用腾讯云对象存储之前,公司一直使用的是传统的FTP的上传模式,而随着用户量的不断增加,FTP所暴露出来的问题也越来越多,1.传输效率低,上传速度慢.2.时常有上传其他文件来攻击服务器,安全上得不到 ...
微信小程序使用腾讯地图SDK详解及实现步骤
信小程序使用腾讯地图SDK详解及实现步骤微信小程序JavaScript SDK: 官方文档:http://lbs.qq.com/qqmap_wx_jssdk/index.html 步骤: 1 ...
微信小程序-使用腾讯Wxpage
微信小程序想要更快的速度吗? 满足你 https://github.com/tvfe/wxpage#-c%E5%AE%9A%E4%B9%89 使用超简单(导入wxpage.js,最后使用对象名:P): ...
微信小程序语音（A）发给别人(B)，也能播放，是需要先把语音上传到自己的服务器上才可以
小程序语音(A)发给别人(B),也能播放,是需要先把语音上传到自己的服务器上才可以. https://developers.weixin.qq.com/miniprogram/dev/api/medi ...

随机推荐

T66099 小xzy的数对题解
T66099 小xzy的数对题目背景老师带同学参加表演,要求学生两两一组表演,但有些学生一起会发生冲突,现在老师想知道有多少组学生分到一起时不会发生冲突. 题目描述学生发生冲突当且仅当他们身上的 ...
jvm学习一：类加载过程详解
(自学笔记,持续更新,欢迎指正) 我们都知道一个java程序运行要经过编译和执行,但是这太概括了,中间还有很多步骤,今天来说说类加载学完类加载之后,java运行过程就可以分为编译 > 类 ...
Python——Pycharm打包exe文件
一.安装pyinstraller pip install PyInstaller 二.打包程序 pyinstaller.py -F -w -i tubiao.ico 文件名.py -F 表 ...
Python——设计模式——单例模式
一个类始终只有一个实例当你第一次实例化这个类的时候,就创建一个实例化得对象当你之后再来实例化的时候,就用之前创建的对象 class A: __instance = False def __ini_ ...
[模板] 虚树 && bzoj2286-[Sdoi2011]消耗战
简介虚树可以解决一些关于树上一部分节点的问题. 对于一棵树 \(T\) 的一个子集 \(S\), 可以在 \(O(|S| \log |S|)\) 的时间复杂度内求出 \(S\) 的虚树. 虚树包括根 ...
如何在源码里修改openwrt root密码
root密码在etc/shadow文件里,但里边的密码是加密过后的.具体的加密方式我不清楚,应该是Linux里的一套加密算法.但要达到修改源码密码的目的,我还是想到了一个间接的办法.首先在源码里改成t ...
☆ [洛谷P2633] Count on a tree 「树上主席树」
题目类型:主席树+\(LCA\) 传送门:>Here< 题意:给出一棵树.每个节点有点权.问某一条路径上排名第\(K\)小的点权是多少解题思路类似区间第\(K\)小,但放在了树上. 考 ...
n98-magerun2.phar
installl: 1,cd /usr/local/bin && curl -O https://files.magerun.net/n98-magerun2.phar 2,chmod ...
纯css实现checkbox开关切换按钮
我们都知道 checkbox 标签默认样式实在是太low了,故对CheckBox美化很有必要. 现提供两种方式对其进行美化. 方法一 <div class="switch-wrap ...
Python--Linux上安装Python
Linux 上安装 Python 官网下载:https://www.python.org/downloads/ 本文安装包下载链接:https://pan.baidu.com/s/1uL2JyoY_g ...

微信小程序语音与讯飞语音识别接口（Java），Kronopath/SILKCodec，ffmpeg处理silk，pcm，wav转换

微信小程序语音与讯飞语音识别接口（Java），Kronopath/SILKCodec，ffmpeg处理silk，pcm，wav转换的更多相关文章

随机推荐

热门专题