[Audio processing] 常见语音特征 —— LPC

共振峰产生的原理及其在音质上的体现,共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(Resonant Physical Structure). 无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声系统,如人的声带或乐器的振动簧片,另一个是共鸣系统.乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小.形状的材料密切相关.由于一件乐器的结构是稳定的,因此在一件乐器发出的所有音调中,不论基频如何,都…

MATLAB神经网络（1） BP神经网络的数据分类——语音特征信号分类

1.1 案例背景 1.1.1 BP神经网络概述 BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播.在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层.每一层的神经元状态只影响下一层神经元状态.如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阔值,从而使BP神经网络预测输出不断逼近期望输出.当输入节点数为$n$.输出节点数为$m$时, BP 神经网络就表达了从$n$个自变量到$m$个因变量的函数映射关系. BP 神经网络预测前首先要训练网…

论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas

一:原始信号从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅. 二:(线性)声谱图 (1)对原始信号进行分帧加窗后,可以得到很多帧,对每一帧做FFT(快速傅里叶变换),傅里叶变换的作用是把时域信号转为频域信号,把每一帧FFT后的频域信号(频谱图)在时间上堆叠起来就可…

[Audio processing] 数据集生成 & 性别年龄分类训练 Python

1.重命名,Python中文路径各种错误,所以需要先将所有文件的路径名全都改成中文.用的是MAC系统,所以WIN下的命令行批处理没法解决,所以用C来完成 // Created by Carl on 16. // Copyright (c) 2016年 Carl. All rights reserved. // #include <iostream> #include <stdio.h> #include <stdlib.h> #include <string.h&…

[Audio processing] Harmonic change detection function (HCDF)

Harmonic change detection function (HCDF) 是根据 Tonal Centroid (TC)实现的,首先TC如何提取? Step 1. 提取PCP特征 Step 2. 根据协和度的概念,给出3*2向量的计算方法…

[Audio processing] FFMPEG转音频格式和采样率

利用FFMPEG转音频格式和采样率 import os import string import subprocess as sp #Full path of ffmpeg FFMPEG_BIN = "/Users/karl/Documents/python/audio/tool/ffmpeg" #Full path of sourceDir sourceDir = "/Users/karl/Documents/python/audio/" #Full path o…

HTML5音视频播放(Video,Audio)和常见的坑处理

1. 前言背景在HTML5出现之前,Web页面访问音视频主要是通过Flash,Activex插件,还有微软后来推出的silverlight来展现的,尽管FLASH曾经风靡全球,但是随着互联网的不断发展,进入移动时代以后,Flash的风头渐渐被HTML5替代,主要原因是Flash经常爆出漏洞,安全性令人担忧,性能方面较差,对网络浏览和设备的电池也消耗比较大等等,Flash天生就是为PC而生,无法适应移动时代的特点,所以被各大厂商逐渐抛弃,连Adobe自己都已经放弃了Flash.所以HTML5是未…

webrtc的音频处理模块apm( audio processing)下载与编译出libwebrtc_audio_preprocessing.so

webrtc代码在android和chromium项目中都有.但是android中的那个带有Android.mk,稍微修改下就能用ndk-build编译出libwebrtc_audio_preprocessing.so git clone https://android.googlesource.com/platform/external/webrtc 更新 cd webrtc apm几个模块: NS(Noise Suppression 噪声抑制). VAD(Voice Activity De…

[Audio processing] wav音频文件合并

合并多个文件,需要包含1.文件读取和写入功能,2.数组合并 package com.audioprocessingbox.myfunc; import java.io.File; import java.io.IOException; import javax.sound.sampled.UnsupportedAudioFileException; import com.audioprocessingbox.utils.WavFile; import com.audioprocessingbox…

[Audio processing] wav音频文件读取int和double数组的关系

直接读取wav文件是int数组,但是有一些实现返回的是double数组,还有些输入是double数组:那我们要互相调用的时候还是要看看两者到底有什么关系,其实很简单. 以单身道,16bit为例 /** * For Mono, 16bit, only! * @author karl * */ public class BasicIntDoubleConvetor { private static final float floatScale = 32768; public double[] arr…

Audio Unit 基础

如图所示,所有 iOS 音频技术都是基于 audio units.此处显示的更高级别的技术,如 Media Player,AV Foundation,OpenAL,AudioToolbox,是对 audio units 的封装,为特定的任务提供专用且简化的 API. 如在可控性.性能.灵活性有非常高的需求,或者需要实现特定的功能(例如回音消除),直接使用 audio unit 是一个正确的选择. Audio Units 提供高效,模块化音频处理方案当你需要实现以下需求时,不使用高级 API,直…

AliCloudDenoise 语音增强算法：助力实时会议系统进入超清音质时代

近些年,随着实时通信技术的发展,在线会议逐渐成为人们工作中不可或缺的重要办公工具,据不完全统计,线上会议中约有 75% 为纯语音会议,即无需开启摄像头和屏幕共享功能,此时会议中的语音质量和清晰度对线上会议的体验便至关重要. 作者|七琦审校|泰一前言在现实生活中,会议所处的环境是极具多样性的,包括开阔的嘈杂环境.瞬时非平稳的键盘敲击声音等,这些对传统的基于信号处理的语音前端增强算法提出了很大的挑战.与此同时伴随着数据驱动类算法的快速发展,学界 [1] 和工业界 [2,3,4] 逐渐涌现出了深…

[转]kaldi特征和模型空间转换

转:http://blog.csdn.net/shmilyforyq/article/details/76807431 博主话:这篇博客是对kaldi官网中Feature and model-space transforms in Kaldi 的翻译,因为不是专业翻译人士,接触kaldi时间也不长,所以难免有纰漏之处,希望读者如果有更好的建议和意见,可以在下面留言,有助于更好的交流,谢谢大家介绍 Kaldi代码目前支持许多功能和模型空间的转换和预测.特征空间变换和预测以一致的方式被工具(它们在…

iOS-文本转语音

- 文本转语音 iOS提供了一个类AVSpeechSynthesizer来实现文本到语音的功能, 即读出文字直接上代码: AVSpeechSynthesizer *synthesizer = [[AVSpeechSynthesizer alloc] init]; NSArray *speechStrings = @[@"Hello AV Foundation. How are you?", @"我很好, 感谢!", @"Are you excited a…

基于MFCC的语音数据特征提取概述

1. 概述语音是人类之间沟通交流的最直接也是最快捷方便的一种手段,而实现人类与计算机之间畅通无阻的语音交流,一直是人类追求的一个梦想. 伴随着移动智能设备的普及,各家移动设备的厂家也开始在自家的设备上集成了语音识别系统,像Apple Siri.Microsoft Cortana.Google Now等语音助手的出现,使得人们在使用移动设备的同时,也能够进行语音交流,极大的方便了人们的生活.但是此类助手也存在一些尴尬的瞬间,例如在一些工作场合或者聚会的场合,某人的一句“Hey Siri”就可能唤…

Image Processing and Analysis_8_Edge Detection：A Computational Approach to Edge Detection——1986

此主要讨论图像处理与分析.虽然计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来.同样,这里面也有一些也可以划归到计算机视觉中去.这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了. 8. Edge Detection 边缘检测也是图像处理中的一个基本任务.传统的边缘检测方法有基于梯度算子,尤其是 Sobel 算子,以及经典的 Canny 边缘检测.到现在,Cann…

基于Matlab的MMSE的语音增强算法的研究

本课题隶属于学校的创新性课题研究项目.2012年就已经做完了,今天一并拿来发表. 目录: --基于谱减法的语音信号增强算法..................................................................... 1 一:语音增强技术概述........................................................................................ 3 二:语音增强的目的.....…

Android : android 8.0 audio 接口分析

1.HIDL 的概念 HIDL 读作 hide-l,全称是 Hardware Interface Definition Language.它在 Android Project Treble 中被起草,在 Android 8.0 中被全面使用,其诞生目的是使 Android 可以在不重新编译 HAL 的情况下对 Framework 进行 OTA 升级. 使用 HIDL 描述的 HAL 描述文件替换旧的用头文件描述的 HAL 文件的过程称为 * HAL 的 binder 化(binderizati…

蓝牙ble数据转语音实现Android AudioRecord方法推荐

蓝牙ble数据转语音实现Android AudioRecord方法推荐教程欢迎走进zozo的学习之旅. 概述蓝牙BLE又称bluetooth smart,主打的是低功耗和快速链接,所以在支持的profile并没有audio的部分,而蓝牙语音协议A2DP只在传统蓝牙中有,本文就是提供一种利用ble数据来传输压缩语音,并最终在实现用android语音框架中的AudioRecord方法来获取语音流. 主要思路首先问题的需求是从一种非标准的协议挂载成为一个标准协议.那通过修改kernel的bl…

Audio Unit 介绍

关于 Audio Unit iOS 提供了音频处理插件,支持混音,声音均衡,格式转化,以及用于录音,回放,离线渲染,实时对话的输入输出.可以动态载入和使用这些强大而灵活的插件,在 iOS 应用中这些插件被称为 audio units. Audio units 通常在被称为 audio processing graph 的封闭对象的上下文中进行工作,如图所示,应用程序通过一个或者多个回调函数将音频发送到 graph 中的第一个音频单元,并对每一个音频单元进行单独控制.在 I/O unit 的输出(…

使用Core Audio实现VoIP通用音频模块

最近一直在做iOS音频技术相关的项目,由于单项直播SDK,互动直播SDK(iOS/Mac),短视频SDK,都会用到音频技术,因此在这里收集三个SDK的音频技术需求,开发一个通用的音频模块用于三个SDK,同时支持iOS和Mac. 想要阅读更多技术干货.行业洞察,欢迎关注网易云信博客. 了解网易云信,来自网易核心架构的通信与视频云服务. 需求实现主要包括音频采集,音频格式转换,音频多路混音(本地文件和网络文件),写WAV/AAC音频文件,通话录制,音频文件播放,耳返,自定义音频输入,音视频设备…

Time-Frequency Networks For Audio Super-Resolution

论文题目:2018_用于音频超分辨率的时频网络博客作者:凌逆战博客地址:https://www.cnblogs.com/LXP-Never/p/12345950.html 摘要音频超分辨率(即带宽扩展)是提高音频信号时域分辨率的一项具有挑战性的任务.最近的一些深度学习方法通过将任务建模为时域或频域的回归问题,取得了令人满意的结果.在本文中,我们提出了一种新的模型体系结构——时频网络(TFNet,Time-Frequency Network),这是一种在时域和频域同时进行监控的深度神经网络.…

浅谈 WebRTC 的 Audio 在进入 Encoder 之前的处理流程

在 WebRTC 中,Audio 数据在被送入编码器之前,有 2 大部分需要特别关注,一是数据采集,二是 Audio Processing. 作者:方来,技术专家,从事 voip 应用开发. 数据采集数据采集主要由 Audio Device 模块进行处理,而且是平台和配置相关.例如: Mac 电脑,使用的是 CoreAudio API,一般情况下使用默认内置的声卡参数 fs=48kHz,stero. Windows 电脑,WebRTC 中用的是 WASAPI.根据声卡参数不同,采样率等参数可选…

语音频谱语音信号处理之（四）梅尔频率倒谱系数（MFCC）

今天一直在查找语音频谱之类的问题,今天正好有机会和大家共享一下. 语音信号处置之(四)梅尔频率倒谱系数(MFCC) zouxy09@qq.com http://blog.csdn.net/zouxy09 这学期有<语音信号处置>这门课,快考试了,所以也要了解了解相干的知识点.呵呵,平常没怎么听课,现在只能抱佛脚了.顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下.上面总结的是第四个知识点:MFCC.因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正.谢谢. 在任意一个Aut…

烽火2640路由器命令行手册-11-IP语音配置命令

IP语音配置命令目录第1章配置拨号对命令... 1 1.1 配置拨号对命令... 1 1.1.1 dial-peer voice. 1 1.1.2 application. 2 1.1.3 codec. 3 1.1.4 destination-pattern. 4 1.1.5 dial-prefix. 5 1.1.6 dtmf-relay. 6 1.1.7 fax-protocol 7 1.1.8 fxo-dial-mode. 7 1.1.9 port 8 1.1.10 req-qos…

自然语言处理的CNN模型中几种常见的池化方法

自然语言处理的CNN模型中几种常见的池化方法本文是在[1]的基础上进行的二次归纳. 0x00 池化(pooling)的作用首先,回顾一下NLP中基本的CNN模型的卷积和池化的大致原理[2].filter(特征抽取器,卷积核,CV上称之为滤波器)在一个窗口(text region)上可以抽取出一个特征值,filter在整个text上滑动,将抽取出一系列特征值组成一个特征向量.这就是卷积层抽取文本特征的过程.模型中的每一个filter都如此操作,形成了不同的特征向量. pooling层则…

C# ms speech文字转语音例子

最近突发奇想想玩玩文字转语音的东东谷歌了一下发现微软有一个TTS 的SDK 查了查相关资料发现还真不错然后就开始玩玩Microsoft Speech SDK的 DEMO了现在网上最新版好像是Microsoft Speech SDK Version 5.1 先下载下来下载地址是 http://www.52z.com/soft/22068.html 要先安装第一个SDK 然后安装语言包只有安装了语言包语言包是用来支持中文翻读的然后开始我们的C#…

(zhuan) Speech and Natural Language Processing

Speech and Natural Language Processing obtain from this link: https://github.com/edobashira/speech-language-processing A curated list of speech and natural language processing resources. Other lists can be found in this list. If you want to contribut…

(转)Integrating Intel® Media SDK with FFmpeg for mux/demuxing and audio encode/decode usages 1

Download Article and Source Code Download Integrating Intel® Media SDK with FFmpeg for mux/demuxing and audio encode/decode usages (PDF 568KB)Download Source Code. (ZIP 98KB) (Note: Licensing terms match Media SDK 2012) Introduction The provided samp…

TOP100summit 2017：亚马逊Echo音箱能够语音识人，华人工程师揭秘设计原理

本文编辑:Cynthia 2017年,人工智能的消费产品落地聚焦在了智能音箱上,谷歌.亚马逊纷纷推出智能音箱产品,国内的阿里巴巴推出天猫精灵,小米推出小米AI音箱.智能音箱通过语音可以发出指令,未来可能成为智能家居的入口,通过语音控制家里的其他智能设备. 几个月前谷歌的语音识别应用推出支持个性化语音识别功能,而本周三,也就是10月11日,亚马逊的Echo音箱也具备了这项功能. 当不同的人对着音箱说话时,可以自动识别身份,提供比如个人专属的音乐播放列表.个性化购物等功能.总之,可以通过声音来识…

【[Audio processing] 常见语音特征 —— LPC】的更多相关文章