音频特征提取——librosa工具包使用

作者：桂。

时间：2017-05-06 11:20:47

链接：http://www.cnblogs.com/xingshansi/p/6816308.html

前言

本文主要记录librosa工具包的使用，librosa在音频、乐音信号的分析中经常用到，是python的一个工具包，这里主要记录它的相关内容以及安装步骤，用的是python3.5以及win8.1环境。

一、MIR简介

音乐信息检索（Music information retrieval，MIR）主要翻译自wikipedia.

MIR是从音乐中检索信息的跨学科科学，该领域需要心理学、乐理学、信号处理、机器学习等学科的背景知识。

目前MIR的商业应用主要包括：

推荐系统
目前音乐推荐的应用很多，但很少是基于MIR技术实现的，现在主流技术是通过人工标记或者用户的评论以及收听历史等简介数据进行分类判断，进而实现推荐，但事实上不同音乐本身的相似性是很多的

轨道分离及乐器识别
实现音乐的轨道分离，以及从音乐中识别出是何种乐器在演奏

自动录音
根据音乐自动转换成MIDI文件或者乐谱

音乐分类
根据音乐的产地、艺术家身份、音乐节奏等特征，借助机器学习方法进行音乐分类

自动生成音乐
利用数据库训练模式，让机器自主创造音乐

MIR领域涉及到的知识包括：

语料库：没有音乐库，利用机器学习挖掘历史出统计规律，是不够现实的

特征提取：例如常见的MFCC，是音色的一种度量，另外和弦、和声、节奏等音乐的特性，都需要合适的特征来进行表征

统计学习方法以及机器学习的相关知识

MIR用到的相关工具包可以参考isMIR主页。

二、Librosa功能简介

librosa对于MIR来讲就是特征提取的工具，当然一般音频分析也可以借用librosa。

　　A-主要功能

更多细节可以参考其主页。

音频处理

load:读取文件，可以是wav、mp3等格式;resample:重采样;get_duration:计算音频时长;autocorrelate:自相关函数;zero crossings:过零率;

频谱特性

stft:短时傅里叶变换;istft：逆短时傅里叶变换;ifgram:瞬时频率;cqt:音乐中常用的CQT算法（constant-Q transform）;hybrid cqt:混合CQT变换;fmt:快速梅林变换;interp harmonics:主要计算时频信号中谐波的能量;salience:谐波显示功能;phase vocoder:相位声码；magphase:相位幅值

幅度

就是一些数值不同度量的转化。

时频转化

这个比较直观，就不啰嗦了。

Pitch and tuning(音调和曲调？清楚的麻烦说一下二者具体区别)

Dynamic Time Warping

就是DWT，动态时间规整。

以上只是一部分，其他的功能还有很多：

例如常用的MFCC提取就是Feature extraction中的一个函数而已。

　　B-常用功能

比如读取一个音频信号：

import librosa

# 1. Get the file path to the included audio example

filepath = 'C:\\Users\\Nobleding\\Documents\\FileRecv\\'

filename =filepath+'bluesky.wav'

# 2. Load the audio as a waveform `y`

#    Store the sampling rate as `sr`

y, sr = librosa.load(filename,sr=None)

　　load默认的采样率是22050，如果需要读取原始采样率,需要.load(filename,sr=None)而不是load(filename)

例如读取一段音频，判断节奏，并画出时频特性：

# Beat tracking example

#from __future__ import print_function

import librosa

import matplotlib.pyplot as plt

import librosa.display

# 1. Get the file path to the included audio example

# Sonify detected beat events

y, sr = librosa.load(librosa.util.example_audio_file())

tempo, beats = librosa.beat.beat_track(y=y, sr=sr)

y_beats = librosa.clicks(frames=beats, sr=sr)

# Or generate a signal of the same length as y

y_beats = librosa.clicks(frames=beats, sr=sr, length=len(y))

# Or use timing instead of frame indices

times = librosa.frames_to_time(beats, sr=sr)

y_beat_times = librosa.clicks(times=times, sr=sr)

# Or with a click frequency of 880Hz and a 500ms sample

y_beat_times880 = librosa.clicks(times=times, sr=sr,

                                 click_freq=880, click_duration=0.5)

# Display click waveform next to the spectrogram

plt.figure()

S = librosa.feature.melspectrogram(y=y, sr=sr)

ax = plt.subplot(2,1,2)

librosa.display.specshow(librosa.power_to_db(S, ref=np.max),

                         x_axis='time', y_axis='mel')

plt.subplot(2,1,1, sharex=ax)

librosa.display.waveplot(y_beat_times, sr=sr, label='Beat clicks')

plt.legend()

plt.xlim(15, 30)

plt.tight_layout()

关于可视化多说两句，librosa.display模块并不默认包含在librosa中，所以开头两句都要有：

import librosa

import librosa.display

　　例如这个时候想显示语谱图：

import librosa

import matplotlib.pyplot as plt

import numpy as np

import librosa.display

# 1. Get the file path to the included audio example

filepath = 'C:\\Users\\Nobleding\\Documents\\FileRecv\\'

filename =filepath+'bluesky1.wav'

# 2. Load the audio as a waveform `y`

#    Store the sampling rate as `sr`

y, sr = librosa.load(filename,sr=None)

plt.figure(figsize=(12, 8))

D = librosa.amplitude_to_db(librosa.stft(y), ref=np.max)

plt.subplot(4, 2, 1)

librosa.display.specshow(D, y_axis='linear')

plt.colorbar(format='%+2.0f dB')

plt.title('Linear-frequency power spectrogram')

例如想观察CQT变换：

CQT = librosa.amplitude_to_db(librosa.cqt(y, sr=16000), ref=np.max)

plt.subplot(4, 2, 3)

librosa.display.specshow(CQT, y_axis='cqt_note')

plt.colorbar(format='%+2.0f dB')

plt.title('Constant-Q power spectrogram (note)')

　　其他以此类推。

MFCC提取：

import librosa

import librosa.display

# 1. Get the file path to the included audio example

# Sonify detected beat events

y, sr = librosa.load(librosa.util.example_audio_file())

librosa.feature.mfcc(y=y, sr=sr)

librosa在youtube上有简要的教程。

三、librosa的安装

libsora对应的链接点击这里。安装报错两个：

关于microsoft visual c++ 14.0 ：

解决思路是：

Download Microsoft Visual C++ Build Tools 2015

Install this, making sure in the install options to select the “Windows SDK” appropriate for your version of Windows. Windows 7 systems should use Windows 8.1 SDK.

找到visual C++下载页面，点击这里：

安装完成后，安装resampy。

关于resampy(同样依赖microsoft visual c++ 14.0):

resampy是采样率转化工具，github关于resampy的安装包点击这里。

cd到对应文件夹，我放在了\pkgs\lib文件夹内，输入：

pip install resampy

　　可以看到resampy已经成功安装：

进一步安装librosa，同样放在\pkgs\lib文件夹内，cd到对应目录,输入：

pip install librosa

　　即可完成librosa的安装。

参考：

librosa:http://librosa.github.io/librosa/core.html

音频特征提取——librosa工具包使用的更多相关文章

音频特征提取——pyAudioAnalysis工具包
作者:桂. 时间:2017-05-04 18:31:09 链接:http://www.cnblogs.com/xingshansi/p/6806637.html 前言语音识别等应用离不开音频特征的 ...
python特征提取——pyAudioAnalysis工具包
作者:桂. 时间:2017-05-04 18:31:09 链接:http://www.cnblogs.com/xingshansi/p/6806637.html 前言语音识别等应用离不开音频特征的 ...
librosa音频特征提取，python librosa库在centos上依赖llvm的问题？
win10下安装使用: https://blog.csdn.net/qq_39516859/article/details/80679718 https://blog.csdn.net/qq_3951 ...
pyAudioAnalysis-audioFeatureExtraction 错误纠正
1. TypeError: mfccInitFilterBanks() takes 2 positional arguments but 7 were given The issue In the f ...
学习笔记TF046:TensoFlow开发环境，Mac、Ubuntu/Linux、Windows，CPU版本、GPU版本
下载TensorFlow https://github.com/tensorflow/tensorflow/tree/v1.1.0 .Tags选择版本,下载解压. pip安装.pip,Python包管 ...
顶级Python库
绝不能错过的24个顶级Python库 Python有以下三个特点: · 易用性和灵活性 · 全行业高接受度:Python无疑是业界最流行的数据科学语言 · 用于数据科学的Python库的数量优势事实 ...
一文总结数据科学家常用的Python库（下）
用于建模的Python库我们已经到达了本文最受期待的部分 - 构建模型!这就是我们大多数人首先进入数据科学领域的原因,不是吗? 让我们通过这三个Python库探索模型构建. Scikit-learn ...
总结数据科学家常用的Python库
概述这篇文章中,我们挑选了24个用于数据科学的Python库. 这些库有着不同的数据科学功能,例如数据收集,数据清理,数据探索,建模等,接下来我们会分类介绍. 您觉得我们还应该包含哪些Python库 ...
Wavenet运行
作者:桂. 时间:2017-05-10 19:17:32 链接:http://www.cnblogs.com/xingshansi/p/6832219.html 一.环境 python3.5 Win ...

随机推荐

实现类似MVC ViewBag类型的对象
public class ViewBag : DynamicObject { private readonly Dictionary<string,dynamic> dic=new Dic ...
C#实现无边框窗体点击任务栏图标正常最小化和还原
protected override CreateParams CreateParams{ get { const int WS_MINIMIZEBOX = 0x00020000; // Winuse ...
iOS坐标转换失败？UIKit的屠神坑
使用UIKit的坐标转换方法convertxxx,千万要注意: 一个控件可以转换子控件上的某个点,到另外一个控件上但是不能转换自己本身的点,到另外一个控件上,否则会数量加倍所以,一个控件若想转换本 ...
java之泛型解说
1.集合中只能装入引用数据类型,不能装入基本数据类型.如,装入int类型的数值123会自动装箱. 2.开发人员装入集合的数据类型不确定,所以它被设计成可以装入所有的Object. 3.新的问题产生,装 ...
IOS开发创建开发证书及发布App应用(六)——打包应用
6.打包应用如下图,生成之后点击下面红框的按钮,按时间排序,然后点最新的一次生成从右侧生成日志中找到如下图红框标识的部分,找到 -output ,把下面浅蓝色选中,这是app生成的文件夹路径点击 ...
IOS开发创建开发证书及发布App应用(五)——编译应用
5.编译应用最近升级ios7,一直没有时间写,终于搞完了,完成之前没有完成的工作由于适配ios7,所以Xcode也升级到5了,所以下面截图基本在Xcode5上,以前的版本基本也差不多的打开项目的 ...
关于bootstrap原理及优缺点
网格系统的实现原理,是通过定义容器大小,平分12份(也有平分成24份或32份,但12份是最常见的),再调整内外边距,最后结合媒体查询,就制作出了强大的响应式网格系统.Bootstrap框架中的网格系统 ...
关于苹果真机 getFullYear()返回值为NAN的问题
问题描述: 在html页面中获得后台传过来的一个时间并显示在页面上,我用getFullYear() ,getMonth(),getDate()分别获得了年月日在电脑上和三星手机上页面都能正确的显示时间 ...
谱聚类（Spectral clustering）（2）:NCut
作者:桂. 时间:2017-04-13 21:19:41 链接:http://www.cnblogs.com/xingshansi/p/6706400.html 声明:欢迎被转载,不过记得注明出处哦 ...
由if-else,switch代替方案引起的思考
关键词:条件判断,多态,策略模式,哈希表,字典map 笔者在用python实现事件驱动后,发现python是没有提供switch语句,python官方推荐多用字典来代替switch来实现,这让我就觉得 ...

音频特征提取——librosa工具包使用

音频特征提取——librosa工具包使用的更多相关文章

随机推荐

热门专题