一:原始信号 从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅. 二:(线性)声谱图 (1)对原始信号进行分帧加窗后,可以得到很多帧,对每一帧做FFT(快速傅里叶变换),傅里叶变换的作用是把时域信号转为频域信号,把每一帧FFT后的频域信号(频谱图)在时间上堆叠起来就可…
CVPR2019 1.An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition 作者:Chenyang Si, Wentao Chen, Wei Wang, Liang Wang, Tieniu Tan 论文链接:https://arxiv.org/abs/1902.09130 2.Improving the Performance of Unimodal Dynami…
大家好,我们今天继续来剖析一些推荐广告领域的论文. 今天选择的这篇叫做DeepFM: A Factorization-Machine based Neural Network for CTR Prediction,翻译过来就是DeepFM:一个基于深度神经网络的FM模型.这篇paper的作者来自哈工大和华为,不得不说在人工智能领域的很多论文都是国产的,作为从业者还是非常欣喜能看到这点的. 通过名字我们也能看得出来,今天的这篇paper本质上其实是FM模型的一个进阶或者说是优化版本.如果对FM模型…
一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.utterance由多帧语音组成,通常对一个utterance做分帧来得到多帧信号. (2)LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征. (3)HSFs(high level statistics func…
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeech) (1)分帧加窗,每一帧采用的特征向量为eGeMAPS特征集中的20个特征,每个utterance使用裁剪和padding的做法使得定长512帧,所以输入为20x512的矩阵.每个样本归一化到0均值1标准差(根据对应的说话人).使用的数据集为EmoDB. (2)准确率为88.9% 二:Speec…
一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech) (1)论文的模型如下图,输入声谱图,CNN先用两个不同的卷积核分别提取时域特征和频域特征,concat后喂给后面的CNN,在最后一层使用attention pooling的技术,在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的…
终于找到ML日报的微信链接,抄之...................................... 请拜访原文链接:[祖母论与还原论之争]为什么计算机人脸识别注定超越人类?评价:         从直觉上,总体视觉框架,我更推崇maar视觉理论,即还原论.因为对于广泛的视觉识别,此解释在哲学意义上完备性比其他解释更好.但对于人脸识别,这就难说了.就像骑自行车需要学习,学习之后便成为"程序记忆",固定为记忆系统.对于人脸识别这种极为特殊且频次极高的行为,千万年的人类进化,是否在…
本来打算做个C#版demo,但没用成功,基于虹软的免费人脸识别技术 过程如下: 1. 传入一张单人脸照片: 2.调用检测人脸函数ASFDetectFaces,成功返回人脸信息的指针: 3.使用 Marshal.ReadByte(intPtr,offset) 函数读出字节数,发现前16个字节是人脸框范围,第28至31个字节应该是人脸角度,其他信息不太清楚.想了下,最简单的办法是用C++将动态库再封装一次.将封装后的demo及C++代码上传.demo是X86的,只识别单张人脸,有别的需求的同学可自己…
核心期刊排名查询 http://portal.core.edu.au/conf-ranks/ http://portal.core.edu.au/jnl-ranks/ 1.机器学习推荐会议 ICML——很难读懂,值得一读 NIPS ——主要看文章摘要 ECML 2.数据挖掘推荐会议: ICDE ICDM——略逊 CIKM KDD 3.IR推荐会议 SIGIR WWW 4.NLP推荐会议 ACL EMNLP EAC NNACL coling CCF推荐会议列表 expert system with…
通过shell 脚本自动获取最新tag,并输入最新版本后,推到git上 # 拉取分支上现有的tags git fetch --tags echo -e "所有tag列表" git tag -l -n echo -e "${tagList}" #获取最新版本tag LatestTag=$(git describe --tags `git rev-list --tags --max-count=1`) echo -e "最新版本tag......"…