3. Neural network architecture

此处描述了在本文当中所使用的网络结构，和所提取的关键特征（key features）。首先，描述了两个新型的网络结构：the network-in-network nonlinearity和the statistics extraction layer（NIN非线性结构和统计信息提取层）。

3.1 Network-in-Network nonlinearity

如图（1）所示，该网络结构是一个多对多的非线性系统，由两个块对角阵组成，在使用的过程中，在同一层中，所有的NIN模块是参数共享的，且互相之间不重叠（non-overlapping）。
在NIN的内部，转换块(transformation block)\(U_1\)是尺寸为\(m\times k\)的矩阵，将尺寸为\(m\)的输入映射到维度为\(k\)的高维空间中，然后使用Relu函数进行非线性映射；\(U_2\)是尺寸为\(k\times n\)的矩阵，将非线性变化后的\(k\)维变量映射到\(n\)为空间当中，再进行Relu非线性映射。该NIN模块在论文中称之为“micro neural network blocks”。

如果，NIN模块在单层网络中共享权值，那么\(U_1\)的每一列可以解释为一维卷积核，且卷积核的尺寸为\(m\)，卷积的步长为\(m\)。
对于此处的理解：
\[
x \cdot U_{(m,k)}=x \cdot [u_1,u_2 \cdots u_k]=[x\cdot u_1,x\cdots u_2 \cdots x\cdot u_k]
\]

在图（2）当中，将本文提出的网络与基于MFCC的基线系统目标函数的收敛情况进行对比，可以得到：本文提出的网络目标函数的收敛速度较快，且收敛之后的目标函数的数值较好。

Acoustic modelling from the signal domain using CNNs的更多相关文章

基于SincNet的原始波形说话人识别
speaker recognition from raw waveform with SincNet Mirco Ravanelli, Yoshua Bengio 作为一种可行的替代i-vector的 ...
论文翻译：2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios
论文地址:深度学习用于噪音和双语场景下的回声消除博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html 摘要传统的声学回声消除(AEC)通过使 ...
论文翻译：2020_Attention Wave-U-Net for Acoustic Echo Cancellation
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-10.pdf Attention Wave-U-Net 的回声消除摘要提出了 ...
Paper List ABOUT Deep Learning
Deep Learning 方向的部分 Paper ,自用.一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 ...
Deep Learning方向的paper
转载 http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65 个人阅读的Deep Learning方向的paper整理,分了几部分吧,但 ...
Introduction to CELP Coding
Speex is based on CELP, which stands for Code Excited Linear Prediction. This section attempts to in ...
Tips on Acoustic Signal Processing
1.声音的三个主要的主观属性(即音量.音调.音色).音色(Timbre)是指不同的声音的频率表现在波形方面总是有与众不同的特性,音色的不同取决于不同的泛音.频率的高低决定声音的音调,振幅的大小决定声音 ...
论文翻译：2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise
论文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362 神经网络支持的回声.混响和噪声联合多通道降噪摘要我们考虑 ...
《The challenge of realistic music generation: modelling raw audio at scale》论文阅读笔记
The challenge of realistic music generation: modelling raw audio at scale 作者:Deep mind三位大神出处:NIPS ...

随机推荐

JAVA版本微信管家平台—JeeWx 捷微 4.1 微服务版本发布，微信砍价活动闪亮登场！
捷微 4.1 微服务版本发布,微信砍价活动闪亮登场 ^_^ JEEWX 从4.0版本开始,技术架构全新换代更名 “捷微H5”.这是一款开源免费的微信运营平台,是jeewx的新一代产品,平台涵盖了: ...
开源微信管家平台——JeeWx 捷微4.0 微服务版本发布，全新架构，全新UI，提供强大的图文编辑器
JeeWx捷微4.0 微服务版本发布^_^ 换代产品(全新架构,全新UI,提供强大的图文编辑器) JEEWX 从4.0版本开始,技术架构全新换代,采用微服务架构,插件式开发,每个业务模块都是独立的 ...
Spring Cloud基础教程
Spring Cloud基础教程 2017-04-04 被围观 90375 次该教程内容不定时更新,如您对这些内容感兴趣,可以关注我的博客或微信公众号! 本教程示例代码: GitHub:https ...
MySQL 还原
## sql 还原:mysql -default-character-set=utf8 -h127.0.0.1 -uroot -pxxxxxx test2 < /data/test/db/201 ...
ECharts折线图多个折线每次只显示一条
echart 两条折线图如何默认只显示一条,另一条隐藏呢只需要在legend后加上, selectedMode: 'single', selectedMode [ default: true ] 图 ...
xmlns 啥意思
参考:https://blog.csdn.net/zhch152/article/details/8191377 前提科普:DTD 文档类型定义(Document Type Definition) 问 ...
springCloud面试题
1.SpringCloud和Dubbo SpringCloud和Dubbo都是现在主流的微服务架构SpringCloud是Apache旗下的Spring体系下的微服务解决方案Dubbo是阿里系的分布式 ...
浅谈Spring
参考文章: https://www.ibm.com/developerworks/cn/java/j-lo-spring-principle/ 参考书籍: <SPRING技术内幕:深入解析SPR ...
Java框架spring Boot学习笔记（五）：Spring Boot操作MySQL数据库增、删、改、查
在pom.xml添加一下代码,添加操作MySQL的依赖jar包. <dependency> <groupId>org.springframework.boot</grou ...
java第四章接口
接口(interface) 语法:修饰符 interface 接口名 extends 父接口1,父接口2....{ //常量定义 //方法定义} class 类名 extends 父类名 impl ...

Acoustic modelling from the signal domain using CNNs

3. Neural network architecture

3.1 Network-in-Network nonlinearity

Acoustic modelling from the signal domain using CNNs的更多相关文章

随机推荐

热门专题