Task

Sample Baseline模型介绍

class Classifier(nn.Module):

	def __init__(self, d_model=80, n_spks=600, dropout=0.1):

		super().__init__()

		# Project the dimension of features from that of input into d_model.

		self.prenet = nn.Linear(40, d_model)

		# transformer

		self.encoder_layer = nn.TransformerEncoderLayer(

			d_model=d_model, dim_feedforward=256, nhead=2

		)

		self.encoder = self.encoder_layer

		self.pred_layer = nn.Sequential(

			nn.Linear(d_model, d_model),

			nn.ReLU(),

			nn.Linear(d_model, n_spks),

		)

	def forward(self, mels):

		"""

		args:

			mels: (batch size, length, 40)

		return:

			out: (batch size, n_spks)

		"""

		# out: (batch size, length, d_model)

		out = self.prenet(mels)

		# out: (length, batch size, d_model)

		out = out.permute(1, 0, 2)

		# The encoder layer expect features in the shape of (length, batch size, d_model).

		out = self.encoder(out)

		# out: (batch size, length, d_model)

		out = out.transpose(0, 1)

		# mean pooling

		stats = out.mean(dim=1)

		# out: (batch, n_spks)

		out = self.pred_layer(stats)

		return out

模型开始对特征进行了升维以增强表示能力，随后通过transformer的encoder对数据进一步编码(未使用decoder)，到这一步就包含了原来没有包含的注意力信息，以英文Sequence为例，如果原来的Sequence中每个单词是独立编码的是没有任何关联的，那么经过这一步之后，每一个单词的编码都是由其他单词编码的叠加而成。最后通过pred_layer进行预测(当然在此之前进行了一个mean pooling，这个下面会讲)。

在模型的前向传播时，模型基本是安装前面定义的各层进行计算的，我们注意到在给encoder的输入时，维度的顺序为(length，batch_size, d_model)，而不是(batch_size, length, d_model)，实际上这是为了并行计算?

下图是batch_first时所对应的存储顺序

下图时length_first时所对应的存储顺序

在其他时序模型中，由于需要按序输入，因此直接拿到一个sequence没啥用，不如直接得到一批batch中的所有sequence中的第一个语音序列或单词，但是在transformer中应该不需要这样吧？

另外一个小细节是进行mean pooling

stats = out.mean(dim=1)

这一步是不必可少的，不然没法输入pred_layer，这里做mean的意思是把每个sequence的所有frame通过平均合并为一个frame，如下图所示

维度由batch_size\(\times\)length\(\times\)d_model变成了batch_size\(\times\)d_model

Medium Baseline

对于medium baseline，只需要调节视频中提示的地方进行修改即可，我的得分如下：

相关参数如下

d_model=120

4个encoder_layer的nhead=4

Strong Baseline

对于strong baseline，需要引入conformer架构，我的得分如下：

而conformer的引入需要注意以下几点：

引入(当然你也可以使用pip进行单独安装)

from torchaudio.models.conformer import Conformer

由于torchaudio中实现的conformer默认是batch_first，因此在代码中我们需要去掉下面两行

out = out.permute(1, 0, 2)

out = out.transpose(0, 1)

Boss Baseline

引入self-attention pooling和additive margin softmax后，准确率下降了。

李宏毅2022机器学习HW4 Speaker Identification下的更多相关文章

李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent
引言: 这个系列的笔记是台大李宏毅老师机器学习的课程笔记视频链接(bilibili):李宏毅机器学习(2017) 另外已经有有心的同学做了速记并更新在github上:李宏毅机器学习笔记(LeeML- ...
Python 机器学习实战 —— 监督学习（下）
前言近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...
李宏毅老师机器学习课程笔记_ML Lecture 2: Where does the error come from?
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 1: ML Lecture 1: Regression - Demo
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 1: 回归案例研究
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 0-2: Why we need to learn machine learning?
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
李宏毅老师机器学习课程笔记_ML Lecture 0-1: Introduction of Machine Learning
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子 ...
机器学习之神经网络模型-下（Neural Networks: Representation）
3. Model Representation I 1 神经网络是在模仿大脑中的神经元或者神经网络时发明的.因此,要解释如何表示模型假设,我们不妨先来看单个神经元在大脑中是什么样的. 我们的大脑中充满 ...
Andrew Ng机器学习课程笔记--week5(下)
Neural Networks: Learning 内容较多,故分成上下两篇文章. 一.内容概要 Cost Function and Backpropagation Cost Function Bac ...
机器学习模型从windows下 spring上传到预发布会导致模型不可加载
1.通过上传到redis,程序通过redis拉取模型,解决问题. 2.问题原因初步思考为windows下模型文件上传到 linux导致,待继续跟进查找.

随机推荐

How to Use Github
C:\Windows\System32\drivers\etc\hosts 在最后加上一句 20.205.243.166 github.com 从 https://ping.chinaz.com/ 来 ...
分享一个项目：`learning_go_plan9_assembly`，学习 golang plan9 汇编
作者:张富春(ahfuzhang),转载时请注明作者和引用链接,谢谢! cnblogs博客 zhihu Github 公众号:一本正经的瞎扯近期在学习 golang plan9 汇编,总算基本做到了 ...
洛谷P3101 题解
输入格式第 \(1\) 行,三个整数 \(m,n,t\). 第 \(2\) 到 \(m+1\) 行,\(m\) 个整数,表示海拔高度. 第 \(2+m\) 到 \(2m+1\) 行,\(m\) 个整 ...
Pytest 源码解读 [1] - [pluggy] 核心设计理念浅读
背景: Pytest 是一个功能强大的 Python 测试框架,它使用了一个名为 "pluggy" 的插件系统来扩展其功能.在 Pytest 的源码中,pluggy 模块负责实现插 ...
el-tree只展示前三个节点数据
后端也返回了第四等级,但是不想让他展示,可以这样解决只展示前三等级 // 获取room树 getRoomTreeList() { getRoomTree().then((res) => { // ...
全新Self-RAG框架亮相，自适应检索增强助力超越ChatGPT与Llama2，提升事实性与引用准确性
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性 1. 基本思想大型语言模型(LLMs)具有出色的能力,但由于完全依赖其内部的参数化知识,它们 ...
C/C++ 实现FTP文件上传下载
FTP(文件传输协议)是一种用于在网络上传输文件的标准协议.它属于因特网标准化的协议族之一,为文件的上传.下载和文件管理提供了一种标准化的方法,在Windows系统中操作FTP上传下载可以使用WinI ...
【图论】【Matlab】最小生成树之Kruskal算法【贪心思想超详细详解Kruskal算法并应用】
最小生成树之Kruskal算法注意:内容学习来自:b站CleverFrank数模算法精讲导航前言实际问题引入 Kruskal算法整体代码展示尾声前言博主今天给大家带来的是最小生成树中两 ...
CentOS7下的防火墙配置整理
CentOS7下的防火墙配置整理一.firewalld的基本使用 [root@localhost jack]# systemctl start firewalld # 启动防火墙 [root@loc ...
一个关于用netty的小错误反思
一个关于用netty的小认知在使用netty时,观看了黑马的netty网课,没想就直接用他的依赖了依赖如下 <dependency> <groupId>io.netty&l ...

李宏毅2022机器学习HW4 Speaker Identification下