文章[1]主要针对的是语句长度不定,含有不相关信号的说话人识别. 深度网络设计的关键在于主干(帧级)网络的类型[the type of trunk (frame level) network]和有时间序列属性的聚合方法[the method of temporal aggregation]. 文中提出了一个强大的说话人识别深度网络,使用了一个“thin-ResNet” 网络结构,以及一个基于字典的NetVLAD[2]或者GhostVLAD层去在实践层面上聚合特征,这个可端到端训练. 文中实验在V…
转载自:http://ganeshtiwaridotcomdotnp.blogspot.com/2010/12/text-prompted-remote-speaker.html Biometrics is, in the simplest definition, something you are. It is a physical characteristic unique to each individual such as fingerprint, retina, iris, speec…
azure说话人识别API 官方文档:https://westus.dev.cognitive.microsoft.com/docs/services/563309b6778daf02acc0a508/operations/5645c523778daf217c292592 官方Python SDK: https://github.com/Microsoft/Cognitive-SpeakerRecognition-Python 第三方封装库:https://github.com/robladbr…
年域适应挑战(DAC)数据集的实验表明,所提出的方法不仅有效解决了数据集不匹配问题,而且还优于上述无监督域自适应方法.        …
1. Introduction 人脸识别受到各种因素影响,其中最重要的两个影响是 pose 和 expression, 这两个因素会对 intra-person 变化产生极大的影响, 有时候甚至会超过 inter-person 变化的影响.面对这两个挑战,许多工作可以大体被划分为两种: feature level normalization 和 image level normalization. Feature级的normalization重点在于设计对pose和expression变化更鲁棒…
这里翻译下<Deep face recognition: a survey v4>. 1 引言 由于它的非侵入性和自然特征,人脸识别已经成为身份识别中重要的生物认证技术,也已经应用到许多领域,如军事,进入,公共安全和日常生活.FR自然在CVPR会议中也占据了十分长的时间.早在1990年代,随着特征脸的提出[157],FR就成为了一个比较热门的研究领域.过去基于特征进行FR的里程碑方法在图1中有所展示 如图1所示,其中介绍了4个主流技术的发展过程: holistic 方法:通过某种分布假设去直接…
论文题目:2018_说话人验证的广义端到端损失 论文代码:https://google.github.io/speaker-id/publications/GE2E/ 地址:https://www.cnblogs.com/LXP-Never/p/11799985.html 作者:凌逆战 摘要 在本论文中,我们提出了一种新的损失函数,称为广义端到端( generalized end-to-end,GE2E)损失,使得说话人验证模型的训练比以往基于元组的端到端(tuple based end to…
论文地址:基于DNN的语音带宽扩展及其在窄带语音自动识别中加入高频缺失特征的应用 论文代码:github 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12361112.html 摘要 我们提出了一些增强技术来提高从窄带到宽带扩频(BWE)中的语音质量,解决了三个在实际应用中可能非常关键的问题,即:(1)窄带频谱和估计的高频频谱之间的不连续性,(2) 测试和训练话语之间的能量不匹配,(3)扩大了域外语音信号的带宽.通过带宽扩展语音中高频特征缺…
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zisserman[§] Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 用于大规模图像识别的深度卷积网络 Karen Simonyan[‡] &am…
转载 https://handong1587.github.io/deep_learning/2015/10/09/recognition.html#facenet Classification / Recognition Published: 09 Oct 2015 Category: deep_learning Jump to... Papers Multi-object Recognition Multi-Label Classification Face Recognition Deep…
我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己看的 文章方向:语音分离, 论文地址:Conv-TasNet:超越理想的语音分离时频幅度掩蔽 博客地址:https://www.cnblogs.com/LXP-Never/p/14769751.html 论文代码:https://github.com/naplab/Conv-TasNet | htt…
为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的.不得不说,网络上关于语音识别的通俗易懂教程太少,都是各种公式满天飞,很少有说具体细节的,当然了,那需要有实战经验才行.下面总结以下几点,对其有个宏观印象即可(以孤立词识别为例). 一.每个单词的读音都对应一个HMM模型,大家都知道HMM模型中有个状态集S,那么每个状态用什么来表示呢,数字?向量?矩阵?其实这个状态集中的状态没有具体的…
Awesome-TensorFlow-Chinese TensorFlow 中文资源全集,学习路径推荐: 官方网站,初步了解. 安装教程,安装之后跑起来. 入门教程,简单的模型学习和运行. 实战项目,根据自己的需求进行开发. 很多内容下面这个英文项目: Inspired by https://github.com/jtoy/awesome-tensorflow 官方网站 官网:https://www.tensorflow.org/ 中文:https://tensorflow.google.cn/…
  目录(?)[+]   1.搜狗实验室数据集: http://www.sogou.com/labs/dl/p.html 互联网图片库来自sogou图片搜索所索引的部分数据.其中收集了包括人物.动物.建筑.机械.风景.运动等类别,总数高达2,836,535张图片.对于每张图片,数据集中给出了图片的原图.缩略图.所在网页以及所在网页中的相关文本.200多G 2 http://www.imageclef.org/ IMAGECLEF致力于位图片相关领域提供一个基准(检索.分类.标注等等) Cross…
自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyong Park 为我们整理了一份完整列表. GitHub 项目链接:https://github.com/Kyubyong/nlp_tasks 本人从事自然语言处理任务(NLP)的研究已经有很长时间了,有一天我想到,我需要为庞大的 NLP领域做一个概览,我知道自己肯定不是想要一睹 NLP 任务的全貌的…
IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017. IEEE Computer Society 2017, ISBN 978-1-5386-1032-9 Oral Session 1 Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Corre…
http://www.cv-foundation.org/openaccess/CVPR2016.py ORAL SESSION Image Captioning and Question Answering Monday, June 27th, 9:00AM - 10:05AM. These papers will also be presented at the following poster session 1   Deep Compositional Captioning: Descr…
模型项目 Domain Transfer Network - Implementation of Unsupervised Cross-Domain Image Generation Show, Attend and Tell - Attention Based Image Caption Generator Neural Style Implementation of Neural Style Pretty Tensor - Pretty Tensor provides a high leve…
Natural Language Processing Tasks and Selected References I've been working on several natural language processing tasks for a long time. One day, I felt like drawing a map of the NLP field where I earn a living. I'm sure I'm not the only person who…
Awesome TensorFlow  A curated list of awesome TensorFlow experiments, libraries, and projects. Inspired by awesome-machine-learning. What is TensorFlow? TensorFlow is an open source software library for numerical computation using data flow graphs. I…
  欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 统计项目联系QQ:231469242 用条件概率理解混合矩阵容易得多 sensitivity:真阳性…
GitHub NLP项目:自然语言处理项目的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为自然语言处理NLP初学者整理了一份庞大的自然语言处理项目领域的概览,包括了很多人工智能应用程序.选取的参考文献与资料都侧重于最新的深度学习研究成果.这些自然语言处理项目资源能为想要深入钻研一个自然语言处理NLP任务的人们提供一个良好的开端. 自然语言处理项目的相关干货整理: 指代消解 https://github.com/Kyu…
转自:CVonline by Robert Fisher 图像数据库 Index by Topic Action Databases Biological/Medical Face Databases Fingerprints General Images General RGBD datasets Gesture Databases Image, Video and Shape Database Retrieval Object Databases People, Pedestrian, Ey…
CVPR2016 Paper list ORAL SESSIONImage Captioning and Question Answering Monday, June 27th, 9:00AM - 10:05AM. These papers will also be presented at the following poster session 1 Deep Compositional Captioning: Describing Novel Object Categories Witho…
CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View Subspace Clustering Xiaojie Guo, Xiaobo Wang, Zhen Lei, Changqing Zhang, Stan Z. Li Borrowing Treasures From the Wealthy: Deep Transfer Learning Thro…
speaker recognition from raw waveform with SincNet Mirco Ravanelli, Yoshua Bengio 作为一种可行的替代i-vector的说话人识别方法,深度学习正日益受到欢迎.利用卷积神经网络(CNNs)直接对原始语音样本进行处理,取得了良好的效果.而不是使用标准的手工制作的功能,后一种CNNs从波形中学习低电平的语音表示,潜在地允许网络更好地捕获重要的窄带扬声器特性,如音高和共振峰.合理设计神经网络是实现这一目标的关键. 本文提出…
转载自:http://ganeshtiwaridotcomdotnp.blogspot.com/2011/08/silence-removal-and-end-point-detection.html Visithttp://ganeshtiwaridotcomdotnp.blogspot.com/2011/06/final-report-text-prompted-remote.html for more detail about our project.For the purpose of…
@http://www-cs-faculty.stanford.edu/people/karpathy/cvpr2015papers/ CVPR 2015 papers (in nicer format than this) maintained by @karpathy NEW: This year I also embedded the (1,2-gram) tfidf vectors of all papers with t-sne and placed them in an interf…
翻译 局部不变特征探测器:一项调查 摘要 -在本次调查中,我们概述了不变兴趣点探测器,它们如何随着时间的推移而发展,它们如何工作,以及它们各自的优点和缺点.我们首先定义理想局部特征检测器的属性.接下来是对过去四十年中根据不同类别的特征提取方法组织的文献的概述.然后,我们对选择的方法进行更详细的分析,这些方法对研究领域产生了特别重大的影响.最后总结并展望未来的研究方向. 1引言 在本节中,我们将讨论局部(不变)特征的本质.这个词我们的意思是什么?使用局部特征有什么好处?我们可以用它们做什么?理想的…
目录(?)[+]   1.搜狗实验室数据集: http://www.sogou.com/labs/dl/p.html 互联网图片库来自sogou图片搜索所索引的部分数据.其中收集了包括人物.动物.建筑.机械.风景.运动等类别,总数高达2,836,535张图片.对于每张图片,数据集中给出了图片的原图.缩略图.所在网页以及所在网页中的相关文本.200多G 2 http://www.imageclef.org/ IMAGECLEF致力于位图片相关领域提供一个基准(检索.分类.标注等等) Cross L…