参考资料: https://en.wikipedia.org/wiki/Inductive_bias http://blog.sina.com.cn/s/blog_616684a90100emkd.html Machine Learning. Tom M. Mitchell 下面我认为比较关键的内容都用红色字体标注: mokuram (mokuram) 于Tue Jan 4 05:22:24 2005)提到:就是学习器在学习的时候带有的偏见.(这个说法不很准确)比如决策数分类器,很多决策数都采用…
[论文简析]How Do Vision Transformers Work?[2202.06709] 论文题目:How Do Vision Transformers Work? 论文地址:http://arxiv.org/abs/2202.06709 代码:https://github.com/xxxnell/how-do-vits-work ICLR2022 - Reviewer Kvf7: 这个文章整理的太难懂了 很多trick很有用,但是作者并没有完全说明 行文线索 Emporocal O…
作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客.论文.专家观点等内容上已经积累了超过两年多的经验.期间,从无到有,机器之心的编译团队一直在积累专业词汇.虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步.一直在积累.一直在提高自己的专业性.两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典.而我们也从机器之心读者留言中发现,有些人工智能专业词汇没有统一的翻译标准,这可能是因地区.跨专业等等原因造成的.举个例子,DeepM…
决策树之ID3算法 Content 1.ID3概念 2.信息熵 3.信息增益 Information Gain 4. ID3 bias 5. Python算法实现(待定) 一.ID3概念 ID3算法最早是由罗斯昆(J. Ross Quinlan)于1975年在悉尼大学提出的一种分类预测算法,算法的核心是"信息熵".ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树. 决策树是对数…
Supervised Learning Unsupervised Learning Reinforced Learning Goal: How to apply these methods How to evaluate each methods What is Machine Learning? 1.computational statistics 2.computational artifacts(人工制品) that learn over time based on experience…
[转载]神经网络偏置项(bias)的设置及作用 原文来自:https://www.cnblogs.com/shuaishuaidefeizhu/p/6832541.html 1.什么是bias? 偏置单元(bias unit),在有些资料里也称为偏置项(bias term)或者截距项(intercept term),它其实就是函数的截距,与线性方程 y=wx+b 中的 b 的意义是一致的.在 y=wx+b中,b表示函数在y轴上的截距,控制着函数偏离原点的距离,其实在神经网络中的偏置单元也是类似的…
机器学习 一.机器学习概念 啥是机器学习 机器学习:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则关于T和P,该程序对E进行了学习 通俗讲:通过计算的方式,利用经验来改善系统自身性能 研究主要内容:"学习算法"--> 从数据中产生模型的算法 基本术语 模型(model):全局性结果:模式(mode):局部性结果 数据集(data set):记录的集合(机器学习开源数据集) 样本(sample).示例(instance):关于一…
遵循统一的机器学习框架理解高斯混合模型(GMM) 一.前言 我的博客仅记录我的观点和思考过程.欢迎大家指出我思考的盲点,更希望大家能有自己的理解. 本文参考了网络上诸多资料,特别是B站UPshuhuai008的视频,讲解东西也是我最喜欢的方式:从多个角度阐述和理解问题. 二.理解 统一的机器学习框架(MLA): 1.模型(Model) 2.策略(Loss) 3.算法(Algorithm) Model 题外话:所谓模型,就是建模的过程,也是我们对现实(已观测)的一种假设,比如前几篇介绍SVM,LR…
EM算法之不同的推导方法和自己的理解 一.前言 EM算法主要针对概率生成模型解决具有隐变量的混合模型的参数估计问题. 对于简单的模型,根据极大似然估计的方法可以直接得到解析解:可以在具有隐变量的复杂模型中,用MLE很难直接得到解析解,此时EM算法就发挥作用了. E步解决隐变量的问题,M步求解模型的参数值,也就是极大似然的方法求取模型的参数值. 自己的理解:走一步看一步,走了看,看了再走,迭代过程. 首先使用估计的方式直接设置一组模型的参数值,这组模型的参数值是先验的,甚至可以说是我们瞎设的,这么…
1.什么是bias? 偏置单元(bias unit),在有些资料里也称为偏置项(bias term)或者截距项(intercept term),它其实就是函数的截距,与线性方程 y=wx+b 中的 b 的意义是一致的.在 y=wx+b中,b表示函数在y轴上的截距,控制着函数偏离原点的距离,其实在神经网络中的偏置单元也是类似的作用. 因此,神经网络的参数也可以表示为:(W, b),其中W表示参数矩阵,b表示偏置项或截距项. 2.bias的计算方式? 神经网络结构中对偏置单元的计算处理方式有两种, …
目录 I. 大师对人工智能和机器学习的看法 II. Introduction A. What is Machine Learning 什么是机器学习 B. Basic terms 基础术语 C. Inductive learning & Hypothesis space 归纳学习和假设空间 D. Inductive bias & NFL 归纳偏置和"天下没有免费的午餐定理" E. History III. 模型评估与选择 A. Overfitting & Und…
1. 前言 多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法.在机器学习领域,标准的算法理论是一次学习一个任务,也就是系统的输出为实数的情况.复杂的学习问题先被分解成理论上独立的子问题,然后分别对每个子问题进行学习,最后通过对子问题学习结果的组合建立复杂问题的数学模型.多任务学习是一种联合学习,多个任务并行学习,结果相互影响. 拿大家经常使用的school data做个简单的对比,school data是用来预测…
https://blog.csdn.net/chanbo8205/article/details/84170813 多任务学习(Multitask learning)是迁移学习算法的一种,迁移学习可理解为定义一个一个源领域source domain和一个目标领域(target domain),在source domain学习,并把学习到的知识迁移到target domain,提升target domain的学习效果(performance). 多任务学习(Multi-task learning)…
基于比较的方法 先通过CNN得到目标特征,然后与参考目标的特征进行比较. 不同在于比较的方法不同而已. 基本概念 数据集Omniglot:50种alphabets(文字或者文明); alphabet中15-40 characters(字母); 每个字母有20drawers(20个不同的人写的). 每次迭代叫mini_batch或者epsiode. N-ways指的是有多个类别,N-shot是指于多少个目标进行比较取均值中的最高值作为最后的结果. 测试集与训练集中样本的类别不一样. cosine(…
译自:http://sebastianruder.com/multi-task/ 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务.然后,我们通过精细调参,来改进模型直至性能不再提升.尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好.具体来说,这些信息就是相关任务的监督数据.通过在相关任务间共享表示信息,我们的模型在…
1. 线性模型简介 0x1:线性模型的现实意义 在一个理想的连续世界中,任何非线性的东西都可以被线性的东西来拟合(参考Taylor Expansion公式),所以理论上线性模型可以模拟物理世界中的绝大多数现象.而且因为线性模型本质上是均值预测,而大部分事物的变化都只是围绕着均值而波动,即大数定理. 事物发展的混沌的线性过程中中存在着某种必然的联结.事物的起点,过程,高潮,衰退是一个能被推演的过程.但是其中也包含了大量的偶然性因素,很难被准确的预策,只有一个大概的近似范围.但是从另一方面来说,偶然…
本文参考自:http://blog.csdn.net/happyzhouxiaopei/article/details/7960876 这三个模型都可以用来做序列标注模型.但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率.而MEMM模型是对转移 概率和表现概率建立联合概率,统计时统计的是条件概率.MEMM容易陷入局部最优,是因为MEMM只在局部做归一化,而CRF模型中,统计了全局概率,在 做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEM…
概念学习和一般到特殊序 Concept Learning and the General-To-Specific Ordering 1 简介 1.1 定义 概念学习(Concept Learning):考虑的问题是,给定一样例集合以及每个样例是否属于某一概念的标注,怎样自动推出该概念的一般定义. 定义:从有关某个布尔函数的输入输出训练样例中推断出该布尔函数. 1.2 概念学习任务 EnjoySport的例子: 1.3术语定义 实例(instance) 目标概念(target concept):待…
https://cloud.tencent.com/developer/article/1118159 http://ruder.io/multi-task/ https://arxiv.org/abs/1706.05098 两种深度学习 MTL 方法 1.Hard 参数共享 在实际应用中,通常通过在所有任务之间共享隐藏层,同时保留几个特定任务的输出层来实现. 共享 Hard 参数大大降低了过拟合的风险.这很直观:我们同时学习的工作越多,我们的模型找到一个含有所有任务的表征就越困难,而过拟合我们…
参考: 1. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context https://arxiv.org/pdf/1901.02860.pdf 2. Self-Attention with Relative Position Representations (shaw et al.2018): https://arxiv.org/pdf/1803.02155.pdf 3. [NLP] 相对位置编码(一) Re…
空间变换网络(STN)原理+2D图像空间变换+齐次坐标系讲解 2018年11月14日 17:05:41 Rosemary_tu 阅读数 1295更多 分类专栏: 计算机视觉   版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/Rosemary_tu/article/details/84069878 本文是对Google DeepMind 团队2015年发表的空间变换网络STN的详细讲解,笔…
论文地址:基于DNN的语音带宽扩展及其在窄带语音自动识别中加入高频缺失特征的应用 论文代码:github 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12361112.html 摘要 我们提出了一些增强技术来提高从窄带到宽带扩频(BWE)中的语音质量,解决了三个在实际应用中可能非常关键的问题,即:(1)窄带频谱和估计的高频频谱之间的不连续性,(2) 测试和训练话语之间的能量不匹配,(3)扩大了域外语音信号的带宽.通过带宽扩展语音中高频特征缺…
Abstract We introduce a new type of deep contextualized word representation that models both (1) complex characteristics of word use (eg, syntax and semantics), and (2) how these uses vary across linguistic contexts (i.e. to model polysemy). 我们引入了一种新…
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 We propose to augment convolutional operators with this self-attention mechanism by concatenating convolutional feature maps with a set of feature map…
原创作者 | FLPPED 参考论文: A Survey of Transformers 论文地址: https://arxiv.org/abs/2106.04554 研究背景: Transformer在人工智能的许多领域取得了巨大的成功,例如自然语言处理,计算机视觉和音频处理,也自然吸引了大量的学术和行业研究人员的兴趣. 其最初是针对seq2seq的机器翻译模型而设计的,在后续的其他工作中,以Transformer为基础的预训练模型,在不同的任务中取得了state-of-the-art 的表现…
机器学习中遗忘的数学知识 最大似然估计( Maximum likelihood ) 最大似然估计,也称为最大概似估计,是一种统计方法,它用来求一个样本集的相关概率密度函数的参数.这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的. 最大似然估计的原理 给定一个概率分布,假定其概率密度函数(连续分布)或概率质量函数(离散分布)为,以及一个分布参数,我们可以从这个分布中抽出一个具有个值的采样,通过利用,我们就能计算出其概率: 但是,我们可能不知道的值,尽管我们知道…
1    Unsupervised Learning 1.1    k-means clustering algorithm 1.1.1    算法思想 1.1.2    k-means的不足之处 1.1.3    如何选择K值 1.1.4    Spark MLlib 实现 k-means 算法 1.2    Mixture of Gaussians and the EM algorithm 1.3    The EM Algorithm 1.4    Principal Components…
Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 目 录 1    Introduction    1 1.1    What is Machine Learning    1 1.2    学习心得和笔记的框架    1 2    Supervised Learning    3 2.1    Perceptron Learning Algorithm (PLA)    3 2.1.1    PLA -- "知…
相关源码可参考最新的实现:https://github.com/ronnyyoung/EasyML ,中的neural_network模块,后持续更新,包括加入CNN的结构. 一.引言 在前一篇关于神经网络的文章中,给出了神经网络中单个神经元的结构和作用原理,并且用梯度下降的方法推导了单个SIMGOID单元的权值更新法则.在文章的最后给了一个例子,我们以一个4维的单位向量作为特征,映射到一维的[0,1]的空间中,我们采用了一个感知器单元,实验结果发现经过15000次(实际应该在5000次左右已经…
括号表示概念出现的其他页码, 如有兴趣协同整理,请到issue中认领章节 完整版见我的github:ahangchen 觉得还不错的话可以点个star ^_^ 第一章 绪论 Page2: 标记(label) 示例结果的信息,例如"好瓜",称为标记 Page2: 假设(269)(hypothesis) 学得模型对应了数据的某种潜在的规律,因此亦称假设 Page2: 示例(instance) 数据集中的每条记录是关于某个事件或对象的描述,称为一个"示例"或"样…