Jordan Lecture Note-5: Kernels】的更多相关文章

Jordan Lecture Note-1: Introduction 第一部分要整理的是Jordan的讲义,这份讲义是我刚进实验室时我们老师给我的第一个任务,要求我把讲义上的知识扩充出去,然后每周都要讲给他听.如果有需要这份讲义的话,请留言,我会用邮件发给你. 首先,我来说说机器学习这个东西.刚进实验室,我根本连什么是机器学习都不知道,听到这个名词后的第一反应是机器人,心想估计是搞硬件的.后来才发现其实机器学习更偏向于后面两个字,也就是“学习”.打个不恰当的比方吧,人类在婴儿时期,还无法对世上…
Jordan Lecture Note-3:梯度投影法 在这一节,我们介绍如何用梯度投影法来解如下的优化问题: \begin{align} \mathop{\min}&\quad f(x)\nonumber\\\mathop{s.t.}&\quad \mathbf{A}_1 x\leq b_1\nonumber\\&\quad \mathbf{A}_2x= b_2\label{equ:originalModel}\end{align} 其中$x\in\mathbb{R}^n,\ma…
题目1 : Colorful Lecture Note 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 Little Hi is writing an algorithm lecture note for Little Ho. To make the note more comprehensible, Little Hi tries to color some of the text. Unfortunately Little Hi is using a plain…
Little Hi is writing an algorithm lecture note for Little Ho. To make the note more comprehensible, Little Hi tries to color some of the text. Unfortunately Little Hi is using a plain(black and white) text editor. So he decides to tag the text which…
Colorful Lecture Note 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 Little Hi is writing an algorithm lecture note for Little Ho. To make the note more comprehensible, Little Hi tries to color some of the text. Unfortunately Little Hi is using a plain(black…
#1103 : Colorful Lecture Note 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 Little Hi is writing an algorithm lecture note for Little Ho. To make the note more comprehensible, Little Hi tries to color some of the text. Unfortunately Little Hi is using a pla…
Kernels 我们首先来回顾kernel函数的定义:一个函数$K(x,y)$为kernel函数当且仅当对$\forall g, \int K(x,y)g(x)g(y)dxdy\geq 0$成立.另外,根据Mercer's theorem,存在一个映射$\Phi$使$K(x,y)=\langle \Phi(x),\Phi(y)\rangle$,并且对任意有限的点,kernel矩阵是半正定的. 一.核函数的封闭性 Hadamard product: $$\mathbf{A}\circ\mathbf…
Maximal Margin Classifier Logistic Regression 与 SVM 思路的不同点:logistic regression强调所有点尽可能远离中间的那条分割线,而SVM则强调最靠近分割线的点于分割线的距离仅可能的远. 定义间隔函数:$\hat{r}^{(i)}=y^{(i)}(w^\prime x^{(i)}+b)$.当$y^{(i)}=1$时,$w^\prime x^{(i)}+b>0$:当$y^{(i)}=-1$时,$w^\prime x^{(i)}+b<…
Kernel典型相关分析 (一)KCCA 同样,我们可以引入Kernel函数,通过非线性的坐标变换达到之前CCA所寻求的目标.首先,假设映射$\Phi_X: x\rightarrow \Phi_X(x), \Phi_Y: y\rightarrow \Phi_Y(y)$,记$\mathbf{\Phi_X}=(\Phi_X(x_1),\Phi_X(x_2),\cdots,\Phi_X(x_p))^\prime, \mathbf{\Phi_Y}=(\Phi_Y(y_1),\Phi_Y(y_2),\cd…
典型相关分析 (一)引入 典型相关分析(Canonical Correlation Analysis)是研究两组变量之间相关关系的一种多元统计方法.他能够揭示出两组变量之间的内在联系. 我们知道,在一元统计分析中,用相关系数来衡量两个随机变量的线性相关关系,用复相关系数研究一个随机变量与多个随机变量的线性相关关系.然而,这些方法均无法用于研究两组变量之间的相关关系,于是提出了CCA.其基本思想和主成分分析非常相似.首先,在每组变量中寻找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数:…
Kernel Principal Components Analysis PCA实际上就是对原坐标进行正交变换,使得变换后的坐标之间相互无关,并且尽可能保留多的信息.但PCA所做的是线性变换,对于某些数据可能需要通过非线性变换,比如在二维空间下对如下数据进行处理.如果还是采用最初的PCA,则得到的主成分是$z_1,z_2$,而这里的$z_1,z_2$都包含了大量的信息,故无法去掉任何一个坐标,也就达不到降维的目的.而此时如果采用极坐标变换(属于非线性变换),我们就可以尽用一条坐标包含大量的信息(…
Principal Components Analysis (一)引入PCA    当我们对某个系统或指标进行研究时往往会发现,影响这些系统和指标的因素或变量的数量非常的多.多变量无疑会为科学研究带来丰富的信息,但也会在一定程度上增加工作的难度,而通常变量之间又具有一定的相关性,这又增加了问题分析的复杂度.如果分别分析每个变量,那么分析又不够综合,而盲目的减少变量又会损失很多有用的信息.因而我们自然而然想到能否用较少的新变量去代替原来较多的旧变量(即降维),同时使这些新变量又能够尽可能保留原来旧…
The Sequential Minimal Optimization Algorithm (SMO) 本文主要介绍用于解决SVM对偶模型的算法,它于1998年由John Platt在论文“Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines”中提出的.这篇笔记还参考了某篇博客,但由于是一年前的事了,暂时没找到这篇博客,所以没有引用出来,希望该篇博客的主人见谅. (1)解决的问题…
Soft Margin SVM  (1)Recall 之前分析到SVM的模型为: \begin{align}\mathop{\min}&\quad \frac{1}{2}w^\prime w\nonumber\\\mathop{s.t}&\quad y_i(x_i^\prime w+b)\geq 1, i=1,2,\cdots,m\label{model:SVM}\end{align} 利用Lagrange乘子法转化为对偶问题: \begin{align}\mathop{\max}&…
The Solutions of Nonlinear Equation 本文主要介绍几种用于解非线性方程$f(x)=0$的一些方法. (1) Bisection Method. 算法: step 1: 初始化$a,b(b>a)$,使$f(a),f(b)$异号. step 2: while (停止条件不满足) $p=a+\frac{b-a}{2}$: 若 $f(p)f(a)<0$,$b=p$:否则$a=p$. end while step 3: 返回的$p$为方程$f(x)=0$的解. 停止条件…
Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y_i\in\mathbb{R}$.我们采用以下矩阵来记上述数据: \begin{equation}\mathbf{X}=\left[\begin{array}& x_1^\prime\\ x_2^\prime\\\vdots\\ x_n^\prime\end{array}\right]\quad y=…
一些机器学习算法的简介 本节开始,介绍<Computer Science Theory for the Information Age>一书中第六章(这里先暂时跳过第三章),主要涉及学习以及学习的理论——VC理论.而本文主要是介绍一下什么是学习,以及一些常见的学习算法. (一)学习概念 首先,我们用一个例子来介绍什么是学习.假设我们想要用一个算法来识别不同类型的车,比如小汽车.卡车.拖拉机等.根据我们的思维以及对这个领域的知识可知道,我们可以用一系列特征来区分它们,比如我们可以用轮子的数量,发…
问题的出现 Question 这个问题是我基于TensorFlow使用CNN训练MNIST数据集的时候遇到的.关键的相关代码是以下这部分: cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv)) train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) 学习速率是\((1e-4)\)的时候是没有问题,但是当我把学习速率调到\(0.01/0.5\)的时候,很快就会报错. tenso…
RNNs and Language modeling in TensorFlow From feed-forward to Recurrent Neural Networks (RNNs) In the last few weeks, we've seen how feed-forward and convolutional neural networks have achieved incredible results. They perform on par with, even outpe…
Convolutions in TensorFlow Convolutions without training You might already be familiar with the term "convolution" from a mathematical or physical context. In the mathematical context, "convolution" is defined, by Oxford dictionary, as…
##Advice for Applying Machine Learning Applying machine learning in practice is not always straightforward. In this module, we share best practices for applying machine learning in practice, and discuss the best ways to evaluate performance of the le…
A 2d grid map of m rows and n columns is initially filled with water. We may perform an addLand operation which turns the water at position (row, col) into a land. Given a list of positions to operate, count the number of islands after each addLand o…
awesome-nlp  A curated list of resources dedicated to Natural Language Processing Maintainers - Keon Kim, Martin Park Please read the contribution guidelines before contributing. Please feel free to pull requests, or email Martin Park (sp3005@nyu.edu…
Self-taught 自我学习器实验报告 1.Self-taught 自我学习实验描述 自我学习是无监督特征学习算法,自我学习意味着算法能够从未标注数据中学习,从而使机器学习算法能够获得更大数量的数据,因而更有可能取得更好的性能.在本实验中,我们将按照自我学习的步骤,使用稀疏自编码器和softmax分类器去构造一个手写数字分类器. 实现流程 Step 1 :产生训输入和测试样本集 Step 2 :训练稀疏自编码器 Step 3 :提取特征 Step 4 :训练和测试softMax分类器 Ste…
http://codeforces.com/contest/1072/problem/C C. Cram Time time limit per test 1 second memory limit per test 256 megabytes input standard input output standard output In a galaxy far, far away Lesha the student has just got to know that he has an exa…
Lecture Note 2 Tensorboard P3 Data Structures P4 Math Operations P6 Data Types P7 tf native && python native tensorflow && numpy P9 Variables P10-14 var要先initiate/assign placeholder P15-16 Lecture Note 3 An example of logitic regression P3…
wesome Recurrent Neural Networks A curated list of resources dedicated to recurrent neural networks (closely related todeep learning). Maintainers -Jiwon Kim,Myungsub Choi We have pages for other topics:awesome-deep-vision,awesome-random-forest Table…
Active Learning Two Faces of Active Learning, Dasgupta, 2011 Active Learning Literature Survey, Settles, 2010 Applications A Survey of Emerging Approaches to Spam Filtering, Caruana, 2012 Ambient Intelligence: A Survey, Sadri, 2011 A Survey of Online…
Matplotlib Tutorial(译) 翻译自:Matplotlib tutorialNicolas P. Rougier - Euroscipy 2012 toc{: toc} 这个教程基于可以从scipy lecture note得到的 Mike Müller的教程. 源代码可从这里获得.图像在figures文件夹内,所有的脚本位于scripts文件夹. 所有的代码和材料以Creative Commons Attribution 3.0 United States License (C…
原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用. 2.<Programming Collective Intelligence>(<集体智慧编程>)PDF3 作者Toby Segaran也是<BeautifulData : The Stories Behind Elegant…