LR 算法总结--斯坦福大学机器学习公开课学习笔记

在有监督学习里面有几个逻辑上的重要组成部件[3],初略地分可以分为:模型,参数和目标函数.(此部分转自 XGBoost 与 Boosted Tree) 一.模型和参数模型指给定输入xi如何去预测输出 yi.我们比较常见的模型如线性模型(包括线性回归和logistic regression)采用二.目标函数:损失 + 正则模型和参数本身指定了给定输入我们如何做预测,但是没有告诉我们如何去寻找一个比较好的参数,这个时候就需要目标函数登场了.一般的目标函数包含下面两项常见的误差函数有…

Andrew N.G的机器学习公开课学习笔记（一）：机器学习的动机与应用

机器学习由对于人工智能的研究而来,是一个综合性和应用性学科,可以用来解决计算机视觉/生物学/机器人和日常语言等各个领域的问题,机器学习的目的是让计算机具有像人类的学习能力,这样做是因为我们发现,计算机要完成有的功能,是无法通过固定的程序实现的,例如让计算机识别手写的字迹,让计算机从不同的图片中识别出猫和人. 这门课程主要学习机器学习的算法,也需要用程序来实现这些算法,建议用Matlab或者Octave来进行编程.此外,学习本课程需要具有数理统计/线性代数和数据结构等方面的知识. 机器学习可以用如…

Stanford大学机器学习公开课（二）：监督学习应用与梯度下降

本课内容: 1.线性回归 2.梯度下降 3.正规方程组监督学习:告诉算法每个样本的正确答案,学习后的算法对新的输入也能输入正确的答案 1.线性回归问题引入:假设有一房屋销售的数据如下: 引入通用符号: m =训练样本数 x =输入变量(特征) y =输出变量(目标变量) (x,y)—一个样本 ith—第i个训练样本=(x(i),y(i)) 本例中:m:数据个数,x:房屋大小,y:价格监督学习过程: 1) 将训练样本提供给学习算法 2) 算法生成一个输出函数(一般用h表示,成为假…

Stanford大学机器学习公开课（三）：局部加权回归、最小二乘的概率解释、逻辑回归、感知器算法

(一)局部加权回归通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的过拟合(overfitting),不符合数据真实的模型.如下图的右图. 下面来讲一种非参数学习方法——局部加权回归(LWR).为什么局部加权回归叫做非参数学习方法呢?首先,参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖…

Stanford大学机器学习公开课（五）：生成学习算法、高斯判别、朴素贝叶斯

(一)生成学习算法在线性回归和Logistic回归这种类型的学习算法中我们探讨的模型都是p(y|x;θ),即给定x的情况探讨y的条件概率分布.如二分类问题,不管是感知器算法还是逻辑回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例,只要判断在直线的哪一侧即可:这种直接对问题求解的方法可以称为判别学习方法. 而生成学习算法则是对两个类别分别进行建模,用新的样例去匹配两个模板,匹配度较高的作为新样例的类别,比如分辨大象(y=1)和狗(y=0),首先,观察大象,然后建立一…

Stanford大学机器学习公开课（四）：牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导…

Stanford大学机器学习公开课（六）：朴素贝叶斯多项式模型、神经网络、SVM初步

(一)朴素贝叶斯多项式事件模型在上篇笔记中,那个最基本的NB模型被称为多元伯努利事件模型(Multivariate Bernoulli Event Model,以下简称 NB-MBEM).该模型有多种扩展,一种是在上一篇笔记中已经提到的每个分量的多值化,即将p(xi|y)由伯努利分布扩展到多项式分布:还有一种在上一篇笔记中也已经提到,即将连续变量值离散化.本文将要介绍一种与多元伯努利事件模型有较大区别的NB模型,即多项式事件模型(Multinomial Event Model,一下简称NB-M…

Web Mining and Big Data 公开课学习笔记 ---lecture1

1.1 LOOK Finding "stuff" on the web or computer or room or hidden in data Finding document -> seearch engine with query Look 在本节中主要指文本检索,课程介绍了一个简单的文本检索体系与排序方法. 1.2 how to create a text index 对所有的document 进行遍历,按照最笨的方法新增单词,或者增加单词的链接,最后可以形成Text…

Web Mining and Big Data 公开课学习笔记 ---lecture0

0.1 课程主要内容:Big data technologies , Machine Learning and AI 0.6 OUTLINE: predict the future using AI and big data Look : search Listen:Mechine Learning Learn:Information Extraction Connect: Reasoning Predict:Data Mining Correct:Optimization…

传智播客c/c++公开课学习笔记--邮箱账户的破解与邮箱安全防控

一.SMTP协议 SMTP(SimpleMail Transfer Protocol)即简单邮件传输协议. SMTP协议属于TCP/IP协议簇,通过SMTP协议所指定的server,就能够把E-mail寄到收信人的server上. SMTPserver则是遵循SMTP协议的发送邮件server,用来发送或中转发出的电子邮件. SMTP使用TCP提供的可靠的传输数据服务把邮件消息从发信人的邮件server传送到收信人的邮件server. 跟大多数应用层协议一样,SMTP也存在两个端:在发信人的邮…

美团网 KVM虚拟化公开课学习笔记

KVM优化技术,美团开放平台--邱剑基于KVM现有选项做一些优化.视频地址:http://www.osforce.cn/course/77/learn#lesson/80 CPU调优: 1.Context switch(用户态到内核态的优化).ring0->nernel mode,ring 3->user mode; 设置:宿主机BIOS中开启intel VT-X 2.缓存优化 Cache-Node Binding 将qemu进程绑定到特定的CPU node或者core上---避免L2/L…

Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)” 清晰讲解logistic-good!!!!!!

原文:http://52opencourse.com/125/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E5%85%AD%E8%AF%BE-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92-logistic-regression…

斯坦福大学机器学习，EM算法求解高斯混合模型

斯坦福大学机器学习,EM算法求解高斯混合模型.一种高斯混合模型算法的改进方法---将聚类算法与传统高斯混合模型结合起来的建模方法, 并同时提出的运用距离加权的矢量量化方法获取初始值,并采用衡量相似度的方法来融合高斯分量.从对比结果可以看出,基于聚类的高斯混合模型的说话人识别相对于传统的高斯混合模型在识别率上有所提高. ------------------------------ 高斯模型有单高斯模型(SGM)和混合高斯模型(GMM)两种. (1)单高斯模型: 为简单起见,阈值t的选取一般靠经验值…

CS229 斯坦福大学机器学习复习材料(数学基础) - 线性代数

CS229 斯坦福大学机器学习复习材料(数学基础) - 线性代数线性代数回顾与参考 1 基本概念和符号 1.1 基本符号 2 矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3 操作及其性质 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交矩阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩…

《机器学习实战》学习笔记第九章 —— 决策树之CART算法

相关博文: <机器学习实战>学习笔记第三章 —— 决策树主要内容: 一.CART算法简介二.分类树三.回归树四.构建回归树五.回归树的剪枝六.模型树七.树回归与标准回归的比较一.CART算法简介 1.对于上一篇博客所介绍的决策树,其使用的算法是ID3算法或者是C4.5算法,他们都是根据特征的所有取值情况来进行分割结点的.也正因如此,这两种算法都只能用于离散型的特征,而不能处理连续型的特征.为了解决这个问题,我们使用二元切分法来对连续型的特征进行处理,所谓二元切分法,其实就是一个…

《机器学习实战》学习笔记第十四章 —— 利用SVD简化数据

相关博客: 吴恩达机器学习笔记(八) —— 降维与主成分分析法(PCA) <机器学习实战>学习笔记第十三章 —— 利用PCA来简化数据奇异值分解(SVD)原理与在降维中的应用机器学习(29)之奇异值分解SVD原理与应用详解主要内容: 一.SVD简介二.U.∑.VT三个矩阵的求解三.U.∑.VT三个矩阵的含义四.SVD用于PCA降维五.利用SVD优化推荐系统六.利用SVD进行数据压缩一.SVD简介 1.SVD分解能够将任意矩阵着矩阵(m*n)分解成三个矩阵U(m*m).Σ(m*…

（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem

(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 每个部分由四节课组成,总共有16节课.那么,从这篇开始,我们将连续对这门课做课程笔记,共16篇,希望能对正在看这们课的童鞋有所帮助.下面开始第一节课的笔记:The Learning Problem. 一.What…

Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法

网易公开课,第5,6课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 前面讨论了高斯判别分析,是一种生成学习算法,其中x是连续值这里要介绍第二种生成学习算法,Naive Bayes算法,其中x是离散值的向量这种算法常用于文本分类,比如分类垃圾邮件首先,如何表示一个文本,即x? 以上面这种向量来表示,字典中的词是否在该文本中出现其中每个词,可以看作是一个特征,对于特征的选取,可以过滤到stop word,或只选取出现多次的值.…

Andrew Ng 机器学习公开课 - 线性回归

我的机器学习系列从现在开始将会结合Andrew Ng老师与sklearn的api是实际应用相结合来写了. 吴恩达(1976-,英文名:Andrew Ng),华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任.吴恩达是人工智能和机器学习领域国际上最权威的学者之一.吴恩达也是在线教育平台Coursera的联合创始人(with Daphne Koller). 2014年5月16日,吴恩达加入百度,担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划…

Andrew Ng机器学习公开课笔记 -- 学习理论

网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) 最左边,underfit,我们说这种学习算法有较大的bias Informally, we define the bia…

Andrew Ng机器学习公开课笔记 -- 支持向量机

网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考先继续前面对线性分类器的讨论, 通过机器学习算法找到的线性分类的线,不是唯一的,对于一个训练集一般都会有很多线可以把两类分开,这里的问题是我们需要找到best的那条线首先需要定义Margin, 直观上来讲,best的那条线,应该是在可以正确分类的前提下,离所有的样本点越远越好,why? 因为越靠近分类…

机器学习公开课笔记(3)：Logistic回归

Logistic 回归通常是二元分类器(也可以用于多元分类),例如以下的分类问题 Email: spam / not spam Tumor: Malignant / benign 假设 (Hypothesis):$$h_\theta(x) = g(\theta^Tx)$$ $$g(z) = \frac{1}{1+e^{-z}}$$ 其中g(z)称为sigmoid函数,其函数图象如下图所示,可以看出预测值$y$的取值范围是(0, 1),这样对于 $h_\theta(x) \geq 0.5$, 模…

Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)

网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的这里介绍的是另外一种降维的方法,Principal Components Analysis (PCA), 比Factor Analysis更为直接,计算也简单些参考,A Tutorial on Principal Component Analysis, Jonathon Shlens 主成分分析基于, 在现实中,对于高维的数据,其中有很多维都是扰动噪音,…

Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection

网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf Model Selection 首先需要解决的问题是,模型选择问题,如何来平衡bais和variance来自动选择模型?比如对于多项式分类,如何决定阶数k,对于locally weighted regression如何决定窗口大小,对于SVM如何决定参数C For instance, we might be using a polynomial regre…

机器学习公开课笔记(5)：神经网络(Neural Network)——学习

这一章可能是Andrew Ng讲得最不清楚的一章,为什么这么说呢?这一章主要讲后向传播(Backpropagration, BP)算法,Ng花了一大半的时间在讲如何计算误差项$\delta$,如何计算$\Delta$的矩阵,以及如何用Matlab去实现后向传播,然而最关键的问题——为什么要这么计算?前面计算的这些量到底代表着什么,Ng基本没有讲解,也没有给出数学的推导的例子.所以这次内容我不打算照着公开课的内容去写,在查阅了许多资料后,我想先从一个简单的神经网络的梯度推导入手,理解后向传播算法的…