Coursera-AndrewNg(吴恩达)机器学习笔记—

一.逻辑回归问题（分类问题）

生活中存在着许多分类问题，如判断邮件是否为垃圾邮件；判断肿瘤是恶性还是良性等。机器学习中逻辑回归便是解决分类问题的一种方法。
二分类：通常表示为yϵ{0,1}，0：“Negative Class”，1：“Possitive Class”。
逻辑回归的预测函数表达式h_θ(x)（h_θ(x)>=0 && h_θ(x)<=1）：

其中g(z)被称为逻辑函数或者Sigmiod函数，其函数图形如下：

理解预测函数h_θ(x)的意义：其实函数h_θ(x)的值是系统认为样本值Y为1的概率大小，可表示为h_θ(x)=P(y=1|x;θ)=1-P(y=0|x;θ).
决策边界（Decision boundary）：y=0和y=1的分界线，由逻辑函数图形可知，当y=1时，g(z)>=0.5，z>=0，也就是说θ^TX>=0，这样我们就可以通过以x_i为坐标轴，作出θ^TX=0这条直线，这条直线便是决策边界。如下图所示：
代价函数（Cost Function）J(θ)：一定要是一个凸函数（Convex Function），这样经过梯度下降方便找到全局最优。

根据以上两幅图我们可以看出，当预测值h_θ(x)和实际值结果y相同时，代价值为0；当预测值h_θ(x)和实际结果y不同时，代价值无穷大。组合在一起可以写为：

向量化后可写为：
梯度下降算法：和线性回归中使用的一样

向量化：
高级优化方法（用来代替梯度下降选择参数θ）：Conjugate gradient（共轭梯度法）、BFGS、L-BFGS，只需要掌握用法即可，不需了解原理。
优点：不需要手动选择学习速率α，收敛速度比梯度下降快，更复杂。
```
%首先写一个函数用来计算代价函数和代价函数的梯度
function [jVal, gradient] = costFunction(theta)

  jVal = [...code to compute J(theta)...];

  gradient = [...code to compute derivative of J(theta)...];

end

%然后在命令行中通过调用fminunc()函数来计算参数θ
```
options = optimset('GradObj', 'on', 'MaxIter', 100);
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);
多分类问题：可以转化为n+1个二分类问题看待，如下：

通过这种形式，我们可以预测出结果最接近哪个y值。

二.过拟合问题和解决方法

Underfit：欠拟合问题具有高偏差；Overfit：过拟合问题具有高方差。
过拟合的定义：如果训练集中有过多的特征项，训练函数过于复杂，而训练数据又非常少。我们学到的算法可能会完美的适应训练集，也就是说代价会接近与0。但是却没有对新样本的泛化能力。
解决方法：手动的选择合适的特征；或者使用模型选择算法（用来选取特征变量）。
正规化（Regularization）：正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)），相当于减少参数θ(j)所对应的多项式对整个预测函数的影响。以下内容以线性回归为例。
正规化代价函数：其中λ过大会导致欠拟合。

正规化梯度下降：θ₀不需要

其中当参数Θ不为θ₀时，梯度下降形式又可以改写为：

正规化正规方程：其中L为(n+1)*(n+1)维矩阵。
正规化逻辑回归：

代价函数：

梯度下降形式和线性回归相同。
正规化逻辑回归中高级的求解参数θ方法：

无~~~~

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周的更多相关文章

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周编程作业
一. 逻辑回归 1.背景:使用逻辑回归预测学生是否会被大学录取. 2.首先对数据进行可视化,代码如下: pos = find(y==); %找到通过学生的序号向量 neg = find(y==); % ...
Coursera-AndrewNg(吴恩达)机器学习笔记——第三周编程作业（逻辑回归）
一. 逻辑回归 1.背景:使用逻辑回归预测学生是否会被大学录取. 2.首先对数据进行可视化,代码如下: pos = find(y==); %找到通过学生的序号向量 neg = find(y==); % ...
吴恩达机器学习笔记（三） —— Regularization正则化
主要内容: 一.欠拟合和过拟合(over-fitting) 二.解决过拟合的两种方法三.正则化线性回归四.正则化logistic回归五.正则化的原理一.欠拟合和过拟合(over-fitting ...
吴恩达机器学习笔记（六） —— 支持向量机SVM
主要内容: 一.损失函数二.决策边界三.Kernel 四.使用SVM (有关SVM数学解释:机器学习笔记(八)震惊!支持向量机(SVM)居然是这种机) 一.损失函数二.决策边界对于: 当C非常 ...
Machine Learning|Andrew Ng|Coursera 吴恩达机器学习笔记
Week1: Machine Learning: A computer program is said to learn from experience E with respect to some ...
Machine Learning|Andrew Ng|Coursera 吴恩达机器学习笔记(完结)
Week 1: Machine Learning: A computer program is said to learn from experience E with respect to some ...
[吴恩达机器学习笔记]12支持向量机5SVM参数细节
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.5 SVM参数细节标记点选取标记点(landma ...
[吴恩达机器学习笔记]12支持向量机3SVM大间距分类的数学解释
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.3 大间距分类背后的数学原理- Mathematic ...
[吴恩达机器学习笔记]12支持向量机2 SVM的正则化参数和决策间距
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.2 大间距的直观理解- Large Margin I ...

随机推荐

Linux之使用网络
Linux有好多命令可以让你方便的使用网络,常见的有ssh,rsync,wget,curl等等,但是telnet等方式并不适用于网络交互的使用,因为它会暴露你的用户名密码等.所以一般使用安全的命令来进 ...
Chapter 2 User Authentication, Authorization, and Security（11）：在已还原的数据库中修正登录映射错误
原文出处:http://blog.csdn.net/dba_huangzj/article/details/39496517,专题目录:http://blog.csdn.net/dba_huangzj ...
谈谈Ext JS的组件——布局的使用方法
概述在Ext JS中,包含两类布局:组件类布局和容器类布局.由于有些组件是有不同的组件组合而成的,如字段就由标题和输入框构成,他们之间也是存在布局关系的,而这就需要组件类布局来处理组件内自己特有的布 ...
C++ Primer 有感（异常处理）（四）
查看普通函数的声明的时候,不可能知道该函数会抛出什么异常,但是在捕获异常的时候要知道一个函数会抛出什么样的异常,以便捕获异常. 异常说明:指定,如果函数抛出异常,抛出的异常将是包含在该说明中的一种,或 ...
pig的cogroup详解
从实例出发 %default file test.txt A = load '$file' as (date, web, name, food); B = load '$file' as (date, ...
bash:chkconfig:command not found
1尝试sudo/su rootsudo chkconfig --list2上述方法不行,请检查是否安装chkconfigrpm -qa |grep chkconfigubuntu上默认是不支持chkc ...
ZooKeeper实现分布式锁
使用场景一般的锁是指单进程多线程的锁,在多线程并发编程中,用于线程之间的数据同步,保证共享资源的访问.而分布式锁,指的是在分布式环境下,保证跨进程.跨主机.跨网络的共享资源,实现互 ...
20_Android中apk安装器，通过WebView来load进一个页面,Android通知，程序退出自动杀死进程，通过输入包名的方式杀死进程
场景:实现安装一个apk应用程序的过程.界面如下: 编写如下应用,应用结构如下: <RelativeLayout 编写activity_main.xml布局: <Relative ...
mpi中程序在集群中的分发
我们在开发mpi程序时,由于其是分布式程序,我们在单个节点上完成编码后,需要将代码拷贝到整个集群进行测试.集群之间的文件拷贝可以通过scp命令完成.但是scp命令是针对两个节点之间文件互传设计,为了将 ...
C++虚拟多重继承对象模型讨论
C++虚拟多重继承对象模型讨论作者:magictong 调试环境:Windows7VS2005 概述记得刚开始写C++程序时,那还是大学时光,感觉这玩意比C强大多了,怎么就实现了多态,RTTI这些 ...

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周

一.逻辑回归问题（分类问题）

二.过拟合问题和解决方法

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周的更多相关文章

随机推荐

热门专题