MachineLearningPreface
机器学习(包括监督学习, 无监督学习, 半监督学习与强化学习)
监督学习(包括分类与线性回归)
分类(标签的值为散列的"yes"或者"no", "good"或者"bad", "have"或者"don't have", 总之是bool值)
训练集:
特征1 特征2 特征3 标签
x x x yes
x x x yes
x x x no
|
| learn
|
get the sigmoid function: 机器学习最最重要的一点就是得到一个得分函数(就是机器学习的函数), 而得分函数中的未知量就是各个特征所
对应的权重(weight), 通过训练集中的特征值与标签(标签就是我们指定的3个特征通过函数得到的结果)求解出这些权重, 简单的来讲就相当于
y = kx + b, 题目已经给了我们y与x的一些值, 让我们列出方程求解k与b, 最后得出该得分函数y = kx + b. 得出这个得分函数之后, 进行测试
是必不可要的, 因为我们要测试得出最合适的权重
|
| test
|
测试集:
特征1 特征2 特征3 标签
x x x unknow
x x x unknow
x x x unknow
|
|
|
通过测试发现一开始训练得到的得分函数, 对测试集进行测试得到的标签值与我们预测的有差距, 我们将该差距记录下来, 并记录此时的权重值, 接着重复从训练集中计算权重, 再一个此得到函数, 再和我们预测的比一比, 再一次记录误差和权重, 最终我们设权重为x轴, 误差的值为y轴, 因此就得到了
一个误差与权重的函数图像, 我们称之为损失函数(名字的由来就是因为纵坐标是误差值), 例如:

这三个图都是一个凹函数, 我们只要通过求导求出它的最低点即可, 但是对于计算机来说, 有时候求导并不是像人类求导那么容易, 不行你试一试, 你怎么编写一个程序可以向我们人类一样套用公式求导, 换元什么的, 如果能力强是可以实现的, 但是终归是太麻烦了, 因此对于这类**凹函数**, **注意: 只对凹函数有效果**, 我们一般使用微积分中的梯度下降法, 从x轴的原点出发, 沿着曲线向右走, 对于曲线上的每一个点求出它的梯度, 比较他们的梯度, 找到梯度最小的点, 那个点对应的x坐标值就是我们需要的weight, 带入我们的得分函数就可以了
但是我们得出来的损失函数并不是每一次都是可以是一个凹函数的, 有可能是其他奇形怪状的函数图形, 大多数时候我们要做的就是将该函数凹函数化, 只要可以凹函数化, 我们就可以使用梯度下降的方法求出权重, 从而得出得分函数
在分类中我已经将学习大致的思路讲完了, 所以下面就不会再重复了
线性回归(标签值是连续的)
1. 训练集和测试集与之前的一样
2. 一个最常用的例子就是股票一天收盘的价格了, 将收盘的价格作为标签, 我们知道价格是连续的:-) Over
3. 其实线性回归可以转换为我们上面讲到了分类问题, 那股票收盘的价格为例, 我们规定价格在1000元以上的为good, 在1000元以下的为bad, 这样标签就是good和bad的散列了
无监督学习(与监督学习的训练集相比, 标签是unknown, 包含聚类和分类)
聚类
因为我们在训练的时候就不知道标签的值, 我们以特征1为x, 特征2为y, 得到如下的图像

我们看到, 所谓的聚类就是一些相邻的点组成一个结合:-) Over
PS: 这个图让我浑身不自在:-(
分类
嘿嘿, 你试着在上图中, 连接(0, 15), (20, 0)两个点, 聚类是不是被分成了两个类别了, 当然这个类型的划分是人为规定的
数据的降维
- 求协方差的去均值是预处理的工程
- 协方差的集合意义就是向量的內积
- 去均值就是向量之间的cos(x)
- 如果一组数据太大, 使用SVD将测试矩阵转为矩阵的乘法, 已达到数据降维
很多机器学习或者统计的算法最后都会转换为一个优化的问题, 就是求损失函数的最小值
- 一元函数导数为0
- 多元函数梯度为0, 梯度就是向量(对x的偏导, 对y的偏导, ...), 是竖着的矩阵n x 1
- 琴生不等式
MachineLearningPreface的更多相关文章
随机推荐
- 在类中使用Response.Redirect()方法
问题来自:"我在app_code 定义了user.cs类:其中作了跳转:Httpcontect.Current.Response.Redirect("/c/index.aspx&q ...
- python3如何打印进度条
Python3 中打印进度条(#)信息: 代码: import sys,time for i in range(50): sys.stdout.write("#") sys.std ...
- 咕咕(数位dp+AC自动机)
咕咕(数位dp+AC自动机) 若一个字符串的字符集合是0~m-1,那么称它为m进制字符串.给出n个m进制字符串\(s_i\),每个字符串的权值为\(v_i\).对于另一个m进制字符串\(S\),设\( ...
- 青橙 A1255. 拉拉队排练(陶文博)
A1255. 拉拉队排练(陶文博) 时间限制:1.0s 内存限制:512.0MB 总提交次数: AC次数: 平均分: 将本题分享到: 查看未格式化的试题 提交 ...
- web安全-点击劫持
web安全-点击劫持 opacity=0 iframe是目标网站 被内嵌了 1.用户亲手操作 盗取用户 视频 2.用户不知情 >* 引导点击 其实点击的是覆盖在下面opacity=0的ifram ...
- SAP ABAP ALV构建动态输出列与构建动态内表(包留备用),包含操作abap元类型表及类
https://blog.csdn.net/zhongguomao/article/details/51095946
- springboot添加第三方的jar或本地jar
原文链接:https://www.cnblogs.com/fengli9998/p/8044923.html 由对接支付引入第三方的jar时冒出的问题,如何在springboot项目中来引入第三方的j ...
- 基本css拼图形
关闭按钮: <em class="close"></em> .close { width: 16px; height: 16px; text-align: ...
- P1979 华容道
题意:$n*m$棋盘上$n*m-1$颗棋子,有且只有一个格子为空白格子,每个棋子大小$1*1$ 有些棋子可以移动,而有些棋子固定,任何与空白的格子相邻(有公共的边)的格子上的棋子都可以移动到空白格子上 ...
- 背包 DP【洛谷P4158】 [SCOI2009]粉刷匠
P4158 [SCOI2009]粉刷匠 windy有 N 条木板需要被粉刷. 每条木板被分为 M 个格子. 每个格子要被刷成红色或蓝色. windy每次粉刷,只能选择一条木板上一段连续的格子,然后涂上 ...