第18月第22天 机器学习first
2.
传统的机器学习:
机器学习(ML)技术在预测中发挥了重要的作用,ML经历了多代的发展,形成了具有丰富的模型结构,例如:
1.线性回归。
2.逻辑回归。
3.决策树。
4.支持向量机。
5.贝叶斯模型。
6.正则化模型。
7.模型集成(ensemble)。
8.神经网络。
链接:https://www.zhihu.com/question/57770020/answer/345340746
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
神经网络的回归:
在大数据时代,云计算和大规模并行处理基础架构的共同发展,使得机器处理能力在二十一世纪初得到了极大的提升。我们不再局限于低功耗/简单的模型。例如,当今最流行的两种主流机器学习模型是随机森林和梯度提升树。尽管如此,两者都非常强大,并且提供了非线性模型拟合的训练数据,但数据科学家仍然需要仔细地创建特征以获得良好的性能。
与此同时,计算机科学家重新使用神经网络的许多层来完成这些人类模仿的任务。这给DNN(深度神经网络)带来了新的生机,并在图像分类和语音识别任务方面提供了重大突破。DNN的主要区别在于,你可以将原始信号(例如RGB像素值)直接输入DNN,而不需要创建任何域特定的输入功能。通过多层神经元(这就是为什么它被称为“深度”神经网络),DNN可以“自动”通过每一层产生适当的特征,最后提供一个非常好的预测。这极大地消除了寻找“特征工程”的麻烦,这是数据科学家们最喜欢看到的。
DNN也演变成许多不同的网络拓扑结构,所以有CNN(卷积神经网络),RNN(递归神经网络),LSTM(长期短期记忆),GAN(生成敌对网络),转移学习,注意模型(attention model)所有的这些被统称为深度学习(Deep Learning),它正在引起整个机器学习界的关注。
第一周
统计分析
分析数据集中的特点,例如平均值,中位数,标准差以及分位数等。
第二周
数据建模
了解数据的基本类型;学习如何用 sklearn 处理数据集。
第三周
评估和验证
学习如何用准确率或者召回率等指标来测试以及衡量提高表现。
第四周
了解错误和复杂度
了解错误类型、过拟合、欠拟合;学习如何用学习曲线,模型复杂度来识别问题;应用交叉验证等技术提示你模型的表现。
第五周
监督学习
回归和分类的区别;用线性回归预测价格;用对数几率回归来预测状态。
第六周
决策树
训练决策树来预测状态;用信息熵来构建递归决策树。
第七周
神经网络
神经网络的定义;用反向传导训练一个神经网络;从一个单个神经元构建一个神经网络。
第八周
支持向量机
学习如何训练支持向量机来对数据进行线性分割;用核方法来训练支持向量机使它能够分割线性不可分的数据。
第九周
非参数模型
基于实例的模型。
第十周
贝叶斯方法
学习贝叶斯法则,了解如何用朴素贝叶斯算法来预测数据;用贝叶斯方法来训练模型;用贝叶斯推断来创建多变量贝叶斯网络;贝叶斯自然语言处理迷你项目。
第十一周
集成学习
通过 Boosting 来增强传统算法;随机森林;AdaBoost。
第十二周
聚类
学习数据聚类的基本方法;使用 K-平均算法来聚类数据;Single Linkage 聚类法;高斯模型和最大期望算法。
第十三周
特征工程
归一化你的数据;学习如何为训练选择最佳特征。
第十四周
降低维度
用主成分分析和独立成分分析来降低特征维度。
第十五周
强化学习
学习基本的马尔可夫决策过程;用 Q-学习寻找最优策略。
第十六周
博弈论
扑克策略;纳什均衡;极小化极大策略。
第十七周
机器学习到深度学习
深度学习基础,包括 softmax、独热编码和交叉墒;简单的线性分类模型,例如对数几率回归以及与之相关的损失函数。
第十八周
深度神经网络
回顾:什么是神经网络?激活函数:sigmoid、tanh 和 ReLu;如何用反向传播和链式法则来训练神经网络;如何用正则化和dropout等方法提示神经网络表现。
第十九周
卷积神经网络 什么是卷积神经网络;卷积神经网络如何用于图片识别。
第二十周
针对文本和有序数据的深度模型
如何用深度神经网络实现 Word2Vec 对文本进行建模;循环神经网络基础;长短期记忆人工神经网络 LSTM。
http://wang-zs.github.io/ml/index.html
记得有一篇文章总结的就非常易懂,他认为机器学习其实可以分成三类,分类、回归、聚类。
- 分类听着名字就很容易理解了,比如给你一筐水果,水果里面有苹果、香蕉,需要把它们分成两类。
- 回归来源于单词regression,它可以理解成是一种预测,比如线性回归,他可以根据样本数据学习出一个线性的公式,比如y=ax,当你给定一个x的值时,可以推算出对应的y值。当然具体的场景中,就不是简单的一维了...
- 聚类,跟前面的分类有些不同,比如一筐水果,你都不知道里面装的是什么,需要通过味道、颜色、形状、大小等多个属性,把它们进行归类。
结合到算法里面:
- 分类相关的算法有:K-近邻算法、决策树、朴素贝叶斯、逻辑回归、支持向量机等
- 回归相关的算法有:线性回归、树回归等
- 聚类相关的算法有:K-均值算法、Apriori等
如果看过一遍《机器学习实战》,应该就会对上述的算法有一定的了解。不需要到公式推导级别,先能了解他们的用法即可,比如:
K-近邻就是已知几个分类,判断新的节点属于哪个分类时,只需要看距离它一定范围内,哪个分类的数据多。有点像近朱者赤近墨者黑的意思。决策树就是通过一大堆的问题,判断属于哪个分类。比如,相亲的时候,会问“你是做什么的?”“有没有房?”“有没有车?”——最后判断,是否继续交往。朴素贝叶斯看着名字高大上,其实就是根据概率选择,属于哪个分类的概率大,就归属这个分类逻辑回归它是把线性回归的结果映射到01区间线性回归可以简单的理解成y=ax,但是其实在多维空间比这个复杂得多K-均值就是一大堆散落的点,随机几个中心,这些点按照距离选择他们最近的中心组成一个类别Apriori只要说一个啤酒与尿布,大家就应该明白了。
这么多算法其实只是机器学习中的一部分....
第18月第22天 机器学习first的更多相关文章
- 第21月第6天 zhihu如何用3个月零基础入门机器学习
1. 我们应该记住,既成的事实一定有它的道理,如果我们不能理解它,恐怕得从自身找原因.如果你交易股票,请记住,如果预测和市场不一致,错的是预测,而不是市场 https://www.cnblogs.co ...
- 大胆预计SPC算力空投收益,月收益22.8%
此前,NGK官方公告表示,NGK算力持有者获得SPC的数量是根据200万枚SPC除以全网算力总量决定的. 举个例子,假设全网算力总量为500万,那么每个算力持有者如果持有一个算力,则可获得200万÷5 ...
- 第18月第25天 github下载单个文件夹 git命令
1. 用 SVN 即可. 举例说明: 譬如这个项目: Mooophy/Cpp-Primer · GitHub, 我只想看 ch03 文件夹的代码怎么办? 先打开 ch03, 其 URL 为: &quo ...
- 第18月第2天 ios博客
1. github https://githuber.cn/search?language=Objective-C https://www.jianshu.com/u/815d10a4bdce htt ...
- ftp连接服务器失败||或者Xshell链接错误:Could notconnect to '192.168.18.128' (port 22): Connection failed
有时候刚装完虚拟机发现xshell连接失败,或者使用ftp连接失败.(博主用的是unbuntu,其他linux系统可能在命令上稍有差别,但方法是一样的. xshell连接失败: ftp连接失败: 首先 ...
- 第28月第22天 iOS动态库
1. NIMSDK 在 5.1.0 版本之后已改为动态库,集成方式有所改变,若需要集成高于此版本的 SDK,只需要做以下步骤: 将下载的 SDK 拖动到 Targets -> General - ...
- 第26月第22天 iOS瘦身之armv7 armv7s arm64选用 iOS crash
1.iOS瘦身之armv7 armv7s arm64选用 机器对指令集的支持是向下兼容的,因此armv7的指令集是可以运行在iphone5S以上的,只是效率没那么高而已~ 但是由于苹果要求必须支持ar ...
- 第25月第22日 django channels
1. https://github.com/andrewgodwin/channels-examples/ https://channels.readthedocs.io/en/latest/
- 第18月第21日 vue cnpm
1. 首先我们需要下载npm,因为我已经提前安装了node.js,安装包里面集成了npm,然后我们就可以利用npm命令从获取淘宝镜像的cnpm了. 1.打开命令行窗口,输入 npm install - ...
随机推荐
- Lodop不要把客户端的打印机共享到服务器上 再在客户端打印
客户端打印需要每个客户端都安装,Lodop插件方式和C-Lodop方式,都是安装一次后,无需再次安装,c-lodop默认也是开机自启动的.集中打印方式,可以打印到某台电脑(作为云主机)上,但是不能打印 ...
- C#利用反射来判断对象是否包含某个属性的实现方法
本文实例展示了C#利用反射来判断对象是否包含某个属性的实现方法,对于C#程序设计人员来说有一定的学习借鉴价值. 具体实现代码如下: /// <summary> /// 利用反射来判断对象是 ...
- BZOJ4386[POI2015]Wycieczki——矩阵乘法+倍增
题目描述 给定一张n个点m条边的带权有向图,每条边的边权只可能是1,2,3中的一种.将所有可能的路径按路径长度排序,请输出第k小的路径的长度,注意路径不一定是简单路径,即可以重复走同一个点. 输入 第 ...
- hadoop MapReduce 入门
原创播客,如需转载请注明出处.原文地址:http://www.cnblogs.com/crawl/p/7687120.html ------------------------------------ ...
- P2464 [SDOI2008]郁闷的小J
题目描述 小J是国家图书馆的一位图书管理员,他的工作是管理一个巨大的书架.虽然他很能吃苦耐劳,但是由于这个书架十分巨大,所以他的工作效率总是很低,以致他面临着被解雇的危险,这也正是他所郁闷的. 具体说 ...
- formelf.exe的用法
@2018-9-17 在windows下的cmd.exe程序下生成某个文件的 .txt版本 fromelf --text -o name.txt target.x
- 【转】cJSON 源码分析
cJSON源码分析 简介 由于C语言汇总,没有直接的字典,字符串数组等数据结构,所以要借助结构体定义,处理json. JSON是一种轻量级的数据交换格式.JSON采用完全独立与语言的文本格式,易于人阅 ...
- Python中的join()函数的用法及列表推导式
[红色为转载后新增部分] 函数:string.join() Python中有join()和os.path.join()两个函数,具体作用如下: join():连接字符串数组.将字符串.元组.列表中的元 ...
- A1047. Student List for Course
Zhejiang University has 40000 students and provides 2500 courses. Now given the registered course li ...
- std::lock_guard和std::unique_lock
std::unique_lock也可以提供自动加锁.解锁功能,比std::lock_guard更加灵活 https://www.cnblogs.com/xudong-bupt/p/9194394.ht ...