ML机器学习导论学习笔记
机器学习的定义:
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习的应用实例:
1.学习关联性
在零售业中,机器学习的应用就是购物篮分析,任务就是发现顾客所购商品之间的关联性。
2.分类
2.1信贷行业,做好风险评估,以及做好银行贷款问题中的信用评分。还有就是做好预测,通过学习过去的数据,例如收入和存款等,然后预测此客户的是高风险客户还是低风险客户。
2.2 机器学习在模式识别中也有应用,其中之一就是光学字符识别(optional character recognition,OCR),即从字符图像识别字符编码。
2.3 人脸识别,输入的是人脸图像,类是需要识别的人,并且学习程序应当学习人脸图像与身份之间的关联性。
2.4 医学诊断。输入的是患者的信息,而类是疾病。
2.5 语音识别。输入的是语音,类是可以读出的词汇。语音方面的难题就是每个人、每个地域的说话不一样。这是未来的研究领域。
2.6 生物测定学,使用人的生理和行为特征来识别或认证人的身份,需要集成来自不同形态的输入。生理特征的例子是面部图像、指纹、虹膜和手掌;行为特征的例子是:签字的力度、嗓音、步态和击键。
2.7 机器学习还可以进行压缩,用规则拟合数据,能够得到比数据更简单的解释,需要的存储空间更少,处理需要的计算更少。
2.8 离群点检测,即发现哪些不遵守规则的例外实例。
3. 回归
机器学习的应用例子:对机器人的导航,例如现在的自动驾驶汽车导航。
4. 非监督学习
在监督学习中,目标是学习从输入到输出的映射关系,其中的输出是正确值已经由指导者提供。
非监督学习是没有指导者,单纯只有输入数据,目标是发现输入的数据中的规律。
密度估计的概念:
输入空间存在某种结构,使得特定的模式比其他的模式更常出现,而我们希望知道哪些常发生,那些不常发生,在统计学中,称之为密度估计(Density estimation)
密度估计的方法:聚类———目标是发现输入数据的蔟和分组。
聚类的应用之一————图像压缩,输入实例是由RGB值表示的图像像素。
在文本聚类中,目标是把相似的文档分组。
5. 增加学习
机器学习程序就是应当能够评估策略的好坏程度,并从以往的动作序列中学习,以便能够产生策略,这种学习方法称之为增强学习(Reinforcement learning)算法。
参考书籍:《机器学习导论》
ML机器学习导论学习笔记的更多相关文章
- TensorFlow机器学习框架-学习笔记-001
# TensorFlow机器学习框架-学习笔记-001 ### 测试TensorFlow环境是否安装完成-----------------------------```import tensorflo ...
- 机器学习技法--学习笔记04--Soft SVM
背景 之前所讨论的SVM都是非常严格的hard版本,必须要求每个点都被正确的区分开.但是,实际情况时很少出现这种情况的,因为噪声数据时无法避免的.所以,需要在hard SVM上添加容错机制,使得可以容 ...
- Spark.ML之PipeLine学习笔记
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户 ...
- 【机器学习实战学习笔记(2-2)】决策树python3.6实现及简单应用
文章目录 1.ID3及C4.5算法基础 1.1 计算香农熵 1.2 按照给定特征划分数据集 1.3 选择最优特征 1.4 多数表决实现 2.基于ID3.C4.5生成算法创建决策树 3.使用决策树进行分 ...
- 【机器学习实战学习笔记(1-1)】k-近邻算法原理及python实现
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 ...
- Python scikit-learn机器学习工具包学习笔记:feature_selection模块
sklearn.feature_selection模块的作用是feature selection,而不是feature extraction. Univariate feature selecti ...
- 机器学习基石--学习笔记01--linear hard SVM
背景 支持向量机(SVM)背后的数学知识比较复杂,之前尝试过在网上搜索一些资料自学,但是效果不佳.所以,在我的数据挖掘工具箱中,一直不会使用SVM这个利器.最近,台大林轩田老师在Coursera上的机 ...
- Python scikit-learn机器学习工具包学习笔记
feature_selection模块 Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标 ...
- 机器学习 MLIA学习笔记(一)
监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么.所谓监督,其实就是我们的意愿是否能直接作用于预测结果.典型代表:分类(classificat ...
随机推荐
- (转)【干货】MySQL 5.7 多实例(多进程)配置教程
原文:https://blog.csdn.net/zougen/article/details/79567744 https://klionsec.github.io/2017/09/20/mysql ...
- linux安装使用xdebug
我还是来给大家一个正确的配方,每个人的php版本不一样 所以下载的xdebug应该是不一样的 1,https://xdebug.org/wizard.php 进入这个网页 把自己phpinfo的信 ...
- 【数组】Subsets II
题目: Given a collection of integers that might contain duplicates, nums, return all possible subsets. ...
- WPF中用后台C#代码为TabItem设置Background属性
TabItem tabItem = sender as TabItem; tabItem.Background = new ImageBrush(new BitmapImage(new Uri(@&q ...
- class对象存储
当加载一个类完成后,会在内存中实例化一个java.lang.Class类的对象,也就是该类的类对象.但是并没有明确规定必须在java堆中存放该类对象,对于HotSpot虚拟机而言,类对象存放在方法区里 ...
- Critical Regions和Guarded Regions区别
KeEnterCriticalRegion和KeLeaveCriticalRegion配合使用,能禁止用户模式APC和普通内核模式APC的调用,但是不能禁止特殊内核模式的调用(NormalRoutin ...
- Hibernate 4.3 SessionFactory
Configuration configuration = new Configuration().configure(); //以下这两句就是4.3的新用法 StandardServiceRegis ...
- 通过开机广播(broadcast)通知应用
1. 概念 开机的时候,系统会发送一则广播,所有有标记的应用(通过广播接收者)都会获取得到,然后可以通过广播接收者去处理一些事情,比如启动该应用,或者处理数据: 代码:https://github.c ...
- 玩转树莓派《三》——Scratch
今天大姨妈折磨了一整个白天,稍微好点,现在打开实验楼,看到有个朋友回答了关于ubuntu上面操作SQL 的时候到处数据到txt文件,被批评没有思考问题,或许吧,虽然那个权限我现在想起确实是可读可写的, ...
- SQL Server中用While循环替代游标(Cursor)的解决方案
By行处理数据,推荐2种方式: 1.游标 2.While循环 我们来了解下这两种方案处理1w行数据分别需要多长时间. 一.游标. 首先我们填充一个表,用优雅的递归方式填充. ,) ) ;with ct ...