python机器学习基本概念快速入门
//2019.08.01
机器学习基础入门1-2
1、半监督学习的数据特征在于其数据集一部分带有一定的"标记"和或者"答案",而另一部分数据没有特定的标记,而更常见的半监督学习数据集产生的原因是各种原因引起的数据缺失。
2、半监督学习的数据集处理方式大多采用:先用无监督学习算法对数据进行相关的处理,再利用监督学习算法对其进行模型的训练和预测。
3、增强学习:它是指根据周围的环境进行相应的行动,然后根据采取行动的结果,学习行动的方式,其算法得到整体闭环原理图如下图所示:
图1
4、机器学习算法的其他分类方式:
(1)在线学习(online learning)和批量学习(离线学习)(batch learning)
(2)参数学习(parametric learning)与非参数学习(nonparametric learning)
5、批量学习算法的整体流程如下图所示:
图2
它的优点在于比较简单,它适应环境变化的方式是:进行定时重新批量学习,不过这种方式也有比较大的缺点就是:每次重新批量学习,其运算量巨大;另外在某些环境变化非常迅速的情况下,其实现是基本不可能的。
6、在线学习:它是指在批量学习的基础上将新的产生的数据集输入到机器学习算法的学习资料中进行实时的训练和迭代优化,从而及时地适应环境的变化,其具体原理图如下:
图3
它的优点在于能够及时地反映新的环境的变化,但是其缺点是如果新的数据带来一些不好的变化,它也会及时进入到学习算法当中,从而对于整体的训练模型产生不好的影响,解决此类问题的关键在于需要加氢对于实时数据的自我监控与预处理。
7、对于一些大批量数据,数据量巨大,完全无法批量学习的情况下,其在线学习是非常必要和正确的解决手段。
8、对于参数学习,其具体的含义在于在概率统计的各种假设前提下,将其数据输入输出之间的关系假设为一定的含参模型,利用原来的数据集对于其模型的参数进行概率的确定,一旦相应的参数确定完成之后,其输入输出的关系也随之确定,因此原来的学习数据也已然不再需要。
例如对于假设的二维数据间的线性关系,通过原有的数据集可以确定出其模型中所需要确定的参数a和b,确定完成之后原来的数据将再不需要:
图4
9、对于非参数学习,其含义在于我们不并将其进行概率意义上的多参数模型假设,但是非参数并不代表没有参数,它在整体的学习过程中也会包含一定的参数。
#机器学习的相关思考
1、大多数机器学习算法的准确度高度依赖于其基础的数据集,数据集的质量和数量很大程度上决定了其算法的最终准确度,因此也有一种说法是"数据即算法",2001年微软发表论文表面对于不同的机器学习算法,当其训练的数据集不断增多时,其算法预测的准确度也在不断地提高,并且最终都会彼此接近。因此,算法的准确度最终并不取决于算法本身,而是取决于基础训练数据集本身。
2、对于数据集的预处理主要关键在于:
(1)收集更多的数据
(2)提高数据的质量
(3)提高数据的代表性
(4)研究数据更重要的特征
3、不过对于一些问题,随着机器学习算法的发展,有些算法并不需要基础数据训练集,算法本身就可以对其进行产生训练和提高,比如AlphaGo Zero,它就是利用算法,从零开始进行训练和解决,不过它具有一定的特殊性。所以也有人说“算法即王”
4、对于机器学习算法,简单的就是好的,不过其简单的评判标准也是不确定的。另外从数学的角度来讲,任何两个机器学习算法,严格数学推导其最终的期望性能是相同的,相当于说任何算法的性能其实质是相同的,但是它也是建立在数学概率的期望上,对于特定情况下的特定问题,其实质是个性问题,所以即使不同的算法其期望性能虽然相同,但是解决不同问题的适合性却随着问题的特殊性有所不同。因此对于同一个问题,利用不同的算法进行训练、建模和测试对比是非常必要的。
5、机器学习基础入门的IDE环境搭建:
(1)Anaconda,下载网址:www.anaconda.com
(2)Pycharm,下载网址:http://www.jetbrains.com
python机器学习基本概念快速入门的更多相关文章
- Python应该怎样实现快速入门?
作为一名Python爱好者,我也想跟大家分享分享我自学Python的一些小经验.搬来你的小板凳,听听看吧.也许,你会很有收获,也许你也走上了自学Python的不归路.开讲啦~ 首先,你要有自信心,要明 ...
- Python语言十分钟快速入门
Python(蟒蛇)是一种动态解释型的编程语言.Python可以在Windows.UNIX.MAC等多种操作系统上使用,也可以在Java..NET开发平台上使用. AD:[51CTO技术沙龙]移动时代 ...
- 安装文件制作工具Wix概念快速入门
前言 Wix==Windows installer XML 顾名思议. 用于制作WINDOWS安装文件的XML格式的描述文件. 因为其实现方式为基于声明的方式,而非命令的方式. 特整理一下其相关的概念 ...
- Spark基本概念快速入门
Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元.Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务 ...
- python - json模块使用 / 快速入门
json基本格式 """ json格式 -> [{}, {}]: [{ "name": "Bob", "gende ...
- 通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】
久旱逢甘霖 西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...
- android dev概念快速入门
apk: android将源代码依赖库等经过编译后打包分发的应用. 打包详细过程如下: android-studio安装 由于google被qiang,需要制定proxy,可以使用sock,同时安装完 ...
- web、html概念快速入门
1.C/S和B/S 总结,理论上如果硬件不考虑(带宽.(图像资源加载)显卡等),B/S可以完全替代C/S: 2.静态资源和动态资源 其中,访问时动态资源,服务器后台也会通过视图解析器转换成静态资源,因 ...
- Linux快速入门01-基础概念
4年多前,刚到上海时报过一个关于Oracle的培训班,在那里接触到了Linux,不过一直都没真正去试着使用它.现在经过慢慢的成长,越来越觉得,Linux是每一个服务端工程师必须掌握的系统,即使是现在最 ...
随机推荐
- YUM方式安装LAMP
本文介绍两种方法yum安装LAMP, 方法1: 通过httpd的php模块方式安装LAMP 方法2: 通过php-fpm方式安装LAMP 安装环境:CentOS Linux release 7.5.1 ...
- SqlServer游标操作
CLOSE orderNum_02_cursordeallocate orderNum_02_cursorDECLARE orderNum_02_cursor cursor SCROLL for se ...
- a链接内容过长,换行
上图为溢出情况,此情况均为 英文或数字,但亲测,中文也可正常换行. 添加 word-wrap: break-word; 后,正常换行. 若不希望换行,设为 white-space: nowra ...
- 前端面试:js数据类型
js数据类型是js中的基础知识点,也是前端面试中一定会被考察的内容.本文旨在知识的梳理和总结,希望读者通过阅读本文,能够对这一块知识有更清晰的认识.文中如果出现错误,请在评论区指出,谢谢. js数据类 ...
- rc
1,协同过滤. 2,协方差:用来衡量,他们的变化趋势是不是一致的. 3,皮尔逊相关系数:-1,负相关.1:正相关. 4,用皮尔逊相关系数来算相关性是最多的.
- hadoop3.1.1高可用集群web端口9870
- PAT T1005 Programming Pattern
建立后缀数组,遍历height数组找到连续大于len的最长子序列~ #include<bits/stdc++.h> using namespace std; ; char s[maxn]; ...
- js前台给echarts赋值
//资金变化趋势function initChart22(theme) { // var data = JSON.parse('{data:'+chartInfo[0].zjbhqs+'}') // ...
- HTML标签,CSS简介
一 http://www.w3school.com.cn/tags/tag_span.asp
- 企业面试问题收集-ssm框架
springMVC 1) 简单介绍下你对springMVC的理解? Spring MVC Framework有这样一些特点: 1.它是基于组件技术的.全部的应用对象,无论控制器和视图,还是业务对 ...