//2019.08.01
机器学习基础入门1-2
1、半监督学习的数据特征在于其数据集一部分带有一定的"标记"和或者"答案",而另一部分数据没有特定的标记,而更常见的半监督学习数据集产生的原因是各种原因引起的数据缺失。
2、半监督学习的数据集处理方式大多采用:先用无监督学习算法对数据进行相关的处理,再利用监督学习算法对其进行模型的训练和预测。
3、增强学习:它是指根据周围的环境进行相应的行动,然后根据采取行动的结果,学习行动的方式,其算法得到整体闭环原理图如下图所示:

图1
4、机器学习算法的其他分类方式:
(1)在线学习(online learning)和批量学习(离线学习)(batch learning)
(2)参数学习(parametric learning)与非参数学习(nonparametric learning)
5、批量学习算法的整体流程如下图所示:

图2
它的优点在于比较简单,它适应环境变化的方式是:进行定时重新批量学习,不过这种方式也有比较大的缺点就是:每次重新批量学习,其运算量巨大;另外在某些环境变化非常迅速的情况下,其实现是基本不可能的。
6、在线学习:它是指在批量学习的基础上将新的产生的数据集输入到机器学习算法的学习资料中进行实时的训练和迭代优化,从而及时地适应环境的变化,其具体原理图如下:

图3
它的优点在于能够及时地反映新的环境的变化,但是其缺点是如果新的数据带来一些不好的变化,它也会及时进入到学习算法当中,从而对于整体的训练模型产生不好的影响,解决此类问题的关键在于需要加氢对于实时数据的自我监控与预处理。
7、对于一些大批量数据,数据量巨大,完全无法批量学习的情况下,其在线学习是非常必要和正确的解决手段。
8、对于参数学习,其具体的含义在于在概率统计的各种假设前提下,将其数据输入输出之间的关系假设为一定的含参模型,利用原来的数据集对于其模型的参数进行概率的确定,一旦相应的参数确定完成之后,其输入输出的关系也随之确定,因此原来的学习数据也已然不再需要。
例如对于假设的二维数据间的线性关系,通过原有的数据集可以确定出其模型中所需要确定的参数a和b,确定完成之后原来的数据将再不需要:

图4
9、对于非参数学习,其含义在于我们不并将其进行概率意义上的多参数模型假设,但是非参数并不代表没有参数,它在整体的学习过程中也会包含一定的参数。

#机器学习的相关思考
1、大多数机器学习算法的准确度高度依赖于其基础的数据集,数据集的质量和数量很大程度上决定了其算法的最终准确度,因此也有一种说法是"数据即算法",2001年微软发表论文表面对于不同的机器学习算法,当其训练的数据集不断增多时,其算法预测的准确度也在不断地提高,并且最终都会彼此接近。因此,算法的准确度最终并不取决于算法本身,而是取决于基础训练数据集本身。


2、对于数据集的预处理主要关键在于:
(1)收集更多的数据
(2)提高数据的质量
(3)提高数据的代表性
(4)研究数据更重要的特征
3、不过对于一些问题,随着机器学习算法的发展,有些算法并不需要基础数据训练集,算法本身就可以对其进行产生训练和提高,比如AlphaGo Zero,它就是利用算法,从零开始进行训练和解决,不过它具有一定的特殊性。所以也有人说“算法即王”


4、对于机器学习算法,简单的就是好的,不过其简单的评判标准也是不确定的。另外从数学的角度来讲,任何两个机器学习算法,严格数学推导其最终的期望性能是相同的,相当于说任何算法的性能其实质是相同的,但是它也是建立在数学概率的期望上,对于特定情况下的特定问题,其实质是个性问题,所以即使不同的算法其期望性能虽然相同,但是解决不同问题的适合性却随着问题的特殊性有所不同。因此对于同一个问题,利用不同的算法进行训练、建模和测试对比是非常必要的。
5、机器学习基础入门的IDE环境搭建:
(1)Anaconda,下载网址:www.anaconda.com
(2)Pycharm,下载网址:http://www.jetbrains.com

python机器学习基本概念快速入门的更多相关文章

  1. Python应该怎样实现快速入门?

    作为一名Python爱好者,我也想跟大家分享分享我自学Python的一些小经验.搬来你的小板凳,听听看吧.也许,你会很有收获,也许你也走上了自学Python的不归路.开讲啦~ 首先,你要有自信心,要明 ...

  2. Python语言十分钟快速入门

    Python(蟒蛇)是一种动态解释型的编程语言.Python可以在Windows.UNIX.MAC等多种操作系统上使用,也可以在Java..NET开发平台上使用. AD:[51CTO技术沙龙]移动时代 ...

  3. 安装文件制作工具Wix概念快速入门

    前言 Wix==Windows installer XML 顾名思议. 用于制作WINDOWS安装文件的XML格式的描述文件. 因为其实现方式为基于声明的方式,而非命令的方式. 特整理一下其相关的概念 ...

  4. Spark基本概念快速入门

      Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元.Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务 ...

  5. python - json模块使用 / 快速入门

    json基本格式 """ json格式 -> [{}, {}]: [{ "name": "Bob", "gende ...

  6. 通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】

    久旱逢甘霖 西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...

  7. android dev概念快速入门

    apk: android将源代码依赖库等经过编译后打包分发的应用. 打包详细过程如下: android-studio安装 由于google被qiang,需要制定proxy,可以使用sock,同时安装完 ...

  8. web、html概念快速入门

    1.C/S和B/S 总结,理论上如果硬件不考虑(带宽.(图像资源加载)显卡等),B/S可以完全替代C/S: 2.静态资源和动态资源 其中,访问时动态资源,服务器后台也会通过视图解析器转换成静态资源,因 ...

  9. Linux快速入门01-基础概念

    4年多前,刚到上海时报过一个关于Oracle的培训班,在那里接触到了Linux,不过一直都没真正去试着使用它.现在经过慢慢的成长,越来越觉得,Linux是每一个服务端工程师必须掌握的系统,即使是现在最 ...

随机推荐

  1. Update(Stage5):Kudu入门_项目介绍_ CDH搭建

    Kudu 导读 什么是 Kudu 操作 Kudu 如何设计 Kudu 的表 Table of Contents 1. 什么是 Kudu 1.1. Kudu 的应用场景 1.2. Kudu 和其它存储工 ...

  2. 如何删除 AppStore 中的恶意评论 iOS

    AppStore 中的评论,对于产品的形象影响很大.如果评论榜中出现了恶意评论,会对产品形象影响很大,当然这些差评有可能是用户的真实反馈,需要产品设计人员做好产品设计,满足客户的需求.另外也可能是竞争 ...

  3. 实验一&#160;&#160;GIT 代码版本管理

    实验一  GIT 代码版本管理 实验目的: 1)了解分布式分布式版本控制系统的核心机理: 2)   熟练掌握git的基本指令和分支管理指令: 实验内容: 1)安装git 2)初始配置git ,git ...

  4. 「AHOI2014/JSOI2014」宅男计划

    「AHOI2014/JSOI2014」宅男计划 传送门 我们首先要发现一个性质:存货天数随买食物的次数的变化类似于单峰函数. 具体证明不会啊,好像是二分加三分来证明?但是没有找到明确的严格证明. 感性 ...

  5. Python 之并发编程之线程中

    四.线程锁lock(线程的数据安全) 在数据量较大的时候,线程中的数据会被并发,所有数据会不同步,以至于数据会异常. 下面还介绍了两种的上锁方法. 例: from threading import T ...

  6. 全局注册Vue.directive

    1.src目录下新建directives文件 export default { install: function(Vue, option) { // 1:el指绑定的dom元素 // 2:bindi ...

  7. 【转】bug management process

    What is Bug? A bug is the consequence/outcome of a coding fault What is Defect? A defect is a variat ...

  8. 七 Struts2访问Servlet的API方式二:原生方式

    Struts2访问Servlet的API方式二:原生方式 和解耦合的方式不同,原生方式既可以拿到域对象,也可以调用域对象中的方法 前端jsp: <%@ page language="j ...

  9. 01初步启动Hadoop服务

    1.rz命令将hadoop压缩包上传至Linux服务器中 2.tar -zxvf hadoop-2.7.7.tar.gz(解压即可用) 3.将解压出来的hadoop移到想要放的位置 mv hadoop ...

  10. Netcat - 网络工具中的瑞士军刀

    nc的一些小应用,慢更新.... 1.一个简单的聊天工具,Client1和Client2之间,Client1安装了nc,监听8888端口,Client2用telnet Client1的8888端口即可 ...