//2019.08.01
机器学习基础入门1-2
1、半监督学习的数据特征在于其数据集一部分带有一定的"标记"和或者"答案",而另一部分数据没有特定的标记,而更常见的半监督学习数据集产生的原因是各种原因引起的数据缺失。
2、半监督学习的数据集处理方式大多采用:先用无监督学习算法对数据进行相关的处理,再利用监督学习算法对其进行模型的训练和预测。
3、增强学习:它是指根据周围的环境进行相应的行动,然后根据采取行动的结果,学习行动的方式,其算法得到整体闭环原理图如下图所示:

图1
4、机器学习算法的其他分类方式:
(1)在线学习(online learning)和批量学习(离线学习)(batch learning)
(2)参数学习(parametric learning)与非参数学习(nonparametric learning)
5、批量学习算法的整体流程如下图所示:

图2
它的优点在于比较简单,它适应环境变化的方式是:进行定时重新批量学习,不过这种方式也有比较大的缺点就是:每次重新批量学习,其运算量巨大;另外在某些环境变化非常迅速的情况下,其实现是基本不可能的。
6、在线学习:它是指在批量学习的基础上将新的产生的数据集输入到机器学习算法的学习资料中进行实时的训练和迭代优化,从而及时地适应环境的变化,其具体原理图如下:

图3
它的优点在于能够及时地反映新的环境的变化,但是其缺点是如果新的数据带来一些不好的变化,它也会及时进入到学习算法当中,从而对于整体的训练模型产生不好的影响,解决此类问题的关键在于需要加氢对于实时数据的自我监控与预处理。
7、对于一些大批量数据,数据量巨大,完全无法批量学习的情况下,其在线学习是非常必要和正确的解决手段。
8、对于参数学习,其具体的含义在于在概率统计的各种假设前提下,将其数据输入输出之间的关系假设为一定的含参模型,利用原来的数据集对于其模型的参数进行概率的确定,一旦相应的参数确定完成之后,其输入输出的关系也随之确定,因此原来的学习数据也已然不再需要。
例如对于假设的二维数据间的线性关系,通过原有的数据集可以确定出其模型中所需要确定的参数a和b,确定完成之后原来的数据将再不需要:

图4
9、对于非参数学习,其含义在于我们不并将其进行概率意义上的多参数模型假设,但是非参数并不代表没有参数,它在整体的学习过程中也会包含一定的参数。

#机器学习的相关思考
1、大多数机器学习算法的准确度高度依赖于其基础的数据集,数据集的质量和数量很大程度上决定了其算法的最终准确度,因此也有一种说法是"数据即算法",2001年微软发表论文表面对于不同的机器学习算法,当其训练的数据集不断增多时,其算法预测的准确度也在不断地提高,并且最终都会彼此接近。因此,算法的准确度最终并不取决于算法本身,而是取决于基础训练数据集本身。


2、对于数据集的预处理主要关键在于:
(1)收集更多的数据
(2)提高数据的质量
(3)提高数据的代表性
(4)研究数据更重要的特征
3、不过对于一些问题,随着机器学习算法的发展,有些算法并不需要基础数据训练集,算法本身就可以对其进行产生训练和提高,比如AlphaGo Zero,它就是利用算法,从零开始进行训练和解决,不过它具有一定的特殊性。所以也有人说“算法即王”


4、对于机器学习算法,简单的就是好的,不过其简单的评判标准也是不确定的。另外从数学的角度来讲,任何两个机器学习算法,严格数学推导其最终的期望性能是相同的,相当于说任何算法的性能其实质是相同的,但是它也是建立在数学概率的期望上,对于特定情况下的特定问题,其实质是个性问题,所以即使不同的算法其期望性能虽然相同,但是解决不同问题的适合性却随着问题的特殊性有所不同。因此对于同一个问题,利用不同的算法进行训练、建模和测试对比是非常必要的。
5、机器学习基础入门的IDE环境搭建:
(1)Anaconda,下载网址:www.anaconda.com
(2)Pycharm,下载网址:http://www.jetbrains.com

python机器学习基本概念快速入门的更多相关文章

  1. Python应该怎样实现快速入门?

    作为一名Python爱好者,我也想跟大家分享分享我自学Python的一些小经验.搬来你的小板凳,听听看吧.也许,你会很有收获,也许你也走上了自学Python的不归路.开讲啦~ 首先,你要有自信心,要明 ...

  2. Python语言十分钟快速入门

    Python(蟒蛇)是一种动态解释型的编程语言.Python可以在Windows.UNIX.MAC等多种操作系统上使用,也可以在Java..NET开发平台上使用. AD:[51CTO技术沙龙]移动时代 ...

  3. 安装文件制作工具Wix概念快速入门

    前言 Wix==Windows installer XML 顾名思议. 用于制作WINDOWS安装文件的XML格式的描述文件. 因为其实现方式为基于声明的方式,而非命令的方式. 特整理一下其相关的概念 ...

  4. Spark基本概念快速入门

      Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元.Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务 ...

  5. python - json模块使用 / 快速入门

    json基本格式 """ json格式 -> [{}, {}]: [{ "name": "Bob", "gende ...

  6. 通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】

    久旱逢甘霖 西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...

  7. android dev概念快速入门

    apk: android将源代码依赖库等经过编译后打包分发的应用. 打包详细过程如下: android-studio安装 由于google被qiang,需要制定proxy,可以使用sock,同时安装完 ...

  8. web、html概念快速入门

    1.C/S和B/S 总结,理论上如果硬件不考虑(带宽.(图像资源加载)显卡等),B/S可以完全替代C/S: 2.静态资源和动态资源 其中,访问时动态资源,服务器后台也会通过视图解析器转换成静态资源,因 ...

  9. Linux快速入门01-基础概念

    4年多前,刚到上海时报过一个关于Oracle的培训班,在那里接触到了Linux,不过一直都没真正去试着使用它.现在经过慢慢的成长,越来越觉得,Linux是每一个服务端工程师必须掌握的系统,即使是现在最 ...

随机推荐

  1. c#活动目录操作

    c#活动目录操作  https://www.cnblogs.com/ahuo/archive/2007/03/16/676853.html 添加引用 System.DirectoryServices导 ...

  2. Mac终端ls颜色设置

    mac自带的终端是款非常好用的ssh工具,但ls命令下文件与文件夹都是单一的颜色,为了更好区分,作出修改. 终端默认背景颜色为白色,(终端->偏好设置->描述文本),可修改背景颜色与字体大 ...

  3. PhpStorm For Mac 安装使用及 Php 开发的 ‘Hello World’

    PHP全称为:Hypertext Preprocessor,中文名为:『超文本预处理 器』是一种通用开源脚本语言,主要用于Web应用开发(俗称做网站或 者做后台!) 编译软件:PHPStorm for ...

  4. 最全BT磁力搜索引擎,国外最受欢迎的BT-磁力网站(整理分享,每日不断更新...)

    最全BT磁力搜索引擎索引(整理分享,每日更新) 1.海盗湾 The Pirate Bay 2.磁力天堂(BT磁力搜索下载-磁力天堂) www.btaa.xyz  (资源多,下载速度可以,建议用手机访问 ...

  5. springcloud-zuul初级篇

    一 前言 zuul路由网关的核心作用是用于后台服务的统一管理:由于微服务是部署在多台服务器上,服务器的ip地址并不能统一,我们需要暴露一个统一的ip地址给前台使用进行接口调用:zuul就是起到路由网关 ...

  6. 「JLOI2012」树

    「JLOI2012」树 传送门 不得不说这题的数据是真的水... 我们可以想到很明确的一条思路:枚举每一个点向根节点跳,知道路径和不小于 \(s\),恰好等于 \(s\) 就直接加答案. 跳的过程可以 ...

  7. JUnit + Mockito 单元测试

    原 JUnit + Mockito 单元测试(二) 2015年01月05日 17:26:02 sp42a 阅读数:60755 版权声明:本文为博主原创文章,未经博主允许不得转载. https://bl ...

  8. 解决fastjson反序列化日期0000-00-00失败的方案

    解决fastjson反序列化日期0000-00-00失败的方案 22 Jul 2016 一.案例场景复原 示例场景里涉及两个class:TestDemo.java, DateBeanDemo.java ...

  9. 关于自学java的内容及感受

    这周自学了关于java输入的知识:java输入的方法与c++和c有些不同,他需要在开头加一个import连接系统的包,才能进行输入语句的编写. 自己编写了一点简单的输入的程序: package mod ...

  10. python面试题手动总结答案锦集

    数据类型 字符串 1.列举python中的基本数据类型 数字:int 布尔值:bool 字符串:str 列表:list 元组:tuple 字典:dict 集合:set 然后我们需要了解一些运算符,应为 ...