python机器学习基本概念快速入门
//2019.08.01
机器学习基础入门1-2
1、半监督学习的数据特征在于其数据集一部分带有一定的"标记"和或者"答案",而另一部分数据没有特定的标记,而更常见的半监督学习数据集产生的原因是各种原因引起的数据缺失。
2、半监督学习的数据集处理方式大多采用:先用无监督学习算法对数据进行相关的处理,再利用监督学习算法对其进行模型的训练和预测。
3、增强学习:它是指根据周围的环境进行相应的行动,然后根据采取行动的结果,学习行动的方式,其算法得到整体闭环原理图如下图所示:

图1
4、机器学习算法的其他分类方式:
(1)在线学习(online learning)和批量学习(离线学习)(batch learning)
(2)参数学习(parametric learning)与非参数学习(nonparametric learning)
5、批量学习算法的整体流程如下图所示:

图2
它的优点在于比较简单,它适应环境变化的方式是:进行定时重新批量学习,不过这种方式也有比较大的缺点就是:每次重新批量学习,其运算量巨大;另外在某些环境变化非常迅速的情况下,其实现是基本不可能的。
6、在线学习:它是指在批量学习的基础上将新的产生的数据集输入到机器学习算法的学习资料中进行实时的训练和迭代优化,从而及时地适应环境的变化,其具体原理图如下:

图3
它的优点在于能够及时地反映新的环境的变化,但是其缺点是如果新的数据带来一些不好的变化,它也会及时进入到学习算法当中,从而对于整体的训练模型产生不好的影响,解决此类问题的关键在于需要加氢对于实时数据的自我监控与预处理。
7、对于一些大批量数据,数据量巨大,完全无法批量学习的情况下,其在线学习是非常必要和正确的解决手段。
8、对于参数学习,其具体的含义在于在概率统计的各种假设前提下,将其数据输入输出之间的关系假设为一定的含参模型,利用原来的数据集对于其模型的参数进行概率的确定,一旦相应的参数确定完成之后,其输入输出的关系也随之确定,因此原来的学习数据也已然不再需要。
例如对于假设的二维数据间的线性关系,通过原有的数据集可以确定出其模型中所需要确定的参数a和b,确定完成之后原来的数据将再不需要:

图4
9、对于非参数学习,其含义在于我们不并将其进行概率意义上的多参数模型假设,但是非参数并不代表没有参数,它在整体的学习过程中也会包含一定的参数。
#机器学习的相关思考
1、大多数机器学习算法的准确度高度依赖于其基础的数据集,数据集的质量和数量很大程度上决定了其算法的最终准确度,因此也有一种说法是"数据即算法",2001年微软发表论文表面对于不同的机器学习算法,当其训练的数据集不断增多时,其算法预测的准确度也在不断地提高,并且最终都会彼此接近。因此,算法的准确度最终并不取决于算法本身,而是取决于基础训练数据集本身。

2、对于数据集的预处理主要关键在于:
(1)收集更多的数据
(2)提高数据的质量
(3)提高数据的代表性
(4)研究数据更重要的特征
3、不过对于一些问题,随着机器学习算法的发展,有些算法并不需要基础数据训练集,算法本身就可以对其进行产生训练和提高,比如AlphaGo Zero,它就是利用算法,从零开始进行训练和解决,不过它具有一定的特殊性。所以也有人说“算法即王”

4、对于机器学习算法,简单的就是好的,不过其简单的评判标准也是不确定的。另外从数学的角度来讲,任何两个机器学习算法,严格数学推导其最终的期望性能是相同的,相当于说任何算法的性能其实质是相同的,但是它也是建立在数学概率的期望上,对于特定情况下的特定问题,其实质是个性问题,所以即使不同的算法其期望性能虽然相同,但是解决不同问题的适合性却随着问题的特殊性有所不同。因此对于同一个问题,利用不同的算法进行训练、建模和测试对比是非常必要的。
5、机器学习基础入门的IDE环境搭建:
(1)Anaconda,下载网址:www.anaconda.com
(2)Pycharm,下载网址:http://www.jetbrains.com

python机器学习基本概念快速入门的更多相关文章
- Python应该怎样实现快速入门?
作为一名Python爱好者,我也想跟大家分享分享我自学Python的一些小经验.搬来你的小板凳,听听看吧.也许,你会很有收获,也许你也走上了自学Python的不归路.开讲啦~ 首先,你要有自信心,要明 ...
- Python语言十分钟快速入门
Python(蟒蛇)是一种动态解释型的编程语言.Python可以在Windows.UNIX.MAC等多种操作系统上使用,也可以在Java..NET开发平台上使用. AD:[51CTO技术沙龙]移动时代 ...
- 安装文件制作工具Wix概念快速入门
前言 Wix==Windows installer XML 顾名思议. 用于制作WINDOWS安装文件的XML格式的描述文件. 因为其实现方式为基于声明的方式,而非命令的方式. 特整理一下其相关的概念 ...
- Spark基本概念快速入门
Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元.Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务 ...
- python - json模块使用 / 快速入门
json基本格式 """ json格式 -> [{}, {}]: [{ "name": "Bob", "gende ...
- 通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】
久旱逢甘霖 西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...
- android dev概念快速入门
apk: android将源代码依赖库等经过编译后打包分发的应用. 打包详细过程如下: android-studio安装 由于google被qiang,需要制定proxy,可以使用sock,同时安装完 ...
- web、html概念快速入门
1.C/S和B/S 总结,理论上如果硬件不考虑(带宽.(图像资源加载)显卡等),B/S可以完全替代C/S: 2.静态资源和动态资源 其中,访问时动态资源,服务器后台也会通过视图解析器转换成静态资源,因 ...
- Linux快速入门01-基础概念
4年多前,刚到上海时报过一个关于Oracle的培训班,在那里接触到了Linux,不过一直都没真正去试着使用它.现在经过慢慢的成长,越来越觉得,Linux是每一个服务端工程师必须掌握的系统,即使是现在最 ...
随机推荐
- Cisco AP-Sniffer模式空口抓包
第一步:WLC/AP侧 配置AP为sniffer模式: 配置提交后,AP会重启,并且将不能发出SSID为clients提供服务. 第二步:一旦AP重新加入WLC,配置AP抓取的信道和抓取后的数据包发 ...
- 科幻电影免费百度云分享(Scince-fiction cloud share)
Marvel episode Link Passcode:6h9k Star War full episode Link Passcode:7abk Men In Black Episode Col ...
- 「CQOI2016」不同的最小割
「CQOI2016」不同的最小割 传送门 建出最小割树,把每一个点对的最小割抠出来 \(\text{unique}\) 一下就好了. 参考代码: #include <algorithm> ...
- 前端学习 之 JavaScript DOM 与 BOM
一. DOM介绍 1. 什么是DOM? DOM:文档对象模型.DOM 为文档提供了结构化表示,并定义了如何通过脚本来访问文档结构. 目的其实就是为了能让js操作html元素而制定的一个规范. DOM就 ...
- ubuntu-18.04 修改用户名密码
1. 开放root登录 设置root密码 $ sudo passwd root 切换到root 用户 $ sudo -i 修改/etc/pam.d/gdm-autologin $ vim /etc/p ...
- 小程序使用scroll-view横向滑动时,flex布局失效问题
最近在完善以前项目,类目增多,需要进行横向滑动 实现方法1 可以在外盒子scroll-view使用white-space: nowrap来禁止子盒子换行,子盒子使用display: inline-bl ...
- [网络转载 ]LoadRunner技巧之THML与URL两种录制模式分析
loadrunner自带网站的访问 Html_based script模式 Action() { web_url("WebTours", "URL=http://127. ...
- 笔记-mongodb-用户及角色
笔记-mongodb-用户及角色 1. users 其实mongodb支持多种验证方式,本文只提及最简单也最常用的方式. 1.1. Authentication Database When ...
- 吴裕雄 Bootstrap 前端框架开发——Bootstrap 表格:在 <tbody> 内添加斑马线形式的条纹 ( IE8 不支持)
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- Caffe2 用户手册概览(Caffe2 Tutorials Overview)[1]
在开始之前,我们很感激你对Caffe2感兴趣,希望Caffe2在你的机器学习作品中是一个高性能的框架.Caffe2致力于模块化,促进深度学习想法和原型的实现. 选择你的学习路线 1. 使用一个现成 ...