第1章 气象万千 数以等观

数据分析:发现数据背后的规律

等号的重要性,建立模型

第2章所谓学习、归类而已

2.1所谓学习,归类而已(1)

ps:机器学习只是归归类?

有监督学习——分类;无监督学习——聚类,构成了机器学习的主体部分,所以,机器学习不过是归一归类。

2.2所谓学习,归类而已(2)

1.规律:某种关系结构

从系统理论的角度看,世界由系统组成,一切客观存在均可视为系统。

系统由什么组成呢?元素及其关系结构。

机器所能学习的规律/模型,或者说数据中能挖出的规律,其实质都是:某种关系结构。尤其是变量之间的关系和数据空间的结构。

机器学习存在的全部意义,只是为了寻找或表达某种关系结构

2.3所谓学习,归类而已(3)

从数据中发现某种知识/模式/模型

实事(数据)求(算法)是(模型)

机器学习三要素:算法、模型、策略

所谓的机器学习:通过算法从模型集里选出一个最贴近观察记录的模型,用来表示我们想要的关系结构

要刻画“贴近”的程度,需要一个量化标准,我们称之为策略。

机器学习,可以作为一个搜索问题,容易看出,机器学习是真正在做research

结构风险最小化策略,主要是为了提升模型的泛化能力。泛化能力一般通过测试集(而非训练集)上的性能指标来近似。

何为建模?数学选模;模型不在于构建,而在于选择。建模就好比是量体裁衣。

2.4所谓学习,归类而已(4)

1.课前习题

①归纳和演绎(科学推理的两种方法):

归纳:从特殊到一般,从特殊事实或个别事例到一般结论的逻辑推理方法。

演绎:从一般到特殊,从普遍性结论或一般性事例推导出个别性结论(大前提,小前提,结论)

机器学习主要的推理方式是归纳。似真推理,或然性推理(并不一定是完全正确的)

2.机器学习/数据挖掘是从大量的数据中归纳出(先前未知的)有用或有趣关系结构(模式、模型、知识、规律...)的过程。

3.关联规则表现为项集之间的伴随关系。

4.聚类分析的结果主要表现为数据空间的距离结构。

5.训练的过程属于归纳,而预测的过程属于演绎。

6.为了验证模型的有效性,一般都是通过试验的方法,在测试集上测试其性能。模型的验证,以观测

、实验为主,而非理论推导。

第3章 格言联璧话学习

1.数学是宇宙的语言,这个世界真正的逻辑是概率计算。

2.函数关系都不能等同于因果关系,但这无损于他们的价值

3.所有的模型都是错的(选择),但是有些是有用的。模型的评估和模型的建立同等重要。

4.没有明确的证据表明一个模型会优于另一个模型,模型的选择取决于任务情景。

5.成功的机器学习应用不是拥有最好的算法而是拥有最多的数据。

6.特征调不好,参数调到老。

7.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

8.如何赢得机器学习的比赛?就是把别人的模型拿过来然后集成在一起。

9.数据科学家就是比计算机科学家懂更多统计学,比统计学家懂更多计算机科学的人。

10.关键在于问题而非模型,数据科学家的基本素养:业务敏感、算法老道、编程熟悉.

第4章源于数学、归于工程

机器学习的两大数学视角:概率和几何。

理论是灰色的,而工程之树常青。

上部:问道 | R语言数据分析(北京邮电大学)自整理笔记的更多相关文章

  1. R语言数据分析系列六

    R语言数据分析系列六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候怎样下手分析,数据分析的第一步.探索性数据分析. 统计量,即统计学里面关注的数据集 ...

  2. R语言数据分析系列之四

    R语言数据分析系列之四 -- by comaple.zhang 说到统计分析我们就离不开随机变量,所谓随机变量就是数学家们为了更好的拟合现实世界的数据而建立的数学模型.有了她我们甚至能够来预測一个站点 ...

  3. R语言数据分析系列之五

    R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi ...

  4. R学习:《R语言数据分析与挖掘实战》PDF代码

    分三个部分:基础篇.实战篇.提高篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据 ...

  5. R语言数据分析利器data.table包—数据框结构处理精讲

    R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...

  6. R语言中文社区历史文章整理(类型篇)

    R语言中文社区历史文章整理(类型篇)   R包: R语言交互式绘制杭州市地图:leafletCN包简介 clickpaste包介绍 igraph包快速上手 jiebaR,从入门到喜欢 Catterpl ...

  7. 中部:执具 | R语言数据分析(北京邮电大学)自整理笔记

    第5章工欲善其事.必先利其器 代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论 大前提:计算机语言程序=算法+数据结构 小前提:R ...

  8. R语言数据分析

    CSDN博客:包括R语言基础.R语言数据挖掘.hadoop大数据及spark等 http://blog.csdn.net/qq_16365849 R语言及数据分析 http://blog.csdn.n ...

  9. R语言数据分析利器data.table包 —— 数据框结构处理精讲

        R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理 ...

随机推荐

  1. JDBC | 第七章: JDBC数据库连接池使用

    概述 数据库连接池是负责分配.管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而不是再重新建立一个.那么其中的运行机制又是怎样的呢?今天主要介绍一下数据库连接池原理和常用的连接池. ...

  2. 记录学习docker命令的随笔

    docker安装与启动 安装docker yum包更新到最新  sudo yum update 安装需要的软件包  sudo yum install -y yum-utils device-mappe ...

  3. 初学WebGL引擎-BabylonJS:第0篇-起因

    学习WebGL的BabylonJS是在一次偶然的情况下进行的,主要为了满足个人对全栈开发的欲望. 言归正传,下面开始简单说说相关过程 WebGL是什么?WebGL是基于html的客户端页面技术,基于h ...

  4. Linux 操作系统 基础

    root: 管理员 /: 根目录[windows : 计算机] ~: 家目录: 管理员:/root/.. 非管理员:/home/... 命令提示符: [root@localhost abc]#: ro ...

  5. WordCount(Java实现)

    Github项目地址:https://github.com/linzworld/word-count 项目相关要求 题目描述 Word Count 实现一个简单而完整的软件工具(源程序特征统计程序). ...

  6. 深入了解Netty【四】IO模型

    引言 IO模型就是操作数据输入输出的方式,在Linux系统中有5大IO模型:阻塞式IO模型.非阻塞式IO模型.IO复用模型.信号驱动式IO模型.异步IO模型. 因为学习Netty必不可少的要了解IO多 ...

  7. 深入理解 IoC、DI

    本文转载自博客:https://www.cnblogs.com/xinhuaxuan/p/6132372.html 1.控制反转:谁控制谁?控制什么?为何叫反转(对应于正向)?哪些方面反转了?为何需要 ...

  8. Linux centos6.5 安装

    本来打算玩 netty的 但是这个东西暂时也不用,而且我之前玩过mina就暂时不玩这个了,等以后有时间再玩,那玩啥呢?前几天和我们领导要了百度网盘会员,下了60G的大数据视屏,嘿嘿,有的玩了,今天开始 ...

  9. hadoop不能互相访问和linux防火墙守护进程

    前言——作为装过几次集群的菜鸟,对于hadoop集群的安装还是比较有心得的:只要配置文件够好,集群配置就非常容易,否则也容易出现莫名其妙的问题!总结了一份3台机器搭建较完好的集群的一份配置文件. 在我 ...

  10. 解决 Mac 上 Docker 无法直接 ping 通的问题

    解决 Mac 上 Docker 无法直接 ping 通的问题 原文连接 一.背景 Mac os Mojave 10.14.3 Docker Desktop community 2.3.0.4 二.问题 ...