数据对象和属性类别:

 数据一般有噪声,数量庞大,且来自不同的数据源

 数据集由数据对象组成,一个数据对象代表一个实体

 数据对象:样本、实例、数据点、对象  

 数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性

 属性是一个数据字段,与维、特征、变量对应

 维 用于数据仓库中

 特征 用于机器学习中

 变量 用于统计学中

 属性的类型 值域

 属性有四大类: 

  标称属性:只代表某种类别,不具有意义的序(无排序)例如第一食堂、第二食堂这种也是不具有意义的序

  二元属性:标称属性的一种特殊情况 ,只有0/1

  序数属性:顺序有意义,相继值之间的差是未知的,各值之间可以相互比较,但不一定是数字(比如白金会员、超级会员等)

  数值属性:定量的可度量的量,用整数或者实数表示。

   区间标度属性:以相等的单位尺度度量

   比例标度属性:具有固定零点的数值属性

  数值属性和序数属性之间在某些情况下可以相互转换

 额外两种类型:

  离散型:有限个/无限个可数个数

  连续性:数据具有连续性

  离散型数据与连续型数据在一些情况下也可以相互转换(区间分割/加值等,一般把连续转换为离散)

 数据集类型:数据对象有时叫做点

  训练集:用于训练模型

  测试集:用于测试模型,对比预测值与真实值。

  验证集:用于调参,与测试集的区别为:验证集可以反复用,测试集仅用于一次测试

  一般训练:测试:验证为6:2:2

  当数据量很大,需使用GPU加速时:训练、测试、验证的比值为:8:1:1

  在不适用验证集时训练集测试集比:

   总数据在1w以下:7:3

   总数据在1w以下:8:2

   数据量大到需使用GPU加速训练:9:1

  数据集的维度:一维数据、二维数据、多维数据、高维数据

  数据集的稀疏性:在矩阵中,如果数值为0的元素远大于非0元素的个数,非0元素排列无规律十,称为稀疏矩阵;若非零元素占大多数时,称为稠密矩阵。(IE考试中记住概念即可)稀疏矩阵可以用于提升性能

  数据集的分辨率:灰度计算、图片压缩等(使用K-means)

  数据汇总统计:量化,用单个数或数的小集合捕获可能很大的值集的各种特征

   中心趋势度量:均值、中位数和众数

   度量数据散步:极差、四分位数(四等分位:第25个百分位数、第50个百分位数、第75个百分位数、第100个百分位数)、方差、标准差、四分位数极差

HCIE数据挖掘笔记-005数据挖掘专业名词的更多相关文章

  1. 机器学习&数据挖掘笔记_14(GMM-HMM语音识别简单理解)

    为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的.不得不说,网络上关于语音识别的通俗 ...

  2. 机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)

    机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 前言: 找工作时( ...

  3. [转]机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

    机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 转自http://www.cnblogs.com/tornadomeet/p/3395593.html 前言: 找工作时(I ...

  4. javascript各种专业名词

    刚开始学javascript经常看到各种专业名词,在此整理一下个人的学习笔记: 直接量 直接量——就是程序中直接使用的数据值,如:88    //数字(String)"hello world ...

  5. Android开发专业名词及工具概述

    前言: 系统的学习下Android开发中涉及到的一些专业名词 和Android开发工具 名词: 一.SDK(Software Development Kit) 软件开发工具包:一般都是一些软件工程师为 ...

  6. 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

    前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考 ...

  7. 机器学习&数据挖掘笔记_25(PGM练习九:HMM用于分类)

    前言: 本次实验是用EM来学习HMM中的参数,并用学好了的HMM对一些kinect数据进行动作分类.实验内容请参考coursera课程:Probabilistic Graphical Models 中 ...

  8. 机器学习&数据挖掘笔记_24(PGM练习八:结构学习)

    前言: 本次实验包含了2部分:贝叶斯模型参数的学习以及贝叶斯模型结构的学习,在前面的博文PGM练习七:CRF中参数的学习 中我们已经知道怎样学习马尔科夫模型(CRF)的参数,那个实验采用的是优化方法, ...

  9. 机器学习&数据挖掘笔记_22(PGM练习六:制定决策)

    前言: 本次实验是将一些简单的决策理论和PGM推理结合,实验内容相对前面的图模型推理要简单些.决策理论采用的是influence diagrams,和常见图模型本质一样, 其中的决策节点也可以用CPD ...

随机推荐

  1. 修改注册表使win server 2012R2开机进入桌面而不是开始界面

    首先,使用WIN+R快捷键打开运行命令,使用命令打开注册表编辑器 然后,进入注册表之后,我们一次定位到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\ ...

  2. iOS应用跳转至app store 评分页

    小功能之去AppStore评分 #pragma mark - 去AppStore评分 -(void)goToAppStore { NSString *str = [NSString stringWit ...

  3. JIRA 测试循环的创建和使用

    3.测试循环 3.1测试循环的创建      测试人员编写完测试用例,并评审通过后:测试负责人可以计划测试循环. 点击JIRA 选择列表栏中的"测试".点击"计划循环测试 ...

  4. Java多态、向上转型、向下转型知识分享(讲解全面)

    多态(方法的多态.对象的多态) 方法的多态 重写的多态(重要):子类继承父类,因此子类拥有父类属性和方法,如果子类重写父类方法,那么父类调用该方法的时候就会检查子类是否重写该方法,子类重写了就调用子类 ...

  5. CoaXPress 接口相机的控制方法--1

    GenICam 介绍 简而言之,GenICam 定义了一个通用的相机接口,使得应用程序的编写.相机的控制可以与具体的型号解耦,这样就可以设计出通用的软件完成对不同相机的控制.我们实际使用的CoaXPr ...

  6. 关于git和SVN的介绍和区别

    主要对git,svn进行一个简单的介绍. 顺带,我会在后面把我整理的一整套CSS3,PHP,MYSQL的开发的笔记打包放到百度云,有需要可以直接去百度云下载,这样以后你们开发就可以直接翻笔记不用百度搜 ...

  7. 如何删除远端已经推送的Commit记录???(Git版本回退)

    如何删除远端已经推送的Commit记录???(Git版本回退) 简单描述 突然事件:刚刚,就在刚刚,发生误了操作. 操作描述:我把修改的文件保存错分支了,已经commit了.并且还push上去了.对, ...

  8. 完爆Excel!一个令人惊艳的数据展示工具,让你做图更轻松高效

    数据展示应该是最常见的需求,我们经常利用数据做总结.用数据做分享.但是我们该如何更好地展示给我们需要展示的人,如何才能让我们的数据表达更加动人,这个值得让人思索. 说到数据表达,常用的数据展示方式无非 ...

  9. 如何用zabbix监控mysql多实例

    agent上起了多了 mysql实例,占用不同的端口,agent 仅在初始状况下,塞入脚本和 键配置,然后重启. 以后维护的时候(mysql端口变动),要做到 不能 动agent,力争 只在 web端 ...

  10. 缓冲区(buffer)与缓存(cache) 缓冲:缓解冲击,缓存:临时存储

    缓存与缓冲区 简要概述 缓存(cache):故名思意就是临时存储一下数据的存储器,其他设备可能等下还用的到数据.缓存区可以用来做缓冲区 缓冲区(Buffer):故名意思就是解决设备之间速度不匹配的问题 ...