机器学习PAL数据预处理

本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集。

前提条件

完成数据准备,详情请参见准备数据

操作步骤

  1. 登录PAI控制台
  2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模。在PAI可视化建模页面,单击进入机器学习。                                                                                                                                                                                                                                                       
  3.      
  4. 将组件拖入画布并拼接为实验。
  5. 在左侧菜单栏,单击组件
  6. 在组件列表,选择数据预处理 > 数据合并,将类型转换归一化组件拖入画布。
  7. 在组件列表,将工具下的SQL脚本组件拖入画布,并与准备数据中的读数据表组件拼接为实验,如下图所示。                                                                                                                                                 
  8. 配置组件参数。
  9. 单击画布中的SQL脚本组件,在右侧SQL脚本编辑框中输入SQL语句,将字符型字段转化为数值型。
  10. 单击画布中的类型转换组件,在右侧字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。                                                                                                                   
  11. 单击画布中的归一化组件,在右侧字段设置页签,选择所有字段。
  12. 单击画布上方的运行,运行过程中右键单击组件,可以查看组件的输出。
  13. 在组件列表,选择数据预处理 > 数据合并,将拆分组件拖入画布并与其他组件拼接,单击运行。                                                                                                                                                                       
ii.     select age,
iii.     (case sex when 'male' then 1 else 0 end) as sex,
iv.     (case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
v.     trestbps,
vi.     chol,
vii.     (case fbs when 'true' then 1 else 0 end) as fbs,
viii.     (case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
ix.     thalach,
x.     (case exang when 'true' then 1 else 0 end) as exang,
xi.     oldpeak,
xii.     (case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
xiii.     ca,
xiv.     (case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
xv.     (case status  when 'sick' then 1 else 0 end) as ifHealth
from  ${t1};

拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例

后续步骤

完成数据预处理后,需要进行数据可视化,详情请参见数据可视化

机器学习PAL数据预处理的更多相关文章

  1. 机器学习PAL数据可视化

    机器学习PAL数据可视化 本文以统计全表信息为例,介绍如何进行数据可视化. 前提条件 完成数据预处理,详情请参见数据预处理. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训练 >  ...

  2. 机器学习之数据预处理,Pandas读取excel数据

    Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...

  3. 100天搞定机器学习|Day1数据预处理

    数据预处理是机器学习中最基础也最麻烦的一部分内容 在我们把精力扑倒各种算法的推导之前,最应该做的就是把数据预处理先搞定 在之后的每个算法实现和案例练手过程中,这一步都必不可少 同学们也不要嫌麻烦,动起 ...

  4. 机器学习:数据预处理之独热编码(One-Hot)

    前言 ———————————————————————————————————————— 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等.这些特征值并不是连续的 ...

  5. 第一章:AI人工智能 の 数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn

    本课主题 数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...

  6. [机器学习]-[数据预处理]-中心化 缩放 KNN(二)

    上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1. 真实结果 预测结果 预测结果   正例 反例 正例 TP 真 ...

  7. Python数据预处理:机器学习、人工智能通用技术(1)

    Python数据预处理:机器学习.人工智能通用技术 白宁超  2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...

  8. 机器学习 —— 数据预处理

    对于学习机器学习算法来说,肯定会涉及到数据的处理,因此一开始,对数据的预处理进行学习 对于数据的预处理,大概有如下几步: 步骤1 -- 导入所需库 导入处理数据所需要的python库,有如下两个库是非 ...

  9. 机器学习实战基础(十):sklearn中的数据预处理和特征工程(三) 数据预处理 Preprocessing & Impute 之 缺失值

    缺失值 机器学习和数据挖掘中所使用的数据,永远不可能是完美的.很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的 ...

随机推荐

  1. Android Apk加固的初步实现思路(dex整体加固)

    一.前 言 Android Apk加固的发展已经有一段时间了,相对来说本篇博客要记录的Android加壳的实现思路是4年的东西了,已经被老鸟玩烂了,Android加固的安全厂商也不会采用这么粗犷的方式 ...

  2. PAT 乙级 -- 1010 -- 一元多项式求导

    题目简述 设计函数求一元多项式的导数.(注:xn(n为整数)的一阶导数为n*xn-1.) 输入格式:以指数递降方式输入多项式非零项系数和指数(绝对值均为不超过1000的整数).数字间以空格分隔. 输出 ...

  3. PAT 乙级 -- 1009 -- 说反话

    题目简述 给定一句英语,要求你编写程序,将句中所有单词的顺序颠倒输出.       输入格式:测试输入包含一个测试用例,在一行内给出总长度不超过80的字符串.字符串由若干单词和若干空格组成,其中单词是 ...

  4. CVE-2019-11043 Nginx PHP 远程代码执行漏洞复现

    漏洞背景:来自Wallarm的安全研究员Andrew Danau在9月14-16号举办的Real World CTF中,意外的向服务器发送%0a(换行符)时,服务器返回异常信息.由此发现了这个0day ...

  5. 【JavaScript】【dp】Leetcode每日一题-解码方法

    [JavaScript]Leetcode每日一题-解码方法 [题目描述] 一条包含字母 A-Z 的消息通过以下映射进行了 编码 : 'A' -> 1 'B' -> 2 ... 'Z' -& ...

  6. java之Map的使用

    Map的实现类有很多,其中较为常见的有HashMap,HashTable,LinkedHashMap,TreeMap,下面分别对这几个类进行简单的分析: 1.HashMap HashMap的结构数组+ ...

  7. PhpStorm 配置本地文件自动上传至服务器

    目的:本地文件夹下的文件实时同步至指定服务器的文件夹,减少代码移植的成本和风险 添加一个SFTP连接 Tools - Deployment - Browse Remote Host 配置连接参数 Co ...

  8. Git 系列教程(8)- 远程仓库的使用

    查看远程仓库 如果想查看你已经配置的远程仓库服务器,可以运行 git remote 命令,它会列出你指定的每一个远程服务器的名称 如果是刚 clone 下来的自己的库,能看到 origin,这是 Gi ...

  9. MySQL库表设计小技巧

    前言: 在我们项目开发中,数据库及表的设计可以说是非常重要,我遇到过很多库表设计比较杂乱的项目,像表名.字段名命名混乱.字段类型设计混乱等等,此类数据库后续极难维护与拓展.我一直相信只有优秀的库表设计 ...

  10. git取消更改 恢复版本命令

      #删除远程的xxx分支 git push origin :xxx #取消对文件的修改.还原到最近的版本,废弃本地做的修改. git checkout -- <file>   #取消已经 ...