关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享
1.前言:本科生毕业设计有好多人说没有什么用处,自己又做不出来什么新东西,全是抄抄改改的,浪费大家时间。但是对此事我的态度不同,我觉得就像我们小时候玩过家家一样,别的孩子都在玩,我不参与进去显得会有遗憾,而且本次毕设我并没有那么难受,也学到了新的东西,说句心里话,其实也是有收获的。
2.rapidminer软件简介:它是一款可视化软件,用于数u据挖掘,我们需要做的事情就是去不停地联系,核心代码都有人帮我们写好了。在这款软件面前,你完全可以是编程小白也没有什么关系,因为我们不需要考虑那么底层的技术问题,我们只需要会用就足够了。当然这款软件还是提供给我们开发者一些很好的开发余地的。我们可以自己写代码去处理业务逻辑,甚至可以直接去对现有算子进行改造,然后让自己的思路进行运算,总之,对于不是那么复杂的业务逻辑,rapidminer软件处理起来可以说是游刃有余。
3.软件介绍:
下载安装后我们可以在桌面看到这个图标,下图所示:

点击打开,我们看到如下界面:

直接选择blank来新建一个空白程序,
我把这些分为了7个区域,分别用A,B,C,D,E,F,G来表示,他们分别代表着导航栏,快捷功能,中央仓库,算子区,程序设计窗口,参数设置区,帮助区等7个区域。我们的程序设计就是把原始数据导入B区,将数据和算子拖到E区,在F区设置算子的参数,然后点击B区的run(三角标号)来运行程序,最后会在B区的Result展示程序结果。
4.案例简介:我本次课程设计过程中有3000多条实验数据存在Excel中,我现在把它导入rapidminer软件里边,找到数据存放位置(我的是在C:\Users\Administrator\Desktop\毕设论文\实验数据),然后回到软件,点击C区的Add Data,导入数据

导入后就开始设计流程了。首先把刚刚导入的数据从C区拖到E区

我的目的是筛选出实验误差小于5%的数据,对其进行聚类分析,来寻找规律。好的,那么首先就是对数据进行清洗和筛选了

在算子区搜索栏可以搜索自己进行处理的算子,以便快速锁定,如图1,输入select后会列出所有的select来,接下来就是选择合适的算子,我这里选择的是select attributes(选择属性)算子,如图2,然后把它拖到E区,接下来就是设置参数了,我们把算子拖到F区后首先要做的就是设置参数,以便让算子能够理解你的标准。我这里是选择没有缺失值的所有数据,如图3。接下来完成后续的步骤,过程和刚刚的select 算子一样,搜索,拖拽,设参,连线。接下来我再次拖拽一个select attributes算子,设置参数区选择subset(子集),即我要过滤掉和我目的不相关的数据

接下来就是决定过滤掉什么了,要什么,点击参量就可以了,点击apply。

接下来就是找误差小于5%的数据,明显输入filter来查询过滤算子,然后拖到E区

设置参量,点击filters的add后看到如图展示,如果有多个条件,设置多个条件就是了。

接下来就是聚类分析,聚类算子默认k-means,用来对数据进行聚类,只需要在F区设置k的值即可,k默认是2,我设置为5,即要聚成5类,该算子即可帮你完成剩下的工作。

为了对照方便我还需要将误差大于等于5%的数据进行一次归类,这时候filter examples算子的unm出口就很有用了,它代表unmatched(即不匹配的,回忆一下我们之前设置的条件是σ<5%)那unm出口就对应它的互补面了。我们同样设置为5类,有对照性。

最后运行,结果如图, 有两个结果集一个是小于5%的(clustering),另一个是大于等于5%的(clustering2),好多种展现形式。

关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享的更多相关文章
- WEKA,一个开源java的数据挖掘工具
开始研究WEKA,一个开源java的数据挖掘工具. HS沉寂这么多天,谁知道偏偏在我申请离职的时候给我安排了个任务,哎,无语. 于是,今天看了一天的Weka. 主要是看了HS提供的三个文章(E文,在g ...
- Orange的数据挖掘工具入门使用
Orange的数据挖掘工具入门使用 声明: 1)本报告由博客园bitpeach撰写,版权所有,免费转载,请注明出处,并请勿作商业用途. 2)若本文档内有侵权文字或图片等内容,请联系作者bitpeach ...
- 哈尔滨工业大学(深圳)本科毕业设计(论文)LaTeX模板:hitszthesis
目录 本篇文章的主要内容如下: 目录 引言 Why hitszthesis? 下载方式 编译方式简介 模板说明文档(用户手册) 毕业论文撰写样例 后记 引言 去年发布过哈深本科毕业设计(论文)的LaT ...
- 【案例分享】使用ActiveReports报表工具,在.NET MVC模式下动态创建报表
提起报表,大家会觉得即熟悉又陌生,好像常常在工作中使用,又似乎无法准确描述报表.今天我们来一起了解一下什么是报表,报表的结构.构成元素,以及为什么需要报表. 什么是报表 简单的说:报表就是通过表格.图 ...
- Python机器学习数据挖掘工具sklearn安装和使用
python借助pip安装第三方库,所以首先确保电脑上已成功安装了pip. 安装sklearn前需要先安装numpy.scipy和pandas等库.安装的方式有两种: 一.前往python的组件库页( ...
- grunt 构建工具(build tool)初体验
操作环境:win8 系统,建议使用 git bash (window下的命令行工具) 1,安装node.js 官网下载:https://nodejs.org/ 直接点击install ,会根据你的操 ...
- 工具系列 | VScode VS Live Share 实时编码分享(和你的小伙伴一起写代码吧)
Visual Studio Live Share能干啥? 分享任何语言,任何应用程序 无论您正在构建什么类型的应用程序,您正在编写什么语言,或者您的操作系统如何:在您需要协作时,Live Share会 ...
- Python3.7.9+Locust1.4.3版本性能测试工具案例分享
一.Locust工具介绍 1.概述 Locust是一款易于使用的分布式负载测试工具,完全基于事件,使用python开发,即一个locust节点也可以在一个进程中支持数千并发用户,不使用回调,通过gev ...
- JetBrains新产品Aqua——自动化测试开发工具(抢鲜体验)
转载请注明出处️ 作者:测试蔡坨坨 原文链接:caituotuo.top/9a093c88.html 你好,我是测试蔡坨坨. 随着行业内卷越来越严重,自动化测试已成为测试工程师的必备技能,谈及自动化测 ...
随机推荐
- HP叫魔术方法的函数
PHP5.0后,php面向对象提成更多方法,使得php更加的强大!! 一些在PHP叫魔术方法的函数,在这里介绍一下:其实在一般的应用中,我们都需要用到他们!! 1.__construct() 当实例化 ...
- Ubuntu 14.04 下 android studio 安装 和 配置【转】
本文转载自:http://blog.csdn.net/xueshanfeihu0/article/details/52979717 Ubuntu 14.04 下 android studio 安装 和 ...
- Gym - 100283F F. Bakkar In The Army —— 二分
题目链接:http://codeforces.com/gym/100283/problem/F F. Bakkar In The Army time limit per test 2 seconds ...
- Kattis - whatdoesthefoxsay —— 字符串
题目: Kattis - whatdoesthefoxsay Determined to discover the ancient mystery—the sound that the fox ...
- 关于Ajax实现的简单示例
一.代码示例 关于Ajax的基本概念(包括XMLHttpRequest对象及其相关方法属性)移步这里(w3school中文版)学习了解. <!doctype html> <html ...
- HihoCoder1470 : 公平的游戏
描述 有一些人在玩一个游戏.游戏的舞台发生在一个 n 个点的树上. 这个游戏分为很多轮,每一轮都有一些玩家参与,每个玩家都会降落在一条给定的边上(不同玩家的边不同).之后这 n 个点上都会随机出现一个 ...
- SIP呼叫流程典型流程图解及其详细解释
目录(?)[+] 1.注册流程: 2.注销流程: 3. 基本呼叫建立过程: 4. 会话更改流程: 5. 正常呼叫释放过程: 6. 被叫忙呼叫释放: 7.被叫无应答流程一: 8.被叫无应答流程二: ...
- Java字符串理解
1. 字符串基本知识 用java.lang.String类的对象表示字符串 字符串类型不是基本类型, 而是引用类型(类似于数组和对象) Java基于Unicode字符集 2. 字符串创建 public ...
- OpenFileDialog无法弹出的解决方法
今天在写一个socket通信的winform小程序,由于socket的receive方法会阻塞线程,所以就使用了多线程解决.但在新建的线程中创建OpenFileDialog并调用其ShowDialog ...
- linux命令:wc命令
Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数.字数.行数,并将统计结果显示输出. 1.命令格式: wc [选项]文件... 2.命令功能: 统计指定文件中的字节数. ...