关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享
1.前言:本科生毕业设计有好多人说没有什么用处,自己又做不出来什么新东西,全是抄抄改改的,浪费大家时间。但是对此事我的态度不同,我觉得就像我们小时候玩过家家一样,别的孩子都在玩,我不参与进去显得会有遗憾,而且本次毕设我并没有那么难受,也学到了新的东西,说句心里话,其实也是有收获的。
2.rapidminer软件简介:它是一款可视化软件,用于数u据挖掘,我们需要做的事情就是去不停地联系,核心代码都有人帮我们写好了。在这款软件面前,你完全可以是编程小白也没有什么关系,因为我们不需要考虑那么底层的技术问题,我们只需要会用就足够了。当然这款软件还是提供给我们开发者一些很好的开发余地的。我们可以自己写代码去处理业务逻辑,甚至可以直接去对现有算子进行改造,然后让自己的思路进行运算,总之,对于不是那么复杂的业务逻辑,rapidminer软件处理起来可以说是游刃有余。
3.软件介绍:
下载安装后我们可以在桌面看到这个图标,下图所示:

点击打开,我们看到如下界面:

直接选择blank来新建一个空白程序,
我把这些分为了7个区域,分别用A,B,C,D,E,F,G来表示,他们分别代表着导航栏,快捷功能,中央仓库,算子区,程序设计窗口,参数设置区,帮助区等7个区域。我们的程序设计就是把原始数据导入B区,将数据和算子拖到E区,在F区设置算子的参数,然后点击B区的run(三角标号)来运行程序,最后会在B区的Result展示程序结果。
4.案例简介:我本次课程设计过程中有3000多条实验数据存在Excel中,我现在把它导入rapidminer软件里边,找到数据存放位置(我的是在C:\Users\Administrator\Desktop\毕设论文\实验数据),然后回到软件,点击C区的Add Data,导入数据

导入后就开始设计流程了。首先把刚刚导入的数据从C区拖到E区

我的目的是筛选出实验误差小于5%的数据,对其进行聚类分析,来寻找规律。好的,那么首先就是对数据进行清洗和筛选了

在算子区搜索栏可以搜索自己进行处理的算子,以便快速锁定,如图1,输入select后会列出所有的select来,接下来就是选择合适的算子,我这里选择的是select attributes(选择属性)算子,如图2,然后把它拖到E区,接下来就是设置参数了,我们把算子拖到F区后首先要做的就是设置参数,以便让算子能够理解你的标准。我这里是选择没有缺失值的所有数据,如图3。接下来完成后续的步骤,过程和刚刚的select 算子一样,搜索,拖拽,设参,连线。接下来我再次拖拽一个select attributes算子,设置参数区选择subset(子集),即我要过滤掉和我目的不相关的数据

接下来就是决定过滤掉什么了,要什么,点击参量就可以了,点击apply。

接下来就是找误差小于5%的数据,明显输入filter来查询过滤算子,然后拖到E区

设置参量,点击filters的add后看到如图展示,如果有多个条件,设置多个条件就是了。

接下来就是聚类分析,聚类算子默认k-means,用来对数据进行聚类,只需要在F区设置k的值即可,k默认是2,我设置为5,即要聚成5类,该算子即可帮你完成剩下的工作。

为了对照方便我还需要将误差大于等于5%的数据进行一次归类,这时候filter examples算子的unm出口就很有用了,它代表unmatched(即不匹配的,回忆一下我们之前设置的条件是σ<5%)那unm出口就对应它的互补面了。我们同样设置为5类,有对照性。

最后运行,结果如图, 有两个结果集一个是小于5%的(clustering),另一个是大于等于5%的(clustering2),好多种展现形式。

关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享的更多相关文章
- WEKA,一个开源java的数据挖掘工具
开始研究WEKA,一个开源java的数据挖掘工具. HS沉寂这么多天,谁知道偏偏在我申请离职的时候给我安排了个任务,哎,无语. 于是,今天看了一天的Weka. 主要是看了HS提供的三个文章(E文,在g ...
- Orange的数据挖掘工具入门使用
Orange的数据挖掘工具入门使用 声明: 1)本报告由博客园bitpeach撰写,版权所有,免费转载,请注明出处,并请勿作商业用途. 2)若本文档内有侵权文字或图片等内容,请联系作者bitpeach ...
- 哈尔滨工业大学(深圳)本科毕业设计(论文)LaTeX模板:hitszthesis
目录 本篇文章的主要内容如下: 目录 引言 Why hitszthesis? 下载方式 编译方式简介 模板说明文档(用户手册) 毕业论文撰写样例 后记 引言 去年发布过哈深本科毕业设计(论文)的LaT ...
- 【案例分享】使用ActiveReports报表工具,在.NET MVC模式下动态创建报表
提起报表,大家会觉得即熟悉又陌生,好像常常在工作中使用,又似乎无法准确描述报表.今天我们来一起了解一下什么是报表,报表的结构.构成元素,以及为什么需要报表. 什么是报表 简单的说:报表就是通过表格.图 ...
- Python机器学习数据挖掘工具sklearn安装和使用
python借助pip安装第三方库,所以首先确保电脑上已成功安装了pip. 安装sklearn前需要先安装numpy.scipy和pandas等库.安装的方式有两种: 一.前往python的组件库页( ...
- grunt 构建工具(build tool)初体验
操作环境:win8 系统,建议使用 git bash (window下的命令行工具) 1,安装node.js 官网下载:https://nodejs.org/ 直接点击install ,会根据你的操 ...
- 工具系列 | VScode VS Live Share 实时编码分享(和你的小伙伴一起写代码吧)
Visual Studio Live Share能干啥? 分享任何语言,任何应用程序 无论您正在构建什么类型的应用程序,您正在编写什么语言,或者您的操作系统如何:在您需要协作时,Live Share会 ...
- Python3.7.9+Locust1.4.3版本性能测试工具案例分享
一.Locust工具介绍 1.概述 Locust是一款易于使用的分布式负载测试工具,完全基于事件,使用python开发,即一个locust节点也可以在一个进程中支持数千并发用户,不使用回调,通过gev ...
- JetBrains新产品Aqua——自动化测试开发工具(抢鲜体验)
转载请注明出处️ 作者:测试蔡坨坨 原文链接:caituotuo.top/9a093c88.html 你好,我是测试蔡坨坨. 随着行业内卷越来越严重,自动化测试已成为测试工程师的必备技能,谈及自动化测 ...
随机推荐
- ubuntu搜狗拼音安装
1.官方下载deb 2.双击安装 3.终端im-config,选择fcitx 4.重启 5.输入法设置中add一下sougoupinyin
- Machine Learning in Action(6) AdaBoost算法
Adaboost也是一种原理简单,但很实用的有监督机器学习算法,它是daptive boosting的简称.说到boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来 ...
- 诡异的json包含bom头
今日项目碰到 需要调用php的一个接口 结果一直报返回的json字符串转对象 bom头报错 Exception in thread "main" com.fasterxml.j ...
- mtk6589显示子系统笔记(一)
拿到MT6589的版本不久,发现显示系统代码结构改变很大.做些备忘,后续不忙的时候可以继续看. MT6589之前的MTK的Android系统显示系统同featurePhone基本一致. 先来回顾下MT ...
- 分布式锁(Zookeeper实现)
分布式锁 分布式锁,这个主要得益于 ZooKeeper 为我们保证了数据的强一致性.锁服务可以分为两类,一个是 保持独占,另一个是 控制时序. 1. 所谓保持独占,就是所有试图来获取这个锁的客户端,最 ...
- IE浏览器没有加载CSS或js文件的秘密及解决办法
其实是两处资料拼成这一篇博文的,因为在开发过程中遇到,有的文章只是说明原因,而没有给出解决方案,所以再次给出解释和解决方法,以供参考,如果有好的解决方法,也请分享下! ---------------- ...
- C++中map容器的说明和使用技巧
C++中map容器提供一个键值对容器,map与multimap差别仅仅在于multiple允许一个键对应多个值. 一.map的说明 1 头文件 #include <map> 2 定义 ma ...
- QQ通信原理
转载自http://blog.csdn.net/li_xiao_ming/article/details/8106857 下面有4个基本的问答: 问题一:为什么只要可以连上互联网的计算机都可以用QQ相 ...
- Relocation POJ-2923
题目链接 题目意思: 有 n 个货物,并且知道了每个货物的重量,每次用载重量分别为c1,c2的火车装载,问最少需要运送多少次可以将货物运完. 分析:本题可以用二进制枚举所有不冲突的方案,再来dp 一下 ...
- UVA-11892(组合游戏)
题意: 给n堆石子,每堆有ai个,每次可以取每堆中任意数目的石子;但是上一次操作的人没有将一堆全部取走,那么下一个人还要在那一堆取; 思路: 每次取到这堆就剩一个的策略; AC代码: #include ...