1.前言:本科生毕业设计有好多人说没有什么用处,自己又做不出来什么新东西,全是抄抄改改的,浪费大家时间。但是对此事我的态度不同,我觉得就像我们小时候玩过家家一样,别的孩子都在玩,我不参与进去显得会有遗憾,而且本次毕设我并没有那么难受,也学到了新的东西,说句心里话,其实也是有收获的。

2.rapidminer软件简介:它是一款可视化软件,用于数u据挖掘,我们需要做的事情就是去不停地联系,核心代码都有人帮我们写好了。在这款软件面前,你完全可以是编程小白也没有什么关系,因为我们不需要考虑那么底层的技术问题,我们只需要会用就足够了。当然这款软件还是提供给我们开发者一些很好的开发余地的。我们可以自己写代码去处理业务逻辑,甚至可以直接去对现有算子进行改造,然后让自己的思路进行运算,总之,对于不是那么复杂的业务逻辑,rapidminer软件处理起来可以说是游刃有余。

3.软件介绍:

下载安装后我们可以在桌面看到这个图标,下图所示:

点击打开,我们看到如下界面:

直接选择blank来新建一个空白程序,

我把这些分为了7个区域,分别用A,B,C,D,E,F,G来表示,他们分别代表着导航栏,快捷功能,中央仓库,算子区,程序设计窗口,参数设置区,帮助区等7个区域。我们的程序设计就是把原始数据导入B区,将数据和算子拖到E区,在F区设置算子的参数,然后点击B区的run(三角标号)来运行程序,最后会在B区的Result展示程序结果。

4.案例简介:我本次课程设计过程中有3000多条实验数据存在Excel中,我现在把它导入rapidminer软件里边,找到数据存放位置(我的是在C:\Users\Administrator\Desktop\毕设论文\实验数据),然后回到软件,点击C区的Add Data,导入数据

导入后就开始设计流程了。首先把刚刚导入的数据从C区拖到E区

我的目的是筛选出实验误差小于5%的数据,对其进行聚类分析,来寻找规律。好的,那么首先就是对数据进行清洗和筛选了

在算子区搜索栏可以搜索自己进行处理的算子,以便快速锁定,如图1,输入select后会列出所有的select来,接下来就是选择合适的算子,我这里选择的是select attributes(选择属性)算子,如图2,然后把它拖到E区,接下来就是设置参数了,我们把算子拖到F区后首先要做的就是设置参数,以便让算子能够理解你的标准。我这里是选择没有缺失值的所有数据,如图3。接下来完成后续的步骤,过程和刚刚的select 算子一样,搜索,拖拽,设参,连线。接下来我再次拖拽一个select attributes算子,设置参数区选择subset(子集),即我要过滤掉和我目的不相关的数据

接下来就是决定过滤掉什么了,要什么,点击参量就可以了,点击apply。

接下来就是找误差小于5%的数据,明显输入filter来查询过滤算子,然后拖到E区

设置参量,点击filters的add后看到如图展示,如果有多个条件,设置多个条件就是了。

接下来就是聚类分析,聚类算子默认k-means,用来对数据进行聚类,只需要在F区设置k的值即可,k默认是2,我设置为5,即要聚成5类,该算子即可帮你完成剩下的工作。

为了对照方便我还需要将误差大于等于5%的数据进行一次归类,这时候filter examples算子的unm出口就很有用了,它代表unmatched(即不匹配的,回忆一下我们之前设置的条件是σ<5%)那unm出口就对应它的互补面了。我们同样设置为5类,有对照性。

最后运行,结果如图, 有两个结果集一个是小于5%的(clustering),另一个是大于等于5%的(clustering2),好多种展现形式。

关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享的更多相关文章

  1. WEKA,一个开源java的数据挖掘工具

    开始研究WEKA,一个开源java的数据挖掘工具. HS沉寂这么多天,谁知道偏偏在我申请离职的时候给我安排了个任务,哎,无语. 于是,今天看了一天的Weka. 主要是看了HS提供的三个文章(E文,在g ...

  2. Orange的数据挖掘工具入门使用

    Orange的数据挖掘工具入门使用 声明: 1)本报告由博客园bitpeach撰写,版权所有,免费转载,请注明出处,并请勿作商业用途. 2)若本文档内有侵权文字或图片等内容,请联系作者bitpeach ...

  3. 哈尔滨工业大学(深圳)本科毕业设计(论文)LaTeX模板:hitszthesis

    目录 本篇文章的主要内容如下: 目录 引言 Why hitszthesis? 下载方式 编译方式简介 模板说明文档(用户手册) 毕业论文撰写样例 后记 引言 去年发布过哈深本科毕业设计(论文)的LaT ...

  4. 【案例分享】使用ActiveReports报表工具,在.NET MVC模式下动态创建报表

    提起报表,大家会觉得即熟悉又陌生,好像常常在工作中使用,又似乎无法准确描述报表.今天我们来一起了解一下什么是报表,报表的结构.构成元素,以及为什么需要报表. 什么是报表 简单的说:报表就是通过表格.图 ...

  5. Python机器学习数据挖掘工具sklearn安装和使用

    python借助pip安装第三方库,所以首先确保电脑上已成功安装了pip. 安装sklearn前需要先安装numpy.scipy和pandas等库.安装的方式有两种: 一.前往python的组件库页( ...

  6. grunt 构建工具(build tool)初体验

    操作环境:win8 系统,建议使用 git bash (window下的命令行工具) 1,安装node.js 官网下载:https://nodejs.org/  直接点击install ,会根据你的操 ...

  7. 工具系列 | VScode VS Live Share 实时编码分享(和你的小伙伴一起写代码吧)

    Visual Studio Live Share能干啥? 分享任何语言,任何应用程序 无论您正在构建什么类型的应用程序,您正在编写什么语言,或者您的操作系统如何:在您需要协作时,Live Share会 ...

  8. Python3.7.9+Locust1.4.3版本性能测试工具案例分享

    一.Locust工具介绍 1.概述 Locust是一款易于使用的分布式负载测试工具,完全基于事件,使用python开发,即一个locust节点也可以在一个进程中支持数千并发用户,不使用回调,通过gev ...

  9. JetBrains新产品Aqua——自动化测试开发工具(抢鲜体验)

    转载请注明出处️ 作者:测试蔡坨坨 原文链接:caituotuo.top/9a093c88.html 你好,我是测试蔡坨坨. 随着行业内卷越来越严重,自动化测试已成为测试工程师的必备技能,谈及自动化测 ...

随机推荐

  1. ubuntu搜狗拼音安装

    1.官方下载deb 2.双击安装 3.终端im-config,选择fcitx 4.重启 5.输入法设置中add一下sougoupinyin

  2. Machine Learning in Action(6) AdaBoost算法

    Adaboost也是一种原理简单,但很实用的有监督机器学习算法,它是daptive boosting的简称.说到boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来 ...

  3. 诡异的json包含bom头

    今日项目碰到 需要调用php的一个接口  结果一直报返回的json字符串转对象  bom头报错 Exception in thread "main" com.fasterxml.j ...

  4. mtk6589显示子系统笔记(一)

    拿到MT6589的版本不久,发现显示系统代码结构改变很大.做些备忘,后续不忙的时候可以继续看. MT6589之前的MTK的Android系统显示系统同featurePhone基本一致. 先来回顾下MT ...

  5. 分布式锁(Zookeeper实现)

    分布式锁 分布式锁,这个主要得益于 ZooKeeper 为我们保证了数据的强一致性.锁服务可以分为两类,一个是 保持独占,另一个是 控制时序. 1. 所谓保持独占,就是所有试图来获取这个锁的客户端,最 ...

  6. IE浏览器没有加载CSS或js文件的秘密及解决办法

    其实是两处资料拼成这一篇博文的,因为在开发过程中遇到,有的文章只是说明原因,而没有给出解决方案,所以再次给出解释和解决方法,以供参考,如果有好的解决方法,也请分享下! ---------------- ...

  7. C++中map容器的说明和使用技巧

    C++中map容器提供一个键值对容器,map与multimap差别仅仅在于multiple允许一个键对应多个值. 一.map的说明 1 头文件 #include <map> 2 定义 ma ...

  8. QQ通信原理

    转载自http://blog.csdn.net/li_xiao_ming/article/details/8106857 下面有4个基本的问答: 问题一:为什么只要可以连上互联网的计算机都可以用QQ相 ...

  9. Relocation POJ-2923

    题目链接 题目意思: 有 n 个货物,并且知道了每个货物的重量,每次用载重量分别为c1,c2的火车装载,问最少需要运送多少次可以将货物运完. 分析:本题可以用二进制枚举所有不冲突的方案,再来dp 一下 ...

  10. UVA-11892(组合游戏)

    题意: 给n堆石子,每堆有ai个,每次可以取每堆中任意数目的石子;但是上一次操作的人没有将一堆全部取走,那么下一个人还要在那一堆取; 思路: 每次取到这堆就剩一个的策略; AC代码: #include ...