1 功能角度 weka是机器学习方面的工具(开源).spss是数学工具(商业工具). 具体的说,weka的主要功能是模式分类,或者模式识别或者回归.包括特征的降维(PCA),特征选择,训练模型以及对测试样本进行分类测试,几乎包含了机器学习中的所有常用分类器.当然还有聚类以及结果的图形可视化功能. spss,侧重统计分析.包括基础的数学运算,联合分析,时间序列分析,多元尺度方法等,当然它也有决策树,神经网络等类似于机器学习中的分类器功能. 相同点是都具有数据的回归功能,但是weka包含了机器学习的…
学习数据挖掘工具中,下面使用4种工具来对同一个数据集进行研究. 数据描述:下面这些数据是15个同学选修课程情况,在课程大纲中共有10门课程供学生选择,下面给出具体的选课情况,以ARFF数据文件保存,名称为TestStudenti.arff.我使用Apriori算法期望挖掘出学生选课的关联规则. @relation test_studenti @attribute Arbori_binari_de_cautare {TRUE, FALSE}@attribute Arbori_optimali {T…
[怪毛匠子整理] 1.下载 wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.0.1.tar.gz 2.解压: tar -zxvf R-3.0.1.tar.gz cd R-3.0.1 3.安装 yum install readline-devel yum install libXt-devel ./configure 如果使用rJava需要加上 --enable-R-shlib ./configure  --enable-R-shlib -…
一.概述 SPSS[Statistical Package for the Social Science]社会科学统计软件包.SPSS统计软件在社会学.经济学.心理学.教育学等多个学科的研究工作和通信.医疗.银行.证券.保险.制造.商业.市场调研.统计调查等行业的数据分析中得到了广泛的应用,全球500强公司中约有80%的公司在使用SPSS,而在市场研究和市场调研领域有超过80%的市场占有率,是目前世界上最流行的三大通用统计分析软件[SPSS.SAS.STATA]之一. 二.功能 SPSS最突出的…
SAS是著名的统计分析软件,全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件. 转载自:http://www.hejizhan.com/html/xueke/110/x110_46.html 这里有几十个SAS学习教程,大家可以按需下载学习,当然了,可以的话,还是多支持正版为好!  现代统计学与SAS应用 胡良平主编.pdf 10.39 MB  SAS数据挖掘实战精简版.pdf…
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件.最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整.为IBM公司推出的一系列用于统计学分析运算.数据挖掘.预测…
随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况可见一斑.于是善于学习的程序员们开始了R语言的学习 之旅.对于有其他语言背景的程序员来说,学习R的语法小菜一碟,因为它的语法的确太简单了,甚至有的同学说1周就能掌握R语言,的确如 此.但是之后呢?……好像进行不下去了!死记硬背记住了两个分析模型却不明其意,输出结果如同天书不会解读,各种参数全部使用缺…
一.利用R进行关联规则挖掘 数据结构如下: (共9个itemsets,5个items) 首先读入数据: demodata = read.transactions("C:\\Documents and Settings\\Administrator\\桌面\\DemoData.csv", rm.duplicates= TRUE, format="basket",sep=",",cols =c(1)) 查看数据: inspect(demodata)…
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率. 后验概率:而在得到信息之后,再重新加以修正的概率叫做后验概率.贝叶斯分类是后验概率. 贝叶斯分类算法步骤: 第一步:准备阶段 该阶段为朴素贝叶斯分类做必要的准备.主要是依据具体情况确定特征属性,并且对特征属性进行适当划分.然后就是对一部分待分类项进行人工划分,以确定训练样本. 这一阶段的输入是所有的待分类项,输出…
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 线性回归主要用来做预测模型. 1.准备数据集: X Y 0.10 42.0 0.11 43.5 0.12 45.0 0.13 45.5 0.14 45.0 0.15 47.5 0.16 49.0 0.17 53.0 0.18 50.0 0.20 55.0 0.21 55.0 0.23 60.0 > s=read.table("test-1.txt", header…