R语言入门视频笔记--10--数据挖掘】的更多相关文章

这里来挖掘超市购物车数据. 名词: 1.挖掘数据集:购物篮数据 2.挖掘目标:关联规则 3.关联规则:牛奶=>鸡蛋[支持度=2%,置信度=60%] 4.指出度:分析中的全部事务的2%同时购买了牛奶和鸡蛋 5.置信度:购买牛奶的篮子同时也购买了鸡蛋 6.最小支持阈值和最小置信阈值:由挖掘者或领域专家设定 7.项集:由商品组成的集合 8.k-项集:k个项组成的集合 9.频繁项集:满足最小支持度的项集,频繁k-项集一般记为Lk 10.强关联规则:满足最小支持度阈值和最小置信度阈值的规则 在R里面有一个…
古典概型的样本总量是一定的,且每种可能的可能性是相同的, 1.中位数:median(x) 2.百分位数:quantile(x)或者quantile(x,probe=seq(0,1,0.2)) #后面这个是设置参数,零到一的范围,每隔0.2算一次 不知道叫啥的很方便的函数:fivenum(x,na.rm=TRUE) #输出五个数最大值.最小值.下四分位数.上四分位数.中位数 3.协方差:用于看两组数据之间的关系,看看是不是有一定的关联性 他有一个相关系数r,r越接近1,则相关性越高,反之,越接近零…
自定义函数 你可以输出一段代码,创建一个你自己定义的函数 蛋是如果你两个自定义函数的名字重复的话,后面的会把前面的替换掉 举个栗子: hanshu1 <- function(x)  sqrt(var) hanshu1 <- function(x ) sqrt(abs)  #如果你的函数只有一个函数 就不用加大括号 这两个函数名字重复了 后面的会把前面的替换掉 1.你可以设置参数也可以不设置参数,先看不设置参数的. welcome <- function() print ("we…
一.cat 猫  怎么就变成一个输出函数了呢? cat  一个输出函数,功能和print有相同之处 我们一起比较看看 1.cat(“hellow world”)或cat('hellow world')输出的是: hello world 1 print("hellow world")或print('hellow world')输出的是: [1] "hello world 1 " 2.cat(c("AB","C"),c("…
生成一个新矩阵,多用一些参数吧这次: x <- c(12,13,14,15) rname <- c("R1","R2") nname <- c("C1","C2") newmatrix <- matrix(x,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rname,nname)) ##nrow 是规定矩阵有几行 ##ncol是规定矩阵有几列 ##byrow是规定你的矩阵…
输入 R的数据输入可以大体三种: 1.键盘输出 2.从文本文件导入 3.从Excel中导入数据 一.从键盘输入 首先创建一个数据框,玩玩嘛,瞎建一个 mydata <- data.frame(age =numeric(0),gender= character(0),weight=numeric(0))    #建一个空数据框,但已经声明过元素类型 1.mydata <- edit(mydata)                        #可以进行编辑 2.fix(mydata) #跟上面…
一.对象 1.列举当前内存中的对象 ls() 2.删除不需要的对象 rm(某对象名称) 3.查看向量长度 length(某向量名称) 4.查看向量类型 mode(某向量名称) 二.函数 1.seq函数 c <- seq(1,10,2) 会生成一个包含: 1,3,5,7,9五个元素的向量c 2.rep函数 x<- rep(6,6) 会把6重复六次,也就是666  666,打游戏时候的溜溜溜 x <- rep(1:3,6) 有很多可以结合使用的方式 3.rnorm函数 x2 <- rn…
一.数据框 使用data.frame函数生成数据框 x <- c(20122014101:20122014128) y <- rnorm(28,85,18) #生成28个平均数为85,方差为18的 z <- data.frame(x,y)    #生成数据框 还可以使用row,names()来改变行的名称 row.names(z) <- c(11:38)    #以前是1到28 现在是11到38 也可以变成中文的 张三.李四.王二麻子.马大拐子…
list <- (stud.id = 1234,stud.name="Tom",stud,marks=c(18,3,14,25,19)) #生成一个列表,里面有学生id,学生姓名,学生的成绩 mylist[[1]] #输出:1234 mylist[[3]] #输出:12 3 14 19 mylist[[3]][1:2] #输出第三个列表的前两个值 mylist[1] #输出 $stud.id [1] 1234 会连名称一起输出 mylist$stud.id #也可以输出1234…
一.数据框简要 可输入来访问mtcars这个系统自带的数据框中的mpg列 mtcars$mpg 或者输入 mtcars[c("mpg","cyl")] 来访问两个 如果不想总是输入数据框+$+元素名来访问,还可以这样: attach(mtcars) 这样可以直接输入mpg,也可以访问mpg这个元素 使用detach函数取消这种功能 detach(mtcars) 还可以使用with函数来访问 with(mtcars,{ +z <- mpg +z } ) 也可以显…
一.R软件 1.安装R:自行百度☺ 2.R控制台(R Console)和R程序脚本: 打开R软件,就会直接打开控制台,控制台可以显示程序运行的结果.错误提示等信息,也可以直接输入想要执行的操作并立即返回运行结果,箭头“>”表示等待输入. 程序脚本通过点击右上角“文件” - “新建程序脚本”来建立.如果想要长久的保存已经提交的程序代码,那么可以在程序脚本中编写,点击保存的时候会另存为一个后缀为“.R”的数据文件,如果直接在控制台编写代码,关闭软件后,已编写的代码会消失. 3.如何运行R程序脚本:…
第一篇——用几分钟了解R语言入门知识 第二篇——用几分钟了解R语言入门知识(续) 关于数据分析学习笔记的计划(以及目录)…
R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline   上篇文章中提了一下如何通过ggpubr包为ggplot图添加p-value以及显著性标记,本文将详细介绍.利用数据集ToothGrowth进行演示 #先加载包 library(ggpubr) #加载数据集ToothGrowth data("ToothGrowth") head(ToothGrowth) ## len supp…
写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:https://www.cnblogs.com/acm-icpcer/p/11203182.html 这几天参加了学院组织的生物信息培训活动,有一个部分讲R语言入门,个人觉得受益良多,特将一些听课心得记录在此. Introduction R语言本质上和python.matlab一样是解释型语言,与编译型…
R语言入门1:安装R和RStudio 曹务强 中科院遗传学博士研究生 9 人赞同了该文章 1. Windows安装R 在Windows系统上,安装R语言比较简单,直接从R的官方网站下载,按照正常的软件安装流程点下一步即可. 2. Windows安装RStudio R语言自带的工作窗口界面非常不美观,用起来也非常不方便.于是有人发明了RStudio: RStudio是R语言的一种集成开发环境,它是免费自由软件.RStudio同时有桌面版和服务器版.RStudio基于C++开发,它的图形用户界面基于…
对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来.当然,这不是最好的学习方式,最好的方式是——看书.目前,市面上介绍R语言的书籍很多,中文英文都有.那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问.有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路. 本文分为6个部分,分别介绍初级入门,高级入门,绘图与可…
这篇简直是白写了,写到后面发现ggplot明显更好用 3.1 使用图形 attach(mtcars)plot(wt, mpg) #x轴wt,y轴pgabline(lm(mpg ~ wt)) #画线拟合title("Regression of MPG on Weight")detach(mtcars) R语言中画图只有一幅,如果要画多幅,用dev.new() 3.2 例子 dose <- c(20, 30, 40, 45, 60)drugA <- c(16, 20, 27,…
2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充 2.2.4 数据框 1.attach,detach()和with() attach():将数据框加入搜索路径 detach():将数据框移除出搜索路径 with():赋值仅在括号内有效,如果想在括号外生效也可以,用<<- 2.…
最近有好多r语言的爱好者问我r语言的事情,在百度上简单的收一收,感觉都在扯淡,真正适合初学者入门的资料几乎没有,比如最开始用什么编辑器比较好,在哪下载,最开始学习的例子有什么?  在日本网站上反倒是找到了不少的好资料,现在吧连接给出. 統計解析 & R言語 超初心者入門資料まとめ 基本统计知识和r语言下载安装到基本语法ppt http://morizyun.github.io/blog/statistics-analysis-bigginer-r/ 各种函数用法 http://cse.naro.…
数据挖掘常用的语言有R语言,python,SQL等,其中R语言最受欢迎.(注:SQL Server包含微软研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集,此外还支持第三方开发的算法.) R语言是由统计学家开发的,一款开源免费的统计绘图语言,可以提供数学统计分析,允许用户开发的包进行扩展,同时可以进行数据可视化,兼容多种格式的输入输出. 在CRAN(Comprehensive R Archive Network,里面收藏了R的安装包,文档及大量的软件扩展包)base…
数据对象 创建向量相关的方法 R语言的向量用法非常像python, 就比如这个seq(0,10,2), 从0到10, 步长为2, 涉及到的元素作为向量里的内容进行创建. 这里的用法非常像Matlab, 可以直接对向量进行科学计算. (我记得在python里类似这样的乘法是"重复"的作用, 也就是(1,2,3)会变成(1,2,3,1,2,3,1,2,3)) rep方法, 例子如下, 创建一个向量, 连续5个100, 然后是连续2个200, 然后是连续3个300 runif方法会取n个随机…
1.向量 向量是R语言中最基本的数据类型,在R语言中没有单独的变量. (1)  创建向量 R语言中可以用 = 或者 <- 来赋值. 向量名 <- 向量 或  向量名 = 向量 向量的创建方式有c()函数,seq()函数等. 注:R中的向量默认为列向量,如果要得到行向量需要对其进行转置. (2)  引用 待引用向量为:test = c(6,7,8,9,10). a.用下标引用 向量名[下标值] 或  向量名[下标值1:下标值2] (下标值1至下标值2的所有数值) 注:R语言下标值从1开始. 另外…
向量之间的加减乘除运算: > x <- 1 > x [1] 1 2 3 4 5 6 7 8 9 10 > x=x+1 > x [1] 2 3 4 5 6 7 8 9 10 11 > x = 1:10 > x [1] 1 2 3 4 5 6 7 8 9 10 > y = seq(1,100, length.out = 10) > y [1] 1 12 23 34 45 56 67 78 89 100 > x*y [1] 1 24 69 136 22…
这节的内容是建立在之前我们对R语言最基本向量赋值的基础之上的,笔者本人学完R当中向量的索引感觉异常舒适,因为这个比Python的索引爽多了,是什么值开始索引就从哪里开始索引,到哪里结束就在哪里结束,而不会像Python一样有的时候输入0实际上是从1开始计数,有的时候到99为止实际上你要索引到100,给人一种难以弄清的感觉.学了简洁的R心里大为开朗. 一.得到向量当中某个数值的值 首先我们先生成一个从1到100数值的向量: > x <- c(1:100) > x [1] 1 2 3 4 5…
R语言主要用于统计,因此引入了向量这个概念将更好地进行统计计算,在其他无法引入向量的语言当中则会使用循环来计算一些大规模的数据,在R语言当中则不需要,下面我们来看看R语言当中向量的具体用法吧! 首先,如果我们把x作为一个向量,将其赋值为拥有五个元素的向量,代码如下: > x <- c(1,2,3,4,5) > x [1] 1 2 3 4 5 > 我们可以看到x的值已经变成了1,2,3,4,5,其中进行向量赋值的时候,我们使用的是C()函数进行的向量化.当然,向量里面并不会像数学一样…
慢慢才意识到概率统计的重要性,当时学的时候只知道很重要,是机器学习基础啥的,但是却没有真正意识到( ╯□╰ ).我现在的理解是,统计学习可以从大数据中挖掘出规律(其实和数据挖掘还是很相关的),在科研工作和生活中都可以帮助和指导我们.生活中,我们可以通过分析数据,“透过现象看本质” (learning from data),参考大概率发生的事件,帮助我们少走一些弯路,做出正确的决策. 最开始的概率思维来自大一的近现代史老师,老师说 “为什么公司要区分985,211等学位?”,其实我当时也不是很理解…
一.R语言应知常用函数 1.getwd() 函数:获取工作目录(同eclipse设置workspace类似),直接在R软件中使用,如下图: 2.setwd(dir=”工作目录”) 函数:设置R软件RStudio的工作目录,如下图(注意目录写法): 3.list.files()函数(同dir()函数):查看R软件当前工作目录下的文件,如下图: 4.一般赋值符号:<- 或-> ,如x<-3 或3->x,表示x等于3 5.ls()函数:查看工作空间中的所有变量:ls.str()函数:查看…
一.数据分析相关概念 数据:是指对事物或对象各方面进行描述的符号,包括事物的基本属性.特征.性质.状态.相互关系等:比如描述人的数据有:身高.年龄.性别.兴趣.性格.婚姻状态等等. 分析:是指把事物或现象的各方面数据组合在一起,从这些事物的基本属性.特征.性质.状态等中找出其中彼此关系,寻找解决问题的方法,从而得出结论或指导决策. 数据分析:是指用一定的方法(包括数学.统计学等方法)对收集的数据,提取数据中有用的信息(属性.特征.性质.状态)详细研究,找出其中规律,概括总结分析结果,提供决策依据…
说明 在前一篇中,我们介绍了 R 语言和 R Studio 的安装,并简单的介绍了一个示例,接下来让我们由浅入深的学习 R 语言的相关知识. 本篇将主要介绍 R 语言的基本操作.变量和几种基本数据类型,好对 R 语言的使用方法有一个基本的概念.通过本篇的学习,你将了解到: R 语言有哪些基本操作 什么是变量,以及如何给变量赋值 R 语言有哪些基本数据类型,如何确定变量的数据类型 R 语言的基本操作 R 语言的默认提示符是 > ,它表示正在等待输入命令,每次输入命令后敲击回车即可执行当前命令. R…
在上一篇中我们一起学习了R语言的数据结构第一部分:向量.数组和矩阵,这次我们开始学习R语言的数据结构第二部分:数据框.因子和列表. 一.数据框 类似于二维数组,但不同的列可以有不同的数据类型(每一列内的数据类型应当一致).创建数据框使用的关键字是data.frame,用法是: data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, fix.empty.names = TRUE, stringsAsFact…