R语言 union、setdiff、insect】的更多相关文章

union 求两个向量的并集集合可以是任何数值类型 union(x=1:3, y=2:5)[1] 1 2 3 4 5 union(x=c("abc", "12"), y=c("bcd", "efg"))[1] "abc" "12"  "bcd" "efg" setdiff 求向量x与向量y中不同的元素(只取x中不同的元素)setdiff(x, y)…
在R语言进行数据分析时,经常需要找不同组间的相同和不同,那你应该掌握如下几个函数,让你事半功倍. 交集intersect两个向量的交集,集合可以是数字.字符串等 # 两个数值向量取交集intersect(x=1:4, y = 2:6)# [1] 2 3 4 # 两个字符向量取交集intersect(x=letters[1:4], y = letters[2:6])# [1] "b" "c" "d" # 混合向量intersect(x=c(&quo…
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules library(tidyr) library(dplyr) ## ## Attaching package: 'dplyr' ## The following objects are masked from 'package:stats': ## ## filter, lag ## The foll…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 集合运算的一般规则如下:    union(x,y)    #求并集    intersect(x,y)    #求交集    setdiff(x,y)    #求属于x而不属于y的所有元素    setequal(x,y)    #判断x与y是否相等    a %in% y    #判断a是否为y中的元素    choose(n, k)   …
熟练运用R语言的集合操作在很多时候可以省去for循环,从而提升数据处理效率.废话不多说,集合操作相对简单,贴一段代码就懂了! > A<-: > A [] > B<-,,) > B [] > C<-: > C [] > union(A,B) # 求A和B的并集 [] > intersect(A,B) #求A和B的交集 [] > setdiff(A,B) #求A-B 即属于A但不属于B的元素 [] > setequal(A,B) #…
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因从任意癌症里面获取芯片表达数据 - 绘制指定基因在不同癌症的表达量区别boxplot - 更多boxplot参数 - 指定任意基因从任意癌症里面获取测序表达数据 - 用全部的rnaseq的表达数据来做主成分分析 - 用5个基因在3个癌症的表达量做主成分分析 - 用突变数据做生存分析 - 多个基因在多…
R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(#)开始到句子收尾之间的语句就是是注释. R是动态类型.强类型的语…
本文对应<R语言编程艺术> 第8章:数学运算与模拟: 第10章:输入与输出: 第11章:字符串操作: 第12章:绘图 ========================================================================= 数学运算与模拟 数学函数: 数学函数 说明 exp() 以自然常数e为底的指数函数 log() 自然对数 log10() 以10为底的常用对数 sqrt() 平方根 abs() 绝对值 sin(), cos() 三角函数 min()…
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with Rpackages:tidyr dplyr Ground rules library(tidyr) library(dplyr) ## ## Attaching package: 'dplyr' ## The following objects are masked from 'package:stats': ## ## filter, lag ## The follo…
什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量. 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体.而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有先进算法的载体都是DataFrame,比如现在我们耳熟能详的逻辑回归算法.贝叶斯算法.支持向量机算法.XGBoost算法等等都建立在这个数据流编程的基础之上,我们可以在R.Python.Scala…
R语言与数据挖掘:公式:数据:方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(#)开始到句子收尾之间的语句就…
[R笔记]R语言函数总结   R语言与数据挖掘:公式:数据:方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(…
原博: R语言与数据挖掘:公式:数据:方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(#)开始到句子收尾之间…
编码不友好,对中文不友好,逼着你用RStudio.Jupyter Notebook/Jupyter Lab.图标丑,每次点击感觉辣眼睛. 为节省内存,R语言计算默认有效数字为7位,比Excel的15位还坑,幸好可以用options(digit=20)调整.为节省内存,很多函数默认会把strings转为factor,部门.性别等转化尚能接受,姓名等转化不能接受. 严格区分等于.赋值.参数设置. 向量化,代码简洁,写起来爽.为统计而生,函数化,写起来快. 序号从1开始,方便排版报表.write.cs…
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的. Data Frame每一列有列名,每一行也可以指定行名.如果不指定行名,那么就是从1开始自增的Sequence来标识每一行. 初始化 使用data.frame函数就可以初始化一个Data Frame.比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate,那么代码为: studen…
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 数据库是极其重要的R语言数据导入源数据之地,读入包有sqldf.RODBC等.跟SQL server相连有RODBC,跟mySQL链接的有RMySQL.但是在R里面,回传文本会出现截断的情况,这一情况可把我弄得有点手足无措. 一.数据库读入--RODBC包 CRAN 里面的包 RODBC 提供了 ODBC的访问接口: odbcConnect…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:在自己学LDA主题模型时候,发现该模型有这么几个未解决的问题: 1.LDA主题数量,多少个才是最优的. 2.作出主题之后,主题-主题,主题与词语之间关联如何衡量. 于是在查阅几位老师做的成果之后,将他们的成果撮合在一起.笔者发现R里面目前有两个包可以做LDA模型,是lda包+topicmodels包,两个包在使用的过程中,需要整理的数…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:这里所有的应用代码都来自与igraph包.<R语言与网站分析>书中第九章关系网络分析把大致的框架已经描述得够清楚,但是还有一些细节需要完善,而且该书笔者没找到代码... ---------------------------------------- 一.关系网络数据类型 关系网络需要什么样子的数据呢?    笔者接触到了两种数据结…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已. 主要包括以下内容: 1.批量读取txt字符文件(导入.文本内容逐行读取.加入文档名字). 2.文本清洗(一级清洗,去标点:二级清洗去内容:三级清洗,去停用词) 3.词典之间匹配(有主键join.词库匹配%in%) 4.分词之后档案id+label…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件.笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来. 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析. 下面主要是贴几个案例,让大家看看. ----------…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 数据选取与简单操作: which 返回一个向量中指定元素的索引 which.max 返回最大元素的索引 which.min 返回最小元素的索引 sample 随机在向量中抽取元素 subset 根据条件选取元素 sort 升序排列元素 rev 反转所有元素 order 获取排序后的索引 table 返回频数表 cut 将数据分割为几部分 spl…
向量的元素要求都是同类型的,而列表(list)与向量不同,可以组合多个不同类型的对象.类似于C语言中的结构体(struct)类型. 1.创建列表 从技术上讲,列表就是向理.之前我们接触过的普通向量都称为"原子型"(atomic)向量,就是说,向量的元素已经是最小的.不可再分的.而列表则属于"递归型"(recursive)向量. 以一个雇员数据库作为第一个例子.对于每个雇员,我们存储其姓名.工资,以及一个布尔变量,表示是否工会成员.这三个变量有三个不同的类型:字符串.…
本文对应<R语言编程艺术> 第7章:R语言编程结构: 第9章:面向对象的编程: 第13章:调试 ========================================================================= R语言编程结构 控制语句: 循环: for (n in x) { } while (condition) { } repeat { } 另外break也可以用在另两种形式的循环语句中.注意repeat没有跳出循环的判断条件,因此使用break(或者类似r…
A data frame is used for storing data tables. It is a list of vectors of equal length. For example, the following variable df is a data frame containing three vectors n, s, b. > n = c(2, 3, 5) > s = c("aa", "bb", "cc") …
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的. Data Frame每一列有列名,每一行也可以指定行名.如果不指定行名,那么就是从1开始自增的Sequence来标识每一行. 初始化 使用data.frame函数就可以初始化一个Data Frame.比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate,那么代码为: studen…
本文对应<R语言编程艺术>第2章:向量:第3章:矩阵和数组:第4章:列表:第5章:数据框:第6章:因子和表 ========================================================================= R语言最基本的数据类型就是向量(vector),单个数值和矩阵都是向量的一种特例. 声明:R中不需要声明变量,但是注意函数式语言的特性,如果读写向量中的元素时,R事先不知道对象是向量的话,则函数没有执行的对象.如下代码是无法工作的: y[1]…
R语言实战实现基于用户的简单的推荐系统(数量较少) a<-c(1,1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,5,5,6,6,7,7) b<-c(1,2,3,4,2,3,4,5,4,1,2,3,2,4,5,2,6,4,1,2,3,4) da<-data.frame(a,b) a<-c(1,1,2,2,3,3,3,3,3,4,4,5,5,5,6,6,7,7) b<-c(2,5,7,2,6,4,7,1,8,6,3,3,4,1,2,4,4,9) da2<-da…
异常值检测 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vim编辑器](http://www.shiyanlou.com/courses/2)3. R:在命令行输入‘R’进入交互式环…
List R语言中各组件的名称叫做标签(tags),访问列表有3种方法: j$salary 通过标签名字访问,只要不引起歧义,可以只写出前几个字母. j[['sal']] 夹在两个中括号时引号里的标签名字要写全. j[[2]] 亦可以通过在列表中的位置访问. 这三种方法得到的都是对应组件内容的类型. 如果只加一个中括号,得到的是组件,类型为向量. 需要注意的是 [ ] 可以提取多个组件,但 [[ ]] 一次只能提取列表的一个组件内容. > j <- list(name = 'Joe', sal…
老师给我出了个暑期作业:用R语言解决八皇后问题. 八皇后问题:国际象棋棋盘(8×8)上放8个“后”,使8个“后”之间互相不能被进攻.(即:每个“后”所在行.列.两条斜线都没有其它子) 查看网上,大多用C++,没看到用R的.呵呵,看来是不能借鉴了. 第一感觉是,应该不能穷举,否则运行非常慢,在网上看了些介绍,打算用回溯法. 然而水平有限,搞了一天多竟然还没成功写好,总是有很奇怪的bug,唉,怪我对R不熟悉吧. 刚才生气了,干脆来个穷举,看看能运行多久,代码见下,看起来非常笨拙,结果运行2,3秒就完…