每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

集合运算的一般规则如下：
    union(x,y)    #求并集
    intersect(x,y)    #求交集
    setdiff(x,y)    #求属于x而不属于y的所有元素
    setequal(x,y)    #判断x与y是否相等
    a %in% y    #判断a是否为y中的元素
    choose(n, k)    #n个里面取k个的组合数
    combn(x,n)    #x中的元素每次取n个的所有组合
combn(x,n,f)     #将这些组合用于指定函数f

> x=c(1,4,5)
> y=c(2,4,8)
> union(x,y)    #求并集
[1] 1 4 5 2 8
> intersect(x,y)    #求交集
[1] 4
> setdiff(x,y)    #求属于x而不属于y的所有元素
[1] 1 5
> setequal(x,y)    #判断x与y是否相等
[1] FALSE
> x %in% y    #判断a是否为y中的元素
[1] FALSE  TRUE FALSE

union(x,y)可以生成XY的并集，有一定的去重功能；

intersect代表交集，可以找出共有的，在文本挖掘中，词和词之间的对应关系；

setdiff代表去掉x中xy共有的地方；

x %in%y，这个管道函数很有意思，x中xy共有的为TURE，生成了一个逻辑向量，从而可以进行一些文档匹配的操作。

类似的用法sqldf包中的union 也可以实现：

R语言︱数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）

——————————————————————————————————————

1、情感分析中setdiff和x %in%y的用处

功能：停用词的清理&词库之间相互匹配。stopword是停用词库，testterm是原序列。

stopword <- read.csv("F:/R语言/R语言与文本挖掘/情感分析/数据/dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)
#结果是一个和stopword等长的波尔值向量，“非”函数将布尔值反向
testterm <- testterm[!testterm$term %in% stopword,]#去除停用词

stopword <- read.csv("F:/R语言/R语言与文本挖掘/情感分析/数据/dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)
stopword <- setdiff(stopword$term,posneg$term)
testterm<- setdiff(testterm$term,stopword)

上面两端代码能实现同样的效果。
详情可见：

R语言︱情感分析文本操作技巧汇总（打标签、词典与数据匹配等）

——————————————————————————————————————

2、集合运算应用在数据匹配之上

集合运算可以较好地应用在数据之间的匹配。而匹配中，%in%的效率最高。是一个很好的匹配的媒介。一些情况要由于merge

——————————————————————————————

3、相等运算

identical(rownames(dtm_train), train$id)

返回的是逻辑值，如果相等则TRUE。

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

R语言︱集合运算——小而美法则的更多相关文章

R语言集合操作
熟练运用R语言的集合操作在很多时候可以省去for循环,从而提升数据处理效率.废话不多说,集合操作相对简单,贴一段代码就懂了! > A<-: > A [] > B<-,,) ...
C语言 · 集合运算
算法训练集合运算时间限制:1.0s 内存限制:512.0MB 问题描述给出两个整数集合A.B,求出他们的交集.并集以及B在A中的余集. 输入格式第一行为一个整数n,表示集合A中的 ...
R语言集合函数
union intersect setdiff(A,B):A-B A %in% B :A是否存在于B
R语言︱数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 数据库是极其重要的R语言数据导入源 ...
R语言︱词典型情感分析文本操作技巧汇总（打标签、词典与数据匹配等）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:情感分析中对文本处理的数据的小技巧要 ...
R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...
R语言基本数据对象之向量的主要运算
在R语言里操作和接触的所有东西都称作对象(object).对象有很多种类可以包含各种类型的数据.R 语言里所有的东西都被称为对象,R语言中常见的数据类型有几下几种,分别是字符型 (character ...
R语言的日期运算
写hive SQL查询, 需要从导入的参数, 自动累加日期. 从而实现一个自动的,多个日期的统计过程 R语言的日期运算超级简单. > test<-Sys.Date() > test ...
R语言学习笔记（二十一五）：如何如何提升R语言运算的性能以及速度
在R中获得快速运行代码的方法使用向量化运算 R语言的并行计算可以用parallel和foreach包加快R运行速度还可以使用cmpfun()函数即字节码编译器再者就是在R中调用C或C++ 同时还 ...

随机推荐

HTTP就是这么简单
为什么要学HTTP? 我们绝大多数的Web应用都是基于HTTP来进行开发的.我们对Web的操作都是通过HTTP协议来进行传输数据的. 简单来说,HTTP协议就是客户端和服务器交互的一种通迅的格式. H ...
iOS-UINavigationBar【颜色设置】
UINavigationBar的一些颜色设置,以前老是忘,这次记住了 - (void)setNavigationBar{ ///NavigationBar backgroundcolor[背景色] [ ...
HashMap实现分析
HashMap最基本的实现思想如下图所示,使用数组加链表的组合形式来完成数据的存储. Entry在数组中的位置是由key的hashcode决定的. 向一个数组长度为16,负载因子为0.75的HashM ...
BZOJ 3168: [Heoi2013]钙铁锌硒维生素 [线性基 Hungary 矩阵求逆]
3168: [Heoi2013]钙铁锌硒维生素题意:给一个线性无关组A,再给一个B,要为A中每个向量在B中选一个可以代替的向量,替换后仍然线性无关.判断可行和求字典序最小的解 PoPoQQQ orz ...
ElasticSearch安装中遇到的一些问题
前段时间部署ElasticSearch,现把安装中遇到的一些问题和注意细节与大家分享一下. 系统:CentOS7.2 0.安装JDK 8,配置环境变量官网下载地址:http://www.oracle ...
在CentOS 6.x上配合Windows客户端搭建 git（gitosis）服务器
一.在 CentOS 上安装 git 和 gitosis: 逐条执行如下语句: sudo yum install git python-setuptools cd /opt sudo git clon ...
克隆虚拟机以及两台linux机器相互登录：linux学习第四篇
克隆虚拟机 1. 克隆之后自己命名克隆的虚拟机并自己选择存放位置,完成克隆 2. 克隆虚拟机之后对新的虚拟机修改网络配置,以免冲突(将配置文件里的UUID去掉,并修改IP地址) ...
备忘录之 —— .bashrc(IC工具篇)
好久没有使用这些IC工具了,装在自己的虚拟机中的Linux系统里面,现在想要卸载掉,想起之前自己辛辛苦苦的折腾这些工具配置,如果直接删除,感觉未免有点对不起自己的劳动成果,或许以后再也用不到了,就当是 ...
实现dedecms全站动态浏览并实现伪静态
dedecms默认是生成静态文件,如何实现织梦全站动态浏览呢? 织梦全站动态浏览方法 1. 修改首页为动态浏览后台-生成-更新首页-勾选"仅动态浏览" 2. 修改栏目页为动态浏览 ...
js使用defineProperty的一些坑
var p2={ }; Object.defineProperty(p2,"gs",{ get:function () { return this.gs; }, set:funct ...

R语言︱集合运算——小而美法则

R语言︱ 数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）

R语言︱情感分析文本操作技巧汇总（打标签、词典与数据匹配等）

R语言︱集合运算——小而美法则的更多相关文章

随机推荐

热门专题

R语言︱数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）