R语言之数据处理常用包】的更多相关文章

dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. dplyr.tidyr包安装及载入 install.packages("dplyr") install.packages("tidyr") library(dplyr) library(t…
本文目录 Java的可视化技术 R的可视化技术 二维做图利器plot的参数配置 *权限机制 *plot独有的参数 *plot的type介绍 *title介绍 *公共参数集合--par *par的权限机制 总结 本文首发 https://program-dog.blogspot.com 注1:本文也曾在csdn发布,不过无法忍受csdn超长时间的审核,迁移到博客圆了. 注2 : 本文含有大量原创图,但本文首发在google的blogspot上,国内图片可能不可见,有时间我会换图床的. 本作品采用知…
安装R语言中的外部包时,出现错误提示 试开URL’https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/contrib/3.3/ggplot2_2.2.1.zip'Content type 'application/zip' length 2760467 bytes (2.6 MB)downloaded 2.6 MB 程序包‘ggplot2’打开成功,MD5和检查也通过Warning: 无法将临时安装‘D:\work\software_lis…
R语言中的机器学习包   Machine Learning & Statistical Learning (机器学习 & 统计学习)  网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn  版本:2008-02-18 18:19:21  翻译:R-fox, 2008-03-18 机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面:   1)神经网络(N…
R语言之数据处理 一.向量处理 1.选择和显示向量 data[1] data[3] data[1:3] data[-1]:除第一项以外的所有项 data[c(1,3,4,6)] data[data>3] data[data<5|data>7]:小于5或大于7的所有项 which(data == max(data)):显示数值最大的那个项序号 data[seq(1,length(data),2)]:每隔一段取出特定值,1为从第一项开始,length(data)表示到向量的最后一项结束,2表…
R语言—如何安装Github包的解决方法,亲测有效 准备安装材料: R包-REmap GitHub下载地址:https://github.com/lchiffon/REmap R包-baidumap GitHub下载地址:https://github.com/badbye/baidumap 准备环境条件: #方法一:在线安装 install.packages("devtools") install.packages("rJava") library(rJava) l…
R语言:关于rJava包的安装  盐池里的萝卜 2014-09-14 00:53:33 在做文本挖掘的时候,会发现分词时候rJava是必须要迈过去的坎儿,所以进行了总结: 第一步:安装rJava和jdk install.packages("rJava") JDK: D:\jdk R: D:\spss 21\R-3.0.1 1.配置好java 2.配置rJava 第二步:设置环境变量 ,涉及java调用R(我的电脑右键-属性-高级设置-环境变量) CLASSPATH=D:\spss 21…
前言:近段时间学习R语言用到最多的数据格式就是data.frame,现对data.frame常用操作进行总结,其中函数大部分来自dplyr包,该包由Hadley Wickham所作,主要用于数据的清洗和整理. 一.创建 data.frame创建较为容易,调用data.frame函数即可.本文创建一个关于学生成绩的数据框,接下来大部分操作都对该数据框进行,其中学生成绩随机产生 > library(dplyr) #导入dplyr包 > options(digits = 0) #保留整数 >…
R语言在进行数据库查询时,每执行一条语句,都会阻塞.直到查询语句返回结果之后,才会进行下一条语句. 为了能够实现同时对多个数据库进行查询,以节省顺序执行下来的时间,首先考虑通过多线程来进行数据库查询. 不过多数据库同时查询,多个结果合并起来过大的话,本地机器的内存可能是一个风险点,心里要对可能需要的内存有所把握. R下进行多线程依赖与doParallel包和foreach包. > install.packages('doParallel') > install.packages('foreac…
本文目录 公共参数列表 par 颜色相关 字体相关 字体大小相关 线条相关 符号相关 线条和符号大小相关 结束 本文首发:program-dog.blogspot.com 注1:本文也曾在csdn发布,不过无法忍受csdn超长时间的审核,迁移到博客圆了. 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可. 这一篇介绍par参数比较基础的几个参数用法,涉及颜色,字体,线条和符号,坐标轴,添加图例,组合做图留到下一篇文章. 上一篇文章已经详细的介绍了R语言可视化技术的…
在大数据如火如荼的时候,机器学习无疑成为了炙手可热的工具,机器学习是计算机科学和统计学的交叉学科, 旨在通过收集和分析数据的基础上,建立一系列的算法,模型对实际问题进行预测或分类. R语言无疑为我们提供了很好的工具,它正是计算机科学和统计科学结合的产物,开源免费, 相对于Python.Orange Canvas.Weka.Kinme这些免费的数据挖掘软件来说,更容易上手,统计图形也更加美观. 今天在这里和大家介绍一下Caret机器学习包的一些基本用法.   一.数据收集       下载kern…
上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作 首先,数据框的创建函数为 data.frame( ),参考R语言的帮助文档,我们来了解一下data.frame( )的具体用法: Usage data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, fix.empty.names = TRUE, stringsAsFactors = default.stringsAs…
recommend li_volleyball 2016年3月20日 library(recommenderlab) library(ggplot2) # data(MovieLense) dim(MovieLense) ## [1] 943 1664 MovieLense ## 943 x 1664 rating matrix of class 'realRatingMatrix' with 99392 ratings. image(sample(MovieLense,500),main="R…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 分箱法在实际案例操作过程中较为常见,能够将一些数据离散化,等级化,比如年龄段,我们并不想知道确切的几岁,于是乎可以将其分组.分段. 基础函数中cut能够进行简单分组,并且可以用于等宽分箱法. cut函数:cut(x, n):将连续型变量x分割为有着n个水平的因子.(参考来自: R语言︱数据集分组.筛选) [plain] view plain c…
1 R的下载.安转   (转)R有很多的版本,支持目前主流的操作系统MAC.Linux和WINDOWS系列.因为我个人是在WINDOWS下用R的,所以在这里将只介绍WINDOWS下R的下载&安装. 下载R: 你可以从世界各地很多网站上下载到R,官方的中国下载点是: http://www.lmbe.seu.edu.cn/CRAN/bin/windows/base/ 在我写这篇文章的时候,最新的版本是R-2.2.1版. 在网络上有一篇被翻译过来的R入门教材,可以在这里找到 :R 導論(入門) 安装R…
在R语言中,常需要看哪个包加载了或是看多个相似功能的包,看到底是哪个包在起作用,通过加载和卸除后进行运行比较分析. 1.查看已加载的包 >(.packages()) 注意外面的括号和前面的点不能省. 2.卸除已加载的包 如卸除RMySQL包 >detach("package:RMySQL") 注意是卸除,不是卸载,也就是说不是把包从R运行环境中彻底删除,只是不希望该包被加载使用. 在包使用函数冲突,检验函数依赖时比较有用. 3.安装包 >install.package…
Rvest 包中常用函数一览: 函数 作用 read_html() 读取 html 页面 html_nodes() 提取所有符合条件的节点 html_node() 返回一个变量长度相等的list,相当于对html_nodes()取[[1]]操作 html_table() 获取 table 标签中的表格,默认参数trim=T,设置header=T可以包含表头,返回数据框 html_text() 提取标签包含的文本,令参数trim=T,可以去除首尾的空格 html_attrs(nodes) 提取指定…
dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量 先举一个简单的例子: survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very…
问题描述 在国内因为镜像的原因,直接使用:install.packages("plyr")往往无法成功添加安装包 解决办法 使用国内镜像进行安装,添加repo参数,参考如下: install.packages("plyr",repo="https://mirrors.tuna.tsinghua.edu.cn/CRAN/") #使用清华大学的镜像库 常用镜像库地址…
向量 euro    #欧元汇率,长度为11,每个元素都有命名 landmasses    #48个陆地的面积,每个都有命名 precip    #长度为70的命名向量 rivers    #北美141条河流长度 state.abb    #美国50个州的双字母缩写 state.area    #美国50个州的面积 state.name    #美国50个州的全称 因子 state.division    #美国50个州的分类,9个类别 state.region    #美国50个州的地理分类…
library(parallel)#example 1cl <- makeCluster(getOption("cl.cores", 2))clusterApply(cl, c(9,5), get("+"),1)   #加 parSapply(cl, c(9,5), get("+"), 3)  stopCluster(cl) #example 2xx <- 1cl <- makeCluster(getOption("c…
R语言服务器程序 Rserve详解 http://blog.fens.me/r-rserve-server/ Rserve的R语言客户端RSclient https://blog.csdn.net/u011955252/article/details/65442783 http://blog.fens.me/series-r/ R的极客理想系列文章 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下.但是在下载的时候,遇见很多问题,安装问题困扰着... 包中函数本身很好用,很简单,而且图形众多. -------------------------------------------- 一.wordcloud2包的安装 官方郎大为老师githu…
笔者寄语:感谢CDA DSC训练营周末上完课,常老师.曾柯老师加了小课,讲了echart与R结合的函数包recharts的一些基本用法.通过对比谢益辉老师GitHub的说明文档,曾柯老师极大地简化了一些代码,可读性很强. 关于此包起源,百度联姻d3.js=echarts,echarts+R=recharts包(Yang Zhou和Taiyun Wei),谢益辉老师修改可以传递js参数,实现更多功能, 但是呢,谢益辉老师的改良版包还没发出来,于是该神就做了一个函数,先给大家试用(点赞谢益辉老师).…
在R语言中使用openxlsx包,会报错 解决办法就是: 下载安装Set-Rtool,安装时注意勾选对话框 然后在R中运行以下代码: Sys.setenv("R_ZIPCMD" = "H:/Rtools/bin/zip.exe") #your Rtools path 具体情况看看你的R软件在哪个盘里面装着.…
R的优点:免费,开源,体积小.缺点:对大文本处理差,另外一个也在于开源,package如果出错,烦死你.当你跑比较大的simulation,对效率有要求的时候,有时还是不得不用C,这可能是10小时和10分钟的差别,毫不夸张.SAS流行于公司,R流行于研究机构和大学数据分析不是单纯的靠软件来做的,需要很好的数学基础. 统计学工具各有千秋.https://englianhu.wordpress.com/statistics/学了R,可以免去学spss,matalab,ucinet等等众多的软件,可以…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包 这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法 不在博客园上阅读时才会看到的,这篇博文…
1. 系统拓扑图 在日常业务分析中,R是非常常用的分析工具,而当数据量较大时,用R语言需要需用更多的时间来完成训练模型,spark作为大规模数据处理框架,采用内存计算,可以短时间内完成大量的数据的处理及计算模型,但缺点是不能图形展示,R语言的sparkly则提供了R语言和Spark的接口,实现了在数据量大的情况下,应用Spark的快速数据分析和处理能力结合R语言的图形化展示功能,方便业务分析,模型训练. 但是要想使多人同时共享R和Spark,还需要其他的相关组件,下图展示了所有相关的组件及应用:…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:异常值处理一般分为以下几个步骤:异常值检测.异常值筛选.异常值处理. 其中异常值检测的方法主要有:箱型图.简单统计量(比如观察极值) 异常值处理方法主要有:删除法.插补法.替换法. 提到异常值不得不说一个词:鲁棒性.就是不受异常值影响,一般是鲁棒性高的数据,比较优质. 一.异常值检验 异常值大概包括缺失值.离群值.重复值,数据不一致.…