【下面列出每个步骤最有用的一些R包】

.数据导入
以下R包主要用于数据导入和保存数据:
feather:一种快速,轻量级的文件格式;在R和python上都可使用
readr:实现表格数据的快速导入
readxl:读取Microsoft Excel电子表格数据
openxlsx:读取Microsoft Excel电子表格数据
googlesheets:读取google电子表格数据
haven:读取SAS,SPSS和Stata统计软件格式的数据
httr:从网站开放的API中读取数据
rvest:网页数据抓取包
xml2:读取HTML和XML格式数据
webreadr:读取常见的Web日志格式数据
DBI:数据库管理系统通用接口包
RMySQL:用于连接MySQL数据库的R包
RPostgres:用于连接PostgreSQL数据库的R包
bigrquery用于连接Google BigQuery的R包
PivotalR:用于读取Pivitol(Greenplum)和HAWQ数据库中的数据
dplyr:提供了一个访问常见数据库的接口
data.table:data.table包的fread()函数可以快速读取大数据集
git2r:用于访问git仓库 .数据整理
以下R包主要用于数据整理,以便于你后续建模分析:
tidyr:用于整理表格数据的布局
dplyr:用于将多个数据表连接成一个整齐的数据集
purrr:函数式编程工具,在做数据整理时非常有用
broom:用于将统计模型的结果整理成数据框形式
zoo:定义了一个名zoo的S3类型对象,用于描述规则的和不规则的有序的时间序列数据
.数据可视化
以下R包用于数据可视化:
ggplot2及其扩展:ggplot2包提供了一个强大的绘图系统,并实现了以下扩展
ggthemes:提供扩展的图形风格主题
ggmap:提供Google Maps、Open Street Maps等流行的在线地图服务模块
ggiraph:绘制交互式的ggplot图形
ggstance:实现常见图形的横向版本
GGally:绘制散点图矩阵
ggalt:添加额外的坐标轴、geoms等
ggforce:添加额外geoms等
ggrepel:用于避免图形标签重叠
ggraph:用于绘制网络状、树状等特定形状的图形
ggpmisc:光生物学相关扩展
geomnet:绘制网络状图形
ggExtra:绘制图形的边界直方图
gganimate:绘制动画图
plotROC:绘制交互式ROC曲线图
ggspectra:绘制光谱图
ggnetwork:网络状图形的geoms
ggradar:绘制雷达图
ggTimeSeries:时间序列数据可视化
ggtree:树图可视化
ggseas:季节调整工具
lattice:生成栅栏图
rgl:交互式3D绘图
ggvis:交互式图表多功能系统
htmlwidgets:一个专为R语言打造的可视化JS库
leaflet:绘制交互式地图
dygraphs:绘制交互式时间序列图
plotly:交互式绘图包
rbokeh:用于创建交互式图表和地图
Highcharter:绘制交互式Highcharts图
visNetwork:绘制交互式网状图
networkD3:绘制交互式网状图
d3heatmap:绘制交互式热力图
DT:用于创建交互式表格
threejs:绘制交互式3d图形和地球仪 –rglwidget:绘制交互式3d图形
DiagrammeR:绘制交互式图表
MetricsGraphics:绘制交互式MetricsGraphics图
rCharts:提供了对多个javascript数据可视化库(highcharts/nvd3/polychart)的R封装
coefplot:可视化统计模型结果
quantmod:可视化金融图表
colorspace:基于HSL的调色板
viridis:Matplotlib viridis调色板
munsell:Munsell调色板
RColorBrewer:图形调色板
igraph:用于网络分析和可视化
latticeExtra:lattice绘图系统扩展包
sp:空间数据工具 .数据转换
以下R包用于将数据转换为新的数据类型:
dplyr:一个用于高效数据清理的R包
magrittr:一个高效的管道操作工具包
tibble:高效的显示表格数据的结构
stringr:一个字符串处理工具集
lubridate:用于处理日期时间数据
xts:xts是对时间序列数据(zoo)的一种扩展实现,提供了时间序列的操作接口。
data.table:用于快速处理大数据集
vtreat:一个对预测模型进行变量预处理的工具
stringi:一个快速字符串处理工具
Matrix:著名的稀疏矩阵包 .统计建模与推断
下述R包是统计建模最常用的几个R包,其中的一些R包适用于多个主题:
car:提供了大量的增强版的拟合和评价回归模型的函数
Hmisc:提供各种用于数据分析的函数
multcomp:参数模型中的常见线性假设的同时检验和置信区间计算,包括线性、广义线性、线性混合效应和生存模型大圣众包威客平台(http://www.dashengzb.cn/)
pbkrtest用于线性混合效应模型的参数Bootstrap检验
MatrixModels:用于稠密矩阵和稀疏矩阵建模
mvtnorm:用于计算多元正态分布和t分布的概率,分位数,随机偏差等
SparseM:用于稀疏矩阵的基本线性代数运算
lme4:利用C++矩阵库 Eigen进行线性混合效应模型的计算。
broom:将统计模型结果整理成数据框形式
caret:一个用于解决分类和回归问题的数据训练综合工具包
glmnet:通过极大惩罚似然来拟合广义线性模型
gbm:用于实现随机梯度提升算法
xgboost:全称是eXtreme Gradient Boosting。是Gradient Boosting Machine的一个c++实现。目前已制作了xgboost工具的R语言接口
randomForest:提供了用随机森林做回归和分类的函数
ranger:用于随机森林算法的快速实现
h2o:H2O是0xdata的旗舰产品,是一款核心数据分析平台。它的一部分是由R语言编写的,另一部分是由Java和Python语言编写的;用户可以部署H2O的R程序安装包,之后就可以在R语言环境下运行了
ROCR:通过绘图来可视化分类器的综合性能
pROC:用于可视化,平滑和对比ROC曲线 .沟通交流
以下R包用于实现数据科学结果的自动化报告,以便于你跟人们进行沟通交流:
rmarkdown :用于创建可重复性报告和动态文档
knitr:用于在PDF和HTML文档中嵌入R代码块
flexdashboard:基于rmarkdown,可以轻松的创建仪表盘
bookdown:以R Markdown为基础,用于创作书籍和长篇文档
rticles:提供了一套R Markdown模板
tufte:用于实现Tufte讲义风格的R Markdown模板
DT:用于创建交互式的数据表
pixiedust:用于自定义数据表的输出
xtable:用于自定义数据表的输出
highr:用于实现R代码的LaTeX或HTML格式输出
formatR:通过tidy_source函数格式化R代码的输出
yaml:用于实现R数据与YAML格式数据之间的通信 .自动化分析
以下R包用于创建自动化分析结果的数据科学产品:
shiny:一个使用R语言开发交互式web应用程序的工具
shinydashboard:用于创建交互式仪表盘
shinythemes:给出了Shiny应用程序的常用风格主题
shinyAce:为Shiny应用程序开发者提供Ace代码编辑器
shinyjs:用于在Shiny应用程序中执行常见的JavaScript操作
miniUI:提供了一个UI小部件,用于在R命令行中集成交互式应用程序
shinyapps.io:为创建的Shiny应用程序提供托管服务
Shiny Server Open Source:为Shiny应用程序提供开源免费的服务器
Shiny Server Pro:为企业级用户提供一个Shiny应用程序服务器
rsconnect:用于将Shiny应用程序部署到shinyapps.io
plumber:用于将R代码转化为一个web API
rmarkdown:用于创建可重复性报告和动态文档
rstudioapi:用于安全地访问RStudio IDE的API .程序开发
以下这些包主要用于开发自定义的R包:
RStudio Desktop IDE:R的IDE。大家都懂,不用解释。
RStudio Server Open Source:开源免费的RStudio服务器
RStudio Server Professional:商业版RStudio服务器
devtools:一个让开发R包变得简单的工具集
packrat:创建项目的特定库,用于处理包的版本问题,增强代码重现能力。
drat:一个用于创建和使用备选R包库的工具
testthat:单元测试,让R包稳定、健壮,减少升级的痛苦
roxygen2:通过注释的方式,生成文档,远离Latex的烦恼
purrr:一个用于 提供函数式编程方法的工具
profvis:用于可视化R代码的性能分析数据
Rcpp:用于实现R与C++的无缝整合
R6:R6是R语言的一个面向对象的R包,可以更加高效的构建面向对象系统。
htmltools:用于生成HTML格式输出
nloptr:提供了一个NLopt非线性优化库的接口
minqa:一个二次近似的优化算法包
rngtools:一个用于处理随机数生成器的实用工具
NMF:提供了一个执行非负矩阵分解的算法和框架
crayon:用于在输出终端添加颜色
RJSONIO:rjson是一个R语言与json进行转的包,是一个非常简单的包,支持用 C类库转型和R语言本身转型两种方式
jsonlite:用于实现R语言与json数据格式之间的转化
RcppArmadillo:提供了一个Armadillo C++ Library(一种C++的线性代数库)的接口 .实验数据
以下R包给出了案例实战过程中可用的训练数据集:
babynames:包含由美国社会保障局提供的三个数据集
neiss:-2014年期间提供给美国急诊室的所有事故报告样本数据
yrbss:美国疾病控制中心2009-2013年期间青年危险行为监测系统数据
USAboundaries:2011年全年休斯顿机场的所有航班数据
rworldmap:国家边界数据
usdanutrients:美国农业部营养数据库
fueleconomy:美国环保署1984-2015年期间的燃油经济数据
nasaweather:包含了一个覆盖中美洲的非常粗糙的24*24格地理位置和大气测量数据。
mexico-mortality:墨西哥死亡人数数据
data-movies和ggplotmovies:来自互联网电影数据库imdb.com的数据
pop-flows:2008年全美人口流动数据
data-housing-crisis:经过清洗后的2008美国房地产危机数据
gun-sales:纽约时报提供的有关枪支购买的每月背景调查统计分析数据
stationaRy:从成千上万个全球站点收集到的每小时气象数据
gapminder:摘自Gapminder的数据
janeaustenr:简·奥斯丁小说全集数据

R 包的更多相关文章

  1. 普通用户安装 R 包

    转自 http://bnuzhutao.cn/archives/901 一般 R 语言的书籍上,介绍安装 R 包的方法都是这样的: install.packages("packagename ...

  2. R包介绍

    R语言的使用,很大程度上是借助各种各样的R包的辅助,从某种程度上讲,R包就是针对于R的插件,不同的插件满足不同的需求,截至2013年3月6日,CRAN已经收录了各类包4338个. 一. R语言包的安装 ...

  3. R(三): R包原理及安装

    包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用.越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获 ...

  4. 高质量、处于持续更新的R包

    本文在Creative Commons许可证下发布 自由软件的问题是开发人员没有稳定的资金来源支持,可能更新上做不到持续.经过考证和圈内朋友的帮助,现在把R包中高质量.持续更新的跟大数据事业相关的R包 ...

  5. 如何将R包安装到自定义路径

    参考  设置环境变量R_LIBS将R包安装到自定义路径   实际上是可以解决问题的, #环境变量完成以后,启动(重启)R,运行 .libPaths() 加载R包时,发现路径仍然未变成自定义的. 那么参 ...

  6. 工业级GBDT算法︱微软开源 的LightGBM(R包正在开发....)

    看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果 ...

  7. 安装 R 包报错 clang: error: unsupported option '-fopenmp' 的解决方法

    MacOS 上安装 R 包 install.packages("data.table") 后面提示是否安装需要编译的版本: Do you want to install from ...

  8. 《R语言入门与实践》第二章:R包和帮助文档

    这一章讲了两方面的内容,如何使用 R 包和帮助文档. R包 下载 R 包 命令: install.packages("<nameofpackage>") R 会话中启用 ...

  9. R包的小技巧

    通常我们都是直接使用library(pkg_name)  的形式加载R包,在同一台机器上面,对于我们而言,这个包所在的路径一定是在.libPaths() 路面的,但是对于其他用户而言,这个路径可能不存 ...

  10. 机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集

    机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集   选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译 参与:李亚洲.吴攀. ...

随机推荐

  1. 洛谷P4151 最大XOR和路径 [WC2011] 线性基+图论

    正解:线性基+图论 解题报告: 传送门 首先可以思考一下有意义的路径会是什么样子,,,那就一定是一条链+一些环 挺显然的因为一条路径原路返回有没有意义辣?所以一定是走一条链+一些环(当然也可以麻油环, ...

  2. MySQL加锁处理分析(转)

    add by zhj: 非常棒的一篇文章,是我见过的讲加锁最棒最详细的文章了.之前听过网易的<MySQL微专业>,里面的课程讲的也很好,但锁这块讲的跟 这篇文章相比,还是有差距的.网易&l ...

  3. 基于sendmail的简单zabbix邮件报警

    1.修改zabbix server hostname声明:在配置zabbix的Email报警之前,需要将sendmail使用的域名进行相应的修改,系统默认为localhost.localdomain, ...

  4. s3存储桶:s3可扩展的云存储

    S3(Simple Storage Service,简单存储服务),即可扩展的云存储,又称桶存储,S3 是一种面向 Internet 的存储服务.S3为任意类型的文件提供临时或永久的存储服务.用于存储 ...

  5. (3.15)mysql基础深入——mysql默认数据库/系统数据库

    (3.15)mysql基础深入——mysql默认数据库 关键词:Mysql默认数据库,mysql系统数据库 系统数据库的组成 一共4个 [1]information_schema(可以理解成字典表) ...

  6. composer安装其实可以很简单 两行命令就解决了

    最近接了一个cakephp项目,就想着用composer安装实施,因为Composer 可以方便地帮你安装项目中声明所依赖的外部工具库(libraries).之前没有接触过,相对比较陌生,但是相信ph ...

  7. Python3学习之路~5.3 random模块

    random模块常用方法: import random # 随机数 print(random.random()) # 生成一个0到1的随机浮点数,0 <= n < 1.0 print(ra ...

  8. keepalived基础原理

    keepalived介绍 设置初衷是为了高可用ipvs 通过脚本可以实现高可用nginx或者haproxy调度器, 基于vrrp协议完成一个固定的IP可以在集群中不同的节点进行流动.为ipvs集群的各 ...

  9. 014-通过JDB调试,通过HSDB来查看HotSpot VM的运行时数据

    一.JDB调试        在预发环境下进行debug时,时常因为工具和环境的限制,导致debug体验非常差,那么有什么方法能够简化我们进行debug的体验吗?JDB就是一种.        JDB ...

  10. JetBrains 2017/2018全系列产品激活工具

    可谓是工欲善其事,必先利其器,相信作为优秀开发工程师的你都想拥有一套快捷高效的编码工具,而JetBrains这家公司的产品,不管是那种编程语言,其开发工具确实让开发者们着迷,JetBrains的产品博 ...