R包和python对应的库
数据库
| 类别 | Python | R | 
|---|---|---|
| MySQL | mysql-connector-python(官方) | RMySQL | 
| Oracle | cx_Oracle | ROracle | 
| Redis | redis | rredis | 
| MongoDB | pymongo | RMongo, rmongodb | 
| neo4j | py2neo | RNeo4j | 
| Cassandra | cassandra-driver | RJDBC | 
| ODBC | pyodbc | RODBC | 
| JDBC | 未知[Jython Only] | RJDBC | 
IO类
| 类别 | Python | R | 
|---|---|---|
| excel | xlsxWriter, pandas.(from/to)_excel, openpyxl | openxlsx::read.xlsx(2), xlsx::read.xlsx(2) | 
| csv | csv.writer | read.csv(2), read.table | 
| json | json | jsonlite | 
| 图片 | PIL | jpeg, png, tiff, bmp | 
统计类
描述性统计
| 类别 | Python | R | 
|---|---|---|
| 描述性统计汇总 | scipy.stats.descirbe | summary | 
| 均值 | scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean | mean | 
| 中位数 | numpy.median, numpy.nanmediam, pandas.Series.median | median | 
| 众数 | scipy.stats.mode, pandas.Series.mode | 未知 | 
| 分位数 | numpy.percentile, numpy.nanpercentile, pandas.Series.quantile | quantile | 
| 经验累积函数(ECDF) | statsmodels.tools.ECDF | ecdf | 
| 标准差 | scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std | sd | 
| 方差 | numpy.var, pandas.Series.var | var | 
| 变异系数 | scipy.stats.variation | 未知 | 
| 协方差 | numpy.cov, pandas.Series.cov | cov | 
| (Pearson)相关系数 | scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr | cor | 
| 峰度 | scipy.stats.kurtosis, pandas.Series.kurt | e1071::kurtosis | 
| 偏度 | scipy.stats.skew, pandas.Series.skew | e1071::skewness | 
| 直方图 | numpy.histogram, numpy.histogram2d, numpy.histogramdd | 未知 | 
回归(包括统计和机器学习)
| 类别 | Python | R | 
|---|---|---|
| 普通最小二乘法回归(ols) | statsmodels.ols, sklearn.linear_model.LinearRegression | lm, | 
| 广义线性回归(gls) | statsmodels.gls | nlme::gls, MASS::gls | 
| 分位数回归(Quantile Regress) | statsmodels.QuantReg | quantreg::rq | 
| 岭回归 | sklearn.linear_model.Ridge | MASS::lm.ridge, ridge::linearRidge | 
| LASSO | sklearn.linear_model.Lasso | lars::lars | 
| 最小角回归 | sklearn.linear_modle.LassoLars | lars::lars | 
| 稳健回归 | statsmodels.RLM | MASS::rlm | 
假设检验
| 类别 | Python | R | 
|---|---|---|
| t检验 | statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel | t.test | 
| ks检验(检验分布) | scipy.stats.kstest, scipy.stats.kstest_2samp | ks.test | 
| wilcoxon(非参检验,差异检验) | scipy.stats.wilcoxon, scipy.stats.mannwhitneyu | wilcox.test | 
| Shapiro-Wilk正态性检验 | scipy.stats.shapiro | shapiro.test | 
| Pearson相关系数检验 | scipy.stats.pearsonr | cor.test | 
时间序列
| 类别 | Python | R | 
|---|---|---|
| AR | statsmodels.ar_model.AR | ar | 
| ARIMA | statsmodels.arima_model.arima | arima | 
| VAR | statsmodels.var_model.var | 未知 | 
生存分析
| 类别 | Python | R | 
|---|---|---|
| PH回归 | statsmodels.formula.api.phreg | 未知 | 
机器学习类
分类器
LDA、QDA
| 类别 | Python | R | 
|---|---|---|
| LDA | sklearn.discriminant_analysis.LinearDiscriminantAnalysis | MASS::lda | 
| QDA | sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis | MASS::qda | 
SVM(支持向量机)
| 类别 | Python | R | 
|---|---|---|
| 支持向量分类器(SVC) | sklearn.svm.SVC | e1071::svm | 
| 非支持向量分类器(nonSVC) | sklearn.svm.NuSVC | 未知 | 
| 线性支持向量分类器(Lenear SVC) | sklearn.svm.LinearSVC | 未知 | 
基于临近
| 类别 | Python | R | 
|---|---|---|
| k-临近分类器 | sklearn.neighbors.KNeighborsClassifier | 未知 | 
| 半径临近分类器 | sklearn.neighbors.RadiusNeighborsClassifier | 未知 | 
| 临近重心分类器(Nearest Centroid Classifier) | sklearn.neighbors.NearestCentroid | 未知 | 
贝叶斯
| 类别 | Python | R | 
|---|---|---|
| 朴素贝叶斯 | sklearn.naive_bayes.GaussianNB | e1071::naiveBayes | 
| 多维贝叶斯(Multinomial Naive Bayes) | sklearn.naive_bayes.MultinomialNB | 未知 | 
| 伯努利贝叶斯(Bernoulli Naive Bayes) | sklearn.naive_bayes.BernoulliNB | 未知 | 
决策树
| 类别 | Python | R | 
|---|---|---|
| 决策树分类器 | sklearn.tree.DecisionTreeClassifier | tree::tree, party::ctree | 
| 决策树回归器 | sklearn.tree.DecisionTreeRegressor | tree::tree, party::tree | 
Assemble方法
| 类别 | 子类别 | Python | R | 
|---|---|---|---|
| Bagging | 随机森林分类器 | sklearn.ensemble.RandomForestClassifier | randomForest::randomForest, party::cforest | 
| Bagging | 随机森林回归器 | sklearn.ensemble.RandomForestRegressor | randomForest::randomForest, party::cforest | 
| Boosting | Gradient Boosting | xgboost模块 | xgboost包 | 
| Boosting | AdaBoost | sklearn.ensemble.AdaBoostClassifier | adabag、fastAdaboost、ada | 
| Stacking | 未知 | 未知 | 未知 | 
聚类
| 类别 | Python | R | 
|---|---|---|
| kmeans | scipy.cluster.kmeans.kmeans | kmeans::kmeans | 
| 分层聚类 | scipy.cluster.hierarchy.fcluster | (stats::)hclust | 
| 包聚类(Bagged Cluster) | 未知 | e1071::bclust | 
| DBSCAN | sklearn.cluster.DBSCAN | dbscan::dbsan | 
| Birch | sklearn.cluster.Birch | 未知 | 
| K-Medoids聚类 | pyclust.KMedoids(可靠性未知) | cluster.pam | 
关联规则
| 类别 | Python | R | 
|---|---|---|
| apriori算法 | apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | arules::apriori | 
| FP-Growth算法 | fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | 未知 | 
神经网络
| 类别 | Python | R | 
|---|---|---|
| 神经网络 | neurolab.net, keras.* | nnet::nnet, nueralnet::nueralnet | 
| 深度学习 | keras.* | 不可靠包居多以及未知 | 
概率图模型
文本、NLP
基本操作
| 类别 | Python | R | 
|---|---|---|
| tokenize | nltk.tokenize(英), jieba.tokenize(中) | tau::tokenize | 
| stem | nltk.stem | RTextTools::wordStem, SnowballC::wordStem | 
| stopwords | stop_words.get_stop_words | tm::stopwords, qdap::stopwords | 
| 中文分词 | jieba.cut, smallseg, Yaha, finalseg, genius | jiebaR | 
| TFIDF | gensim.models.TfidfModel | 未知 | 
主题模型
| 类别 | Python | R | 
|---|---|---|
| LDA | lda.LDA, gensim.models.ldamodel.LdaModel | topicmodels::LDA | 
| LSI | gensim.models.lsiModel.LsiModel | 未知 | 
| RP | gensim.models.rpmodel.RpModel | 未知 | 
| HDP | gensim.models.hdpmodel.HdpModel | 未知 | 
与其他分析/可视化/挖掘/报表工具的交互
| 类别 | Python | R | 
|---|---|---|
| weka | python-weka-wrapper | RWeka | 
| Tableau | tableausdk | Rserve(实际是R的服务包) | 
R包和python对应的库的更多相关文章
- Python中根据库包名学习使用该库包
		目录 Python库包模块 import 语句 from-import 语句 搜索路径 PYTHONPATH 变量 命名空间和作用域 查看模块中所有变量和函数,以及查看具体函数的用法 globals( ... 
- 工业级GBDT算法︱微软开源 的LightGBM(R包正在开发....)
		看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果 ... 
- R 包
		[下面列出每个步骤最有用的一些R包] .数据导入 以下R包主要用于数据导入和保存数据: feather:一种快速,轻量级的文件格式:在R和python上都可使用 readr:实现表格数据的快速导入 r ... 
- python常用三方库 - openpyxl
		目录 python常用三方库 - openpyxl 读取Excel文件 写入Excel文件 python常用三方库 - openpyxl openpyxl是一个第三方库, 可以处理xlsx格式的Exc ... 
- Python的主要库
		本文在Creative Commons许可证下发布 市面上的分析工具大致分为两大类,菜单式的工具和命令行式的工具.前者适合于初学入门,类似于跟团旅游,提供了固定的路线.分析套路比较固定化,点几下鼠标就 ... 
- Python的标准库介绍与常用的第三方库
		Python的标准库介绍与常用的第三方库 Python的标准库: datetime:为日期和时间的处理提供了简单和复杂的方法. zlib:以下模块直接支持通用的数据打包和压缩格式:zlib,gzip, ... 
- python中requests库使用方法详解
		目录 python中requests库使用方法详解 官方文档 什么是Requests 安装Requests库 基本的GET请求 带参数的GET请求 解析json 添加headers 基本POST请求 ... 
- Python中第三方库Requests库的高级用法详解
		Python中第三方库Requests库的高级用法详解 虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ... 
- Python常用的库简单介绍一下
		Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable ... 
随机推荐
- 织梦if标签
			{dede:field name='id' runphp='yes' } if(@me < 100 && @me >94) @me='xxxxxx';else @me='y ... 
- DEDECMS ShowMsg()样式修改 提示信息的修改以及美化
			织梦DedeCMS系统,处处都在用到提示信息,但是这个提示框,前台后台一层不变,太死板了,可能有很多人都有过去修改它的想法,只是苦于不知道去哪里 改.今天我就来说说这个吧,DedeCMS的所有提示信息 ... 
- php文章付费阅读系统球料付费阅读系统
			服务项目 新手技术咨询 企业技术咨询 定制开发 服务说明 QQ有问必答 QQ.微信.电话 微信开发.php开发,网站开发,系统定制,小程序开发 价格说明 200元/月 1000/月 商议 ... 
- c# 与 java 语法异同
			Java and C# ComparisonThis is a quick reference guide to highlight some key syntactical differences ... 
- SpringBoot中实现依赖注入功能
			本文转载自:https://blog.csdn.net/linzhiqiang0316/article/details/52639888 今天给大家介绍一下SpringBoot中是如何实现依赖注入的功 ... 
- 【Oracle学习笔记-2】Oracle基础术语解析
			来自为知笔记(Wiz) 附件列表 Oracle概念解析.png 表空间.png 大小关系.png 段segment.png 块block.png 区entent.png 数据库基本概念.png 
- maven学习(3)-Maven 核心技术
			第一节:Maven 仓库概念 Maven 远程仓库配置文件: $M2_HOME/lib/maven-model-builder-3.3.3.jar 文件:org\apache\maven\model\ ... 
- loadrunner怎么解决录制完成后脚本为空
			第一步: 第二步: 设置完后就Ok了 
- Tensorflow笔记——神经网络图像识别(五)手写数字识别
- 术语-服务:IaaS
			ylbtech-术语-服务:IaaS IaaS(Infrastructure as a Service),即基础设施即服务.消费者通过Internet 可以从完善的计算机基础设施获得服务.这类服务称为 ... 
