Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块.的方式引用,部分模块并非原生模块,请使用
pip install *
安装;同理,为了方便索引,R中也以::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用
install.packages("*")
安装。
连接器与io
数据库
| 类别 | Python | R |
|---|---|---|
| MySQL | mysql-connector-python(官方) | RMySQL |
| Oracle | cx_Oracle | ROracle |
| Redis | redis | rredis |
| MongoDB | pymongo | RMongo, rmongodb |
| neo4j | py2neo | RNeo4j |
| Cassandra | cassandra-driver | RJDBC |
| ODBC | pyodbc | RODBC |
| JDBC | 未知[Jython Only] | RJDBC |
IO类
| 类别 | Python | R |
|---|---|---|
| excel | xlsxWriter, pandas.(from/to)_excel, openpyxl | openxlsx::read.xlsx(2), xlsx::read.xlsx(2) |
| csv | csv.writer | read.csv(2), read.table |
| json | json | jsonlite |
| 图片 | PIL | jpeg, png, tiff, bmp |
统计类
描述性统计
| 类别 | Python | R |
|---|---|---|
| 描述性统计汇总 | scipy.stats.descirbe | summary |
| 均值 | scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean | mean |
| 中位数 | numpy.median, numpy.nanmediam, pandas.Series.median | median |
| 众数 | scipy.stats.mode, pandas.Series.mode | 未知 |
| 分位数 | numpy.percentile, numpy.nanpercentile, pandas.Series.quantile | quantile |
| 经验累积函数(ECDF) | statsmodels.tools.ECDF | ecdf |
| 标准差 | scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std | sd |
| 方差 | numpy.var, pandas.Series.var | var |
| 变异系数 | scipy.stats.variation | 未知 |
| 协方差 | numpy.cov, pandas.Series.cov | cov |
| (Pearson)相关系数 | scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr | cor |
| 峰度 | scipy.stats.kurtosis, pandas.Series.kurt | e1071::kurtosis |
| 偏度 | scipy.stats.skew, pandas.Series.skew | e1071::skewness |
| 直方图 | numpy.histogram, numpy.histogram2d, numpy.histogramdd | 未知 |
回归(包括统计和机器学习)
| 类别 | Python | R |
|---|---|---|
| 普通最小二乘法回归(ols) | statsmodels.ols, sklearn.linear_model.LinearRegression | lm, |
| 广义线性回归(gls) | statsmodels.gls | nlme::gls, MASS::gls |
| 分位数回归(Quantile Regress) | statsmodels.QuantReg | quantreg::rq |
| 岭回归 | sklearn.linear_model.Ridge | MASS::lm.ridge, ridge::linearRidge |
| LASSO | sklearn.linear_model.Lasso | lars::lars |
| 最小角回归 | sklearn.linear_modle.LassoLars | lars::lars |
| 稳健回归 | statsmodels.RLM | MASS::rlm |
假设检验
| 类别 | Python | R |
|---|---|---|
| t检验 | statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel | t.test |
| ks检验(检验分布) | scipy.stats.kstest, scipy.stats.kstest_2samp | ks.test |
| wilcoxon(非参检验,差异检验) | scipy.stats.wilcoxon, scipy.stats.mannwhitneyu | wilcox.test |
| Shapiro-Wilk正态性检验 | scipy.stats.shapiro | shapiro.test |
| Pearson相关系数检验 | scipy.stats.pearsonr | cor.test |
时间序列
| 类别 | Python | R |
|---|---|---|
| AR | statsmodels.ar_model.AR | ar |
| ARIMA | statsmodels.arima_model.arima | arima |
| VAR | statsmodels.var_model.var | 未知 |
python还可参见PyFlux.
生存分析
| 类别 | Python | R |
|---|---|---|
| PH回归 | statsmodels.formula.api.phreg | 未知 |
专门分析的模块:
Python: Lifelines
机器学习类
回归
参见统计类
分类器
LDA、QDA
| 类别 | Python | R |
|---|---|---|
| LDA | sklearn.discriminant_analysis.LinearDiscriminantAnalysis | MASS::lda |
| QDA | sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis | MASS::qda |
SVM(支持向量机)
| 类别 | Python | R |
|---|---|---|
| 支持向量分类器(SVC) | sklearn.svm.SVC | e1071::svm |
| 非支持向量分类器(nonSVC) | sklearn.svm.NuSVC | 未知 |
| 线性支持向量分类器(Lenear SVC) | sklearn.svm.LinearSVC | 未知 |
基于临近
| 类别 | Python | R |
|---|---|---|
| k-临近分类器 | sklearn.neighbors.KNeighborsClassifier | 未知 |
| 半径临近分类器 | sklearn.neighbors.RadiusNeighborsClassifier | 未知 |
| 临近重心分类器(Nearest Centroid Classifier) | sklearn.neighbors.NearestCentroid | 未知 |
贝叶斯
| 类别 | Python | R |
|---|---|---|
| 朴素贝叶斯 | sklearn.naive_bayes.GaussianNB | e1071::naiveBayes |
| 多维贝叶斯(Multinomial Naive Bayes) | sklearn.naive_bayes.MultinomialNB | 未知 |
| 伯努利贝叶斯(Bernoulli Naive Bayes) | sklearn.naive_bayes.BernoulliNB | 未知 |
决策树
| 类别 | Python | R |
|---|---|---|
| 决策树分类器 | sklearn.tree.DecisionTreeClassifier | tree::tree, party::ctree |
| 决策树回归器 | sklearn.tree.DecisionTreeRegressor | tree::tree, party::tree |
Assemble方法
| 类别 | 子类别 | Python | R |
|---|---|---|---|
| Bagging | 随机森林分类器 | sklearn.ensemble.RandomForestClassifier | randomForest::randomForest, party::cforest |
| Bagging | 随机森林回归器 | sklearn.ensemble.RandomForestRegressor | randomForest::randomForest, party::cforest |
| Boosting | Gradient Boosting | xgboost模块 |
xgboost包 |
| Boosting | AdaBoost | sklearn.ensemble.AdaBoostClassifier | adabag、fastAdaboost、ada |
| Stacking | 未知 | 未知 | 未知 |
聚类
| 类别 | Python | R |
|---|---|---|
| kmeans | scipy.cluster.kmeans.kmeans | kmeans::kmeans |
| 分层聚类 | scipy.cluster.hierarchy.fcluster | (stats::)hclust |
| 包聚类(Bagged Cluster) | 未知 | e1071::bclust |
| DBSCAN | sklearn.cluster.DBSCAN | dbscan::dbsan |
| Birch | sklearn.cluster.Birch | 未知 |
| K-Medoids聚类 | pyclust.KMedoids(可靠性未知) | cluster.pam |
关联规则
| 类别 | Python | R |
|---|---|---|
| apriori算法 | apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | arules::apriori |
| FP-Growth算法 | fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | 未知 |
神经网络
| 类别 | Python | R |
|---|---|---|
| 神经网络 | neurolab.net, keras.* | nnet::nnet, nueralnet::nueralnet |
| 深度学习 | keras.* | 不可靠包居多以及未知 |
当然,
theano模块值得一提,但本质theano包的设计并非在神经网络,所以不归于此类。
概率图模型
python: PyMC3
文本、NLP
基本操作
| 类别 | Python | R |
|---|---|---|
| tokenize | nltk.tokenize(英), jieba.tokenize(中) | tau::tokenize |
| stem | nltk.stem | RTextTools::wordStem, SnowballC::wordStem |
| stopwords | stop_words.get_stop_words | tm::stopwords, qdap::stopwords |
| 中文分词 | jieba.cut, smallseg, Yaha, finalseg, genius | jiebaR |
| TFIDF | gensim.models.TfidfModel | 未知 |
主题模型
| 类别 | Python | R |
|---|---|---|
| LDA | lda.LDA, gensim.models.ldamodel.LdaModel | topicmodels::LDA |
| LSI | gensim.models.lsiModel.LsiModel | 未知 |
| RP | gensim.models.rpmodel.RpModel | 未知 |
| HDP | gensim.models.hdpmodel.HdpModel | 未知 |
值得留意的是python的新第三方模块,
spaCy
与其他分析/可视化/挖掘/报表工具的交互
| 类别 | Python | R |
|---|---|---|
| weka | python-weka-wrapper | RWeka |
| Tableau | tableausdk | Rserve(实际是R的服务包) |
转载于:https://segmentfault.com/a/1190000005041649
Python 和 R 数据分析/挖掘工具互查的更多相关文章
- R︱mlr包帮你挑选最适合数据的机器学习模型(分类、回归)+机器学习python和R互查手册
一.R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-listLearners() ...
- python数据分析的工具环境
python做数据分析的优势: 拥有大量的库为数据分析和处理提供了完整的工具链 随着库还在不断的增加的同时, 算法的实现也更加的创新.Numpy, matplotlib, scipy,scikit-l ...
- python数据分析&挖掘,机器学习环境配置
目录 一.什么是数据分析 1.这里引用网上的定义: 2.数据分析发展与组成 3.特点 二.python数据分析环境及各类常用分析包配置 1.处理的数据类型 2.为什么选择python 三.python ...
- Python与R的区别和联系
转自:http://bbs.pinggu.org/thread-3078817-1-1.html 有人说Python和R的区别是显而易见的,因为R是针对统计的,python是给程序员设计的,其实这话对 ...
- Python与R的争锋:大数据初学者该怎样选?
在当下,人工智能的浪潮席卷而来.从AlphaGo.无人驾驶技术.人脸识别.语音对话,到商城推荐系统,金融业的风控,量化运营.用户洞察.企业征信.智能投顾等,人工智能的应用广泛渗透到各行各业,也让数据科 ...
- Python、R对比分析
一.Python与R功能对比分析 1.python与R相比速度要快.python可以直接处理上G的数据:R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析, ...
- 机器学习算法的基本知识(使用Python和R代码)
本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...
- python 使用virtualenvrapper虚拟环境管理工具
centos 默认安装的python是2.6版本的 使用virtualenv 环境管理工具建立python虚拟环境的时候会遇到一些错误,DEPRECATION: Python 2.6 is no lo ...
- 深入对比数据科学工具箱:Python和R之争
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述 在真实的 ...
随机推荐
- android中如何获取xml界面里的非自定义属性
获取自定义属性大家都很熟悉了,就不多说了(定义declare-styleable,context.obtainStyledAttributes巴拉巴拉...) 下面我们说一下怎么获取非自定义的属性,比 ...
- ORA-03113: end-of-file on communication channel
导致的原因,可能是异常断电导致文件状态不一致. SQL> startupORACLE instance started. Total System Global Area 1653518336 ...
- js判断手指滑动方向(移动端)
var startx, starty; //获得角度 function getAngle(angx, angy) { return Math.atan2(angy, angx) * 180 / Mat ...
- ios 证书申请和发布流程
证书是什么? 上面这个就是我们申请好证书后,下载到本地的.cer文件,也就是常说的开发证书与发布证书的样式.这.cer文件格式的证书是让开发者使用的设备(也就是你的Mac)有真机调试,发布APP的权限 ...
- MWeb 1.3.7 发布!增加发布到 Wordpress 等支持 MetaWeblog API 的服务,如:Wordpress 博客、新浪博客、cnblogs、oschina。
MWeb 1.3.7 版的新功能 增加发布到 Wordpress 等支持 Metaweblog API 的服务,目前经测试过的有: Wordpress 博客.新浪博客.cnblogs.oschina. ...
- 设置更新源和下载ferret
kali无法定位软件包 解决: deb http://http.kali.org/kali kali-rolling main non-free contrib kali可用的官方更新源(cd /et ...
- Android 主题切换 小结
前言 我们用手机的时候经常看到 设置里面有夜间模式和白天模式来更换APP的主题,以前以为很简单,但是实际做起来还是有各种不完美,那么我们也要去了解各种解决方案来丰富我们的知识,现在我们就来看看各种优劣 ...
- Android moveTaskToBack(booleannon Root)
moveTaskToBack (booleannon Root)方法:在activity中调用此方法即可将activity 退到后台,注意不是finish()退出. 参数说明: 参数为false--代 ...
- C++之路进阶——bzoj1821(部落划分)
F.A.Qs Home Discuss ProblemSet Status Ranklist Contest ModifyUser hyxzc Logout 捐赠本站 Notice:1:由于本OJ建 ...
- centos安装mono
1.查看mono最新版本 http://download.mono-project.com/sources/mono 2.安装依赖环境 sudo yum install cmake automake ...