Python 和 R 数据分析/挖掘工具互查

如果大家已经熟悉python和R的模块/包载入方式，那下面的表查找起来相对方便。python在下表中以模块.的方式引用，部分模块并非原生模块，请使用

pip install *

安装；同理，为了方便索引，R中也以::表示了函数以及函数所在包的名字，如果不含::表示为R的默认包中就有，如含::，请使用

install.packages("*")

安装。

连接器与io

数据库

类别	Python	R
MySQL	mysql-connector-python(官方)	RMySQL
Oracle	cx_Oracle	ROracle
Redis	redis	rredis
MongoDB	pymongo	RMongo, rmongodb
neo4j	py2neo	RNeo4j
Cassandra	cassandra-driver	RJDBC
ODBC	pyodbc	RODBC
JDBC	未知[Jython Only]	RJDBC

IO类

类别	Python	R
excel	xlsxWriter, pandas.(from/to)_excel, openpyxl	openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv	csv.writer	read.csv(2), read.table
json	json	jsonlite
图片	PIL	jpeg, png, tiff, bmp

统计类

描述性统计

类别	Python	R
描述性统计汇总	scipy.stats.descirbe	summary
均值	scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean	mean
中位数	numpy.median, numpy.nanmediam, pandas.Series.median	median
众数	scipy.stats.mode, pandas.Series.mode	未知
分位数	numpy.percentile, numpy.nanpercentile, pandas.Series.quantile	quantile
经验累积函数(ECDF)	statsmodels.tools.ECDF	ecdf
标准差	scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std	sd
方差	numpy.var, pandas.Series.var	var
变异系数	scipy.stats.variation	未知
协方差	numpy.cov, pandas.Series.cov	cov
(Pearson)相关系数	scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr	cor
峰度	scipy.stats.kurtosis, pandas.Series.kurt	e1071::kurtosis
偏度	scipy.stats.skew, pandas.Series.skew	e1071::skewness
直方图	numpy.histogram, numpy.histogram2d, numpy.histogramdd	未知

回归（包括统计和机器学习）

类别	Python	R
普通最小二乘法回归(ols)	statsmodels.ols, sklearn.linear_model.LinearRegression	lm,
广义线性回归(gls)	statsmodels.gls	nlme::gls, MASS::gls
分位数回归(Quantile Regress)	statsmodels.QuantReg	quantreg::rq
岭回归	sklearn.linear_model.Ridge	MASS::lm.ridge, ridge::linearRidge
LASSO	sklearn.linear_model.Lasso	lars::lars
最小角回归	sklearn.linear_modle.LassoLars	lars::lars
稳健回归	statsmodels.RLM	MASS::rlm

假设检验

类别	Python	R
t检验	statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel	t.test
ks检验(检验分布)	scipy.stats.kstest, scipy.stats.kstest_2samp	ks.test
wilcoxon(非参检验，差异检验)	scipy.stats.wilcoxon, scipy.stats.mannwhitneyu	wilcox.test
Shapiro-Wilk正态性检验	scipy.stats.shapiro	shapiro.test
Pearson相关系数检验	scipy.stats.pearsonr	cor.test

时间序列

类别	Python	R
AR	statsmodels.ar_model.AR	ar
ARIMA	statsmodels.arima_model.arima	arima
VAR	statsmodels.var_model.var	未知

python还可参见PyFlux.

生存分析

类别	Python	R
PH回归	statsmodels.formula.api.phreg	未知

专门分析的模块：
Python: Lifelines

机器学习类

回归

参见统计类

分类器

LDA、QDA

类别	Python	R
LDA	sklearn.discriminant_analysis.LinearDiscriminantAnalysis	MASS::lda
QDA	sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis	MASS::qda

SVM(支持向量机)

类别	Python	R
支持向量分类器（SVC）	sklearn.svm.SVC	e1071::svm
非支持向量分类器（nonSVC）	sklearn.svm.NuSVC	未知
线性支持向量分类器(Lenear SVC)	sklearn.svm.LinearSVC	未知

基于临近

类别	Python	R
k-临近分类器	sklearn.neighbors.KNeighborsClassifier	未知
半径临近分类器	sklearn.neighbors.RadiusNeighborsClassifier	未知
临近重心分类器(Nearest Centroid Classifier)	sklearn.neighbors.NearestCentroid	未知

贝叶斯

类别	Python	R
朴素贝叶斯	sklearn.naive_bayes.GaussianNB	e1071::naiveBayes
多维贝叶斯(Multinomial Naive Bayes)	sklearn.naive_bayes.MultinomialNB	未知
伯努利贝叶斯(Bernoulli Naive Bayes)	sklearn.naive_bayes.BernoulliNB	未知

决策树

类别	Python	R
决策树分类器	sklearn.tree.DecisionTreeClassifier	tree::tree, party::ctree
决策树回归器	sklearn.tree.DecisionTreeRegressor	tree::tree, party::tree

Assemble方法

类别	子类别	Python	R
Bagging	随机森林分类器	sklearn.ensemble.RandomForestClassifier	randomForest::randomForest, party::cforest
Bagging	随机森林回归器	sklearn.ensemble.RandomForestRegressor	randomForest::randomForest, party::cforest
Boosting	Gradient Boosting	`xgboost`模块	`xgboost`包
Boosting	AdaBoost	sklearn.ensemble.AdaBoostClassifier	`adabag`、`fastAdaboost`、`ada`
Stacking	未知	未知	未知

聚类

类别	Python	R
kmeans	scipy.cluster.kmeans.kmeans	kmeans::kmeans
分层聚类	scipy.cluster.hierarchy.fcluster	(stats::)hclust
包聚类(Bagged Cluster)	未知	e1071::bclust
DBSCAN	sklearn.cluster.DBSCAN	dbscan::dbsan
Birch	sklearn.cluster.Birch	未知
K-Medoids聚类	pyclust.KMedoids(可靠性未知)	cluster.pam

关联规则

类别	Python	R
apriori算法	apriori(可靠性未知，不支持py3), PyFIM(可靠性未知，不可用pip安装)	arules::apriori
FP-Growth算法	fp-growth(可靠性未知，不支持py3), PyFIM(可靠性未知，不可用pip安装)	未知

神经网络

类别	Python	R
神经网络	neurolab.net, keras.*	nnet::nnet, nueralnet::nueralnet
深度学习	keras.*	不可靠包居多以及未知

当然，theano模块值得一提，但本质theano包的设计并非在神经网络，所以不归于此类。

概率图模型

python: PyMC3

文本、NLP

基本操作

类别	Python	R
tokenize	nltk.tokenize(英), jieba.tokenize(中)	tau::tokenize
stem	nltk.stem	RTextTools::wordStem, SnowballC::wordStem
stopwords	stop_words.get_stop_words	tm::stopwords, qdap::stopwords
中文分词	jieba.cut, smallseg, Yaha, finalseg, genius	jiebaR
TFIDF	gensim.models.TfidfModel	未知

主题模型

类别	Python	R
LDA	lda.LDA, gensim.models.ldamodel.LdaModel	topicmodels::LDA
LSI	gensim.models.lsiModel.LsiModel	未知
RP	gensim.models.rpmodel.RpModel	未知
HDP	gensim.models.hdpmodel.HdpModel	未知

值得留意的是python的新第三方模块，spaCy

与其他分析/可视化/挖掘/报表工具的交互

类别	Python	R
weka	python-weka-wrapper	RWeka
Tableau	tableausdk	Rserve(实际是R的服务包)

转载于：https://segmentfault.com/a/1190000005041649

Python 和 R 数据分析/挖掘工具互查的更多相关文章

R︱mlr包帮你挑选最适合数据的机器学习模型（分类、回归）+机器学习python和R互查手册
一.R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-listLearners() ...
python数据分析的工具环境
python做数据分析的优势: 拥有大量的库为数据分析和处理提供了完整的工具链随着库还在不断的增加的同时, 算法的实现也更加的创新.Numpy, matplotlib, scipy,scikit-l ...
python数据分析&挖掘，机器学习环境配置
目录一.什么是数据分析 1.这里引用网上的定义: 2.数据分析发展与组成 3.特点二.python数据分析环境及各类常用分析包配置 1.处理的数据类型 2.为什么选择python 三.python ...
Python与R的区别和联系
转自:http://bbs.pinggu.org/thread-3078817-1-1.html 有人说Python和R的区别是显而易见的,因为R是针对统计的,python是给程序员设计的,其实这话对 ...
Python与R的争锋：大数据初学者该怎样选？
在当下,人工智能的浪潮席卷而来.从AlphaGo.无人驾驶技术.人脸识别.语音对话,到商城推荐系统,金融业的风控,量化运营.用户洞察.企业征信.智能投顾等,人工智能的应用广泛渗透到各行各业,也让数据科 ...
Python、R对比分析
一.Python与R功能对比分析 1.python与R相比速度要快.python可以直接处理上G的数据:R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析, ...
机器学习算法的基本知识（使用Python和R代码）
本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...
python 使用virtualenvrapper虚拟环境管理工具
centos 默认安装的python是2.6版本的使用virtualenv 环境管理工具建立python虚拟环境的时候会遇到一些错误,DEPRECATION: Python 2.6 is no lo ...
深入对比数据科学工具箱：Python和R之争
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述在真实的 ...

随机推荐

js 转码和 .Net 后台解码
为防止中文乱码,js传值要转码,当js 用 escape() 转码时,.Net 后台可以用 HttpUtility.UrlDecode() 进行解码. 例如: document.cookie = ...
SPI总线
一.概述. SPI, Serial Perripheral Interface, 串行外围设备接口, 是 Motorola 公司推出的一种同步串行接口技术. SPI 总线在物理上是通过接在外围设备微控 ...
MS SQL数据类型比较
字符串数据类型 char此数据类型可存储1~8000个定长字符串,字符串长度在创建时指定:如未指定,默认为char(1).每个字符占用1byte存储空间.nchar此数据类型可存储1~4000个定长U ...
js中的逻辑与（&&）和逻辑或（||）（转载）
var a = 2; var b = 3; var andflag = a && b ; var orflag = a || b; 问andflag 和orflag 分别是什么? 起初 ...
PDO和消息队列的一点个人理解
什么是消息队列,百度百科说,···消息队列····是在消息的传输过程中保存消息的容器. 看着网上林林总总的文章,都说是为了应对高并发,处理数据量超级大的一种数据容器,也可以说是利用各种方式,先把数据存 ...
Vanishing point detection
https://marcosnietoblog.wordpress.com/code/
MVC之权限管理-网站开发之路
一.前言刚到公司没多长时间就开始接触MVC到现在不能说懂了,只能说到达会用这个层次吧,感觉MVC用来写Web还是很强大的,层次清晰. 今天我来写写关于权限管理这一块,自我感觉网站的权限主要分为菜单权 ...
Android 屏幕适配
前言手机的屏幕适配一直是非常麻烦的,现在我就以做笔记的方式来简单梳理下单位理解首先让我们先来看看关于手机所用到的单位真实物理尺寸单位: mm:表示毫米,是屏幕的物理尺寸. in:表示英寸,是屏 ...
【皇甫】☀Struts_第一节课
本章讲解内容: DTD是Docunent Type Defintion的缩写,即文档类型定义.DTD用来描述XML文档结构. DOM4J是一个非常优秀的javaXML API,具有性能优异,功能强大和 ...
HDU-1274 展开字符串
Problem Description 在纺织CAD系统开发过程中,经常会遇到纱线排列的问题.该问题的描述是这样的:常用纱线的品种一般不会超过25种,所以分别可以用小写字母表示不同的纱线,例如:abc ...