R包和python对应的库

数据库

类别	Python	R
MySQL	mysql-connector-python(官方)	RMySQL
Oracle	cx_Oracle	ROracle
Redis	redis	rredis
MongoDB	pymongo	RMongo, rmongodb
neo4j	py2neo	RNeo4j
Cassandra	cassandra-driver	RJDBC
ODBC	pyodbc	RODBC
JDBC	未知[Jython Only]	RJDBC

IO类

类别	Python	R
excel	xlsxWriter, pandas.(from/to)_excel, openpyxl	openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv	csv.writer	read.csv(2), read.table
json	json	jsonlite
图片	PIL	jpeg, png, tiff, bmp

统计类

描述性统计

类别	Python	R
描述性统计汇总	scipy.stats.descirbe	summary
均值	scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean	mean
中位数	numpy.median, numpy.nanmediam, pandas.Series.median	median
众数	scipy.stats.mode, pandas.Series.mode	未知
分位数	numpy.percentile, numpy.nanpercentile, pandas.Series.quantile	quantile
经验累积函数(ECDF)	statsmodels.tools.ECDF	ecdf
标准差	scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std	sd
方差	numpy.var, pandas.Series.var	var
变异系数	scipy.stats.variation	未知
协方差	numpy.cov, pandas.Series.cov	cov
(Pearson)相关系数	scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr	cor
峰度	scipy.stats.kurtosis, pandas.Series.kurt	e1071::kurtosis
偏度	scipy.stats.skew, pandas.Series.skew	e1071::skewness
直方图	numpy.histogram, numpy.histogram2d, numpy.histogramdd	未知

回归（包括统计和机器学习）

类别	Python	R
普通最小二乘法回归(ols)	statsmodels.ols, sklearn.linear_model.LinearRegression	lm,
广义线性回归(gls)	statsmodels.gls	nlme::gls, MASS::gls
分位数回归(Quantile Regress)	statsmodels.QuantReg	quantreg::rq
岭回归	sklearn.linear_model.Ridge	MASS::lm.ridge, ridge::linearRidge
LASSO	sklearn.linear_model.Lasso	lars::lars
最小角回归	sklearn.linear_modle.LassoLars	lars::lars
稳健回归	statsmodels.RLM	MASS::rlm

假设检验

类别	Python	R
t检验	statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel	t.test
ks检验(检验分布)	scipy.stats.kstest, scipy.stats.kstest_2samp	ks.test
wilcoxon(非参检验，差异检验)	scipy.stats.wilcoxon, scipy.stats.mannwhitneyu	wilcox.test
Shapiro-Wilk正态性检验	scipy.stats.shapiro	shapiro.test
Pearson相关系数检验	scipy.stats.pearsonr	cor.test

时间序列

类别	Python	R
AR	statsmodels.ar_model.AR	ar
ARIMA	statsmodels.arima_model.arima	arima
VAR	statsmodels.var_model.var	未知

生存分析

类别	Python	R
PH回归	statsmodels.formula.api.phreg	未知

机器学习类

分类器

LDA、QDA

类别	Python	R
LDA	sklearn.discriminant_analysis.LinearDiscriminantAnalysis	MASS::lda
QDA	sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis	MASS::qda

SVM(支持向量机)

类别	Python	R
支持向量分类器（SVC）	sklearn.svm.SVC	e1071::svm
非支持向量分类器（nonSVC）	sklearn.svm.NuSVC	未知
线性支持向量分类器(Lenear SVC)	sklearn.svm.LinearSVC	未知

基于临近

类别	Python	R
k-临近分类器	sklearn.neighbors.KNeighborsClassifier	未知
半径临近分类器	sklearn.neighbors.RadiusNeighborsClassifier	未知
临近重心分类器(Nearest Centroid Classifier)	sklearn.neighbors.NearestCentroid	未知

贝叶斯

类别	Python	R
朴素贝叶斯	sklearn.naive_bayes.GaussianNB	e1071::naiveBayes
多维贝叶斯(Multinomial Naive Bayes)	sklearn.naive_bayes.MultinomialNB	未知
伯努利贝叶斯(Bernoulli Naive Bayes)	sklearn.naive_bayes.BernoulliNB	未知

决策树

类别	Python	R
决策树分类器	sklearn.tree.DecisionTreeClassifier	tree::tree, party::ctree
决策树回归器	sklearn.tree.DecisionTreeRegressor	tree::tree, party::tree

Assemble方法

类别	子类别	Python	R
Bagging	随机森林分类器	sklearn.ensemble.RandomForestClassifier	randomForest::randomForest, party::cforest
Bagging	随机森林回归器	sklearn.ensemble.RandomForestRegressor	randomForest::randomForest, party::cforest
Boosting	Gradient Boosting	`xgboost`模块	`xgboost`包
Boosting	AdaBoost	sklearn.ensemble.AdaBoostClassifier	`adabag`、`fastAdaboost`、`ada`
Stacking	未知	未知	未知

聚类

类别	Python	R
kmeans	scipy.cluster.kmeans.kmeans	kmeans::kmeans
分层聚类	scipy.cluster.hierarchy.fcluster	(stats::)hclust
包聚类(Bagged Cluster)	未知	e1071::bclust
DBSCAN	sklearn.cluster.DBSCAN	dbscan::dbsan
Birch	sklearn.cluster.Birch	未知
K-Medoids聚类	pyclust.KMedoids(可靠性未知)	cluster.pam

关联规则

类别	Python	R
apriori算法	apriori(可靠性未知，不支持py3), PyFIM(可靠性未知，不可用pip安装)	arules::apriori
FP-Growth算法	fp-growth(可靠性未知，不支持py3), PyFIM(可靠性未知，不可用pip安装)	未知

神经网络

类别	Python	R
神经网络	neurolab.net, keras.*	nnet::nnet, nueralnet::nueralnet
深度学习	keras.*	不可靠包居多以及未知

概率图模型

文本、NLP

基本操作

类别	Python	R
tokenize	nltk.tokenize(英), jieba.tokenize(中)	tau::tokenize
stem	nltk.stem	RTextTools::wordStem, SnowballC::wordStem
stopwords	stop_words.get_stop_words	tm::stopwords, qdap::stopwords
中文分词	jieba.cut, smallseg, Yaha, finalseg, genius	jiebaR
TFIDF	gensim.models.TfidfModel	未知

主题模型

类别	Python	R
LDA	lda.LDA, gensim.models.ldamodel.LdaModel	topicmodels::LDA
LSI	gensim.models.lsiModel.LsiModel	未知
RP	gensim.models.rpmodel.RpModel	未知
HDP	gensim.models.hdpmodel.HdpModel	未知

与其他分析/可视化/挖掘/报表工具的交互

类别	Python	R
weka	python-weka-wrapper	RWeka
Tableau	tableausdk	Rserve(实际是R的服务包)

R包和python对应的库的更多相关文章

Python中根据库包名学习使用该库包
目录 Python库包模块 import 语句 from-import 语句搜索路径 PYTHONPATH 变量命名空间和作用域查看模块中所有变量和函数,以及查看具体函数的用法 globals( ...
工业级GBDT算法︱微软开源的LightGBM（R包正在开发....）
看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果 ...
R 包
[下面列出每个步骤最有用的一些R包] .数据导入以下R包主要用于数据导入和保存数据: feather:一种快速,轻量级的文件格式:在R和python上都可使用 readr:实现表格数据的快速导入 r ...
python常用三方库 - openpyxl
目录 python常用三方库 - openpyxl 读取Excel文件写入Excel文件 python常用三方库 - openpyxl openpyxl是一个第三方库, 可以处理xlsx格式的Exc ...
Python的主要库
本文在Creative Commons许可证下发布市面上的分析工具大致分为两大类,菜单式的工具和命令行式的工具.前者适合于初学入门,类似于跟团旅游,提供了固定的路线.分析套路比较固定化,点几下鼠标就 ...
Python的标准库介绍与常用的第三方库
Python的标准库介绍与常用的第三方库 Python的标准库: datetime:为日期和时间的处理提供了简单和复杂的方法. zlib:以下模块直接支持通用的数据打包和压缩格式:zlib,gzip, ...
python中requests库使用方法详解
目录 python中requests库使用方法详解官方文档什么是Requests 安装Requests库基本的GET请求带参数的GET请求解析json 添加headers 基本POST请求 ...
Python中第三方库Requests库的高级用法详解
Python中第三方库Requests库的高级用法详解虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ...
Python常用的库简单介绍一下
Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable ...

随机推荐

如何为javascript代码编写注释以支持智能感知
在使用Visual Studio做开发的时候,智能感知是非常方便的.从VS2008开始,提供了对javascript的智能感知支持.例如上述代码中,我们先用document对象的getElement ...
php curl_init函数用法(http://blog.sina.com.cn/s/blog_640738130100tsig.html)
使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把 ...
排查linux下java应用cpu占用过高
用于快速排查Java的CPU性能问题(top us值过高),自动查出运行的Java进程中消耗CPU多的线程,并打印出其线程栈,从而确定导致性能问题的方法调用.目前只支持Linux.原因是Mac.Win ...
【比特币】通过dns seeds获取节点列表数据
通过dns seeds获取节点列表数据 dns seed是什么返回比特币网络上完整节点IP地址的DNS服务器,用于协助发现节点. 哪里可以查看到我们在bitcoinj库中,params文件夹内为网 ...
Amazon behavior question
Amazon onsite behavior question[一亩三分地论坛面经版] - Powered by Discuz! http://www.1point3acres.com/bbs/thr ...
numpy里的randn
这个函数的作用就是从标准正态分布中返回一个或多个样本值.什么是标准正态分布来源:http://www.360doc.com/content/17/0306/13/32342759_634411464 ...
[转]LAMP（Linux-Apache-MySQL-PHP）网站架构
本文转自 http://www.williamlong.info/archives/1908.html LAMP(Linux-Apache-MySQL-PHP)网站架构是目前国际流行的Web框架,该框 ...
使用shell/bat脚本调试java程序示例
一.linux下shell启动java #!/bin/sh JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86_64/jre # JVM_OPT ...
XML，XSD，XSLT应用场景
XML:数据交换的标准 1.数据通信: 其实HTTP就是标准的报文格式,早开发中,设计报文的格式是可以看出这个系统的好坏 2.配置文件:设计一个良好的配置文件比写代码要难,比如Spring的配置文 ...
高斯混合模型（理论+opencv实现）
查资料的时候看了一个不文明的事情,转载别人的东西而不标注出处,结果原创无人知晓,转载很多人评论~~标注了转载而不说出处这样的人有点可耻! 写在前面: Gaussian Mixture Model (G ...

R包和python对应的库

数据库

IO类

统计类

描述性统计

回归（包括统计和机器学习）

假设检验

时间序列

生存分析

机器学习类

分类器

LDA、QDA

SVM(支持向量机)

基于临近

贝叶斯

决策树

Assemble方法

聚类

关联规则

神经网络

概率图模型

文本、NLP

基本操作

主题模型

与其他分析/可视化/挖掘/报表工具的交互

R包和python对应的库的更多相关文章

随机推荐

热门专题