Python 数据挖掘工具包整理

连接器与io

数据库

类别	Python	R
MySQL	mysql-connector-python(官方)	RMySQL
Oracle	cx_Oracle	ROracle
MongoDB	pymongo	RMongo, rmongodb
ODBC	pyodbc	RODBC

IO类

类别	Python	R
excel	xlsxWriter, pandas.(from/to)_excel, openpyxl	openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv	csv.writer	read.csv(2), read.table
json	json	jsonlite
图片	PIL	jpeg, png, tiff, bmp

统计类

描述性统计

类别	Python	R
描述性统计汇总	scipy.stats.descirbe	summary
均值	scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean	mean
中位数	numpy.median, numpy.nanmediam, pandas.Series.median	median
众数	scipy.stats.mode, pandas.Series.mode	未知
分位数	numpy.percentile, numpy.nanpercentile, pandas.Series.quantile	quantile
标准差	scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std	sd
方差	numpy.var, pandas.Series.var	var
变异系数	scipy.stats.variation	未知
协方差	numpy.cov, pandas.Series.cov	cov
(Pearson)相关系数	scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr	cor
峰度	scipy.stats.kurtosis, pandas.Series.kurt	e1071::kurtosis
偏度	scipy.stats.skew, pandas.Series.skew	e1071::skewness
直方图	numpy.histogram, numpy.histogram2d, numpy.histogramdd	未知

回归

类别	Python	R
普通最小二乘法回归(ols)	statsmodels.ols, sklearn.linear_model.LinearRegression	lm,
广义线性回归(gls)	statsmodels.gls	nlme::gls, MASS::gls

假设检验

类别	Python	R
t检验	statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel	t.test
Pearson相关系数检验	scipy.stats.pearsonr	cor.test

时间序列

类别	Python	R
AR	statsmodels.ar_model.AR	ar
ARIMA	statsmodels.arima_model.arima	arima
VAR	statsmodels.var_model.var	未知

SVM(支持向量机)

类别	Python	R
支持向量分类器（SVC）	sklearn.svm.SVC	e1071::svm
非支持向量分类器（nonSVC）	sklearn.svm.NuSVC	未知
线性支持向量分类器(Lenear SVC)	sklearn.svm.LinearSVC	未知

基于临近

类别	Python	R
k-临近分类器	sklearn.neighbors.KNeighborsClassifier	未知
半径临近分类器	sklearn.neighbors.RadiusNeighborsClassifier	未知
临近重心分类器(Nearest Centroid Classifier)	sklearn.neighbors.NearestCentroid	未知

贝叶斯

类别	Python	R
朴素贝叶斯	sklearn.naive_bayes.GaussianNB	e1071::naiveBayes
多维贝叶斯(Multinomial Naive Bayes)	sklearn.naive_bayes.MultinomialNB	未知
伯努利贝叶斯(Bernoulli Naive Bayes)	sklearn.naive_bayes.BernoulliNB	未知

决策树

类别	Python	R
决策树分类器	sklearn.tree.DecisionTreeClassifier	tree::tree, party::ctree
决策树回归器	sklearn.tree.DecisionTreeRegressor	tree::tree, party::tree
随机森林分类器	sklearn.ensemble.RandomForestClassifier	randomForest::randomForest, party::cforest
随机森林回归器	sklearn.ensemble.RandomForestRegressor	randomForest::randomForest, party::cforest

聚类

类别	Python	R
kmeans	scipy.cluster.kmeans.kmeans	kmeans::kmeans
分层聚类	scipy.cluster.hierarchy.fcluster	(stats::)hclust

关联规则

类别	Python	R
apriori算法	apriori(可靠性未知，不支持py3), PyFIM(可靠性未知，不可用pip安装)	arules::apriori
FP-Growth算法	fp-growth(可靠性未知，不支持py3), PyFIM(可靠性未知，不可用pip安装)	未知

神经网络

类别	Python	R
神经网络	neurolab.net, keras.*	nnet::nnet, nueralnet::nueralnet
深度学习	keras.*	不可靠包居多以及未知

文本基本操作

类别	Python	R
tokenize	nltk.tokenize(英), jieba.tokenize(中)	tau::tokenize
stem	nltk.stem	RTextTools::wordStem, SnowballC::wordStem
stopwords	stop_words.get_stop_words	tm::stopwords, qdap::stopwords
中文分词	jieba.cut, smallseg, Yaha, finalseg, genius	jiebaR
TFIDF	gensim.models.TfidfModel	未知

Python 数据挖掘工具包整理的更多相关文章

python数据挖掘领域工具包
原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块:Numpy和Sc ...
花了三个月终于把所有的 Python 库全部整理了！可以说很全面了
库名称简介 Chardet字符编码探测器,可以自动检测文本.网页.xml的编码. colorama主要用来给文本添加各种颜色,并且非常简单易用. Prettytable主要用于在终端或浏览器端构建格式 ...
Python全部库整理
库名称简介 Chardet字符编码探测器,可以自动检测文本.网页.xml的编码. colorama主要用来给文本添加各种颜色,并且非常简单易用. Prettytable主要用于在终端或浏览器端构建格式 ...
[转载]花了半个月，终于把Python库全部整理出来了，非常全面
库名称简介 Chardet 字符编码探测器,可以自动检测文本.网页.xml的编码. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable 主要用于在终端或浏览器端构 ...
Python数据挖掘和机器学习
-----------------------------2017.8.9--------------------------------- 先占个坑在接下来的一个半月里(即从现在到十一) 我将结合 ...
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析今天主要讲述的内容是关于决策树的知识,主要包括以下内容:1.分类及决策树算法介绍2.鸢尾花卉数据集介绍3.决策树实现鸢尾数据集分析.希望这篇 ...
【转】常见的python机器学习工具包比较
http://algosolo.com/ 分析对比了常见的python机器学习工具包,包括: scikit-learn mlpy Modular toolkit for Data Processing ...
python学习笔记整理——字典
python学习笔记整理数据结构--字典无序的 {键:值} 对集合用于查询的方法 len(d) Return the number of items in the dictionary d. 返 ...
!!对python列表学习整理列表及数组详细介绍
1.Python的数组分三种类型:(详细见 http://blog.sina.com.cn/s/blog_6b783cbd0100q2ba.html) (1) list 普通的链表,初始化后可以通过特 ...

随机推荐

C语言的常用字符串操作函数（一）
一直做的是单片机相关的程序设计,所以程序设计上更偏向底层,对于字符串的操作也仅限于液晶屏幕上的显示等工作,想提高下字符串操作的水平,而不是笨拙的数组替换等方式,翻看帖子发现C语言的字符串操作函数竟然这 ...
Eclipse没有提示了，按Alt+/ 也无代码提示
1.菜单window->Preferences->Java->Editor->Content Assist->Enable auto activation 选项要打上勾 ...
Linux RSS/RPS/RFS/XPS对比
RSS适合于多队列网卡,把不同的流分散的不同的网卡多列中,至于网卡队列由哪个cpu处理还需要绑定网卡队列中断与cpu RPS:适合于单队列网卡或者虚拟网卡,把该网卡上的数据流让多个cpu处理 RFS: ...
在Scholarspace可视化交互式分析中遇到的几个问题及处理方法
1 JavaScript中的变量作用范围 JS中的变量作用域是以函数为单位的,因为在两个for循环中,不能用同一个变量命名作为循环的控制条件,不然会陷入死循环退出不来.曾经为了处理这个问题花看一天的时 ...
oracle Database Link
1 Database Link 的创建: 有两个数据库服务器A/B, 其中A的IP地址为172.20.36.245, 服务器B为本机.服务器B上的数据库实例名为ORCL,在本机上的服务监听配置上有服务 ...
C语言_cmd_pause
再C语言里面使用system函数调用pause. system("pause"); 会显示请按任意键继续. . . system("pause ->nul&q ...
解决VS2010中winsock.h与winsock2.h冲突(重复定义)——转载
解决VS2010中winsock.h与winsock2.h冲突(重复定义)——转载当这两个头文件顺序颠倒时,编译会出现许多莫名其妙的错误,错误如下: 1>…\include\ws2def.h( ...
QTP连接MYSQL数据库方法
1.首先安装mysql数据驱动,qtp在windows系统下操作连接mysql,所以下载mysql-connector-odbc- 5.1.8-win32.msi 下载地址:http://mysq ...
Git 开发新的功能分支
软件开发中,总有无穷无尽的新的功能要不断的添加进来.添加一个新功能时,你肯定不希望因为一些实验性质的代码把主分支搞乱了, 所以每添加一个新功能,最好新建一个feature分支,在上面开发,完成后,合并 ...
Concepts and Tricks In CNN
转自:http://blog.cvmarcher.com/posts/2015/05/17/cnn-trick/ 这篇文章主要讲一下Convolutional Neural Network(CNN)里 ...

Python 数据挖掘 工具包整理

连接器与io

数据库

IO类

统计类

描述性统计

回归

假设检验

时间序列

SVM(支持向量机)

基于临近

贝叶斯

决策树

聚类

关联规则

神经网络

文本基本操作

Python 数据挖掘 工具包整理的更多相关文章

随机推荐

热门专题

Python 数据挖掘工具包整理

Python 数据挖掘工具包整理的更多相关文章