Python 数据挖掘 工具包整理
连接器与io
数据库
| 类别 | Python | R |
|---|---|---|
| MySQL | mysql-connector-python(官方) | RMySQL |
| Oracle | cx_Oracle | ROracle |
| MongoDB | pymongo | RMongo, rmongodb |
| ODBC | pyodbc | RODBC |
IO类
| 类别 | Python | R |
|---|---|---|
| excel | xlsxWriter, pandas.(from/to)_excel, openpyxl | openxlsx::read.xlsx(2), xlsx::read.xlsx(2) |
| csv | csv.writer | read.csv(2), read.table |
| json | json | jsonlite |
| 图片 | PIL | jpeg, png, tiff, bmp |
统计类
描述性统计
| 类别 | Python | R |
|---|---|---|
| 描述性统计汇总 | scipy.stats.descirbe | summary |
| 均值 | scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean | mean |
| 中位数 | numpy.median, numpy.nanmediam, pandas.Series.median | median |
| 众数 | scipy.stats.mode, pandas.Series.mode | 未知 |
| 分位数 | numpy.percentile, numpy.nanpercentile, pandas.Series.quantile | quantile |
| 标准差 | scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std | sd |
| 方差 | numpy.var, pandas.Series.var | var |
| 变异系数 | scipy.stats.variation | 未知 |
| 协方差 | numpy.cov, pandas.Series.cov | cov |
| (Pearson)相关系数 | scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr | cor |
| 峰度 | scipy.stats.kurtosis, pandas.Series.kurt | e1071::kurtosis |
| 偏度 | scipy.stats.skew, pandas.Series.skew | e1071::skewness |
| 直方图 | numpy.histogram, numpy.histogram2d, numpy.histogramdd | 未知 |
回归
| 类别 | Python | R |
|---|---|---|
| 普通最小二乘法回归(ols) | statsmodels.ols, sklearn.linear_model.LinearRegression | lm, |
| 广义线性回归(gls) | statsmodels.gls | nlme::gls, MASS::gls |
假设检验
| 类别 | Python | R |
|---|---|---|
| t检验 | statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel | t.test |
| Pearson相关系数检验 | scipy.stats.pearsonr | cor.test |
时间序列
| 类别 | Python | R |
|---|---|---|
| AR | statsmodels.ar_model.AR | ar |
| ARIMA | statsmodels.arima_model.arima | arima |
| VAR | statsmodels.var_model.var | 未知 |
SVM(支持向量机)
| 类别 | Python | R |
|---|---|---|
| 支持向量分类器(SVC) | sklearn.svm.SVC | e1071::svm |
| 非支持向量分类器(nonSVC) | sklearn.svm.NuSVC | 未知 |
| 线性支持向量分类器(Lenear SVC) | sklearn.svm.LinearSVC | 未知 |
基于临近
| 类别 | Python | R |
|---|---|---|
| k-临近分类器 | sklearn.neighbors.KNeighborsClassifier | 未知 |
| 半径临近分类器 | sklearn.neighbors.RadiusNeighborsClassifier | 未知 |
| 临近重心分类器(Nearest Centroid Classifier) | sklearn.neighbors.NearestCentroid | 未知 |
贝叶斯
| 类别 | Python | R |
|---|---|---|
| 朴素贝叶斯 | sklearn.naive_bayes.GaussianNB | e1071::naiveBayes |
| 多维贝叶斯(Multinomial Naive Bayes) | sklearn.naive_bayes.MultinomialNB | 未知 |
| 伯努利贝叶斯(Bernoulli Naive Bayes) | sklearn.naive_bayes.BernoulliNB | 未知 |
决策树
| 类别 | Python | R |
|---|---|---|
| 决策树分类器 | sklearn.tree.DecisionTreeClassifier | tree::tree, party::ctree |
| 决策树回归器 | sklearn.tree.DecisionTreeRegressor | tree::tree, party::tree |
| 随机森林分类器 | sklearn.ensemble.RandomForestClassifier | randomForest::randomForest, party::cforest |
| 随机森林回归器 | sklearn.ensemble.RandomForestRegressor | randomForest::randomForest, party::cforest |
聚类
| 类别 | Python | R |
|---|---|---|
| kmeans | scipy.cluster.kmeans.kmeans | kmeans::kmeans |
| 分层聚类 | scipy.cluster.hierarchy.fcluster | (stats::)hclust |
关联规则
| 类别 | Python | R |
|---|---|---|
| apriori算法 | apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | arules::apriori |
| FP-Growth算法 | fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | 未知 |
神经网络
| 类别 | Python | R |
|---|---|---|
| 神经网络 | neurolab.net, keras.* | nnet::nnet, nueralnet::nueralnet |
| 深度学习 | keras.* | 不可靠包居多以及未知 |
文本基本操作
|
类别 |
Python | R |
|---|---|---|
| tokenize | nltk.tokenize(英), jieba.tokenize(中) | tau::tokenize |
| stem | nltk.stem | RTextTools::wordStem, SnowballC::wordStem |
| stopwords | stop_words.get_stop_words | tm::stopwords, qdap::stopwords |
| 中文分词 | jieba.cut, smallseg, Yaha, finalseg, genius | jiebaR |
| TFIDF | gensim.models.TfidfModel | 未知 |
Python 数据挖掘 工具包整理的更多相关文章
- python数据挖掘领域工具包
原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块:Numpy和Sc ...
- 花了三个月终于把所有的 Python 库全部整理了!可以说很全面了
库名称简介 Chardet字符编码探测器,可以自动检测文本.网页.xml的编码. colorama主要用来给文本添加各种颜色,并且非常简单易用. Prettytable主要用于在终端或浏览器端构建格式 ...
- Python全部库整理
库名称简介 Chardet字符编码探测器,可以自动检测文本.网页.xml的编码. colorama主要用来给文本添加各种颜色,并且非常简单易用. Prettytable主要用于在终端或浏览器端构建格式 ...
- [转载]花了半个月,终于把Python库全部整理出来了,非常全面
库名称简介 Chardet 字符编码探测器,可以自动检测文本.网页.xml的编码. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable 主要用于在终端或浏览器端构 ...
- Python数据挖掘和机器学习
-----------------------------2017.8.9--------------------------------- 先占个坑 在接下来的一个半月里(即从现在到十一) 我将结合 ...
- Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析 今天主要讲述的内容是关于决策树的知识,主要包括以下内容:1.分类及决策树算法介绍2.鸢尾花卉数据集介绍3.决策树实现鸢尾数据集分析.希望这篇 ...
- 【转】常见的python机器学习工具包比较
http://algosolo.com/ 分析对比了常见的python机器学习工具包,包括: scikit-learn mlpy Modular toolkit for Data Processing ...
- python学习笔记整理——字典
python学习笔记整理 数据结构--字典 无序的 {键:值} 对集合 用于查询的方法 len(d) Return the number of items in the dictionary d. 返 ...
- !!对python列表学习整理列表及数组详细介绍
1.Python的数组分三种类型:(详细见 http://blog.sina.com.cn/s/blog_6b783cbd0100q2ba.html) (1) list 普通的链表,初始化后可以通过特 ...
随机推荐
- C语言的常用字符串操作函数(一)
一直做的是单片机相关的程序设计,所以程序设计上更偏向底层,对于字符串的操作也仅限于液晶屏幕上的显示等工作,想提高下字符串操作的水平,而不是笨拙的数组替换等方式,翻看帖子发现C语言的字符串操作函数竟然这 ...
- Eclipse没有提示了,按Alt+/ 也无代码提示
1.菜单window->Preferences->Java->Editor->Content Assist->Enable auto activation 选项要打上勾 ...
- Linux RSS/RPS/RFS/XPS对比
RSS适合于多队列网卡,把不同的流分散的不同的网卡多列中,至于网卡队列由哪个cpu处理还需要绑定网卡队列中断与cpu RPS:适合于单队列网卡或者虚拟网卡,把该网卡上的数据流让多个cpu处理 RFS: ...
- 在Scholarspace可视化交互式分析中遇到的几个问题及处理方法
1 JavaScript中的变量作用范围 JS中的变量作用域是以函数为单位的,因为在两个for循环中,不能用同一个变量命名作为循环的控制条件,不然会陷入死循环退出不来.曾经为了处理这个问题花看一天的时 ...
- oracle Database Link
1 Database Link 的创建: 有两个数据库服务器A/B, 其中A的IP地址为172.20.36.245, 服务器B为本机.服务器B上的数据库实例名为ORCL,在本机上的服务监听配置上有服务 ...
- C语言_cmd_pause
再C语言里面使用system函数调用pause. system("pause"); 会显示 请按任意键继续. . . system("pause ->nul&q ...
- 解决VS2010中winsock.h与winsock2.h冲突(重复定义)——转载
解决VS2010中winsock.h与winsock2.h冲突(重复定义)——转载 当这两个头文件顺序颠倒时,编译会出现许多莫名其妙的错误,错误如下: 1>…\include\ws2def.h( ...
- QTP连接MYSQL数据库方法
1.首先安装mysql数据驱动,qtp在windows系统下操作连接mysql,所以下载mysql-connector-odbc- 5.1.8-win32.msi 下载地址:http://mysq ...
- Git 开发新的功能分支
软件开发中,总有无穷无尽的新的功能要不断的添加进来.添加一个新功能时,你肯定不希望因为一些实验性质的代码把主分支搞乱了, 所以每添加一个新功能,最好新建一个feature分支,在上面开发,完成后,合并 ...
- Concepts and Tricks In CNN
转自:http://blog.cvmarcher.com/posts/2015/05/17/cnn-trick/ 这篇文章主要讲一下Convolutional Neural Network(CNN)里 ...