Python与R的区别和联系

转自：http://bbs.pinggu.org/thread-3078817-1-1.html

有人说Python和R的区别是显而易见的，因为R是针对统计的，python是给程序员设计的，其实这话对Python多多少少有些不公平。2012年的时候我们说R是学术界的主流，但是现在Python正在慢慢取代R在学术界的地位。不知道是不是因为大数据时代的到来。

Python与R相比速度要快。Python可以直接处理上G的数据；R不行，R分析数据时需要先通过数据库把大数据转化为小数据（通过groupby）才能交给R做分析，因此R不可能直接分析行为详单，只能分析统计结果。所以有人说：Python=R+SQL/Hive，并不是没有道理的。

Python的一个最明显的优势在于其胶水语言的特性，很多书里也都会提到这一点，一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果，用R几个小时也出不来，8G内存全部占满)。但是，凡事都不绝对，如果R矢量化编程做得好的话（有点小难度），会使R的速度和程序的长度都有显著性提升。

R的优势在于有包罗万象的统计函数可以调用，特别是在时间序列分析方面，无论是经典还是前沿的方法都有相应的包直接使用。
相比之下，Python之前在这方面贫乏不少。但是，现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此，你可以高效处理非常大的时间序列，轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。可能你已经猜到了，这些工具中大部分都对金融和经济数据尤为有用，但你当然也可以用它们来分析服务器日志数据。于是，近年来，由于Python有不断改良的库（主要是pandas），使其成为数据处理任务的一大替代方案。

做过几个实验：
1. 用python实现了一个统计方法，其中用到了ctypes，multiprocess。
之后一个项目要做方法比较，又用回R，发现一些bioconductor上的包已经默认用parallel了。（但那个包还是很慢，一下子把所有线程都用掉了，导致整个电脑使用不能，看网页非常卡~）
2. 用python pandas做了一些数据整理工作，类似数据库，两三个表来回查、匹配。感觉还是很方便的。虽然这些工作R也能做，但估计会慢点，毕竟几十万行的条目了。
3. 用python matplotlib画图。pyplot作图的方式和R差异很大，R是一条命令画点东西，pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬，默认颜色比较少，之后可用html的颜色，但是名字太长了~。pyplot 的legend比R 好用多了，算是半自动化了。pyplot画出来后可以自由拉升缩放，然后再保存为图片，这点比R好用。

总的来说Python是一套比较平衡的语言，各方面都可以，无论是对其他语言的调用，和数据源的连接、读取，对系统的操作，还是正则表达和文字处理，Python都有着明显优势。而R是在统计方面比较突出。但是数据分析其实不仅仅是统计，前期的数据收集，数据处理，数据抽样，数据聚类，以及比较复杂的数据挖掘算法，数据建模等等这些任务，只要是100M以上的数据，R都很难胜任，但是Python却基本胜任。

结合其在通用编程方面的强大实力，我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
但世上本没有最好的软件或程序，也鲜有人能把单一语言挖掘运用到极致。尤其是很多人早先学了R，现在完全不用又舍不得，所以对于想要学以致用的人来说，如果能把R和Python相结合，就更好不过了，很早看过一篇文章——让R与Python共舞，咱们坛子里有原帖，就不多说了，看完会有更多启发。

BTW： 如果之前没有学过R，可以先学Python然后决定是不是学R，如果学了R，学Python的时候会更快上手。

Python与R的区别和联系的更多相关文章

Python中%r和%s的详解及区别_python_脚本之家
Python中%r和%s的详解及区别_python_脚本之家 https://www.jb51.net/article/108589.htm
10 种机器学习算法的要点（附 Python 和 R 代码）
本文由伯乐在线 - Agatha 翻译,唐尤华校稿.未经许可,禁止转载!英文出处:SUNIL RAY.欢迎加入翻译组. 前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关 ...
Python调用R语言
网络上经常看到有人问数据分析是学习Python好还是R语言好,还有一些争论Python好还是R好的文章.每次看到这样的文章我都会想到李舰和肖凯的<数据科学中的R语言>,书中一直强调,工具不 ...
Python与R的争锋：大数据初学者该怎样选？
在当下,人工智能的浪潮席卷而来.从AlphaGo.无人驾驶技术.人脸识别.语音对话,到商城推荐系统,金融业的风控,量化运营.用户洞察.企业征信.智能投顾等,人工智能的应用广泛渗透到各行各业,也让数据科 ...
（数据科学学习手札29）KNN分类的原理详解&Python与R实现
一.简介 KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述 ...
(转)利用Auto ARIMA构建高性能时间序列模型（附Python和R代码）
转自: 原文标题:Build High Performance Time Series Models using Auto ARIMA in Python and R 作者:AISHWARYA SI ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...
深入对比数据科学工具箱：Python和R之争
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述在真实的 ...
Error : Must specify a primary resource (JAR or python or R file)
spark-submit 报错:must specify resource 取消关注 | 1 ... 我的submit.sh内容: /bin/spark-submit \ --class abc.pa ...

随机推荐

进程初识和multiprocessing模块之Process
一.什么是进程进程就是运行中的程序进程是操作系统中最小的资源分配单位进程与进程之间的关系 : 数据隔离的进程的id:Process id = pid pid是一个全系统唯一的对某个进程的标识, ...
10.3 Vue 路由系统
Vue 路由系统简单示例 main.js import Vue from 'vue' import App from './App.vue' //https://router.vuejs.or ...
爬虫 requests 模块
requests 模块介绍使用requests可以模拟浏览器的请求, 比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) ps: requests库发 ...
xadmin后台导入 excel 功能拓展
新建 excel 文件在 xadmin 的 plugins 下添加一个 excel.py # _*_ coding:utf-8 _*_ __author__ = "yangtuo" ...
[模板]Min_25筛
用途快速($O(\frac{n^{3/4}}{logn})$)地计算一些函数f的前缀和,以及(作为中间结果的)只计算质数的前缀和一般要求f(p)是积性函数,$f(p)$是多项式的形式,且$f(p^ ...
随手记一个漂亮的code
代码从前有个代码长这样 if (a) { if (b) { c } } else { if (d) { c } } 后来长这样 if (a && b || !a && ...
分布式监控系统开发【day37】:表结构设计（二）
一.表结构关系图二.表结构需求讨论 1.主机表(Host) 1.解决了什么问题? 1.如果我不想让它监控了,就有一个开关的东西给它禁掉2.主机存活状态检测间隔 2.代码 class Host(mod ...
kubernetes云平台管理实战：集群部署（一）
一.环境规划 1.架构拓扑图 2.主机规划 3.软件版本 [root@k8s-master ~]# cat /etc/redhat-release CentOS Linux release 7.4.1 ...
迭代器模式-Iterator(Java实现)
迭代器模式-Iterator 用于访问一个集合中的各个元素, 而又不会暴露集合的内部的细节. 本文展示的例子就是, 在猫群组里, 用迭代器遍历每一只猫. 本文章的例子的继承关系图如下: 其中: Cat ...
5组I/O函数的比较

Python与R的区别和联系

Python与R的区别和联系的更多相关文章

随机推荐

热门专题