简谈-如何使用Python和R组合完成任务

概述

和那些数据科学比赛不同，在真实的数据科学中，我们可能更多的时间不是在做算法的开发，而是对需求的定义和数据的治理。所以，如何更好的结合现实业务，让数据真正产生价值成了一个更有意义的话题。

数据科学项目的完整流程通常是这样的五步骤：

需求定义=》数据获取=》数据治理=》数据分析=》数据可视化

一、需求定义

需求定义是数据科学项目和数据科学比赛的最大不同之处，在真实情景下，我们往往对目标函数、自变量、约束条件都并不清晰。需要通过访谈、论文、文档等等形式对问题进行系统地分析，将实际问题量化为可以解决的抽象问题，确定自变量、约束条件以及目标函数。在真实情景下，需求往往是多变化的，临时的，如何把握好需求成为了整个项目后续推进的关键要素。

二、数据获取

数据获取的形式主要包括：

现有数据库的调用
现有API的调用
自行设计的爬虫

在数据获取中，比较重头的一项就是爬虫的开发，这里 R 虽然开发了 rvest 包，不过比起 django-scrapy 这样完整的爬虫调度系统不禁黯然失色，所以在第一步，我建议使用Python做爬虫的开发。

三、数据治理

数据治理第一步就是数据的定义，而数据的定义通过 Python的各种ORM框架和admin系统，可以非常出色地完成数据仓库的定义和管理。通过 airflow 我们又可以很好的对ETL过程做全流程的监控。

所以，在第二步，我依然建议使用Python作为数据治理的工具。

四、数据分析

数据分析首先涉及的就是探索式分析，这一点正是R语言的强项，适宜于各种强大的数据可视化，我们可以利用R快速了解数据的整体特性，通过 data.table 和 Rcpp 我们也可以快速提升 R 的单机性能，省去了Cython写wrapper的尴尬。而Python 由于需要更多约束的分析操作，在探索式分析中相比 R 少了几分灵活性。至少是矩阵乘法我更愿意接受直观的 %*%, 而不是np.dot()。所以，第三步，我建议使用 R 完成数据的分析工作。

五、数据可视化

数据可视化本来是JS的天下，但是感谢 R语言生态中热衷于给JS做封装的开发者们，现在市面上绝大部分在BI领域会涉及到的JS库都已经被 R 语言封装好了，比如 echarts、highcharts、rcharts、d3等等。另一方面，通过 shiny，我们快速极大地简化了BI构建的流程，跳过底层jquery、boostrap、websocket等等细节，直接针对业务场景构建BI系统，帮助我们在快速构建BI原型上扫清障碍，而不是在Tornado里面辛苦地改template。显然，使用 R 做数据可视化可以大大减少我们的开发时间。所以，第四部，我也建议使用 R 完成数据可视化的工作。

总结

这样正常数据科学项目做下来，我们需要交付一个爬虫管理系统（django-scrapy）、一个数据仓库管理系统(django)、一个流程监控系统(airflow)、一个BI分析系统(shiny)，真正完成对整个数据科学项目的可监控、可维护，然后在这个过程中我们不断去迭代我们的数据产品，优化流程，完善模型，最终实现反哺业务。

总结起来，将Python作为数据科学的基础，而R作为上层建筑是一个不错的解决方案，当然这一切都建立在数据开发人员具有过硬的开发技能，否则Python和R的随意性会酿成巨大的惨案。

简谈-如何使用Python和R组合完成任务的更多相关文章

MPI简谈
MPI简谈 MPI是分布式内存系统,区别于OpenMP和Pthreads的共享内存系统.MPI是一种基于消息传递的并行编程技术,是如今最为广泛的并行程序开发方法. MPI前世今生 MPI(Messag ...
Python、R对比分析
一.Python与R功能对比分析 1.python与R相比速度要快.python可以直接处理上G的数据:R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析, ...
（数据科学学习手札23）决策树分类原理详解&Python与R实现
作为机器学习中可解释性非常好的一种算法,决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方 ...
(转)利用Auto ARIMA构建高性能时间序列模型（附Python和R代码）
转自: 原文标题:Build High Performance Time Series Models using Auto ARIMA in Python and R 作者:AISHWARYA SI ...
Python调用R编程——rpy2
在Python调用R,最常见的方式是使用rpy2模块. 简介模块 The package is made of several sub-packages or modules: rpy2.rinte ...
机器学习算法的基本知识（使用Python和R代码）
本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...
简谈Java语言的继承
Java语言的继承这里简谈Java语言的三大特性之二——继承. Java语言的三大特性是循序渐进的.是有顺序性的,应该按照封装-->继承-->多态这样的顺序依次学习继承的定义百度百科 ...
.NET简谈接口
自从面向对象开发方式的出现,抽象的概念就开始日新月异的发展,面向对象编程.面向接口编程.面向组件编程等等:这一系列的概念都是软件工程所追求的思想范畴,高类聚低耦合. 今天我要简谈的是面向对象里面非常重 ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...

随机推荐

在Ubuntu Linux下制作Windows 启动安装 USB盘
最近想 ,在Ubuntu上刻录个windows的安装U盘,在网上看了些资料,不过好多都说的很模糊,于是乎,我走了不少弯路.这里记录下来,希望了帮到大家. 首先你的有个USB吧,这里我们假定USB在ub ...
multiSelect 下拉多选插件
multiSelect是一款很好用的下拉多选插件,可以在下拉框中实现多选框,全选及取消全选等方法.使用方法:1.引用 multiSelect.css及 multiSelect.js.下载地址 http ...
wx模块小实例
功能介绍: 查询数据库表数据,提取数据并显示 main.py(执行文件) #coding:gbk __author__ = 'Hito' import querySmscode import wx c ...
(102, "Incorrect syntax near '-'.DB-Lib error message 102, severity 15:\nGen
python 调用MSSQL存储过程,运行时报错 sql="exec spname %s,%s"%(param1,param2) 这是错误的调用存储过程的语句,param1和par ...
（转载）一个生动的NIO描述
原文地址:http://blog.csdn.net/zhouhl_cn/article/details/6568119 传统的socket IO中,需要为每个连接创建一个线程,当并发的连接数量非常巨大 ...
【转】请求处理机制其一：进入Django前的准备
一个 Request 到达了! 首先发生的是一些和 Django 有关(前期准备)的其他事情,分别是: 如果是 Apache/mod_python 提供服务,request 由 mod_python ...
Eclipse 中svn 分支，主干合并与同步：
Eclipse 中svn的合并与同步: 1. 从主干拉取到分支: 然后一直下一步,到完成就OK了. 2. 从分支代码合并到主干: 2.1.先将本地需要提交更新的代码提交更新到svn分支去 2.2. ...
JS把命名空间传递给模块形式
//方法依赖 jquery 或者其他有扩展方法 extend() 类库例如: underscore.js 链接地址 http://underscorejs.org var app = {}; ( ...
Android 5.0及以上版本使用webview不能存储第三方Cookies解决方案
Android 5.0以上的手机使用原生WebView浏览网页,在进行登录的时候会提示验证码错误,通过查找5.0以上系统的api文档,发现5.0以上版本的webview做了较大的改动,如:同步cook ...
redis 3.2 报错 Redis protected-mode 配置文件没有真正启动
(error) DENIED Redis is running in protected mode because protected mode is enabled Redis protected- ...

简谈-如何使用Python和R组合完成任务

简谈-如何使用Python和R组合完成任务的更多相关文章

随机推荐

热门专题