PyconChina2015丁来强Pydata Ecosystem
pydata ecosystem基于python的数据分析生态系统
0.
Agenda
Data Science ecosystem
Data Wrangling
Data Analysis
Data Visualization
3 Real Case Demo
Bigger Data Consideration
Spark Data Frame Demo
1.
Data Science Process
Data Collection
Databases
Applications
3rdpart data
Data Wrangling
Enrichment
ETL/Blending
Data
Intergration
Data Analysis
insights
Statistics
Visualization
Modeling
2.
Data Wrangling
Data scientists spend 80% of their time convert data into a usable form.
Clean data:handle messy or missed data
Transform and Extract data
Merge,Join and Reshape data
Time series Resampling
3.Data Analysis
Interactive Data Exploration
Rich visualzation
Satistical Modeling
4.python vs R
TIOBE Index
5.Pros and Cons
R+visualization = perfect match
R,Lingua Franca of Statistics(develop by Statistics)
R is slow
Python is multi-purpose language
Python is challenger for either visualization or essential R packages replacement
6.PyData Ecosystem
Fundamental Libs
numpy\scipy
AdvancedLibs
pandas\sympy\Scikit-lean\xray\Blaze
7.Numpy
High performance N-Arrary operation lib
高性能多维
8.pands
打包
9.Blaze
High-level user interface for databases and array computing systems
10.Spark
11.DataFrame
12.matplotlib
13.seaborn
14.Bokeh
15.IPython
PyconChina2015丁来强Pydata Ecosystem的更多相关文章
- 我大中华微软MVP中国区人才库
		刘海峰:国内知名微软开源技术网站51Aspx 创始人,十年以上的Asp.net从业经验,微软MSDN特约讲师.Teched讲师.ImagineCup大赛评委.人大出版社研修班特约讲师,曾多次受邀访问美 ... 
- IIS的ISAPI接口简介
		ISAPI(Internet Server Application Programming Interface)作为一种可用来替代CGI的方法,是由微软和Process软件公司联合提出的Web服务 ... 
- 获取考试成绩的sql语句
		as score,t_answer.id,t_answer.exams_name,t_answers.answer_id,t_answers.questions_id,t_answers.questi ... 
- nyist 488 素数环(搜索+回溯)
		 素数环 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描写叙述 有一个整数n,把从1到n的数字无反复的排列成环,且使每相邻两个数(包含首尾)的和都为素数,称为素数环. ... 
- zipline框架--简介
		Zipline is a Pythonic algorithmic trading library. It is an event-driven system for backtesting. Zip ... 
- 我大中华微软MVP中国区人才库(转)
		出处:http://www.genshuixue.com/i-cxy/p/15349735 刘海峰:国内知名微软开源技术网站51Aspx 创始人,十年以上的asp.net从业经验,微软MSDN特约讲师 ... 
- 找球号(三)南阳acm528(异或' ^ ')
		找球号(三) 时间限制:2000 ms | 内存限制:10000 KB 难度:2 描述 xiaod现在正在某个球场负责网球的管理工作.为了方便管理,他把每个球都编了号,且每个编号的球的总个数都 ... 
- 素数环 南阳acm488(回溯法)
		素数环 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描述 有一个整数n,把从1到n的数字无重复的排列成环,且使每相邻两个数(包括首尾)的和都为素数,称为素数环. 为了简 ... 
- CSDN优秀博客连接,博客之星连接。
		点击链接 获得[红杏出墙]插件,FQ上网无压力!谷歌搜索无压力! 2013年度CSDN十大博客之星 TOP 作者 专注领域 博客地址 邹晓艺 机器学习及算法 zouxy09 2 王然 潜在的集大成者 ... 
随机推荐
- 无法在web服务器上启动调试,服务器不支持对ASP.NET 或ATL Server应用程序进行调试。
			无法在web服务器上启动调试,服务器不支持对ASP.NET 或ATL Server应用程序进行调试. a>.DCOM配置里的属性灰色不可用的解决方法, 1>.管理工具->组件服务 ... 
- 调试存储过程时提示ORA-20000: ORU-10027: buffer overflow
			下午的时候在 PL/SQl Developer 10.0.5.1710 上调试壹個存储过程,在调试的时候使用了比较多的 DBMS_OUTPUT.PUT_LINE 作为打印日志的方式,结果没过多久 PL ... 
- Hadoop--有关Hadoop的启动
			这里我们已经安装好Hadoop,并且已经配置好了环境变量. 安装相关文章:http://blog.csdn.net/gaopeng0071/article/details/10216303 参考网站: ... 
- JSTL与EL(转)
			基本使用 <c:forEach items="${deptList}" var="dept"> <div ... 
- 表格java代码的相关知识积累
			本文主要收集各大博客中的java表格 用JSP创建一个表格模板 . 项目中要用到一些展示信息的表格,表头不固定,表格内容是即时从后台取的:考虑到复用性,笔者用jsp编写了一个表格模板,可以从reque ... 
- Node log4js
			一个完善的项目,日志是必不可少的一部分,在node开发中,调试成了让开发者头疼的部分,因此日志成为在node中帮助调试的一个重要模块. 一.Node使用Log4js 1.使用npm工具,在命令行中 执 ... 
- BestCoder Round #61 (div.2)
			Numbers Accepts: 571 Submissions: 1212 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/26 ... 
- http://blog.csdn.net/baimafujinji/article/details/10931621
			书接上文,本文章是该系列的第二篇,按照总纲中给出的框架,本节介绍三个中值定理,包括它们的证明及几何意义.这三个中值定理是高等数学中非常基础的部分,如果读者对于高数的内容已经非常了解,大可跳过此部分.当 ... 
- Android学习笔记(十七)——使用意图调用内置应用程序
			使用意图调用内置应用程序 1.创建一个新的Android项目并命名为Intents,在main.xml文件里加入两个Button: <Button android:id="@+id/b ... 
- 数据库SQL基础知识
			数据库: 结构化查询语言(Structured Query Language)简称SQL: 数据库管理系统(Database Management System)简称DBMS: 数据库管理 ... 
