敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路.工具与方法) [美]Russell Jurney(拉塞尔·朱尔尼) 著   冯文中 朱洪波 译 ISBN 978-7-121-23619-8 2014年7月出版 定价:49.00元 184页 16开 编辑推荐 对大数据的挖掘需要投入大量的人力和时间.怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用. 使用诸如Python.…
1 简介 在数据分析任务中,从原始数据读入,到最后分析结果出炉,中间绝大部分时间都是在对数据进行一步又一步的加工规整,以流水线(pipeline)的方式完成此过程更有利于梳理分析脉络,也更有利于查错改正.pdpipe作为专门针对pandas进行流水线化改造的模块,为熟悉pandas的数据分析人员书写优雅易读的代码提供一种简洁的思路,本文就将针对pdpipe的用法进行介绍. 2 pdpipe常用功能介绍 pdpipe的出现极大地对数据分析过程进行规范,其主要拥有以下特性: 简洁的语法逻辑 在流水线…
本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中我们对geopandas中的数据结构展开了较为全面的学习,其中涉及到面积长度等计算的过程中提到了具体的计算结果与所选择的投影坐标系关系密切,投影坐标系选择的不恰当会带来计算结果的偏差,直接关乎整个分析过程的有效与否. 作为基于geopandas的空间数据分析系列文章的第二篇,通过本文你将会学习到geopandas中的坐标参考系管理.…
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云开发) 我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的.所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串.下面便是我们需要过滤的数据: 183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GE…
文章提纲 全书总评 C01.Python 介绍 Python 版本 Python 解释器 Python 之禅 C02.Python 基础知识 基础知识 流程控制: 函数及异常 函数: 异常 字符串 获取键盘输入: 字符串处理 字符串操作 正则表达式 C05. 容器(Container)与集合(Collections) 元组(Tuple) 列表(List) 字典(Dictionary) 集合(Collections) C06.Python 标准库 数学模块:math 时间模块:time,datet…
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介…
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程.偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学.偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学. 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R…
原文链接:Data Science For Banking & Insurance 如果不能正常访问,请点击备份获取. 在银行和保险行业应用数据科学 互联网巨头和金融技术创业时代的求生和发展 介绍 在数个世纪的进程中,银行和保险行业开发出的程序.产品和基础设施,塑造了整个人类的经济史. 但是现在,他们正面临着消亡的威胁,而挑战者们出现在世界舞台上只是几十年的事,甚至其中几个就出现在短短几年前.尽管如此,却正是这些后来者正在重新制定金融服务的行业规则.这些挑战者包括像 Google.亚马逊.Fac…
注:很早之前就打算专门写一篇与Python数据可视化相关的博客,对一些基本概念和常用技巧做一个小结.今天终于有时间来完成这个计划了! 0. Python中常用的可视化工具 Python在数据科学中的地位,不仅仅是因为numpy, scipy, pandas, scikit-learn这些高效易用.接口统一的科学计算包,其强大的数据可视化工具也是重要组成部分.在Python中,使用的最多的数据可视化工具是matplotlib,除此之外还有很多其他可选的可视化工具包,主要包括以下几大类: matpl…
原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions ---------------------------------------------------------------- 泰坦尼克数据科学解决方案: 1. 工作流程步骤: 在 Data Science Solutions book 这本书里,描述了在解决一个竞赛问题时所需要做的具体工作流程: 问题的定义 获取训练数据以及测试数据 加工.准备以及…