Coursera, Big Data 1, Introduction (week 1/2)
Status: week 2 done.
Week 1, 主要讲了大数据的的来源 - 机器产生的数据,人产生的数据(比如社交软件上的update, 一般是unstructed data), 组织产生的数据(一般是structured data)
怎么把unstructured data 转化成 structured data?
利用 Hadoop, Storm, Spark and NoSQL. Hadoop 能解决data量大的问题,因为它是支持分布式计算的。 Storm 和 Spark 能分析像社交应用这种短时间内产生大量实时数据的情况, 还能和任何类型的DB集成.
传统的数据仓库是下面这样的。structed data 存在data warehouse里.

而现在的大数据时代,很多企业都是采用hybrid方案 - 把少量数据存在structured DB里,而更多的数据放在云上的 NoSQL DB里.
下面是两种NoSQL类型的数据库

Neo4j - graph db
Cassandra - key value db
Week 2
big data 的特征可以用几个V来概括.
Volume - Scale of data
Velocity (=Speed) - Analysis of streaming data (数据产生快,存储快,处理快)
Variety - Different forms of data
Veracity (=Quality) - Uncertainty of data
Valence - Connectness of big data in the forms of graphs


Getting value out of big data: 分析 big data, 形成 insight, 进而转化为 Action.
一个data stientist 应该具有相关的 technical skills, bussiness skills 和 soft skills, 并且因为需要的技能很多,最好形成团队来做一件事情.
Buiding a big data strategy:

strategy 要成功,需要管理层的支持,一个多技能的团队,相应的培训,一个测试idea 的mini lab, 移除存取数据的障碍
数据科学的5个P

Steps in the data science process
1. 获取原数据
从哪里获取,通过什么技术?
数据有结构化和非结构化的,来自不同来源. 结构化数据可以通过SQL 读取. 来自文件的data 可以通过Python等脚本语言读取. 远程数据(格式可能是xml, html, json ) 通过web service (rest, soap, web socket) 读取. 非结构化数据可以通过非结构数据库提供的API或者web service 来读取 (如下)

2. 准备数据
2.1 Explore data - understand your data (分析correlation, 画图表)
2.2 Pre-process (clean, integrate, package) :
Clean
Transform (Scaling, feature selection, Dimensionality Reduction)
3. 分析数据 (选分析技术,创建model)
要分析具体是什么问题然后选取对应的分析技术,比如,regression, classification, clustering, graph analytics, association analysis
4. 报告分析结果
报告什么内容,用什么技术 (R, Python 都有很好的画图功能)
5. Action - Turn insight into action
Coursera, Big Data 1, Introduction (week 1/2)的更多相关文章
- Coursera, Big Data 1, Introduction (week 3)
什么是分布式文件系统?为什么需要分布式文件系统? 如果文件系统可以管理用网络连接的很多个存储单元,叫分布式文件系统. 分布式文件系统提供了数据可扩展性,容错性,高并发. 这些是传统文件系统不具有的. ...
- Building Applications with Force.com and VisualForce(Dev401)(十六):Data Management: Introduction to Upsert
Dev401-017:Data Management: Introduction to Upsert Module Objectives1.Define upsert.2.Define externa ...
- Coursera, Big Data 2, Modeling and Management Systems (week 1/2/3)
Introduction to data management 整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis ...
- Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)
Week 1 Machine Learning with Big Data KNime - GUI based Spark MLlib - inside Spark CRISP-DM Week 2, ...
- Coursera, Big Data 3, Integration and Processing (week 5)
Week 5, Big Data Analytics using Spark Programing in Spark Spark Core: Programming in Spark us ...
- Coursera, Big Data 3, Integration and Processing (week 4)
Week 4 Big Data Precessing Pipeline 上图可以generalize 成下图,也就是Big data pipeline some high level processi ...
- Coursera, Big Data 3, Integration and Processing (week 1/2/3)
This is the 3rd course in big data specification courses. Data model reivew 1, data model 的特点: Struc ...
- Coursera, Big Data 2, Modeling and Management Systems (week 4/5/6)
week4 streaming data format 下面讲 data lakes schema-on-read: 从数据源读取raw data 直接放到 data lake 里,然后再读到mode ...
- Coursera, Big Data 4, Machine Learning With Big Data (week 3/4/5)
week 3 Classification KNN :基本思想是 input value 类似,就可能是同一类的 Decision Tree Naive Bayes Week 4 Evaluating ...
随机推荐
- jconsole 连接 wildfly 10 监控
1,远程wildfly服务器: 访问:http://211.100.75.242:9990 按照提示添加用户,重启后可以登录进入.成功. 2,省事做法.本地解压wildfly服务器,进入wildfly ...
- 遍历HTML DOM 树
<!-- NodeIterator --> <!DOCTYPE html> <html> <head> <meta charset="u ...
- 美丽的webpack-bundle-analyzer
webpack-bundle-analyzer -- Webpack 插件和 CLI 实用程序,她可以将打包后的内容束展示为方便交互的直观树状图,让我们知道我们所构建包中真正引入的内容: 我们可以借助 ...
- Druid 配置及内置监控,Web页面查看监控内容 【我改】
转: Druid 配置及内置监控,Web页面查看监控内容 1.配置Druid的内置监控 首先在Maven项目的pom.xml中引入包 1 2 3 4 5 <dependency> ...
- postman 请求带cookie
以亚马逊为例,我抓包随便看一个返回是json数据格式的一个接口,比如随便点一个,我的订单 随便找一条,然后复制url过滤 右键,copy下url 将url放入filter过滤: 在postman里面, ...
- STL学习笔记:空间配置器allocator
allocator必要接口: allocator::value_type allocator::pointer allocator::const_pointer allocator::referenc ...
- C# WebApi过滤器(开发接口必备利器)
在WEB Api中,引入了面向切面编程(AOP)的思想,在某些特定的位置可以插入特定的Filter进行过程拦截处理.引入了这一机制可以更好地践行DRY(Don’t Repeat Yourself)思想 ...
- 【强大的视频编辑工具】Adobe Premiere Pro CC 2019 for Mac
[简介] PR CC是视频编辑爱好者和专业人士必不可少的视频编辑工具.它可以提升您的创作能力和创作自由度,它是易学.高效.精确的视频剪辑软件.PR CC提供了采集.剪辑.调色.美化音频.字幕添加.输出 ...
- 5款Mac极速下载工具推荐和下载
最近几年用到下载工具的情况其实很少了,比如几年前我们可能经常用下载工具下载视频.音乐.图书等资源,但今天的我们更多的在线看视频.在线听音乐了,偶尔用到下载的时候直接用浏览器自带的下载工具也完全够用了, ...
- mysql常用快速查询修改操作
mysql常用快速查询修改操作 一.查找并修改非innodb引擎为innodb引擎 # 通用操作 mysql> select concat('alter table ',table_schema ...
