Intro

process 就是 The process component is where services manipulate data into needed forms. 比如补齐 null value,  make data more consumable.

analyze 比如排序、聚合、Join 及更负责的机器学习算法等,Extract key information from the data

challedges :

  5 V's - Volume, Velocity, Variaty, Veracity, Value

Volumn

  1. intro to S3 可以存大量数据

  

   "bucket + key + version" 唯一的确定了一个object

  

  2. data lake

    S3 data lake  感觉就是一个统一管理s3 buckets的工具,这样就不用单独管理各个buckets了.

    streaming data 可以通过Kinesis 流入data lake, on-premise data 也就是传统数据可以通过 Snowball 放入data lake. Glue可以用来catalog 数据湖里面的数据,一旦catalog以后就可以检索数据了.

    Lake Formation 是AWS的数据湖服务, 感觉是更像一个管理 data lake 的封装层 AWS Lake Formation is a service that organizes and curates data within Amazon S3 data lakes

  3. data storage methods, 主要讲 data warehouse的,和data lake 对应的一个概念,warehouse存的结构化数据,一般用来做BI分析. AWS 的warehouse服务叫 Amazon Redshift. 那么问题来了,我们有了 S3 data lake 又有了Redshift warehouse, 可以从两个地方同时取数据吗? 答案是肯定的,用 Amazon Redshift Spectrum 服务,感觉是把 data lake 和 warehouse 装在一起像一个数据源一样.

  

   还讲了 Amazon EMR, 就是Amazon自己的数据处理产品,包含有(Hadoop, Spark, HBase, Presto, and Flink等 )和 S3 storage 无缝集成

   Amazon除了支持HDFS, 还支持一种自己的 EMRFS 文件系统。 EMRFS文件系统能直接识别S3, 相比copy到HDFS再处理,可以省去copy的过程, 大大提高了性能.

Velocity

  batch/streaming

  Kinesis 是用来处理流数据的.  下图的细分的区别还不了解

  

  

  batch data processing

  使用Amazon EMR的一个简单方案: 最后一步看不清是Redshift

  

  EMR 需要配置的比较多,有没有更少配置项的. 那就是 Glue.  原文如下:

  This is where AWS Glue come in. AWS Glue is a fully managed ETL service that categorizes, cleans, enriches, and moves your data reliably between various data stores. AWS Glue simplifies and automates difficult and time-consuming data discovery, conversion, mapping, and job-scheduling tasks. In other words, it simplifies data processing.

  如果用Glue, 方案改成下面的,就是直接替换 EMR.

  

  Stream data processing

  Kinesis 包含了收集和处理流数据的功能,主要有以下组件 Kinesis Data Firehose, Kinesis Data Streams, and Kinesis Data Analytics, Amazon Kinesis Video Streams

  流处理架构, Firehose收集流数据,Data Analytics 过滤数据然后又发到下一个Firehose, 然后发到S3, Athena是个交互式SQL工具,query到结果放到 QuickInsight BI 工具展示.

  

  

  

Glue ? Within AWS, Hadoop frameworks are implemented using Amazon EMR and AWS Glue

Amazon Athena - is an interactive query service that makes it easy to analyze data in Amazon S3 using the standard structured query language (SQL). Athena is serverless, so there is no infrastructure to manage, and you pay only for data scanned by the queries you run. You can then use the results of these queries to produce insightful dashboards and reports using Amazon QuickSight (BI 工具).

AWS Data Analytics Fundamentals 官方课程笔记 - Intro, Volumn, Velocity的更多相关文章

  1. AWS Cloud Practioner 官方课程笔记 - Part 1

    课程笔记: 1. 3种访问AWS服务的方式: GUI, CLI, SDK 前两种是用户用来访问的,SDK可以让程序调用去访问服务. 2. core services 以及通用的use cases Am ...

  2. AWS Cloud Practioner 官方课程笔记 - Part 2

    4. AWS Architecture 设计的5个柱子,也就是5大考量点, Security, Reliability, Performance Efficiency, Cost optimizati ...

  3. vue—你必须知道的 js数据类型 前端学习 CSS 居中 事件委托和this 让js调试更简单—console AMD && CMD 模式识别课程笔记(一) web攻击 web安全之XSS JSONP && CORS css 定位 react小结

    vue—你必须知道的   目录 更多总结 猛戳这里 属性与方法 语法 计算属性 特殊属性 vue 样式绑定 vue事件处理器 表单控件绑定 父子组件通信 过渡效果 vue经验总结 javascript ...

  4. MyBatis框架 课程笔记

    MyBatis框架 课程笔记   第1章 MyBatis简介 1.1 MyBatis历史 1)MyBatis是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Softw ...

  5. Linux内核分析课程笔记(一)

    linux内核分析课程笔记(一) 冯诺依曼体系结构 冯诺依曼体系结构实际上就是存储程序计算机. 从两个层面来讲: 从硬件的角度来看,冯诺依曼体系结构逻辑上可以抽象成CPU和内存,通过总线相连.CPU上 ...

  6. Andrew 机器学习课程笔记

    Andrew 机器学习课程笔记 完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...

  7. 深度学习课程笔记(十五)Recurrent Neural Network

    深度学习课程笔记(十五)Recurrent Neural Network 2018-08-07 18:55:12 This video tutorial can be found from: Yout ...

  8. 深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO)

    深度学习课程笔记(十四)深度强化学习 ---  Proximal Policy Optimization (PPO) 2018-07-17 16:54:51  Reference: https://b ...

  9. 深度学习课程笔记(十二) Matrix Capsule

    深度学习课程笔记(十二) Matrix Capsule with EM Routing  2018-02-02  21:21:09  Paper: https://openreview.net/pdf ...

  10. 深度学习课程笔记(七):模仿学习(imitation learning)

    深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...

随机推荐

  1. Docker 总体架构图解

    Docker 的总体架构 Docker 是一个 C/S 模式的架构,后端是一个松耦合架构,模块各司其职. 下图是它的总体架构图: 1. 用户使用 Docker Client 与 Docker Daem ...

  2. java 高效递归查询树 find_in_set 处理递归树

    建表语句 DROP TABLE IF EXISTS `sys_dept`; CREATE TABLE `sys_dept` ( `id` bigint(20) NOT NULL AUTO_INCREM ...

  3. yb课堂 实战之Mybatis打通Mysql数据库 《二》

    配置mybatis连接Mysql数据库 server.port=8081 # ========================数据库相关配置===================== spring.d ...

  4. Java Executors类的9种创建线程池的方法及应用场景分析

    在Java中,Executors 类提供了多种静态工厂方法来创建不同类型的线程池.在学习线程池的过程中,一定避不开Executors类,掌握这个类的使用.原理.使用场景,对于实际项目开发时,运用自如, ...

  5. springboot实现异步调用demo

    springboot实现异步调用 异步调用特点 异步调用在开发程序中被广泛应用,在异步任务中,主线程不需要阻塞等待异步任务的完成,而是可以继续处理其他请求. 异步调用的特点如下: 非阻塞:主线程在调用 ...

  6. 做独立开发者,能在 AppStore 赚到多少钱?

    成为一名独立开发者,不用朝九晚五的上班,开发自己感兴趣的产品,在AppStore里赚美金,这可能是很多程序员的梦想,今天就来盘一盘,这个梦想实现的概率有多少. (Solo社区 投稿) 先来了解一些数据 ...

  7. 2024秋招字节跳动朝夕光年UE4客户端开发实习生岗笔试题目

    20240117更新 2024年秋招笔试题目,没想到时隔几个月字节跳动游戏业务就要寄了,本文仅供参考,请大佬多多指教 Q1字符串处理 Q2 杯子问题 桌子上有4109+1个饮料杯,这些饮料杯的编号依次 ...

  8. XAMPP的mysql启动失败:Plugin ‘FEEDBACK‘ is disabled

    安装完XAMPP后启动mysql,发现启动失败也没有任何提示,通过查看mysql_error日志,描述: 2021-08-11 18:56:53 0 [Note] InnoDB: Mutexes an ...

  9. [oeasy]python0082_VT100_演化_颜色设置_VT选项_基础色_高亮色_索引色_RGB总结

    更多颜色 回忆上次内容 上次 了解了控制序列 背后的故事 一切标准 都是 从无到有 的 就连 负责标准的组织 也是 从无到有 的 VT-05 奠定了 基础颜色 黑底 绿字 隔行 扫描 但 多颜色设置 ...

  10. elasticsearch初步使用学习

    通过使用elasticsearch,我们可以加快搜索时间(直接使用SQL的模糊查询搜索耗时会比较久,而且elasticsearch的响应耗时与数据量关系不大) es主要用于存储,计算,搜索数据 依次部 ...