Intro

process 就是 The process component is where services manipulate data into needed forms. 比如补齐 null value,  make data more consumable.

analyze 比如排序、聚合、Join 及更负责的机器学习算法等,Extract key information from the data

challedges :

  5 V's - Volume, Velocity, Variaty, Veracity, Value

Volumn

  1. intro to S3 可以存大量数据

  

   "bucket + key + version" 唯一的确定了一个object

  

  2. data lake

    S3 data lake  感觉就是一个统一管理s3 buckets的工具,这样就不用单独管理各个buckets了.

    streaming data 可以通过Kinesis 流入data lake, on-premise data 也就是传统数据可以通过 Snowball 放入data lake. Glue可以用来catalog 数据湖里面的数据,一旦catalog以后就可以检索数据了.

    Lake Formation 是AWS的数据湖服务, 感觉是更像一个管理 data lake 的封装层 AWS Lake Formation is a service that organizes and curates data within Amazon S3 data lakes

  3. data storage methods, 主要讲 data warehouse的,和data lake 对应的一个概念,warehouse存的结构化数据,一般用来做BI分析. AWS 的warehouse服务叫 Amazon Redshift. 那么问题来了,我们有了 S3 data lake 又有了Redshift warehouse, 可以从两个地方同时取数据吗? 答案是肯定的,用 Amazon Redshift Spectrum 服务,感觉是把 data lake 和 warehouse 装在一起像一个数据源一样.

  

   还讲了 Amazon EMR, 就是Amazon自己的数据处理产品,包含有(Hadoop, Spark, HBase, Presto, and Flink等 )和 S3 storage 无缝集成

   Amazon除了支持HDFS, 还支持一种自己的 EMRFS 文件系统。 EMRFS文件系统能直接识别S3, 相比copy到HDFS再处理,可以省去copy的过程, 大大提高了性能.

Velocity

  batch/streaming

  Kinesis 是用来处理流数据的.  下图的细分的区别还不了解

  

  

  batch data processing

  使用Amazon EMR的一个简单方案: 最后一步看不清是Redshift

  

  EMR 需要配置的比较多,有没有更少配置项的. 那就是 Glue.  原文如下:

  This is where AWS Glue come in. AWS Glue is a fully managed ETL service that categorizes, cleans, enriches, and moves your data reliably between various data stores. AWS Glue simplifies and automates difficult and time-consuming data discovery, conversion, mapping, and job-scheduling tasks. In other words, it simplifies data processing.

  如果用Glue, 方案改成下面的,就是直接替换 EMR.

  

  Stream data processing

  Kinesis 包含了收集和处理流数据的功能,主要有以下组件 Kinesis Data Firehose, Kinesis Data Streams, and Kinesis Data Analytics, Amazon Kinesis Video Streams

  流处理架构, Firehose收集流数据,Data Analytics 过滤数据然后又发到下一个Firehose, 然后发到S3, Athena是个交互式SQL工具,query到结果放到 QuickInsight BI 工具展示.

  

  

  

Glue ? Within AWS, Hadoop frameworks are implemented using Amazon EMR and AWS Glue

Amazon Athena - is an interactive query service that makes it easy to analyze data in Amazon S3 using the standard structured query language (SQL). Athena is serverless, so there is no infrastructure to manage, and you pay only for data scanned by the queries you run. You can then use the results of these queries to produce insightful dashboards and reports using Amazon QuickSight (BI 工具).

AWS Data Analytics Fundamentals 官方课程笔记 - Intro, Volumn, Velocity的更多相关文章

  1. AWS Cloud Practioner 官方课程笔记 - Part 1

    课程笔记: 1. 3种访问AWS服务的方式: GUI, CLI, SDK 前两种是用户用来访问的,SDK可以让程序调用去访问服务. 2. core services 以及通用的use cases Am ...

  2. AWS Cloud Practioner 官方课程笔记 - Part 2

    4. AWS Architecture 设计的5个柱子,也就是5大考量点, Security, Reliability, Performance Efficiency, Cost optimizati ...

  3. vue—你必须知道的 js数据类型 前端学习 CSS 居中 事件委托和this 让js调试更简单—console AMD && CMD 模式识别课程笔记(一) web攻击 web安全之XSS JSONP && CORS css 定位 react小结

    vue—你必须知道的   目录 更多总结 猛戳这里 属性与方法 语法 计算属性 特殊属性 vue 样式绑定 vue事件处理器 表单控件绑定 父子组件通信 过渡效果 vue经验总结 javascript ...

  4. MyBatis框架 课程笔记

    MyBatis框架 课程笔记   第1章 MyBatis简介 1.1 MyBatis历史 1)MyBatis是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Softw ...

  5. Linux内核分析课程笔记(一)

    linux内核分析课程笔记(一) 冯诺依曼体系结构 冯诺依曼体系结构实际上就是存储程序计算机. 从两个层面来讲: 从硬件的角度来看,冯诺依曼体系结构逻辑上可以抽象成CPU和内存,通过总线相连.CPU上 ...

  6. Andrew 机器学习课程笔记

    Andrew 机器学习课程笔记 完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...

  7. 深度学习课程笔记(十五)Recurrent Neural Network

    深度学习课程笔记(十五)Recurrent Neural Network 2018-08-07 18:55:12 This video tutorial can be found from: Yout ...

  8. 深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO)

    深度学习课程笔记(十四)深度强化学习 ---  Proximal Policy Optimization (PPO) 2018-07-17 16:54:51  Reference: https://b ...

  9. 深度学习课程笔记(十二) Matrix Capsule

    深度学习课程笔记(十二) Matrix Capsule with EM Routing  2018-02-02  21:21:09  Paper: https://openreview.net/pdf ...

  10. 深度学习课程笔记(七):模仿学习(imitation learning)

    深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...

随机推荐

  1. 解决方案 | pyautogui实现等待特定图片(对话框)出现(可设置等待超时时间)

    1.问题 为了等待某个[转换完毕]的图片(对话框)出现,如何设置? 2.解决方案代码如下 下面代码实现的是:设置超时时间为10s,当你在完成前序工作以后,代码开始进入等待,一旦你的特定图片出现了,马上 ...

  2. 在windows双系统中,nginx配置虚拟域名

    比如在ubuntu系统中,nginx配置了域名www.abc.com, 那么需要在终端 sudo vim /etc/hosts文件中配置域名,如下: 127.0.0.1 www.abc.com 即可访 ...

  3. 如何删除Git中缓存的用户名和密码

    昨天在上传代码的时候提示输入用户名密码,结果输错了3次就没有提示框了,就一直报错(身份验证失败),没办法提交代. 在使用git的过程中,我们也会经常遇到以前保存在git的用户名密码忘记了,或者不用了. ...

  4. 学习笔记--Java方法中的注意事项

    Java方法中的注意事项 方法调用 Java的方法在同一个类中调用,可以省略 类名. /* 方法调用 */ public class MethodTest03{ public static void ...

  5. 从输入URL到页面展示到底发生了什么?--01

    在浏览器中输入一个URL并按下回车键后,会发生一系列复杂且有条不紊的步骤,从请求服务器到最终页面展示在你的屏幕上.这个过程可以分为以下几个关键步骤: URL 解析 DNS 查询 TCP 连接 发送 H ...

  6. npm私服 verdaccio 搭建

    1.什么是npm 私服 我们前端(web,nodejs)平常使用的各种包,什么vue,react,react-router, zustand等,都会从 https://registry.npmjs.o ...

  7. Goutte爬虫

    安装 composer require fabpot/goutte:4.0

  8. WPF MVVM模式简介

    WPF是Windows Presentation Foundation的缩写,它是一种用于创建桌面应用程序的用户界面框架.WPF支持多种开发模式,其中一种叫做MVVM(Model-View-ViewM ...

  9. SpringBoot配置过滤器、拦截器

    拦截器概述 Spring Boot提供了一种简单且强大的方式来定义和使用拦截器(Interceptor).Spring Boot的拦截器基于Spring框架的拦截器机制,可以在请求的处理过程中插入自定 ...

  10. 【IDEA】创建Maven工程

    当前工程,点new - project 选Maven,不需要点选什么骨架创建,骨架创建要下载大量依赖,生成时间太长, 空Maven的目的是让我们自己了解这个项目结构,需要什么依赖再加什么依赖 框线内的 ...