Intro

process 就是 The process component is where services manipulate data into needed forms. 比如补齐 null value,  make data more consumable.

analyze 比如排序、聚合、Join 及更负责的机器学习算法等,Extract key information from the data

challedges :

  5 V's - Volume, Velocity, Variaty, Veracity, Value

Volumn

  1. intro to S3 可以存大量数据

  

   "bucket + key + version" 唯一的确定了一个object

  

  2. data lake

    S3 data lake  感觉就是一个统一管理s3 buckets的工具,这样就不用单独管理各个buckets了.

    streaming data 可以通过Kinesis 流入data lake, on-premise data 也就是传统数据可以通过 Snowball 放入data lake. Glue可以用来catalog 数据湖里面的数据,一旦catalog以后就可以检索数据了.

    Lake Formation 是AWS的数据湖服务, 感觉是更像一个管理 data lake 的封装层 AWS Lake Formation is a service that organizes and curates data within Amazon S3 data lakes

  3. data storage methods, 主要讲 data warehouse的,和data lake 对应的一个概念,warehouse存的结构化数据,一般用来做BI分析. AWS 的warehouse服务叫 Amazon Redshift. 那么问题来了,我们有了 S3 data lake 又有了Redshift warehouse, 可以从两个地方同时取数据吗? 答案是肯定的,用 Amazon Redshift Spectrum 服务,感觉是把 data lake 和 warehouse 装在一起像一个数据源一样.

  

   还讲了 Amazon EMR, 就是Amazon自己的数据处理产品,包含有(Hadoop, Spark, HBase, Presto, and Flink等 )和 S3 storage 无缝集成

   Amazon除了支持HDFS, 还支持一种自己的 EMRFS 文件系统。 EMRFS文件系统能直接识别S3, 相比copy到HDFS再处理,可以省去copy的过程, 大大提高了性能.

Velocity

  batch/streaming

  Kinesis 是用来处理流数据的.  下图的细分的区别还不了解

  

  

  batch data processing

  使用Amazon EMR的一个简单方案: 最后一步看不清是Redshift

  

  EMR 需要配置的比较多,有没有更少配置项的. 那就是 Glue.  原文如下:

  This is where AWS Glue come in. AWS Glue is a fully managed ETL service that categorizes, cleans, enriches, and moves your data reliably between various data stores. AWS Glue simplifies and automates difficult and time-consuming data discovery, conversion, mapping, and job-scheduling tasks. In other words, it simplifies data processing.

  如果用Glue, 方案改成下面的,就是直接替换 EMR.

  

  Stream data processing

  Kinesis 包含了收集和处理流数据的功能,主要有以下组件 Kinesis Data Firehose, Kinesis Data Streams, and Kinesis Data Analytics, Amazon Kinesis Video Streams

  流处理架构, Firehose收集流数据,Data Analytics 过滤数据然后又发到下一个Firehose, 然后发到S3, Athena是个交互式SQL工具,query到结果放到 QuickInsight BI 工具展示.

  

  

  

Glue ? Within AWS, Hadoop frameworks are implemented using Amazon EMR and AWS Glue

Amazon Athena - is an interactive query service that makes it easy to analyze data in Amazon S3 using the standard structured query language (SQL). Athena is serverless, so there is no infrastructure to manage, and you pay only for data scanned by the queries you run. You can then use the results of these queries to produce insightful dashboards and reports using Amazon QuickSight (BI 工具).

AWS Data Analytics Fundamentals 官方课程笔记 - Intro, Volumn, Velocity的更多相关文章

  1. AWS Cloud Practioner 官方课程笔记 - Part 1

    课程笔记: 1. 3种访问AWS服务的方式: GUI, CLI, SDK 前两种是用户用来访问的,SDK可以让程序调用去访问服务. 2. core services 以及通用的use cases Am ...

  2. AWS Cloud Practioner 官方课程笔记 - Part 2

    4. AWS Architecture 设计的5个柱子,也就是5大考量点, Security, Reliability, Performance Efficiency, Cost optimizati ...

  3. vue—你必须知道的 js数据类型 前端学习 CSS 居中 事件委托和this 让js调试更简单—console AMD && CMD 模式识别课程笔记(一) web攻击 web安全之XSS JSONP && CORS css 定位 react小结

    vue—你必须知道的   目录 更多总结 猛戳这里 属性与方法 语法 计算属性 特殊属性 vue 样式绑定 vue事件处理器 表单控件绑定 父子组件通信 过渡效果 vue经验总结 javascript ...

  4. MyBatis框架 课程笔记

    MyBatis框架 课程笔记   第1章 MyBatis简介 1.1 MyBatis历史 1)MyBatis是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Softw ...

  5. Linux内核分析课程笔记(一)

    linux内核分析课程笔记(一) 冯诺依曼体系结构 冯诺依曼体系结构实际上就是存储程序计算机. 从两个层面来讲: 从硬件的角度来看,冯诺依曼体系结构逻辑上可以抽象成CPU和内存,通过总线相连.CPU上 ...

  6. Andrew 机器学习课程笔记

    Andrew 机器学习课程笔记 完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...

  7. 深度学习课程笔记(十五)Recurrent Neural Network

    深度学习课程笔记(十五)Recurrent Neural Network 2018-08-07 18:55:12 This video tutorial can be found from: Yout ...

  8. 深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO)

    深度学习课程笔记(十四)深度强化学习 ---  Proximal Policy Optimization (PPO) 2018-07-17 16:54:51  Reference: https://b ...

  9. 深度学习课程笔记(十二) Matrix Capsule

    深度学习课程笔记(十二) Matrix Capsule with EM Routing  2018-02-02  21:21:09  Paper: https://openreview.net/pdf ...

  10. 深度学习课程笔记(七):模仿学习(imitation learning)

    深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...

随机推荐

  1. 开源GTKSystem.Windows.Forms框架让C# winform支持跨平台运行

    目录 一.简介 二.GTKSystem.Windows.Forms框架的优势 三.支持界面皮肤主题定制 四.多种控件支持 五.支持Dock.Anchor.SplitContainer布局缩放 六.支持 ...

  2. CF372C

    思路 根据题意可以得到dp转移方程是 \(f_{i,j}=\max\{f_{i-1,k}+b_i-|a_i-j|\}\) 而且 \(j-(t_{i}-t_{i-1})\times d\le k\le ...

  3. 探索Nuxt.js的useFetch:高效数据获取与处理指南

    title: 探索Nuxt.js的useFetch:高效数据获取与处理指南 date: 2024/7/15 updated: 2024/7/15 author: cmdragon excerpt: 摘 ...

  4. CentOS之yum安装JDK

    1.查看云端目前支持安装的jdk版本 [root@localhost ~]# yum search java|grep jdk ldapjdk-javadoc.noarch : Javadoc for ...

  5. [oeasy]python0133_变量名_标识符_identifier_id_locals

    变量名 回忆上次内容 上次讲了 什么是变量 变量变量 能变的量 就是变量   各种系统.游戏就是由变量所组成的 ​   添加图片注释,不超过 140 字(可选)   声明了变量 并且 定义了变量   ...

  6. Vue 基于VSCode结合Vetur+ESlint+Prettier统一Vue代码风格

    基于VSCode结合Vetur+ESlint+Prettier统一Vue代码风格 插件安装 安装Vetur,ESlint, Prettier - Code formatter插件 安装方法(安装ESl ...

  7. 基于.NET开源、强大易用的短链生成及监控系统

    前言 今天大姚给大家分享一个基于.NET开源(MIT License).免费.强大易用的短链生成及监控系统:SuperShortLink. 项目介绍 SuperShortLink是一个基于.NET开源 ...

  8. 手把手教你集成GraphRag.Net:打造智能图谱搜索系统

    在人工智能和大数据发展的背景下,我们常常需要在项目中实现知识图谱的应用,以便快速.准确地检索和使用信息. 今天,我将向大家详细介绍如何在一个新的.NET项目中集成GraphRag.Net,这是一个参考 ...

  9. Selenium 8个定位元素

    selenium 8个定位元素为:id.name.xpath.link_text.class_name.tag_name.css_selector.partial_link_text 1.id元素 浏 ...

  10. 银河麒麟V10高级服务器编译安装pg13.4

    安装postgres依赖 yum install -y openssl openssl-devel pam pam-devel libxml2 libxml2-devel libxslt libxsl ...