Lambda

Lambda 经常起胶水的作用,就是粘合不同的service.

如下图例子

另外Requirement #1 也是一个例子,还有Requirement #3

除了Kinesis Data Stream,其他服务如 S3, DynamoDB等等都是Push event 给lambda, 而Data Stream 和Lambda集成是通过Lambda polling的方式,每次poll 一批数据。

Glue

2个功能:Table definition 和  ETL

Glue 是serverless服务,底层也是跑的spark cluster. Glue Data Catalog 是 HIVE metastore的替代者

Glue Studio

新东西,最多只考概念

Glue DataBrew 和 Glue Studio 很类似,但是更简单, 我理解是预置了250个现成的transformations,作用是用来pre-processing data的, 不用写code.

EMR

Presto 能connect多个不同的database, 可以是structured 和 unstructured 数据,同时从这些DB里query数据,达到PB规模的数据

Athena 是基于Presto的,是Presto的封装。

Hue - Hadoop User Experience, EMR cluster的管理界面

MXNet - 在EMR上的深度学习框架

S3DistCP - S3 和HDFS之间拷贝大数据用的, across buckets, across accounts

EMR Security:

[Udemy] AWS Certified Data Analytics Specialty - 3.Processing的更多相关文章

  1. 12 Top Open Source Data Analytics Apps

    1. Hadoop It would be impossible to talk about open source data analytics without mentioning Hadoop. ...

  2. Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)

    ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...

  3. Big Data Analytics for Security(Big Data Analytics for Security Intelligence)

    http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE ...

  4. IAB303 Data Analytics Assessment Task

    Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics ...

  5. 15 Top Paying IT Certifications In 2016: AWS Certified Solutions Architect Leads At $125K

    Each of the five Amazon Web Services (AWS) certifications brings in an average salary of more than $ ...

  6. Coursera, Big Data 3, Integration and Processing (week 5)

    Week 5, Big Data Analytics using Spark     Programing in Spark   Spark Core: Programming in Spark us ...

  7. Coursera, Big Data 3, Integration and Processing (week 4)

    Week 4 Big Data Precessing Pipeline 上图可以generalize 成下图,也就是Big data pipeline some high level processi ...

  8. Coursera, Big Data 3, Integration and Processing (week 1/2/3)

    This is the 3rd course in big data specification courses. Data model reivew 1, data model 的特点: Struc ...

  9. [BOOKS]BIG DATA and DATA ANALYTICS: The Beginner's Guide to Understanding the Analytical World

  10. 印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0

    1. 摘要 数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互: 送药 与医生交谈 实验室测试 医院预约和药物 所有这些交互都会 ...

随机推荐

  1. 基于FileZilla上传、下载服务器数据的方法

      本文介绍FileZilla软件的下载.配置与使用方法.   在之前的博客中,我们提到了下载高分遥感影像数据需要用到FTP(文件传输协议,File Transfer Protocol)软件FileZ ...

  2. webpack4.15.1 学习笔记(九) — 11个基础的插件使用

    目录 html-webpack-plugin clean-webpack-plugin webpack-manifest-plugin HotModuleReplacementPlugin(内置) m ...

  3. Mac下浏览器跨域配置方法

    open -n /Applications/Google\ Chrome.app/ --args --disable-web-security --user-data-dir=/Users/hooli ...

  4. springsecurity:权限与异常处理

    权限即不同用户可以使用不同功能 实现前置: 在上一次登录与校验中,我们将authentication存入到SecurityContextHolder中,后续我们需要从FilterSecurityInt ...

  5. 机器学习:详解是否要使用端到端的深度学习?(Whether to use end-to-end learning?)

    详解是否要使用端到端的深度学习? 假设正在搭建一个机器学习系统,要决定是否使用端对端方法,来看看端到端深度学习的一些优缺点,这样就可以根据一些准则,判断的应用程序是否有希望使用端到端方法. 这里是应用 ...

  6. Mysql查询几天前或几天后的日期

    查询 当天±天数 后的日期."-14"表示14天前的日期,"14"表示14天后的日期 NOW()精确到时分秒,CURDATE()只精确到天 #查询今天 1.se ...

  7. VirtualBox扩容CentOS-7虚拟机磁盘

    1.背景描述 如上图所示,根路径"/"所在的文件系统已没有可用的磁盘空间,需要扩容磁盘. df -h 2.VirtualBox操作 2.1.查看当前虚拟磁盘的大小 如上图所示,点击 ...

  8. 【WEB】URL文件

    早些年接触电脑的时候就有这个东西,去网站上下载盗版游戏,网站会附加这种URL文件 双击运行之后是打开浏览器跳转到该文件描述的网址 我从来没想过这东西里面写的是什么 百度经验: https://baij ...

  9. 【转载】 SUN RPC的传输层实现机制 —— rpcbind(nfs文件系统中的rpc)

    原文地址: https://blog.csdn.net/dingguo815/article/details/5421675 ===================================== ...

  10. 模仿学习算法:Data Aggregation Approach: DAGGER算法——Mixing policy

    论文: <A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning> ...