Kinesis Data Analytics

Analytics 可以和 Lambda集成

RANDOM_CUT_FOREST, 异常检测算法

OpenSearch = ElasticSearch

OpenSearch 包含了ES生态里的ElasticSearch+Kibaba, 分别叫OpenSearch+Dashboard, ES生态里的Beats/LogStach用Kinesis替代了。

OpenSearch 是Fully-managed, 但不是serverless的,我理解serverless 是说啥也不用管,AWS会根据用户使用情况auto scale, fully-managed还是需要用户指定需要多少Node、跑什么软件在上面,等等,好像Glue就是serverless的,EMR就是fully-managed.

OpenSearch Security

OpenSearch放在VPC里面就不能拿出来了,所有怎么从public访问OpenSearch呢?

Athena

Athena我理解是从给数据(结构、非结构、半结构) 提供一层SQL接口,操作Athena后面的数据就像操作一个数据库一样。具体比如非结构数据,Athena需要下层的Glue Catalog支持。

Athena+Glue

Glue 的 Crawler 查看S3里面的非结构化数据,尝试建立table definition, 如果生成的不合适,可以在Glue console里面refine. Glue Data Catalog生成后,Athena能自动发现, 并自动生成一个table

RedShift

Scale up or down 很简单,但是不是自动的

Compute Node 有 DS(Dense Stroage) 和 DC(Dense Compute) 型

支持压缩

如果是drive坏了,能自动恢复,因为cluster上有其他盘的replica数据,功能不受影响,指示重建新的drive时候性能有影响;

如果是node 坏了,也能自动恢复,但是功能不能用了,只能等恢复好了再用

如果所在的AZ坏了,因为Redshift 只在一个AZ有,那就只有等好了,或者是在这个region里其他AZ里用snapshot恢复

按照什么规则往slices上放:

Even - round robin规则,把每行数据轮流放在slices里

Key - 就是根据某列数据值hash过后的key,然后放到对应的slices。

ALL - 好像是数据在每个node上都有保存一份

Sort Key 和关系型数据库的index类似,有 single, compound, interleaved 3种

single 就是单列

compound 是多列, 默认类型,但是查询时候也要按照定义好的顺序来,help improve compression

interleaved 也是多列,每列权重一样,可以任意选某列query, 不像compound有顺序

建立一个带KMS key 的 copy grant 作为目标,可以把KMS加密的 Redshift snapshot 跨region的拷贝过去

query的优先级管理

可以有不同的queue, 由WLM管理,哪个queue支持concurrency scaling cluster, 哪个queue不支持

WLM 中的一种是 Automatic WLM. Large queries 和 Small queries 分别用不同queue提高资源利用率

下面queue 的 concurrency scaling mode 就是可以对接 concurrency scaling cluster的

WLM的另一种是manual WLM

SQA是WLM的可替代品. 自动把short query优先级提升

VACUUM 恢复删除rows后的空间,重新排序。 Full就是两个事情都做,Delete Only 就是只做回收deleted rows后的空间;Sort Only 只re-sort; Reindex是先reanalyze distributes of value然后 Full

如果 concurrency scaling 还不行的时候, 就需要 Resize Redshift Cluster了.

[Udemy] AWS Certified Data Analytics Specialty - 4.Analysis的更多相关文章

  1. Big Data Analytics for Security(Big Data Analytics for Security Intelligence)

    http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE ...

  2. 15 Top Paying IT Certifications In 2016: AWS Certified Solutions Architect Leads At $125K

    Each of the five Amazon Web Services (AWS) certifications brings in an average salary of more than $ ...

  3. 12 Top Open Source Data Analytics Apps

    1. Hadoop It would be impossible to talk about open source data analytics without mentioning Hadoop. ...

  4. Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)

    ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...

  5. IAB303 Data Analytics Assessment Task

    Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics ...

  6. 《Data Structures and Algorithm Analysis in C》学习与刷题笔记

    <Data Structures and Algorithm Analysis in C>学习与刷题笔记 为什么要学习DSAAC? 某个月黑风高的夜晚,下班的我走在黯淡无光.冷清无人的冲之 ...

  7. [BOOKS]BIG DATA and DATA ANALYTICS: The Beginner's Guide to Understanding the Analytical World

  8. 印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0

    1. 摘要 数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互: 送药 与医生交谈 实验室测试 医院预约和药物 所有这些交互都会 ...

  9. Using Apache Spark and MySQL for Data Analysis

    What is Spark Apache Spark is a cluster computing framework, similar to Apache Hadoop. Wikipedia has ...

  10. How to use data analysis for machine learning (example, part 1)

    In my last article, I stated that for practitioners (as opposed to theorists), the real prerequisite ...

随机推荐

  1. FFmpeg开发笔记(三十六)Linux环境安装SRS实现视频直播推流

    ​<FFmpeg开发实战:从零基础到短视频上线>一书在第10章介绍了轻量级流媒体服务器MediaMTX,通过该工具可以测试RTSP/RTMP等流媒体协议的推拉流.不过MediaMTX的功能 ...

  2. Spring的IOC容器类别概述

    Spring的IOC该如何理解呢? 平常在一个方法当中,若要用到外部另一个类里的非静态方法,首先,需要先通过new一个对象,再根据这个对象去调用其方法.若只需要一两个对象还好,一旦涉及的外部对象多了, ...

  3. .NET 9 预览版6发布

    微软发布了 .NET 9 的第 6 个预览版,此版本包括对运行时.SDK..NET MAUI.ASP.NET Core 和 C# 的更新,预览版没有包含太多新的主要功能或特性,因为已接近 .NET 9 ...

  4. B+树要点梳理

    B+树重要操作 中间节点 中间节点的key,与其对应的指针的原则是,小于key的元素在其指针指向的节点中 中间节点的key可以看成是右斜着排放的,即小于等于key的节点由key对应的指针指定,最有一个 ...

  5. P2P应用

    对等连接(peer to peer)文件分发的分析: 传统客户-服务器模式:用时与文件量成正比 P2P模式:随文件量增大而用时趋于一个极限. P2P工作方式有三: 集中式索引:客户访问服务器所需数据在 ...

  6. 我从 Python 潮流周刊提取了 800 个链接,精选文章、开源项目、播客视频集锦

    你好,我是豌豆花下猫.前几天,我重新整理了 Python 潮流周刊的往期分享,推出了第 1 季的图文版电子书,受到了很多读者的一致好评. 但是,合集和电子书的篇幅很长,阅读起来要花不少时间.所以,为了 ...

  7. 美团VS饿了么,到底谁更胜一筹?

    最近啊,收到一个粉丝的投稿,我发现他在美团和饿了么都去面试过. 这俩企业大家应该都经常用吧,咱点外卖的时候,我有时候就琢磨,到底他俩谁更厉害点. 今天咱们就瞅瞅,在面试这块儿谁更难一些. (目前都只有 ...

  8. WPF/C#:实现导航功能

    前言 在WPF中使用导航功能可以使用Frame控件,这是比较基础的一种方法.前几天分享了wpfui中NavigationView的基本用法,但是如果真正在项目中使用起来,基础的用法是无法满足的.今天通 ...

  9. Django model 层之事务管理总结

    Django model 层之事务管理总结 by:授客 QQ:1033553122 实践环境 Python版本:python-3.4.0.amd64 下载地址:https://www.python.o ...

  10. [rCore学习笔记 017]实现批处理操作系统

    写在前面 本随笔是非常菜的菜鸡写的.如有问题请及时提出. 可以联系:1160712160@qq.com GitHhub:https://github.com/WindDevil (目前啥也没有 本章目 ...