[Udemy] AWS Certified Data Analytics Specialty - 4.Analysis
Kinesis Data Analytics

Analytics 可以和 Lambda集成


RANDOM_CUT_FOREST, 异常检测算法
OpenSearch = ElasticSearch
OpenSearch 包含了ES生态里的ElasticSearch+Kibaba, 分别叫OpenSearch+Dashboard, ES生态里的Beats/LogStach用Kinesis替代了。

OpenSearch 是Fully-managed, 但不是serverless的,我理解serverless 是说啥也不用管,AWS会根据用户使用情况auto scale, fully-managed还是需要用户指定需要多少Node、跑什么软件在上面,等等,好像Glue就是serverless的,EMR就是fully-managed.

OpenSearch Security

OpenSearch放在VPC里面就不能拿出来了,所有怎么从public访问OpenSearch呢?







Athena

Athena我理解是从给数据(结构、非结构、半结构) 提供一层SQL接口,操作Athena后面的数据就像操作一个数据库一样。具体比如非结构数据,Athena需要下层的Glue Catalog支持。

Athena+Glue
Glue 的 Crawler 查看S3里面的非结构化数据,尝试建立table definition, 如果生成的不合适,可以在Glue console里面refine. Glue Data Catalog生成后,Athena能自动发现, 并自动生成一个table






RedShift
Scale up or down 很简单,但是不是自动的

Compute Node 有 DS(Dense Stroage) 和 DC(Dense Compute) 型

支持压缩


如果是drive坏了,能自动恢复,因为cluster上有其他盘的replica数据,功能不受影响,指示重建新的drive时候性能有影响;
如果是node 坏了,也能自动恢复,但是功能不能用了,只能等恢复好了再用
如果所在的AZ坏了,因为Redshift 只在一个AZ有,那就只有等好了,或者是在这个region里其他AZ里用snapshot恢复


按照什么规则往slices上放:
Even - round robin规则,把每行数据轮流放在slices里
Key - 就是根据某列数据值hash过后的key,然后放到对应的slices。
ALL - 好像是数据在每个node上都有保存一份

Sort Key 和关系型数据库的index类似,有 single, compound, interleaved 3种
single 就是单列
compound 是多列, 默认类型,但是查询时候也要按照定义好的顺序来,help improve compression
interleaved 也是多列,每列权重一样,可以任意选某列query, 不像compound有顺序



建立一个带KMS key 的 copy grant 作为目标,可以把KMS加密的 Redshift snapshot 跨region的拷贝过去



query的优先级管理

可以有不同的queue, 由WLM管理,哪个queue支持concurrency scaling cluster, 哪个queue不支持

WLM 中的一种是 Automatic WLM. Large queries 和 Small queries 分别用不同queue提高资源利用率
下面queue 的 concurrency scaling mode 就是可以对接 concurrency scaling cluster的

WLM的另一种是manual WLM

SQA是WLM的可替代品. 自动把short query优先级提升

VACUUM 恢复删除rows后的空间,重新排序。 Full就是两个事情都做,Delete Only 就是只做回收deleted rows后的空间;Sort Only 只re-sort; Reindex是先reanalyze distributes of value然后 Full


如果 concurrency scaling 还不行的时候, 就需要 Resize Redshift Cluster了.


[Udemy] AWS Certified Data Analytics Specialty - 4.Analysis的更多相关文章
- Big Data Analytics for Security(Big Data Analytics for Security Intelligence)
http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE ...
- 15 Top Paying IT Certifications In 2016: AWS Certified Solutions Architect Leads At $125K
Each of the five Amazon Web Services (AWS) certifications brings in an average salary of more than $ ...
- 12 Top Open Source Data Analytics Apps
1. Hadoop It would be impossible to talk about open source data analytics without mentioning Hadoop. ...
- Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)
ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...
- IAB303 Data Analytics Assessment Task
Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics ...
- 《Data Structures and Algorithm Analysis in C》学习与刷题笔记
<Data Structures and Algorithm Analysis in C>学习与刷题笔记 为什么要学习DSAAC? 某个月黑风高的夜晚,下班的我走在黯淡无光.冷清无人的冲之 ...
- [BOOKS]BIG DATA and DATA ANALYTICS: The Beginner's Guide to Understanding the Analytical World
- 印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0
1. 摘要 数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互: 送药 与医生交谈 实验室测试 医院预约和药物 所有这些交互都会 ...
- Using Apache Spark and MySQL for Data Analysis
What is Spark Apache Spark is a cluster computing framework, similar to Apache Hadoop. Wikipedia has ...
- How to use data analysis for machine learning (example, part 1)
In my last article, I stated that for practitioners (as opposed to theorists), the real prerequisite ...
随机推荐
- FFmpeg开发笔记(三十六)Linux环境安装SRS实现视频直播推流
<FFmpeg开发实战:从零基础到短视频上线>一书在第10章介绍了轻量级流媒体服务器MediaMTX,通过该工具可以测试RTSP/RTMP等流媒体协议的推拉流.不过MediaMTX的功能 ...
- Spring的IOC容器类别概述
Spring的IOC该如何理解呢? 平常在一个方法当中,若要用到外部另一个类里的非静态方法,首先,需要先通过new一个对象,再根据这个对象去调用其方法.若只需要一两个对象还好,一旦涉及的外部对象多了, ...
- .NET 9 预览版6发布
微软发布了 .NET 9 的第 6 个预览版,此版本包括对运行时.SDK..NET MAUI.ASP.NET Core 和 C# 的更新,预览版没有包含太多新的主要功能或特性,因为已接近 .NET 9 ...
- B+树要点梳理
B+树重要操作 中间节点 中间节点的key,与其对应的指针的原则是,小于key的元素在其指针指向的节点中 中间节点的key可以看成是右斜着排放的,即小于等于key的节点由key对应的指针指定,最有一个 ...
- P2P应用
对等连接(peer to peer)文件分发的分析: 传统客户-服务器模式:用时与文件量成正比 P2P模式:随文件量增大而用时趋于一个极限. P2P工作方式有三: 集中式索引:客户访问服务器所需数据在 ...
- 我从 Python 潮流周刊提取了 800 个链接,精选文章、开源项目、播客视频集锦
你好,我是豌豆花下猫.前几天,我重新整理了 Python 潮流周刊的往期分享,推出了第 1 季的图文版电子书,受到了很多读者的一致好评. 但是,合集和电子书的篇幅很长,阅读起来要花不少时间.所以,为了 ...
- 美团VS饿了么,到底谁更胜一筹?
最近啊,收到一个粉丝的投稿,我发现他在美团和饿了么都去面试过. 这俩企业大家应该都经常用吧,咱点外卖的时候,我有时候就琢磨,到底他俩谁更厉害点. 今天咱们就瞅瞅,在面试这块儿谁更难一些. (目前都只有 ...
- WPF/C#:实现导航功能
前言 在WPF中使用导航功能可以使用Frame控件,这是比较基础的一种方法.前几天分享了wpfui中NavigationView的基本用法,但是如果真正在项目中使用起来,基础的用法是无法满足的.今天通 ...
- Django model 层之事务管理总结
Django model 层之事务管理总结 by:授客 QQ:1033553122 实践环境 Python版本:python-3.4.0.amd64 下载地址:https://www.python.o ...
- [rCore学习笔记 017]实现批处理操作系统
写在前面 本随笔是非常菜的菜鸡写的.如有问题请及时提出. 可以联系:1160712160@qq.com GitHhub:https://github.com/WindDevil (目前啥也没有 本章目 ...