[Udemy] AWS Certified Data Analytics Specialty - 4.Analysis
Kinesis Data Analytics
Analytics 可以和 Lambda集成
RANDOM_CUT_FOREST, 异常检测算法
OpenSearch = ElasticSearch
OpenSearch 包含了ES生态里的ElasticSearch+Kibaba, 分别叫OpenSearch+Dashboard, ES生态里的Beats/LogStach用Kinesis替代了。
OpenSearch 是Fully-managed, 但不是serverless的,我理解serverless 是说啥也不用管,AWS会根据用户使用情况auto scale, fully-managed还是需要用户指定需要多少Node、跑什么软件在上面,等等,好像Glue就是serverless的,EMR就是fully-managed.
OpenSearch Security
OpenSearch放在VPC里面就不能拿出来了,所有怎么从public访问OpenSearch呢?
Athena
Athena我理解是从给数据(结构、非结构、半结构) 提供一层SQL接口,操作Athena后面的数据就像操作一个数据库一样。具体比如非结构数据,Athena需要下层的Glue Catalog支持。
Athena+Glue
Glue 的 Crawler 查看S3里面的非结构化数据,尝试建立table definition, 如果生成的不合适,可以在Glue console里面refine. Glue Data Catalog生成后,Athena能自动发现, 并自动生成一个table
RedShift
Scale up or down 很简单,但是不是自动的
Compute Node 有 DS(Dense Stroage) 和 DC(Dense Compute) 型
支持压缩
如果是drive坏了,能自动恢复,因为cluster上有其他盘的replica数据,功能不受影响,指示重建新的drive时候性能有影响;
如果是node 坏了,也能自动恢复,但是功能不能用了,只能等恢复好了再用
如果所在的AZ坏了,因为Redshift 只在一个AZ有,那就只有等好了,或者是在这个region里其他AZ里用snapshot恢复
按照什么规则往slices上放:
Even - round robin规则,把每行数据轮流放在slices里
Key - 就是根据某列数据值hash过后的key,然后放到对应的slices。
ALL - 好像是数据在每个node上都有保存一份
Sort Key 和关系型数据库的index类似,有 single, compound, interleaved 3种
single 就是单列
compound 是多列, 默认类型,但是查询时候也要按照定义好的顺序来,help improve compression
interleaved 也是多列,每列权重一样,可以任意选某列query, 不像compound有顺序
建立一个带KMS key 的 copy grant 作为目标,可以把KMS加密的 Redshift snapshot 跨region的拷贝过去
query的优先级管理
可以有不同的queue, 由WLM管理,哪个queue支持concurrency scaling cluster, 哪个queue不支持
WLM 中的一种是 Automatic WLM. Large queries 和 Small queries 分别用不同queue提高资源利用率
下面queue 的 concurrency scaling mode 就是可以对接 concurrency scaling cluster的
WLM的另一种是manual WLM
SQA是WLM的可替代品. 自动把short query优先级提升
VACUUM 恢复删除rows后的空间,重新排序。 Full就是两个事情都做,Delete Only 就是只做回收deleted rows后的空间;Sort Only 只re-sort; Reindex是先reanalyze distributes of value然后 Full
如果 concurrency scaling 还不行的时候, 就需要 Resize Redshift Cluster了.
[Udemy] AWS Certified Data Analytics Specialty - 4.Analysis的更多相关文章
- Big Data Analytics for Security(Big Data Analytics for Security Intelligence)
http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE ...
- 15 Top Paying IT Certifications In 2016: AWS Certified Solutions Architect Leads At $125K
Each of the five Amazon Web Services (AWS) certifications brings in an average salary of more than $ ...
- 12 Top Open Source Data Analytics Apps
1. Hadoop It would be impossible to talk about open source data analytics without mentioning Hadoop. ...
- Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)
ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...
- IAB303 Data Analytics Assessment Task
Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics ...
- 《Data Structures and Algorithm Analysis in C》学习与刷题笔记
<Data Structures and Algorithm Analysis in C>学习与刷题笔记 为什么要学习DSAAC? 某个月黑风高的夜晚,下班的我走在黯淡无光.冷清无人的冲之 ...
- [BOOKS]BIG DATA and DATA ANALYTICS: The Beginner's Guide to Understanding the Analytical World
- 印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0
1. 摘要 数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互: 送药 与医生交谈 实验室测试 医院预约和药物 所有这些交互都会 ...
- Using Apache Spark and MySQL for Data Analysis
What is Spark Apache Spark is a cluster computing framework, similar to Apache Hadoop. Wikipedia has ...
- How to use data analysis for machine learning (example, part 1)
In my last article, I stated that for practitioners (as opposed to theorists), the real prerequisite ...
随机推荐
- 在SelfHost项目中获取客户端IP地址
在SelfHost项目中,获取客户端的IP地址比OwinSelfHost项目要复杂一些,可以通过以下方法获得: base.Request.Properties["System.Service ...
- 《Programming from the Ground Up》阅读笔记:p19-p48
<Programming from the Ground Up>学习第2天,p19-p48总结,总计30页. 一.技术总结 1.object file p20, An object fil ...
- 记一次 CDN 流量被盗刷经历
先说损失,被刷了 70 多RMB,还好止损相对即时了,亏得不算多,PCDN 真可恶啊. 600多G流量,100多万次请求. 怎么发现的 先是看到鱼皮大佬发了一篇推文突发,众多网站流量被盗刷!我特么也中 ...
- 也说一说IDEA热部署Web项目最终解决方案,确实大大提高工作效率
热部署就是正在运行状态的应用,修改了它的源码之后,在不重新启动的情况下能够自动把增量内容编译并部署到服务器上,使得修改立即生效.热部署为了解决的问题有两个: 1.在开发的时候,修改代码后不需要重启应用 ...
- webgl径向模糊实现体积光
体积光介绍 首先,我们要确认一下什么是体积光.体积光通俗来说是我们能看见的"光路",并不是所有灯光都会形成体积光效果,它是光照到大气中粒子散射后得到的效果(丁达尔效应).我们有时候 ...
- 魔百和s905l3a蓝牙系列 在armbian驱动并使用蓝牙!
文章已废弃,因为现在x大的dtb不需要驱动直接可以使用 之后我会重新写文章,感谢大家
- [oeasy]python0079_控制序列_光标位置设置_ESC_逃逸字符_CSI
光标位置 回忆上次内容 上次我们研究的比较杂 类型转化 进制转化 捕获异常 版本控制 生成帮助文档 变量的常用类型 变量的生命周期控制 数据类型主要研究了两个 字符串 str 整型数字 int ...
- TIER 1: Three
TIER 1: Three 信息收集 通过以前的练习,我们首先确认目标 IP 开放了哪些端口,比如使用 nmap 之类的工具进行扫描.本次靶机开放: 22 端口:SSH, OpenSSH 80 端口: ...
- 学习笔记--Java中this关键字
Java中this关键字 关于Java语言中的this关键字 this 是一个关键字,翻译为:这个 this 是一个引用,一个变量,this变量中保存的内存地址指向自身 每一个对象都有自己的this, ...
- selenium启动Chrome配置参数问题
每次当selenium启动chrome浏览器的时候,chrome浏览器很干净,没有插件.没有收藏.没有历史记录,这是因为selenium在启动chrome时为了保证最快的运行效率,启动了一个裸浏览器, ...