Variety

  structured data applications include Amazon RDS, Amazon Aurora, MySQL, MariaDB, PostgreSQL, Microsoft SQL Server, and Oracle

  semistructured data stores include CSV, XML, JSON, Amazon DynamoDB, Amazon Neptune, and Amazon ElastiCache.

  OLTP - 写操作比较多, OLAP - 读操作比较多

  AWS的 OLTP和 OLAP row-based indexing DB 有 Amazon RDS(可选Amazon Aurora, PostgreSQL, MySQL, MariaDB, Oracle, and SQL Server 等), OLAP column-based indexing DB 有 Amazon Redshift.

  Semi-structured and unstructured data

  NoSQL DB - Amazon DynamoDB (Key-value and document store DB)

  Graph DB - Amazon Neptune

Veracity

  • Understanding data integrity
  • Understanding database consistency
  • Introduction to the ETL process

data integrity

Curation is the action or process of selecting, organizing, and looking after the items in a collection.
Data integrity is the maintenance and assurance of the accuracy and consistency of data over its entire lifecycle.
Data veracity is the degree to which data is accurate, precise, and trusted.

Data cleansing 是ETL 的一部分,用来保证独取数据时候检查数据是否损坏,如果坏的就直接discard. 除了data cleaning, 下一个概念是 怎么enforce data, 首先就是 数据库的 schema (local schema 帮助analyzer 写出good query, Information schema help databases provide data quickly)

 database consistency

  

除了 data cleansing to ensure integrity 和 database schema to enforce integrity, Another key factor to veracity is the ability to ensure compliance with the consistency and availability of data within a database. There are a few different methods for this. We are going to discuss two: ACID and BASE

对事务的ACID要求是很多关系型DB 遵循的数据一致性标准,  比如Amazon RDS 就遵循ACID,对NoSQL 来说因为这样的一致性太耗时,一般遵循 BASE标准, 比如Amazon DynamoDB 要求快速相应。 BASE标准下,数据如果在一个节点上改变了,不要求马上同步到其他节点. 请注意 : In November 2018, Amazon introduced Amazon DynamoDB transactions. This feature implements ACID compliance across one or more tables within a single AWS account and region

 into to ETL process

AWS 的ETL 服务,有两种 Amazon EMR, 和 Amazon Glue, 这两种是针对 batch data的,如果是streaming data 用 Kinesis. EMR 和 Glue 功能相似,EMR 更加可定制化, 当然就需要更强的技能,Glue则比较傻瓜式. 此外 Glue 自带了一个 metastore叫 AWS Glue Data Catalog,是 HIVE metastore的替代品。

Value

Data analytics分两类: information analytics, 和  operational analytics.

Information analytics is the process of analyzing information to find the value contained within it. This term is often synonymous with data analytics 有5种类型的分析 descriptive, diagnostic, predictive, prescriptive, and cognitive.

另一种 operational analytics 是 Information analytics 的子形式。 This form of analytics is used specifically to retrieve, analyze, and report on data for IT operations

5种类型的分析:

Within AWS, the Amazon Elasticsearch Service is commonly used to implement operational analytics

Predictive analytics 的一个例子:

Cognitive analytics 的例子有金融领域的自动投资测量,医疗领域的智能治疗建议等

AWS各种service 的快慢

流处理的3种choice

topic 2 Introduction to visualizing data

report 有 static reports, interactive reports, 和 dashboards

QuickSight就是做visualization的

With Amazon QuickSight, you can upload CSV and Excel files; connect to software as a service (SaaS) applications, such as Salesforce; access on-premises databases such as SQL Server, MySQL, and PostgreSQL; and seamlessly utilize your AWS data sources, such as Amazon Redshift, Amazon RDS, Amazon Aurora, Amazon Athena, and Amazon S3

 
 

Relational integrity ensures that both members of a relationship remain consistent.
Entity integrity ensures that values within a field remain consistent.

An information schema is a database of metadata containing information on all database objects.

logical schema lists the constraints, relationships, and properties of tables and views in a database.

 

问题:

Kineses firehore 和 data stream 区别?

AWS Data Analytics Fundamentals 官方课程笔记 - Variety, Veracity, Value的更多相关文章

  1. AWS Cloud Practioner 官方课程笔记 - Part 1

    课程笔记: 1. 3种访问AWS服务的方式: GUI, CLI, SDK 前两种是用户用来访问的,SDK可以让程序调用去访问服务. 2. core services 以及通用的use cases Am ...

  2. AWS Cloud Practioner 官方课程笔记 - Part 2

    4. AWS Architecture 设计的5个柱子,也就是5大考量点, Security, Reliability, Performance Efficiency, Cost optimizati ...

  3. vue—你必须知道的 js数据类型 前端学习 CSS 居中 事件委托和this 让js调试更简单—console AMD && CMD 模式识别课程笔记(一) web攻击 web安全之XSS JSONP && CORS css 定位 react小结

    vue—你必须知道的   目录 更多总结 猛戳这里 属性与方法 语法 计算属性 特殊属性 vue 样式绑定 vue事件处理器 表单控件绑定 父子组件通信 过渡效果 vue经验总结 javascript ...

  4. MyBatis框架 课程笔记

    MyBatis框架 课程笔记   第1章 MyBatis简介 1.1 MyBatis历史 1)MyBatis是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Softw ...

  5. Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)

    ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...

  6. Linux内核分析课程笔记(一)

    linux内核分析课程笔记(一) 冯诺依曼体系结构 冯诺依曼体系结构实际上就是存储程序计算机. 从两个层面来讲: 从硬件的角度来看,冯诺依曼体系结构逻辑上可以抽象成CPU和内存,通过总线相连.CPU上 ...

  7. Big Data Analytics for Security(Big Data Analytics for Security Intelligence)

    http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE ...

  8. Andrew 机器学习课程笔记

    Andrew 机器学习课程笔记 完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...

  9. IAB303 Data Analytics Assessment Task

    Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics ...

  10. 深度学习课程笔记(十五)Recurrent Neural Network

    深度学习课程笔记(十五)Recurrent Neural Network 2018-08-07 18:55:12 This video tutorial can be found from: Yout ...

随机推荐

  1. HSCSEC CTF 2023

    HSCSEC CTF 2023_misc的部分writeup 有趣的比赛,学到了新姿势orz Ancient-MISC Deduced gossip ☲☵ ☷☵☳ ☶空 ☷☵☳ ☶☱ ☶空 ☷空☱ ☶ ...

  2. 火山引擎数智平台赋能火花思维,A/B测试加速创新

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群.   在数字化浪潮下,火花思维凭借其对数据驱动的理解与实践,搭上了业务快速增长的快车.这一效果的背后,离不开火花思 ...

  3. 3.1 Y86-64指令集体系结构

    程序员可见的状态 这里的程序员即可以是用汇编代码写程序的人,也可以是产生机器级代码的编译器.程序员可见的状态如下,有15个程序寄存器(%rax,%rbx等),三个一位的条件(ZF,OF,SF) ,程序 ...

  4. API是什么

    API就是接口,就是通道,负责一个程序和其他软件的沟通,本质是预先定义的函数.譬如我们去办事,窗口就类似一个API,如果对于某一件不简单的事情,这个窗口能做到让我们"最多跑一次", ...

  5. leetcode简单(双指针):[88, 202, 345, 392, 455, 905, 922, 917, 925, 942]

    [toc 88. 合并两个有序数组 var merge = function(nums1, m, nums2, n) { let A1 = nums1.slice(0, m) let A2 = num ...

  6. linux系统是未来_大小写敏感_case_sensitive_编程原生态

    修改 py 文件 回忆上次内容 上次尝试了 两个vim 同时打开 同一py文件 vim出现了Error 有各种选择     错误拼写 pront 导致 运行时 出现了NameError         ...

  7. 为什么学编程都从helloworld开始?

    你好世界 回忆上次内容 上次 了解了 游乐场规则 REPL       添加图片注释,不超过 140 字(可选)   print函数 可以输出 字符串"h"     添加图片注释, ...

  8. [oeasy]python0093_电子游戏起源_视频游戏_达特茅斯_Basic_家酿俱乐部

    编码进化 回忆上次内容 Ed Robert 的 创业之路 从 售卖 diy 组装配件 到进军 计算器市场 最后 发布 牛郎星8800 intel 8080 的出现 让 人人都有 自己的 个人电脑 Bi ...

  9. Java 基于Apache POI实现Excel读写操作

    实践环境 Win10 Java JDK1.8 代码实现 pom.xml配置 <?xml version="1.0" encoding="UTF-8"?&g ...

  10. 技术文档必备工具:注释目录树神器 Annotree,我的第一个正式开源项目

    hi,大家好,我是爱听书的程序员阿超 非常开心能在这里介绍我的第一个正式开源项目 Annotree,项目具体情况如下,请继续阅读~ Annotree 注释树 一款生成带注释的目录树工具,大大方便技术文 ...