Google Professional Data Engineer(PDE)考试

在国内参加PDE考试的人比较少,导致资料也很少。我在19年1月30号去上海参加PDE考试,参加前也是完全没底,因为时间短资料少,但幸运的是顺利通过了。回过头来看,其中有些技巧和重点,在此做一些总结,希望可以给参加PDE考试的同学提供一些帮助。
收获
1)对云有新的认识
2)对大数据架构、机器学习架构设计有新的认识
3)当然最重要的是获得google官方发的证书
说说我的准备
1)花了5周的时间看完google官方提供的视频,几乎是完全脱产(只做一些事故处理)。
2)试做官方提供example,一共20道题,我错了五道。我错的主要是安全和BigTable相关的。
3)google的同学建议是看concept的相关内容,但离考试也就剩三四天了,不可能详细复习,concept是一定看不完的。那么就针对没有掌握的知识进行复习,安全相关的官方视频是没有涉及的,所以必须自己找资料看,别的资料也没有,就只能看concept中涉及安全的方便,这个比较少,最多一天就全部看完。BigTable看来我也是掌握不好,那么我就看BigTable的concept知识。
4)看完上面的就参加考试了,也再没做特别复习。
整体来看
google的产品大致涉及存储(cloud storage、SQL、spanner、memory、BigTable、datastore)、消息中间件Pub\Sub、计算(dataproc、BigQuery、Dataflow)、机器学习ML Engine、API、DataLab以及可视化。各个产品的使用场景必须心里有数,如果看完视频忘了,必须重新复习,最好和开源对应起来,因为开源多多少少有点儿了解,不要从头学习google cloud所有产品知识。


思维转变
把自己定位为产品解决方案工程师,不是找最优解,而是找最适合案例的解决方案。
产品详情
Cloud SQL & spanner
Cloud SQL 就是mysql\postsql的单机版,google帮你做了安装部署和管理(安全、备份等),如果需要水平扩展就是spanner了,而且支持事务,这两个产品的应用场景就是应用交易记录等。
cloud storage
就是存储引擎,什么都可以放,没有大小文件、结构化和非结构化的限制,利用好存储级别(正常、nearline(月级访问)和cold(年级访问))可以节约成本。
BigTable
考试重点。注意key值的设置,如何避免热点问题,时间序列的问题大部分就是选BigTable存储,BigTable适用于时延性要求高的场景。
datastore
类似于mongodb,通过属性来查询,不是重点。
BigQuery
考试重点。注意安全和视图相关知识,数据存储在BigQuery和存储在cloud storage的价钱差不多,根据使用情况,会自动处理存储介质,降低价格,一定要合理利用BigQuery。
Dataproc
主要是为了适应客户原来使用hadoop堆栈,现在不像修改代码,就像上云的场景。
dataflow
是google大力推进的产品,是替代Dataproc的下一代计算引擎,实现自动扩缩容,并且流处理和批处理代码保持一致。题外话:dataflow和bigquery(秒级响应)是google大数据方面两大杀伤性武器,区别于其他云的地方。
Pub\Sub
Pub\Sub和dataflow配合使用处理事件流,延时性要求高选用BigTable存储,不高选用BigQuery。
ML Engine
tensorflow的云化版,实现离线训练和在线服务的自动化,配合dataprep可以实现离线数据的预处理,datalab(jupyter notebook)实现数据探索和离线训练。
Auto ML
Auto ML是为了丰富API,容许用户自己提供数据,对模型进行训练。
综述
其实知识点也不那么难,最后难得可能是英语这一关,视频和考试全英语。祝大家顺利通过考试。
如果有疑问欢迎关注下面公众号进行交流。

Google Professional Data Engineer(PDE)考试的更多相关文章
- 数据分析师(Data Analyst),数据工程师(Data Engineer),数据科学家(Data Scientist)的区别
数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据 ...
- How Google Backs Up The Internet Along With Exabytes Of Other Data
出处:http://highscalability.com/blog/2014/2/3/how-google-backs-up-the-internet-along-with-exabytes-of- ...
- Multi-Cloud & Kubernetes: Cloud Academy November 2018 Data Report
https://cloudacademy.com/research/multi-cloud-kubernetes-devops-cloud-academy-data-report-nov-18/ No ...
- [DE] How to learn Big Data
打开一瞧:50G的文件! emptystacks jobstacks jobtickets stackrequests worker 大数据加数据分析,需要以python+scikit,sql作为基础 ...
- google chrome set
"D:\Program Files\Google\Chrome\Application\chrome_bk.exe" --start-maximized --user-data-d ...
- P6 Professional Installation and Configuration Guide (Microsoft SQL Server Database) 16 R1
P6 Professional Installation and Configuration Guide (Microsoft SQL Server Database) 16 R1 May ...
- Bigtable: A Distributed Storage System for Structured Data
https://static.googleusercontent.com/media/research.google.com/en//archive/bigtable-osdi06.pdf Abstr ...
- Why Apache Beam? A data Artisans perspective
https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison https://github.com/apache/ ...
- smarty练习:考试系统
考试系统 (0607) 做一个类似于驾校考试的系统,可以选择要考试试题类型,选好后进入考试页面 使用的数据库表格:timu(题目)表,xuanxiang(选项)表,shiti(试题)表,shititi ...
随机推荐
- Python学习:16.Python面对对象(三、反射,构造方法,静态字段,静态方法)
一.构造方法 在使用类创建对象的时候(就是类后面加括号)就自动执行__init__方法. class A: def __init__(self): print('A') class B: def __ ...
- C语言顺序队列
顺序队列是一种只能在一头进和另一头出的数据结构,所以结构体里设2个指针分别指向头部和尾部,用数组来存储数据. #define MAXSIZE 1024 typedef int elemtype; ty ...
- Python3 urllib 爬取 花瓣网图片
点我去我的github上看源码 **花瓣网是动态的,所以要抓包分析,,但我真的累的不行,不想写教程了,我源码里有注释
- angular中的$cookies和$cookieStore设置过期时间
angular1.4及以上版本才支持$cookies. 项目引入的是1.4.2版本,操作cookies原先一直用的是$cookieStore,用的飞起啊. $cookieStore.remove(&q ...
- [2016北京集训测试赛7]isn-[树状数组+dp+容斥]
Description Solution 定义dp[i][j]为在1到i个数中选了j个数,并且保证选了i的选法总数. dp[i][j]为所有满足A[k]>A[i]的k(k<i)的dp[k] ...
- C++从静态对象的初始化顺序理解static关键字
问题 首先考虑一个全局变量的初始化顺序问题 在头文件1中: extern int b; ; 在头文件2中: extern int a; ; 源文件中包含了头文件1和头文件2,这种情况下a和b可能的值是 ...
- hexo部署
title: hexo 部署(一) date: 2018-09-16 18:01:26 tags: hexo部署配置 categories: 博客搭建 hexo博客搭建 折腾了好久的时间,终于使用he ...
- 测试Websocket建立通信,使用protobuf格式交换数据
接到一个应用测试,应用实现主要使用websocket保持长链接,使用protobuf格式交换数据,用途为发送消息,需要我们测试评估性能,初步评估需要测试长链接数.峰值消息数以及长期运行稳定性 整体需求 ...
- JMeter学习工具简单介绍
JMeter学习工具简单介绍 一.JMeter 介绍 Apache JMeter是100%纯JAVA桌面应用程序,被设计为用于测试客户端/服务端结构的软件(例如web应用程序).它可以用来测试静态 ...
- Rest-Assured 测试框架
Rest-Assured 是一个测试 Restful Web Service 的 Java 类库,我们能够测试各种各样的请求组合,依次测试核心业务逻辑的不同组合. 它是通过发送特定的rest api, ...