数据工程师必备的8项技能,不要只知道Python!
欢迎关注公众号:机器学习算法与Python实战(ID:tjxj666)
原作:Mohammed M Jubapu
译者:机器学习算法与Python实战(公众号ID:tjxj666)
英文:https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/
数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。
1-精通一种编程语言
是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如,Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择,而Ruby也是广泛流行的应用程序粘合剂。
2- Python是最受关注的技能
Python!Python!Python!是的,大约70%的工作简介中具有Python作为必备技能,其次是SQL,Java,Scala和其他编程技能,例如R,.Net,Perl,Shell脚本等。
3- Apache Spark在数据处理层的顶部
数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位,其次是AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR等。ApacheSpark是一个功能强大的开源框架,可提供交互式处理,实时流处理,批处理,并以非常快的速度,标准接口和易用性进行内存处理。
4- Rest API通常用于数据收集
对于需要分析或处理的任何数据,首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具,其次是Sqoop,Nifi,Azure Data Factory,Flume,Hue等。
5-数据缓冲最常见的是Apache Kafka
数据缓冲是数据工程框架中的关键部分,在将数据从一个地方移到另一个地方以适应大量数据时,需要临时存储数据。Apache Kafka是常用的分布式数据存储,经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据,这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据,并按顺序和增量地处理数据。此类别中的其他工具是Kinesis,Redis Cache, GCP Pub/Sub 等。
6-存储数据– SQL或NoSQL
数据需要存储以进行处理,分析或可视化,以生成有价值的结果。数据存储可以采用数据仓库,Hadoop,数据库(RDBMS和NoSQL),数据集市的形式。紧随其后的是Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery等SQL技能。
7-使用Tableau或PowerBI进行数据可视化
数据可视化是以图形,图表或其他可视格式表示数据或信息。它传达数据与图像的关系。Tableau和PowerBI领先于竞争对手,其次是SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy等。
8-数据工程云平台
有不同的基于云或内部部署的平台,可用于不同的数据工程工具集。列出的典型代表是Hadoop,Google Cloud Platform,AWS,Azure和Apprenda。
好吧,绝非必须精通所有技能和工具,但是通常需要在每个数据管道框架类别中至少掌握其中一个,例如针对云平台的GCP,针对开发的Python,针对数据处理的Apache Spark,针对数据收集的Rest API,针对数据缓冲的Apache Kafka,针对数据存储的Hive,用于数据可视化的PowerBI。

数据工程师必备的8项技能,不要只知道Python!的更多相关文章
- 百度Hr分享,一个合格的数据工程师简历中必备技能?
如果你是一名数据科学方面的求职者,你肯定想知道在简历上写些什么才能获得面试的机会:如果你想进入这个领域,你一定想知道具备哪些技术才能成为一名有竞争力的求职者. 在本文中,我们对Indeed中一千份数据 ...
- 【PS切图】前端工程师必备,但又无需精通的一项技能。
前端主要从事一些代码开发工作,PS使用是前端工程师必备,但又无需精通的一项技能. 前端切图四大面板:在“窗口”菜单下开启 1,信息(手动开启)2,字符(手动开启)3,历史记录(手动开启)4,图层(默认 ...
- 高级Linux运维工程师必备技能(扫盲篇)
高级Linux运维工程师必备技能(扫盲篇) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在了解文件系统之前,我们要学习一下磁盘存储数据的方式,大家都知道文件从内存若要持久化存储的 ...
- 【转帖】系统软件工程师必备技能-进程内存的working set size(WSS)测量
系统软件工程师必备技能-进程内存的working set size(WSS)测量 2018年12月28日 18:43:01 Linuxer_ 阅读数:145 https://blog.csdn.net ...
- 浅谈Linux系统运维工程师必备技能
一.什么是运维工程师 相信读者们必定听说过Linux,也听说过运维工程师.那么运维工程师是个什么概念呢? 百度百科上的官方解释如下: 运维工程师(Operations)在国内又称为运维开发工程师(De ...
- [面试]中高级测试工程师必备,月薪15K+
1.你的测试职业发展是什么? 测试经验越多,测试能力越高.所以我的职业发展是需要时间积累的,一步步向着高级测试工程师奔去.而且我也有初步的职业规划,前3年积累测试经验,按如何做好测试工程师的要点去要求 ...
- sublime text3 --前端工程师必备神器
sublime text3 --前端工程师必备神器 导读目录: 下载与Emmet插件安装 sublime text3 中cssrem安装与使用 sublime Text 3的中文文件名显示为方框的问题 ...
- sublime text3 --前端工程师必备
sublime text3 --前端工程师必备神器 导读目录: 下载与Emmet插件安装 sublime text3 中cssrem安装与使用 sublime Text 3的中文文件名显示为方框的问题 ...
- MySQL常用指令,java,php程序员,数据库工程师必备。程序员小冰常用资料整理
MySQL常用指令,java,php程序员,数据库工程师必备.程序员小冰常用资料整理 MySQL常用指令(备查) 最常用的显示命令: 1.显示数据库列表. show databases; 2.显示库中 ...
- Java工程师必备
Java工程师必备 JAVA基础扎实,熟悉JVM,熟悉网络.多线程.分布式编程及性能调优 精通Java EE相关技术 熟练运用Spring/SpringBoot/MyBatis等基础框架 熟悉分布式系 ...
随机推荐
- 聊聊分布式 SQL 数据库Doris(三)
详细内容阅读: Apache Doris 分区分桶新功能 与 数据划分. 在此基础上做总结与延伸. 在 Doris 的存储引擎规则: 表的数据是以分区为单位存储的,不指定分区创建时,默认就一个分区. ...
- 【luogu题解】P5461 赦免战俘
一.题目 现有 \(2^n\times2^n\ (n≤10)\) 名作弊者站成一个正方形方阵等候 kkksc03 的发落.kkksc03 决定赦免一些作弊者.他将正方形矩阵均分为 4 个更小的正方形矩 ...
- 黑客玩具入门——4、漏洞扫描与Metasploit
1.Legion漏洞扫描分析工具 Legion是Sparta的一个分支,它是一个开源的.易于使用的.超级可扩展的.半自动的网络渗透测试框架.它是一款Kali Linux系统默认集成的Python GU ...
- SSPRQ码型设计
serdes速率超过50G之后,在VSR光模块场景下SSPRQ使用较为广泛.SSPRQ用于PAM4光模块眼图压力,闭合率测试. 但是有很多serdes IP不支持此功能.出于测试需要需要新设计SSPR ...
- C++ Qt开发:PushButton按钮组件
Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍QPushBu ...
- MySQL运维14-管理及监控工具Mycat-web的安装配置
一.Mycat-web介绍 Mycat-web(现改名为Mycat-eye)是对Mycat-server提供监控服务,通过JDBC连接对Mycat,MySQL监控,监控远程服务器的cpu,内存,网络, ...
- 华企盾DSC防泄密:有一个文件申请解密失败,提示拒绝访问(密钥不对)
解决方法:将文件拖到加密进程中提示密钥不对,找到原来的数据库还原解密
- 【UniApp】-uni-app-动态计算字体大小(苹果计算器)
前言 本文主要介绍uni-app中动态计算字体大小的方法 原因呢就是在上一篇文章当中我发现输入的内容已经超过了展示区域 于是我就想到了动态计算字体大小的方法,这样就可以保证输入的内容不会超过展示区域 ...
- 通过数字证书对PDF电子文件进行数字签名/盖章
以下代码详细说明如何使用数字证书对PDF电子文件进行数字签名/盖章.PDF文件签署主要传递PDF文件,数字证书信息,签章图片3个信息.代码中需要的文件.数字证书.签章图片可访问开放签电子签章开源系统详 ...
- Python汉诺塔递归算法实现
关于用递归实现的原理,请查看我之前的文章: C语言与汉诺塔 C#与汉诺塔 以下为代码: count = 0 def move(pile, src, tmp, dst): global count if ...