数据工程师必备的8项技能,不要只知道Python!
欢迎关注公众号:机器学习算法与Python实战(ID:tjxj666)
原作:Mohammed M Jubapu
译者:机器学习算法与Python实战(公众号ID:tjxj666)
英文:https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/
数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。
1-精通一种编程语言
是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如,Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择,而Ruby也是广泛流行的应用程序粘合剂。
2- Python是最受关注的技能
Python!Python!Python!是的,大约70%的工作简介中具有Python作为必备技能,其次是SQL,Java,Scala和其他编程技能,例如R,.Net,Perl,Shell脚本等。
3- Apache Spark在数据处理层的顶部
数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位,其次是AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR等。ApacheSpark是一个功能强大的开源框架,可提供交互式处理,实时流处理,批处理,并以非常快的速度,标准接口和易用性进行内存处理。
4- Rest API通常用于数据收集
对于需要分析或处理的任何数据,首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具,其次是Sqoop,Nifi,Azure Data Factory,Flume,Hue等。
5-数据缓冲最常见的是Apache Kafka
数据缓冲是数据工程框架中的关键部分,在将数据从一个地方移到另一个地方以适应大量数据时,需要临时存储数据。Apache Kafka是常用的分布式数据存储,经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据,这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据,并按顺序和增量地处理数据。此类别中的其他工具是Kinesis,Redis Cache, GCP Pub/Sub 等。
6-存储数据– SQL或NoSQL
数据需要存储以进行处理,分析或可视化,以生成有价值的结果。数据存储可以采用数据仓库,Hadoop,数据库(RDBMS和NoSQL),数据集市的形式。紧随其后的是Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery等SQL技能。
7-使用Tableau或PowerBI进行数据可视化
数据可视化是以图形,图表或其他可视格式表示数据或信息。它传达数据与图像的关系。Tableau和PowerBI领先于竞争对手,其次是SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy等。
8-数据工程云平台
有不同的基于云或内部部署的平台,可用于不同的数据工程工具集。列出的典型代表是Hadoop,Google Cloud Platform,AWS,Azure和Apprenda。
好吧,绝非必须精通所有技能和工具,但是通常需要在每个数据管道框架类别中至少掌握其中一个,例如针对云平台的GCP,针对开发的Python,针对数据处理的Apache Spark,针对数据收集的Rest API,针对数据缓冲的Apache Kafka,针对数据存储的Hive,用于数据可视化的PowerBI。

数据工程师必备的8项技能,不要只知道Python!的更多相关文章
- 百度Hr分享,一个合格的数据工程师简历中必备技能?
如果你是一名数据科学方面的求职者,你肯定想知道在简历上写些什么才能获得面试的机会:如果你想进入这个领域,你一定想知道具备哪些技术才能成为一名有竞争力的求职者. 在本文中,我们对Indeed中一千份数据 ...
- 【PS切图】前端工程师必备,但又无需精通的一项技能。
前端主要从事一些代码开发工作,PS使用是前端工程师必备,但又无需精通的一项技能. 前端切图四大面板:在“窗口”菜单下开启 1,信息(手动开启)2,字符(手动开启)3,历史记录(手动开启)4,图层(默认 ...
- 高级Linux运维工程师必备技能(扫盲篇)
高级Linux运维工程师必备技能(扫盲篇) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在了解文件系统之前,我们要学习一下磁盘存储数据的方式,大家都知道文件从内存若要持久化存储的 ...
- 【转帖】系统软件工程师必备技能-进程内存的working set size(WSS)测量
系统软件工程师必备技能-进程内存的working set size(WSS)测量 2018年12月28日 18:43:01 Linuxer_ 阅读数:145 https://blog.csdn.net ...
- 浅谈Linux系统运维工程师必备技能
一.什么是运维工程师 相信读者们必定听说过Linux,也听说过运维工程师.那么运维工程师是个什么概念呢? 百度百科上的官方解释如下: 运维工程师(Operations)在国内又称为运维开发工程师(De ...
- [面试]中高级测试工程师必备,月薪15K+
1.你的测试职业发展是什么? 测试经验越多,测试能力越高.所以我的职业发展是需要时间积累的,一步步向着高级测试工程师奔去.而且我也有初步的职业规划,前3年积累测试经验,按如何做好测试工程师的要点去要求 ...
- sublime text3 --前端工程师必备神器
sublime text3 --前端工程师必备神器 导读目录: 下载与Emmet插件安装 sublime text3 中cssrem安装与使用 sublime Text 3的中文文件名显示为方框的问题 ...
- sublime text3 --前端工程师必备
sublime text3 --前端工程师必备神器 导读目录: 下载与Emmet插件安装 sublime text3 中cssrem安装与使用 sublime Text 3的中文文件名显示为方框的问题 ...
- MySQL常用指令,java,php程序员,数据库工程师必备。程序员小冰常用资料整理
MySQL常用指令,java,php程序员,数据库工程师必备.程序员小冰常用资料整理 MySQL常用指令(备查) 最常用的显示命令: 1.显示数据库列表. show databases; 2.显示库中 ...
- Java工程师必备
Java工程师必备 JAVA基础扎实,熟悉JVM,熟悉网络.多线程.分布式编程及性能调优 精通Java EE相关技术 熟练运用Spring/SpringBoot/MyBatis等基础框架 熟悉分布式系 ...
随机推荐
- Go 14周年
原文在这里. 由 Russ Cox, for the Go team 发布于2023年11月10日 今天,我们庆祝Go开源发布的第十四个生日!Go在过去一年里取得了巨大的进展,发布了两个功能丰富的版本 ...
- 为React Ant-Design Table增加字段设置
最近做的几个项目经常遇到这样的需求,要在表格上增加一个自定义表格字段设置的功能.就是用户可以自己控制那些列需要展示. 在几个项目里都实现了一遍,每个项目的需求又都有点儿不一样,迭代了很多版,所以抽时间 ...
- 免费领取Python学习资料
话不多说,直接上Python学习资料 QQ·群: 894692354(不单独一一发了,要的人太多,实在忙不过来)
- Mac 终端命令查看WiFi连接日志【原创】
写这篇文章的原因是因为经常通过钉钉打上班卡忘记打卡了,我们标准上班时间是上午8:00-10:00 ,对应下班时间是 17:00-19:00 ,有时8:30到公司,就开始忙碌了,作为程序员有时后一忙就 ...
- Codeforces Round #701 (Div. 2) A~C 题解
写在前边 链接:Codeforces Round #701 (Div. 2) 数学场,题目描述简单粗暴,思路很妙,代码短的不行,都是好神奇的一些题目. A. Add and Divide 链接:A题链 ...
- BI到底是什么,是否所有企业都适合上BI?
商业智能(Business Intelligence)的概念 商业智能(BI)是一种综合性的数据分析和决策支持系统,旨在帮助企业从海量的数据中提取有价值的信息,并将其转化为洞察力.报告和可视化呈现,以 ...
- Kafka集群调优+能力探底
一.前言 我们需要对4个规格的kafka能力进行探底,即其可以承载的最大吞吐:4个规格对应的单节点的配置如下: 标准版: 2C4G 铂金版: 4C8G 专业版: 8C16G 企业版: 16C32G 另 ...
- 论文阅读:2023_Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables
论文地址:语义听觉:用双耳可听器编程声学场景 论文代码:https://semantichearing.cs.washington.edu/ 引用格式:Veluri B, Itani M, Chan ...
- 神经网络优化篇:详解训练,验证,测试集(Train / Dev / Test sets)
训练,验证,测试集 在配置训练.验证和测试数据集的过程中做出正确决策会在很大程度上帮助大家创建高效的神经网络.训练神经网络时,需要做出很多决策,例如: 神经网络分多少层 每层含有多少个隐藏单元 学习速 ...
- [CF1034C] Region Separation
题目描述 There are $ n $ cities in the Kingdom of Autumn, numbered from $ 1 $ to $ n $ . People can trav ...