欢迎关注公众号:机器学习算法与Python实战(ID:tjxj666)

原作:Mohammed M Jubapu

译者:机器学习算法与Python实战(公众号ID:tjxj666)

英文https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/

数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。

1-精通一种编程语言

是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如,Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择,而Ruby也是广泛流行的应用程序粘合剂。

2- Python是最受关注的技能

Python!Python!Python!是的,大约70%的工作简介中具有Python作为必备技能,其次是SQL,Java,Scala和其他编程技能,例如R,.Net,Perl,Shell脚本等。

3- Apache Spark在数据处理层的顶部

数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位,其次是AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR等。ApacheSpark是一个功能强大的开源框架,可提供交互式处理,实时流处理,批处理,并以非常快的速度,标准接口和易用性进行内存处理。

4- Rest API通常用于数据收集

对于需要分析或处理的任何数据,首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具,其次是Sqoop,Nifi,Azure Data Factory,Flume,Hue等。

5-数据缓冲最常见的是Apache Kafka

数据缓冲是数据工程框架中的关键部分,在将数据从一个地方移到另一个地方以适应大量数据时,需要临时存储数据。Apache Kafka是常用的分布式数据存储,经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据,这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据,并按顺序和增量地处理数据。此类别中的其他工具是Kinesis,Redis Cache, GCP Pub/Sub 等。

6-存储数据– SQL或NoSQL

数据需要存储以进行处理,分析或可视化,以生成有价值的结果。数据存储可以采用数据仓库,Hadoop,数据库(RDBMS和NoSQL),数据集市的形式。紧随其后的是Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery等SQL技能。

7-使用Tableau或PowerBI进行数据可视化

数据可视化是以图形,图表或其他可视格式表示数据或信息。它传达数据与图像的关系。TableauPowerBI领先于竞争对手,其次是SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy等。

8-数据工程云平台

有不同的基于云或内部部署的平台,可用于不同的数据工程工具集。列出的典型代表是Hadoop,Google Cloud Platform,AWS,AzureApprenda

好吧,绝非必须精通所有技能和工具,但是通常需要在每个数据管道框架类别中至少掌握其中一个,例如针对云平台的GCP,针对开发的Python,针对数据处理的Apache Spark,针对数据收集的Rest API,针对数据缓冲的Apache Kafka,针对数据存储的Hive,用于数据可视化的PowerBI

数据工程师必备的8项技能,不要只知道Python!的更多相关文章

  1. 百度Hr分享,一个合格的数据工程师简历中必备技能?

    如果你是一名数据科学方面的求职者,你肯定想知道在简历上写些什么才能获得面试的机会:如果你想进入这个领域,你一定想知道具备哪些技术才能成为一名有竞争力的求职者. 在本文中,我们对Indeed中一千份数据 ...

  2. 【PS切图】前端工程师必备,但又无需精通的一项技能。

    前端主要从事一些代码开发工作,PS使用是前端工程师必备,但又无需精通的一项技能. 前端切图四大面板:在“窗口”菜单下开启 1,信息(手动开启)2,字符(手动开启)3,历史记录(手动开启)4,图层(默认 ...

  3. 高级Linux运维工程师必备技能(扫盲篇)

    高级Linux运维工程师必备技能(扫盲篇) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在了解文件系统之前,我们要学习一下磁盘存储数据的方式,大家都知道文件从内存若要持久化存储的 ...

  4. 【转帖】系统软件工程师必备技能-进程内存的working set size(WSS)测量

    系统软件工程师必备技能-进程内存的working set size(WSS)测量 2018年12月28日 18:43:01 Linuxer_ 阅读数:145 https://blog.csdn.net ...

  5. 浅谈Linux系统运维工程师必备技能

    一.什么是运维工程师 相信读者们必定听说过Linux,也听说过运维工程师.那么运维工程师是个什么概念呢? 百度百科上的官方解释如下: 运维工程师(Operations)在国内又称为运维开发工程师(De ...

  6. [面试]中高级测试工程师必备,月薪15K+

    1.你的测试职业发展是什么? 测试经验越多,测试能力越高.所以我的职业发展是需要时间积累的,一步步向着高级测试工程师奔去.而且我也有初步的职业规划,前3年积累测试经验,按如何做好测试工程师的要点去要求 ...

  7. sublime text3 --前端工程师必备神器

    sublime text3 --前端工程师必备神器 导读目录: 下载与Emmet插件安装 sublime text3 中cssrem安装与使用 sublime Text 3的中文文件名显示为方框的问题 ...

  8. sublime text3 --前端工程师必备

    sublime text3 --前端工程师必备神器 导读目录: 下载与Emmet插件安装 sublime text3 中cssrem安装与使用 sublime Text 3的中文文件名显示为方框的问题 ...

  9. MySQL常用指令,java,php程序员,数据库工程师必备。程序员小冰常用资料整理

    MySQL常用指令,java,php程序员,数据库工程师必备.程序员小冰常用资料整理 MySQL常用指令(备查) 最常用的显示命令: 1.显示数据库列表. show databases; 2.显示库中 ...

  10. Java工程师必备

    Java工程师必备 JAVA基础扎实,熟悉JVM,熟悉网络.多线程.分布式编程及性能调优 精通Java EE相关技术 熟练运用Spring/SpringBoot/MyBatis等基础框架 熟悉分布式系 ...

随机推荐

  1. Mac postman调分页接口,导出csv

    准备后端接口 package com.ybchen.controller; import com.ybchen.utils.JsonData; import lombok.Data; import o ...

  2. Windows10下的hexo搭建

    用hexo搭建个人博客 查看效果:慢蜗牛博客 目录 用hexo搭建个人博客 准备环境 Github Node.js和Git 连接Github 安装hexo 安装插件 部署 Hexo 到 GitHub ...

  3. Vite4+Typescript+Vue3+Pinia 从零搭建(5) - 路由router

    项目代码同步至码云 weiz-vue3-template Vue Router 是 Vue.js 的官方路由.它与 Vue.js 核心深度集成,让用 Vue.js 构建单页应用变得轻而易举. 1. 安 ...

  4. 悲观锁、乐观锁、mybatis-plus实现乐观锁

    悲观锁.乐观锁.mybatis-plus实现乐观锁 转载自:www.javaman.cn 1.悲观锁.乐观锁 乐观锁和悲观锁是两种用于处理并发操作的数据锁定策略.它们在处理多个事务尝试同时访问和修改同 ...

  5. 如何基于 k8s做私有化部署

    公众号「架构成长指南」,专注于生产实践.云原生.分布式系统.大数据技术分享. 随着国内数字化转型的加速和国产化进程推动,软件系统的私有化部署已经成为非常热门的话题,因为私有化部署赋予了企业更大的灵活和 ...

  6. django自带的cache缓存框架使用

    https://docs.djangoproject.com/zh-hans/4.2/topics/cache/#top 主要步骤官网也写得很清楚了,包含怎么区使用. 这里就展示一些配置django- ...

  7. u盘加密原理和实现步骤

    U盘加密原理:U盘加密的原理主要是通过对U盘存储的数据进行加密处理,确保只有经过授权的用户才能访问和解密数据.以下是一般的U盘加密原理: 加密算法: 使用强大的加密算法对U盘中的数据进行加密.常见的算 ...

  8. 从零玩转前后端加解密之SM2-sm2

    title: 从零玩转前后端加解密之SM2 date: 2022-08-21 19:42:00.907 updated: 2023-03-30 13:28:48.866 url: https://ww ...

  9. ja-netfilte-ja-netfilte

    title: ja-netfilte date: 2022-10-16 16:13:50.339 updated: 2023-02-07 22:58:50.672 url: https://www.y ...

  10. grafana_mysql安装

    https://dl.grafana.com/oss/release/grafana-5.4.0-1.x86_64.rpm #官网下载安装包 [root@zbx4_0 source]# rpm -iv ...