背景:从软通出来,告别华为外包,离开H区,进入了一家搞大数据的创业公司,感觉周围都好陌生,记录下自己大数据的career!

2019-03-4新的征程-入职第一天:

一、办理入职手续

公司人比较少,没有入职培训等操作;用了企业微信和企业邮箱,填下个人信息,然后开搞;

二、搭建Java开发环境和虚拟机、Linux、Xshell等

Windows下使用Xshell时出现丢失msvcr110.dll等dll,可以使用该链接解决https://blog.csdn.net/franck_lou/article/details/78438268

三、学习编译Ranger工程,熟悉相关部署和使用

刚开始接触公司自己搭建的Ranger工程,感觉好难受;Ranger是开源的,公司下载了源码并在原有结构上在增加新功能;Ranger里面好多组件都没用过,感觉很陌生,难受马非,于是感觉今天先弄明白这些东西时什么,之后再仔细研究它们时怎么存储数据、读/写文件和使用等。

1、Ranger 简介

Apache Ranger提供一个集中式安全管理框架,它可以对Hadoop生态的组件如Hive、Hbase进行细粒度的数据访问控制;通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表和字段权限,这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接;并且提供了Web UI方便管理员进行操作。

2、什么是Hbase

HBase是一种Hadoop数据库,经常被描述为一种稀疏的、分布式的、可持续化的、多维有序映射,它是基于行键、列键和时间戳建立索引的,是一个可以随机访问的存储和检索数据的平台;HBase不限制存储的数据种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系;HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。

3、什么是Hive

a. Hive由Facebook实现并开源;
b. 是基于Hadoop的一个数据仓库工具;
c. 可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能;
d. 底层数据是存储在HDFS上的;
e. Hive的本质是将SQL 语句转换为MapReduce 任务执行,使不熟悉MapReduce的用户很方便的利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算;
f. MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

4、什么是YARN

Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度;它将资源管理和处理组件分开,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大的好处。

5、什么是Hadoop

Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据;它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

6、什么是KNOX

Knox是Apache Hadoop生态中REST API和应用的网关,Apache Knox是一个通过REST API和UI与Apache Hadoop部署交互的应用网关;Knox网关为所有与Hadoop集群的REST和HTTP交互提供
了一个单独的访问点。(REST描述的是在网络中client和server的一种交互形式)

7、什么是HDFS

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上;它所具有的高容错性、高可靠性、高扩展性、高获得性和高吞吐率特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。

四、吐槽

1、今天上班用的是win10系统,win10需要以管理员身份打开dos窗口,才可以修改执行某些特殊命令;

2、上班第一天没有把Ranger工程自己编译出来,难受;

3、第一天晚上就加班了,还被嫌弃了,要讲究工作效率,在上班时间完成任务,该加班的时候再加班,难受;

4、建议大家有事没事都下个虚拟机玩玩,Linux和Xshell等操作熟悉下吧,又被嫌弃了,难受马非。

大数据---Ranger-1的更多相关文章

  1. 大数据权限管理工具 Apache Ranger 初识

    资料参考: Apache Ranger – Introduction http://ranger.apache.org/ 阿里云 Ranger简介 Apache Ranger初识 - 阿里云 大数据权 ...

  2. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  3. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

        你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

  4. Ambari——大数据平台的搭建利器之进阶篇

    前言 本文适合已经初步了解 Ambari 的读者.对 Ambari 的基础知识,以及 Ambari 的安装步骤还不清楚的读者,可以先阅读基础篇文章<Ambari——大数据平台的搭建利器>. ...

  5. 初识大数据(二. Hadoop是什么)

    hadoop是一个由Apache基金会所发布的用于大规模集群上的分布式系统并行编程基础框架.目前已经是大数据领域最流行的开发架构.并且已经从HDFS.MapReduce.Hbase三大核心组件成长为一 ...

  6. 【原创】Thinking in BigData (1)大数据简介

    提到大数据,就不得不提到Hadoop,提到Hadoop,就不得不提到Google公布的3篇研究论文:GFS.MapReduce.BigTable,Google确实是一家伟大的公司,开启了全球的大数据时 ...

  7. 细说Mammut大数据系统测试环境Docker迁移之路

    欢迎访问网易云社区,了解更多网易技术产品运营经验. 前言 最近几个月花了比较多精力在项目的测试环境Docker迁移上,从最初的docker"门外汉"到现在组里的同学(大部分测试及少 ...

  8. 大数据学习之路------借助HDP SANDBOX开始学习

    一开始... 一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣.当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少. 所以学习的过程可能 ...

  9. hadoop大数据平台安全基础知识入门

    概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引 ...

随机推荐

  1. TCP报文解析

    概述 在<网络基础总结(一)>总结了TCP建立连接和断开连接的流程,然而TCP协议远比我所了解的复杂得多,我所知的可以说就冰山一角,所总结的也只是纸上谈兵,仅仅只能对TCP有个肤浅的认识, ...

  2. Python爬取南京市往年天气预报,使用pyecharts进行分析

    上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...

  3. git解析日志常用命令

    git diff --name-only ORIG_HEAD 获取变更列表 git log -p 查看每个提交引入的实际更改. git log --oneline --decorate 查看日志列表 ...

  4. Emmagee--APP性能测试工具的基本使用

    一.Emmagee介绍 Emmagee是监控指定被测应用在使用过程中占用机器的CPU.内存.流量资源的性能测试小工具.该工具的优势在于如同windows系统性能监视器类似,它提供的是数据采集的功能,而 ...

  5. python中线程和进程(一)

    目录 进程和线程 Python中的线程 1. Thread类 2. 线程的启动 3. 线程的传参 4. 线程的属性和方法 5. daemon线程和non-daemon线程 6. join方法 7. 定 ...

  6. SpringBoot之旅第二篇-配置

    一.引言 虽然springboot帮我们进行了自动配置,但配置还是不可避免的,比如最简单的端口号,数据库连接.但springboot的配置一般不用xml进行配置,而是yml和properties,选择 ...

  7. java游戏开发杂谈 - 线程

    线程,让游戏拥有了动态变化的能力. java的图形界面,在启动的时候,就开始了一个线程. 这个线程负责处理:JFrame.JPanel等的绘制.事件处理. 它是由操作系统调用的,在程序启动时开启,程序 ...

  8. 程序猿必知必会Linux命令之awk

    前言 对于一名专业的程序员来说,Linux相关知识是必须要掌握的,其中对于文本的处理更是我们常见的操作,比如格式化输出我们需要的数据,这些数据可能会来源于文本文件或管道符,或者统计文本里面我们需要的数 ...

  9. headfirst设计模式(7)—命令模式

    一.前言 什么是命令模式? 在软件系统中,“行为请求者”与“行为实现者”通常呈现一种“紧耦合”.但在某些场合,比如要对行为进行“记录.撤销/重做.事务”等处理,这种无法抵御变化的紧耦合是不合适的.在这 ...

  10. VS2015编译GEOS的debug和release版本

    目前GEOS最新的3.7.1版本支持camke进行编译.经过尝试发现通过cmake生成的工程在vs2015下面编译的时候还是存在问题,而且在中文网上也没找到解决方案. 所以还是采用了nmake进行编译 ...