【大数据面试】【框架】Linux命令、Shell工具、常见Shell脚本（群起脚本、数仓导入）

一、Linux

1、常用高级命令

ps -ef：查看进程详情，ps -ef|grep dae可以搜索指定进程，-e表示环境变量

ps -au：以用户为主的详细格式，显示进程平均占用资源，不包括cmd列

df -h：文件系统的磁盘空间占用情况，表示大文件，-i表示innode索引命名的小文件

iotop：进行输入输出的进程信息，类似iostate表示IO和CPU变化

xargs：将标准输入转为命令行参数，如echo "one two three" | xargs mkdir

tail：文件最后10行，如tail -n +20 notes.log是从20到最后

uptime：查看系统的平均负载，即特定时间间隔内运行队列中的平均进程数（最近1分钟、5分钟、15分钟系统的负载）。

netstat：显示不同端口的进程信息

2、查看磁盘使用情况、查看进程、查看端口号

df -h

top 或 ps

netstat

二、Shell

1、Shell的常用工具（只需要记住名称）

awk（停止flume进程时使用），显示匹配的文件：awk '/101/' file

sed：使用正则表达式打印文件信息，如sed -n '/^#/!p' /etc/vsftpd/vsftpd.conf

cut：查看指定分割的文字 who|cut -b 3，如：遍历文件夹、读取文件的某几行、截取相应的内容

sort：将文本文件内容加以排序，如sort seq，可以去除重复行-u

2、用Shell写过哪些脚本

（1）集群启动、分发脚本

#!/bin/bash

#涉及到启动停止分支

case $1 in

"start"){

    #涉及到多台服务器

    for i in hadoop102 hadoop103 hadoop104

    do

         ssh $i "每个集群内需要执行的命令"

    done

};;

"stop"){

};;

#表示case块的结束

esac

（2）数仓与MySQL的导入导出sqoop

主要用到sqoop脚本，涉及到

sqoop --连接mysql hadoop102:3306 root qaz123

--hdfs 路径，存在要删除

--query 条件过滤，如"select id, name from 表创建时间操作时间的过滤" and 命令

　　全量：where 1=1

　　增量：创建时间

　　新增和变化：创建时间或操作时间

　　 -- 空值处理

　　 -- 一致性问题

（3）数仓内部的导入

如ODS-->DWD，标准的五步

#!/bin/bash

#2：定义变量，项目名及hive绝对目录

hive=/opt/module/hive/bin/hive

APP=gmall

#3：获取时间

#参数非空

if [-n "$1"]; then

    do_date=$1

else

    #格式化显示

    do_date=`date -d "-1 day" + %F`

fi

#4：SQL，会变※

sql="

先写一天的脚本2020-03-10

遇到表，在表前面加上{$APP}.表名；

遇到事件，把时间替换为$do_date

"

#5：执行SQL

$hive -e "$sql"

【大数据面试】【框架】Linux命令、Shell工具、常见Shell脚本（群起脚本、数仓导入）的更多相关文章

大数据常用的Linux命令
Linux文件系统基础知识要想熟练使用命令,就先要熟练掌握Linux文件系统基础知识: 三个路径当前路径:也叫当前工作目录,就是当前状态下用户所处的位置相对路径:相对于当前工作目录开始的路径,会 ...
77个常用Linux命令和工具
77个常用Linux命令和工具 Linux管理员不能单靠GUI图形界面吃饭.这就是我们编辑这篇最实用Linux命令手册的原因.这个指南是特别为Linux管理员和系统管理员设计的,汇集了最有用的一些工 ...
12.Linux软件安装 (一步一步学习大数据系列之 Linux)
1.如何上传安装包到服务器有三种方式: 1.1使用图形化工具,如: filezilla 如何使用FileZilla上传和下载文件 1.2使用 sftp 工具: 在 windows下使用CRT 软件 ...
Linux命令行–更多bash shell命令（转）
4.1.1 探查程序 ps 命令默认情况下,ps命令只会显示运行在当前控制台下的属于当前用户进程的进程显示的当前进程的项目进程号运行在哪个终端(tty) 进程占用的CPU时间 Linux系统支 ...
大数据学习之Linux基础01
大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...
Spark 介绍（基于内存计算的大数据并行计算框架）
Spark 介绍(基于内存计算的大数据并行计算框架) Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持 ...
《Linux命令、编辑器与shell编程》第三版学习笔记---002
<Linux命令.编辑器与shell编程>第三版学习笔记---001 Linux命令.编辑器与shell编程 Shell准备 1.识别Shell类型 echo $0 echo $BAS ...
面试系列二：精选大数据面试真题JVM专项-附答案详细解析
公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型: ...
坐实大数据资源调度框架之王，Yarn为何这么牛
摘要:Yarn的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为大数据的代名词. 本文分享自华为云社区<Yarn为何能坐实资源调度框架之王?>,作者: Java ...
大数据学习之Linux进阶02
大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPR ...

随机推荐

在 Kubernetes 上运行高可用的 Kafka 集群
转载自:https://www.qikqiak.com/post/deploy-kafka-ha-on-k8s/ Apache Kafka 是目前最流行的分布式消息发布订阅系统,虽然 Kafka 非常 ...
在 CentOS 8 上使用 FirewallD 设置防火墙
简介一个 Linux 防火墙可用于保护您的工作站或服务器免受不需要的流量干扰.您可以设置规则来阻止或允许流量通过.CentOS 8 带有一个动态的.可定制的基于主机的防火墙和一个 D-Bus 接口. ...
nacos基础知识理解
概念 Nacos是阿里巴巴开源的一款支持服务注册与发现,配置管理以及微服务管理的组件.用来取代以前常用的注册中心(zookeeper , eureka等等),以及配置中心(spring cloud c ...
Jenkins和Gitlab CI/CD自动更新k8s中pod使用的镜像说明
Jenkins 使用Jenkins的话,完成的工作主要有如下步骤: 1.从Gogs或Gitlab仓库上拉取代码 2.使用Maven编译代码,打包成jar文件 3.根据jar文件使用相对应的Docker ...
5_项目实战MyShop
一. 网上商城 1.1 商城类别 B2B 商家对商家 B2C 商家对客户 C2C 客户对客户 O2O 线上线下相结合 1.2 商城常见模块后台常见功能模块商品管理包括后台商品库存管理, 上货, ...
24_Java8
Java8 一. Java8概述 Java8(又称JDK1.8)是Java语言开发的一个主要版本. Oracle公司于2014年3月18日发布Java8 支持Lambda表达式函数式接口新的Str ...
Docker Desktop 可以直接启用Kubernetes 1.25 了
作为目前事实上的容器编排系统标准,K8s 无疑是现代云原生应用的基石,很多同学入门可能直接就被卡到第一关,从哪去弄个 K8s 的环境, Docker Desktop 自带了Kubernetes 服务, ...
Codeforces Round #801 (Div. 2) C(规律证明)
Codeforces Round #801 (Div. 2) C(规律证明) 题目链接: 传送门QAQ 题意: 给定一个$n * m$的矩阵,矩阵的每个单元的值为1或-1,问从$(1,1)$开 ...
Linux实战笔记_CentOS7_无法识别NTFS格式的U盘
注:因为CentOS 默认不识别NTFS的磁盘格式,所以我们要借助另外一个软件ntfs-3g来挂载.自带的yum源没有这个软件,要用第三方的软件源,比如阿里的epel. #安装ntfs-3g cd / ...
C语言编译环境中的调试功能及常见错误提示
文章目录 1 .调试功能 2 . 编译中的常见错误例析 3 .常见错误信息语句索引 1 .调试功能 1．常用健 <F10> : 激活系统菜单 <F6> : 将光标在编辑窗口和. ...

【大数据面试】【框架】Linux命令、Shell工具、常见Shell脚本（群起脚本、数仓导入）

【大数据面试】【框架】Linux命令、Shell工具、常见Shell脚本（群起脚本、数仓导入）的更多相关文章

随机推荐

热门专题