Linux基本命令: 查看IP: ifconfig 或者 hostname -i(需要配置文件之后才可以使用) ipconfig(Windows) 关闭防火墙: Service iptables status chkconfig iptables off 配置静态IP地址: vi /etc/sysconfig/network-scripts/ifcfg-eth0 ONBOOT=yes NM_CONTROLLED=no BOOTPROTO="static" IPADDR=192.168.…
学习大数据是必须掌握一定Linux知识的,工欲善其事,必先利其器.在学习之前,首先需要搭建Linux系统,本节将讲解VMware Workstation的安装和CentOS 7系统的安装. 1.2.1 VMware Workstation安装 (1)在VMware 官网地址(https://www.vmware.com/cn.html)处下载虚拟机安装包(VMware-workstation-full-14.1.1.28517.exe),双击该安装包,进入安装向导界面,如图1.1所示. 图1.1…
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础软件的安装 CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件 第五章:Kafka集群的配置 CentOS6安装各种大数据软件 第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件 第七章:Flume安装与配置 CentOS6安装各…
https://www.bilibili.com/video/av29407581?p=1 若泽大数据官网 http://www.ruozedata.com/ tidb 系列三:有了sparkjdbc为什么还要tispark http://www.zdingke.com/2019/02/26/tidb-%E7%B3%BB%E5%88%97%E4%B8%89%EF%BC%9A%E6%9C%89%E4%BA%86sparkjdbc%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%9…
一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. <OD大数据实战>Flume入门实例 5. <OD大数据实战>Kafka入门实例 6. <OD大数据实战>Oozie环境搭建 7. <OD大数据实战>HBase环境搭建 二.数据分析平台架构 https://www.processon.com/diagraming/…
一.环境搭建 1.  下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境变量信息 (1)hadoop-config.sh (2)hdfs-config.sh (3)mapred-config.sh (4)yarn-config.sh (5)httpfs-config.sh & kms-config.sh 2)${HADOOP_HOME}/etc/hadoop:搭建环境时配…
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建 二.Hive环境搭建 1. 准备安装文件 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hive-0.13.1-cdh5.3.6.tar.gz 2. 解压 -cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 cd /opt/modules/cdh/hive--cdh5.3.6/conf mv hive-env.sh.template h…
本文来自 网易云社区 . Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景. Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where.排序操作-limit等),聚合操作-groupby以及Join操作等.其中Join操作是最复杂.代价最大的操作类型,也是OLAP场景中使用相对较多的操作.因此很有必要对其进行深入研究. 另外,从业…
第四节:Linux命令基础 标签(空格分隔):Linux实战教学笔记 第1章 认识操作环境 root:当前登陆的用户名 @分隔符 chensiqi:主机名 -:当前路径位置 用户的提示符 1.1 Linux系统命令操作语法的格式 提示: 一般情况下命令中的[]表示可选,既命令的参数及文件是可选的. 参数选项===>一个命令的不同的功能(不同的条件). 1.2 Linux目录结构 第2章 认识常用的Linux基础命令 简单粗暴贯穿常用命令,对命令使用框架有个整体认识 2.1 创建一个目录/data…
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用及JDBC连接 本文介绍Hive的使用原理及命令行.Java JDBC对于Hive的使用. 在Hadoop项目中,HDFS解决了文件分布式存储的问题,MapReduce解决了数据处理分布式计算问题,之前介绍过Hadoop生态中MapReduce(以下统称MR)的使用,大数据系列之分布式计算批处理引擎…
一.Linux命令基础 1.shell Linux系统中运行的一种特殊程序 在用户和内核之间充当'翻译官' 用户登录Linux系统时,自动加载一个shell程序 bash是Linux系统中默认使用的shell程序 文件位于.bin/bash当中:如下图 2.Linux命令的分类 2.1内部命令与外部命令的区别 2.2. echo $PATH echo $PATH 显示当前PATH环境变量,该变量的值由一系列以冒号分隔的目录名组成 2.3查看内部命令 help命令(会把这些内部命令的用法都告诉你)…
What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari等(具体的组件请参看最后的附录).Azure HDInsight 支持 Windows的集群部署,也支持 Linux 集群部署.Hortonworks 是我目前所知唯一支持在 Windows 上部署的 Hadoop C…
官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.命令行和客户端 1. 命令窗口 1)进入命令窗口 hive 2)在hive cli命令窗口查看hdfs文件系统: dfs -ls / 3)在hive cli命令窗口如何查看本地文件系统 !ls / 2. hive交互方式 1) hive -e "select * from test.student;" $HIVE_HOME/bin/hive…
一.概述 推荐路神的ES权威指南翻译:https://es.xiaoleilu.com/010_Intro/00_README.html 官网:https://www.elastic.co/cn/products/elasticsearch 精品博文:https://blog.csdn.net/laoyang360/article/details/52244917 1.es是什么 官网的中文介绍: Elasticsearch 是一个分布式的 RESTful 风格的搜索和数据分析引擎,能够解决不断…
一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for large-scale data processing. 主要的特性有: Speed:快如闪电(HADOOP的100倍+) Easy to Use:Scala——Perfect.Python——Nice.Java——Ugly.R Generality:Spark内核上可以跑Spark SQL.Spark S…
一.关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager sbin/mr-jobhistory-daemon.sh start historyserver sbin/hadoop-daemon.sh…
1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; +------+----------+--+ | sex | address | +------+----------+--+ | m | A | | m | A | | m | B | | m | B | | m | B |…
1.连接mysql --driver-class-path mysql-connector-java-5.1.21.jar 在数据库中,SET GLOBAL binlog_format=mixed; 2.Spark中 使用Hive的udf 同样使用-jars 才行 3.Spark jupyter使用 https://www.jb51.net/article/163641.htm https://my.oschina.net/albert2011/blog/754174 使用jupyter-not…
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2.4 配置 Spark Standalone 模式2.5 配置 Spark History Server2.6 配置 Spark HA2.7 配置 Spark Yarn 模式第3章 执行 Spark 程序3.1 执行第一个 spark 程序3.2 Spark 应用提交3.3 Spark shell3…
介绍 此Refcard提供了Apache Hadoop,这是最流行的软件框架,可使用简单的高级编程模型实现大型数据集的分布式存储和处理.我们将介绍Hadoop最重要的概念,描述其架构,指导您如何开始使用它以及在Hadoop上编写和执行各种应用程序. 简而言之,Hadoop是Apache Software Foundation的一个开源项目,可以安装在服务器集群上,以便这些服务器可以通信并协同工作来存储和处理大型数据集.Hadoop近年来因其有效处理大数据的能力而变得非常成功.它允许公司将所有数据…
Java / 计算机基础知识整理 在进行知识梳理同时也是个人的第一篇技术博客之前,首先祝贺一下,经历了一年左右的学习,从完完全全的计算机小白,现在终于可以做一些产出了!可以说也是颇为感慨,个人认为,学习本身就应该是有方法论的,前人总结了不少比较好的学习方法(比如说费曼学习法,金字塔原理),我们在进行好方法借鉴的同时,也不要忘了让整个学习过程形成一个闭环,我认为,向他人教学,或是定期将已有的知识进行一些梳理,总结,就是闭环的一种,这种方式在向他人传授知识的同时,更是对自己已有知识体系的一次查漏补缺…
第一章Linux命令行简介 1.1 Linux命令行概述 1.1.1 Linux 命令行的开启和退出 开启:登陆账号密码进入系统 退出:exit/logout  快捷键:Ctrl+d 1.1.2 Linux命令行提示符介绍 (1)提示符由PS1环境变量控制.实例代码如下: [root@centos102 ~]# set | grep PS1 PS1='[\u@\h \W]\$ ' 这里的PS1='[\u@\h \W]\$ ',可以通过全局配置文件/etc/bashrc或/etc/profile进…
一.列表显示目录内容-ls 1.显示目录中内容,包括子目录和文件相关属性信息 ls(列表的形式去显示目录内容)                    [选项](可有可无的)                  [文件或目录...](可有可无的) 或 查看指定的文件 2.常用选项 -l         -a        -A        -d        -h        -R         --color -l ;以长格式(long)显示文件和目录的列表,包括权限大小,最后更新时间,等详…
关机重启 reboot poweroff ============================ linux命令分类 1.针对不同文件的管理命令 1.1 目录 FHS 文件系统层次化标准 绝对路径:从"/"开始一个具体路径 相对路径:从当前目录开始的具体路径(pwd可以查看当前所在目录) /3层/oldboy/教室3 /3层/oldboy/教室2 1.1.1 创建目录: mkdir /oldboy mkdir -p /a/b/c 1.1.2 查询目录 ls -ld /oldboy t…
UNIX是什么 UNIX的定义: UNIX是一个计算机操作系统,一个用来协调.管理和控制计算机硬件和软件资源的控制程序. UNIX操作系统的特点:多用户和多任务多用户表示在同一时刻可以有多个用户同时使用UNIX操作系统而且他们互不干扰:多任务表示任何一个用户在同一时间可以在UNIX操作系统上运行多个程序. GNU项目与自由软件 GNU计划,是由Richard Stallman在1983年9月27日公开发起的,它的目标是创建一套完全自由的操作系统.GPL条款 GPL条款是为保证GNU软件可以自由地…
文件描述符是和文件的输入.输出相关联的非负整数,Linux内核(kernel)利用文件描述符(file descriptor)来访问文件.打开现存文件或新建文件时,内核会返回一个文件描述符.读写文件也需要使用文件描述符来指定待读写的文件.常见的文件描述符是stdin.stdout和stderr. 系统预留文件描述符 0 -- stdin(标准输入) 1 -- stdout(标准输出) 2 -- stderr(标准错误) 重定向将输入文本通过截取模式保存到文件: echo "this is a t…
1.linux的简单历史 1)先有unix,后来有linux 2)linux操作系统是开源和免费的,里面的软件可能部分要收费 3)linux有不同发行版本,redhat,centos等. 4)1991 年,芬兰赫尔辛基大学的研究生 Linus Torvalds 基于 gcc.bash 开发了针对 386 机器的 Linux 内核 5)linux在开源组织和一大群黑客的完善下,linux版本逐渐稳定,慢慢有了现在各种linux操作系统. 了解以上几个要点就可以了,不需要去详细了解太多,有兴趣和时间…
系统基础 三大部件:CPU 内存 IO 1.CPU :运算器 控制器 存储器 2.内存:CPU的数据只能从内存读取,且内存数据有易失性(页面) 3.IO:控制总线 数据总线(一个IO) OS原理: OS管理:GUI - 图形化管理(GNOME KDE XFCE) CLI - 命令行管理界面 shell [csh tcsh ksh zsh] 查看支持:cat /etc/shells 调用:system call api 操作新系统的历史 开源体系 GNU -- GPL协定 / 宽松的GPL协定 A…
1. Logstash概述 Logstash的官网地址为:https://www.elastic.co/cn/products/logstash,以下是官方对Logstash的描述. Logstash是与Flume类似,也是一种数据采集工具,区别在于组件和特性两大方面.常用的数据采集工具有Sqoop.Flume.Logstash,计划将单独写一篇博文论述它们之间的区别,所以这里就不赘述,感兴趣可关注后期的博文. 2. Kafka概述 Kafka的官网是:http://kafka.apache.o…
文章目录 一.Linux入门概述 1.1 概述 1.2 下载地址 1.3 Linux特点 1.4 Linux和Windows区别 二.VM安装相关 2.1 安装VMWare虚拟机 2.2 安装CentOS 2.3 安装VMTools工具 2.4 虚拟机屏幕保护设置 2.5 IVT虚拟化支持 三.Linux目录结构 3.1 概览 3.2 树状目录结构 四.VI/VIM编辑器 4.1 概述 4.2 测试数据准备 4.3 一般模式 4.4 编辑模式 4.5 指令模式 五.系统管理操作 5.1 查看网络…