Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录

Hadoop 2.6 的安装与配置(伪分布式)

下载并解压缩
配置 .bash_profile :
1. export HADOOP_HOME=/Users/fan/Applications/hadoop-2.6.0
2. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
配置 HDFS :
1. etc/hadoop/core-site.xml:
  
  <configuration>
  
      <property>
  
          <name>fs.defaultFS</name>
  
          <value>hdfs://localhost:9000</value>
  
      </property>
  
  </configuration>
  
  etc/hadoop/hdfs-site.xml:
  
  <configuration>
  
      <property>
  
          <name>dfs.replication</name>
  
          <value>1</value>
  
      </property>
  
  </configuration>
  
  2. 配置 ssh 自动登录,以方便 namenode 管理 datanode 以及节点间的数据传输
2. 1. Mac: setting->share-> enable remote login, enable file share
  2. Others
  3. 1. Setup passphraseless ssh
      
      Now check that you can ssh to the localhost without a passphrase:
      
      $ ssh localhost
      
      If you cannot ssh to localhost without a passphrase, execute the following commands:
      
      $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
      
      $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
      
      $ chmod 0600 ~/.ssh/authorized_keys
启动 HDFS:
1. bin/hdfs namenode -format
2. Start-dfs.sh
测试 HDFS 的 web UI 管理页面:
1. 50070端口管理分布式 hdfs文件系统
配置 YARN:
1. Configure parameters as follows:etc/hadoop/mapred-site.xml:
  
  <configuration>
  
      <property>
  
          <name>mapreduce.framework.name</name>
  
          <value>yarn</value>
  
      </property>
  
  </configuration>
  
  etc/hadoop/yarn-site.xml:
  
  <configuration>
  
      <property>
  
          <name>yarn.nodemanager.aux-services</name>
  
          <value>mapreduce_shuffle</value>
  
      </property>
  
  </configuration>
启动 YARN:
1. sbin/start-yarn.sh
测试 YARN 的 web UI 管理页面: localhost:8088/

Start-dfs.sh启动出现问题:

无法启动 namenode , 但无出错提示, 在启动 hive 时出现
Connecting to ResourceManager at /0.0.0.0:8032

java.net.ConnectException: Call From marta-komputer/127.0.1.1 to localhost:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused

原因是 namenode 启动失败,此时可以使用查看 start-dfs.sh 的 log 文件: /Users/fan/Applications/hadoop-2.6.0/logs/hadoop-fan-namenode-MacBook.log ,追踪到以下具体问题:

hadoop/hdfs/name is in an inconsistent state: storage directory(hadoop/hdfs/data/) does not exist or is not accessible

解决方法:

[CORRECT HDFS-SITE.XML]

<name>dfs.namenode.name.dir</name>

<value>/home/hduser/mydata/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hduser/mydata/hdfs/datanode</value>

</property>

运行 Hadoop namenode -format 格式化目标目录
Start-dfs.sh 启动 hdfs

4. http://stackoverflow.com/questions/27271970/hadoop-hdfs-name-is-in-an-inconsistent-state-storage-directoryhadoop-hdfs-data

参考链接: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_Single_Node

Hive 2.1.1 的安装与配置:

下载
配置.bash_profile文件 :
1. Export HIVE_HOME=xxx
2. Export PATH=$HIVE_HOME/bin:$PATH
复制 conf 目录下的 hive-default.xml-template.xml 重命名为: hive-site.xml
修改 hive-site.xml, 配置好 schematool -dbType mysql -initSchema 初始化元数据工具所对应的 metastore 配置
1. 修改 hive-site.xml 表中的 mysql 相关driver连接配置:
2. 1. 如 driverName mysql user password 等, 参考: url
  2. 下载 mysql-connector.jar 放入 lib 目录下
3. 启动,并修改 mysql 服务
运行: schematool -dbType mysql -initSchema
修改 hive-site.xml 中的相关配置: http://stackoverflow.com/questions/27099898/java-net-urisyntaxexception-when-starting-hive
1. <name>hive.exec.scratchdir</name>
  
  <value>/tmp/hive-${user.name}</value>
  
  <name>hive.exec.local.scratchdir</name>
  
  <value>/tmp/${user.name}</value>
  
  <name>hive.downloaded.resources.dir</name>
  
  <value>/tmp/${user.name}_resources</value>
  
  <name>hive.scratch.dir.permission</name>
  
  <value>733</value>
启动 hive 测试

参考链接: https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-InstallingHivefromaStableRelease

Spark2.1.0-hadoop2.6的安装使用:

下载
增加 export spark_classpath=mysql.connector.xxx.jar
复制 hive 的配置文件 hive-site.xml 放入到 spark 的目录下
启动 spark-shell 测试发现: aused by: MetaException(message:Hive Schema version 1.2.0 does not match metastore's schema version 2.1.0 Metastore is not upgraded or corrupt)
解决方法: 修改配置: https://docs.hortonworks.com/HDPDocuments/Ambari-2.2.2.0/bk_releasenotes_ambari_2.2.2.0/content/ambari_relnotes-2.2.2.0-known-issues.html
运行 spark-shell 成功.

即可使用

Hbase 在 Mac 系统中的安装配置与启动和使用

下载
cp 到 ~/Application 目录
配置 hbase-env.sh 中的 Java Home ： export JAVA_HOME=/Users/fan/.jenv/versions/1.8
配置hbase-site.xml 文件：
1. <property>
2. <name>hbase.cluster.distributed</name>
3. <value>true</value>
4. </property>
5. <property>
6. <name>>hbase.rootdir</name>
7. <value>hdfs://localhost:9000/user/hbase</value>
8. </property>
为 hbase 创建 hdfs 文件夹： hadoop fs -mkdir /user/hbase ;
配置环境变量：
1. export HBASE_HOME=/Users/fan/Applications/hbase-1.2.4
2. export PATH=$HBASE_HOME/bin:$PATH
启动 hbase:
1. zkServer.sh start
2. Start-hbase.sh
3. hbase-daemon.sh start thrift （方便 python 连接）
4. Hbase shell （cli环境）
查看 web ui ： http://localhost:16010/master-status
Hbase cli : hbase shell

Zookeeper 的安装配置和使用

配置： cp conf/zoo_sample.cfg conf/zoo.cfg
启动
1. zkServer.sh start
停止：
1. zkServer.sh stop
命令行管理：
1. zkCli.sh

Kafka 的安装配置和使用

下载
复制到 Applications 目录下
安装依赖的 zookeeper 并配置好。
设置环境变量：
1. KAFKA_HOME=
启动kafka，并测试 producer 和 consumer
1. 启动Zookeeper服务:
  
  Kafka用到了Zookeeper，所有首先启动Zookper，下面简单的启用一个单实例的Zookkeeper服务。可以在命令的结尾加个&符号，这样就可以启动后离开控制台。
  1. > bin/zookeeper-server-start.sh config/zookeeper.properties &
  2. [2013-04-22 15:01:37,495] INFO Reading configuration from: config/zookeeper.properties (org.apache.zookeeper.server.quorum.QuorumPeerConfig)
  3. ...
  2. 现在启动Kafka:
  1. > bin/kafka-server-start.sh config/server.properties
  2. [2013-04-22 15:01:47,028] INFO Verifying properties (kafka.utils.VerifiableProperties)
  3. [2013-04-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden to 1048576 (kafka.utils.VerifiableProperties)
  4. .
  3: 创建 topic
  
  创建一个叫做“test”的topic，它只有一个分区，一个副本。
  1. > bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
  可以通过list命令查看创建的topic:
  1. > bin/kafka-topics.sh --list --zookeeper localhost:2181
  2. test
  除了手动创建topic，还可以配置broker让它自动创建topic.
  
  4:发送消息.
  
  Kafka 使用一个简单的命令行producer，从文件中或者从标准输入中读取消息并发送到服务端。默认的每条命令将发送一条消息。
  
  运行producer并在控制台中输一些消息，这些消息将被发送到服务端：
  1. > bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
  2. This is a messageThis is another message
  ctrl+c可以退出发送。
  
  5: 启动consumer
  
  Kafka also has a command line consumer that will dump out messages to standard output.
  
  Kafka也有一个命令行consumer可以读取消息并输出到标准输出：
  1. > bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning
  2. This is a message
  3. This is another message
  你在一个终端中运行consumer命令行，另一个终端中运行producer命令行，就可以在一个终端输入消息，另一个终端读取消息。
  
  这两个命令都有自己的可选参数，可以在运行的时候不加任何参数可以看到帮助信息。

Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录的更多相关文章

mac osx 系统 brew install hadoop 安装指南
mac osx 系统 brew install hadoop 安装指南 brew install hadoop 配置 core-site.xml:配置hdfs文件地址(记得chmod 对应文件夹 ...
Mac OSX系统、Linux、Windows命令行教程
目录 Mac OSX系统.Linux.Windows命令行教程一.各系统终端的使用方法二.各系统命令的功能 Mac OSX系统.Linux.Windows命令行教程用你的终端做一些事情 (com ...
国产手机插入mac os 系统中无法被识别的解决方法
一些国产手机插入mac os 系统中无法被识别,在命令行输入 system_profiler SPUSBDataType在, 然后将魅蓝note的vendor id 添加至 ~/.android/ad ...
在Mac OSX系统的Docker机上启用Docker远程API功能
在Mac OSX系统的Docker机上启用Docker远程API功能作者:chszs,未经博主同意不得转载.经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs D ...
绿联Type-C千兆网卡AX88179芯片驱动（苹果Mac OSX系统）CM141丨CM179
绿联Type-C千兆网卡AX88179芯片驱动(苹果Mac OSX系统)CM141丨CM179 下载地址:https://www.lulian.cn/download/6-cn.html AX8817 ...
Hadoop：Hadoop单机伪分布式的安装和配置
http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在doc ...
Spark的安装及配置
title: Spark的安装及配置 summary: 关键词:Hadoop集群环境 Spark scala python ubuntu 安装和配置 date: 2019-5-19 13:56 aut ...
Django中redis的使用方法(包括安装、配置、启动)
一.安装redis: 1.下载: wget http://download.redis.io/releases/redis-3.2.8.tar.gz 2.解压 tar -zxvf redis-3.2. ...
FineReport中hadoop,hive数据库连接解决方案
1. 描述 Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具.一般来说我们对Hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连 ...

随机推荐

etcd和flannel实现docker跨物理机通信
实验目标跨物理机的容器之间能直接访问docker通过Flannel可以实现各容器间的相互通信,即宿主机和容器,容器和容器之间都能相互通信实验环境 192.168.3.50 //etcd.flann ...
Odoo Controller详解
转载请注明原文地址:https://www.cnblogs.com/ygj0930/p/10826241.html 一:Controller 一般通过继承的形式来创建controller类,继承自od ...
【VNCserver】Centos7.4安装VNC连接华为云或亚马逊云
1.1 文档背景 CentOS 7 / RHEL 7部署图形化界面安装VNCserver实现linux系统云主机桌面化,通过普通用户实现桌面化操作 2. Vncserver服务端部署 2.1 安装 ...
Win10 家庭版 VMware 无法启动解决办法
引发原因最近更新了一个补丁 KB4524147 安装后会导致 VM 无法打开(如果你没有安装hyper-v的话) 解决方案控制面板 -> 程序 -> 查看已安装的更新 -> 找到 ...
driver.implicitly_wait()与time.sleep()的区别
implicitly_wait(5)属于隐式等待,5秒钟内只要找到了元素就开始执行,5秒钟后未找到,就超时: time.sleep(5)表示必须等待5秒定位: 如何灵活运用这两种方式: 当某个页面元素 ...
Vue之Action
(1)同步与异步在 mutation 中混合异步调用会导致你的程序很难调试. 例如,当你调用了两个包含异步回调的 mutation 来改变状态,你怎么知道什么时候回调和哪个先回调呢? 这就是为什么我 ...
C#通过SendARP()获取WinCE设备的Mac网卡物理地址
ARP(Address Resolution Protocol) 即地址解析协议,是根据IP地址获取物理地址的一个TCP/IP协议. SendARP(Int32 dest, Int32 host, ...
20180606模拟赛T1——猫鼠游戏
题目描述: 猫和老鼠在10*10的方格中运动,例如: *...*..... ......*... ...*...*.. .......... ...*.C.... *.....*... ...*... ...
HDU6701：Make Rounddog Happy（启发式分治）
题意:给定数组a[],求区间个数,满足区间的数各不同,而且满足maxval-len<=K: 思路:一看就可以分治做,对于当前的区间,从max位置分治. 对于这一层,需要高效的统计答案,那么对短的 ...
Hive元数据配置到MySql
1 驱动拷贝 1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包 [root@hadoop102 mysql-l ...

Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录

Setup passphraseless ssh

Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录的更多相关文章

随机推荐

热门专题

Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录

Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录的更多相关文章