【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

铭文一级：

第五章：实战环境搭建

Spark源码编译命令:
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Pyarn -Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Dhadoop.version=2.6.0-cdh5.7.0

铭文二级：

第五章：实战环境搭建(所有都配置到环境变量)

1、Scala的安装：Download->previous releases 　　//课程使用2.11.8

2、Maven的安装：Download->archives->binaries //课程使用3.3.9

修改settings.xml的默认仓库地址

3、下载hadoop的安装包（CDH5的地址里有）

生成ssh公钥指令：ssh-keygen -t rsa

拷贝公钥：cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

解压hadoop安装包：

etc/hadoop目录下6个配置文件需要修改(*#* //对应name与value配对)：

配置文件第一部分（4个）：

hadoop.env.sh　　//修改java_home地址

core-site.xml　　 /* fs.defaultFS#hdfs://hadoop000:8020 hadoop.tmp.dir#/home/hadoop/app/tmp */

hdfs-site.xml　　 //副本系数自行设置: dfs.replication#1

slaves　　　　　 //修改主机localhost为hadoop000

修改完这四个文件可以格式化hadoop：

进入hadoop目录的bin目录，执行：./hadoop namenode -format

配置到环境变量

到sbin目录下：./start-dfs.sh //hadoop000:50070

配置文件第二部分（2个）：

mapred-site.xml　　//cp一份模板出来运行在yarn上：mapreduce.framework.name#yarn

yarn-site.xml　　//整合mapreduce：yarn.nodemanager.aux-services#mapredue-shuffle

到sbin目录下：./start-yarn.sh //hadoop000:8088

hadoop fs -ls /

hadoop fs -mkdir /data

hadoop fs -put $FILE /data/

hadoop fs -test $FILE　　　　　　//查看详细内容

运行一个内置的example测试hadoop环境是否安装成功=>

hadoop目录下有share/hadoop/mapreduce(在这目录下运行？是的)

hadoop jar $example那个jar包 pi 2 3

刷新yarn界面可观察到有内容提交上去

4、Hbase的安装（CDH5网址可以下载1.2.0版本)

需要修改三个配置文件：

hbase.env.sh　　//A.java_home、B.解开ZK，并设置为false，不用hbase默认的zk来管理

hbase-site.xml　//与hadoop-site.xml做比较

A.hbase.rootdir#hdfs://hadoop000:8020/hbase

B.hbase.cluster.distributed#true

C.hbase.zookeeper.quorum#hadoop000:2181

regionservers　 //修改为hadoop000，与hadoop的slaves类似

启动：先启动zookeeper与hadoop的dfs，再启动hbase，bin目录下： ./start-hbase.sh

hadoop000:60010为默认UI端口

使用（单词不会或者忘了可以按tab键提示）：./hbase shell

查看版本：version

查看状态：status

建表：create 'member','info','address'

查看所有表：list

查看表的详细内容：describe 'member'

5、Spark环境搭建，具体操作看笔记一的铭文二、铭文四或者：https://www.imooc.com/article/18419

bin目录下./spark-shell --master local[2] //默认UI端口为：hadoop000:4040

IDEA搭建maven的Spark Streaming环境，在原有的基础上：

1.添加三个version：

spark.version:2.2.0

hadoop:2.6.0-cdh5.7.0

hbase:1.2.0-cdh5.7.0

2.因为使用cdh5，所以要引入cdh5仓库<repositories><repository>：

id#可以自己取

url#http://repository.cloudera.com/artifactory/cloudera-repos

3.添加四个dependency：//单个依赖实际是包含了很多的依赖，否则自己一个一个地引入非常地麻烦

groupId#org.apache.*

artifactId#hadoop-client、hbase-client、hbase-server、spark-streaming_2.11

version#//${相对于的引入即可}

ps:spark-streaming_2.11可在官网文档

Programming Guides->Spark Streaming->拉下：Basic Concepts看到，直接引入即可

最后可以rebuild 一下maven项目（菜单栏或者右键即可）

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

在textarea中鼠标指定的位置插入字符或表情
有些时候我们已经在textarea中输入了一些字符,然后想在鼠标指定的位置插入表情或者字符,这就需要用到jquery的一个小插件了. 代码如下: (function ($) { $.fn.extend ...
c# sql 复制表后提示列无效解决办法
--CREATE TABLE [dbo].[JinanCount] SELECT * FROM [dbo].[ChengXiangCount] 这条指令错误select * into [dbo]. ...
hdu 1394(线段树) 最小逆序数
http://acm.hdu.edu.cn/showproblem.php?pid=1394 给出一列数组,数组里的数都是从0到n-1的,在依次把第一个数放到最后一位的过程中求最小的逆序数线段树的应 ...
深入研究 UCenter API For .NET
康盛旗下产品的搭建来自http://www.dozer.cc/2011/02/ucenter-api-in-depth-4th/ 1.UCenter 这个当然是最基本的东西,安装起来也很简单,官方就 ...
How to convert a PDF file to JPEGs using PHP
Hey, Today I would like to show you how we can convert PDF to JPEG using imagick extension. Imagick ...
Intellij idea 系列教程目录
Intellij idea 系列教程目录 Intellij idea 系列教程之破解方法 Intellij idea 系列教程之常用快捷键 Intellij idea 系列教程之常用配置项每天用心记 ...
c++11 时间相关操作练习
博客和书籍资料来自该地址 https://www.cnblogs.com/qicosmos/category/490693.html 自行编写相应代码进行学习 // TimeTest.cpp: 定义 ...
第一个spring boot 程序
安装.运行.预览省略错误1:8080端口被IIS占用,关闭它 Description: The Tomcat connector configured to listen on port 8080 ...
js实现多标签页效果
点击导航按钮切换div的内容 html代码: <div class="tabs"> <ul id="tab"> <li>&l ...
SQL判断如果一列值为null则取另一列值代替 isnull()
[chClientCode] ,[nvcClientName] ,[chRegionCode] ,isnull(chUltimateHeadClientCode,[chClientCode]) as ...

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的更多相关文章

随机推荐

热门专题