【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

铭文一级：

第五章：实战环境搭建

Spark源码编译命令:
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Pyarn -Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Dhadoop.version=2.6.0-cdh5.7.0

铭文二级：

第五章：实战环境搭建(所有都配置到环境变量)

1、Scala的安装：Download->previous releases 　　//课程使用2.11.8

2、Maven的安装：Download->archives->binaries //课程使用3.3.9

修改settings.xml的默认仓库地址

3、下载hadoop的安装包（CDH5的地址里有）

生成ssh公钥指令：ssh-keygen -t rsa

拷贝公钥：cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

解压hadoop安装包：

etc/hadoop目录下6个配置文件需要修改(*#* //对应name与value配对)：

配置文件第一部分（4个）：

hadoop.env.sh　　//修改java_home地址

core-site.xml　　 /* fs.defaultFS#hdfs://hadoop000:8020 hadoop.tmp.dir#/home/hadoop/app/tmp */

hdfs-site.xml　　 //副本系数自行设置: dfs.replication#1

slaves　　　　　 //修改主机localhost为hadoop000

修改完这四个文件可以格式化hadoop：

进入hadoop目录的bin目录，执行：./hadoop namenode -format

配置到环境变量

到sbin目录下：./start-dfs.sh //hadoop000:50070

配置文件第二部分（2个）：

mapred-site.xml　　//cp一份模板出来运行在yarn上：mapreduce.framework.name#yarn

yarn-site.xml　　//整合mapreduce：yarn.nodemanager.aux-services#mapredue-shuffle

到sbin目录下：./start-yarn.sh //hadoop000:8088

hadoop fs -ls /

hadoop fs -mkdir /data

hadoop fs -put $FILE /data/

hadoop fs -test $FILE　　　　　　//查看详细内容

运行一个内置的example测试hadoop环境是否安装成功=>

hadoop目录下有share/hadoop/mapreduce(在这目录下运行？是的)

hadoop jar $example那个jar包 pi 2 3

刷新yarn界面可观察到有内容提交上去

4、Hbase的安装（CDH5网址可以下载1.2.0版本)

需要修改三个配置文件：

hbase.env.sh　　//A.java_home、B.解开ZK，并设置为false，不用hbase默认的zk来管理

hbase-site.xml　//与hadoop-site.xml做比较

A.hbase.rootdir#hdfs://hadoop000:8020/hbase

B.hbase.cluster.distributed#true

C.hbase.zookeeper.quorum#hadoop000:2181

regionservers　 //修改为hadoop000，与hadoop的slaves类似

启动：先启动zookeeper与hadoop的dfs，再启动hbase，bin目录下： ./start-hbase.sh

hadoop000:60010为默认UI端口

使用（单词不会或者忘了可以按tab键提示）：./hbase shell

查看版本：version

查看状态：status

建表：create 'member','info','address'

查看所有表：list

查看表的详细内容：describe 'member'

5、Spark环境搭建，具体操作看笔记一的铭文二、铭文四或者：https://www.imooc.com/article/18419

bin目录下./spark-shell --master local[2] //默认UI端口为：hadoop000:4040

IDEA搭建maven的Spark Streaming环境，在原有的基础上：

1.添加三个version：

spark.version:2.2.0

hadoop:2.6.0-cdh5.7.0

hbase:1.2.0-cdh5.7.0

2.因为使用cdh5，所以要引入cdh5仓库<repositories><repository>：

id#可以自己取

url#http://repository.cloudera.com/artifactory/cloudera-repos

3.添加四个dependency：//单个依赖实际是包含了很多的依赖，否则自己一个一个地引入非常地麻烦

groupId#org.apache.*

artifactId#hadoop-client、hbase-client、hbase-server、spark-streaming_2.11

version#//${相对于的引入即可}

ps:spark-streaming_2.11可在官网文档

Programming Guides->Spark Streaming->拉下：Basic Concepts看到，直接引入即可

最后可以rebuild 一下maven项目（菜单栏或者右键即可）

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

克隆后没有IP
删除文件: /etc/udev/rules.d/70-persistent-net.rules 将/etc/sysconfig/network-scripts/ifcfg-eth0 中的HWADDR ...
openCV基础知识
openCV主体分为5个模块: CV图像处理函数和计算机视觉算法: ML机器学习库,包含许多聚类和数据分析函数: HighGUI图像和视频的输入输出: [分成三部分:硬件部分--摄像机;文件部分--载 ...
[z]Linux下压缩与解压
1.压缩命令: 命令格式:tar -zcvf 压缩文件名.tar.gz 被压缩文件名可先切换到当前目录下.压缩文件名和被压缩文件名都可加入路径. 2.解压缩命令: 命令格式:tar -z ...
vue-form表单验证插件
参考地址:https://segmentfault.com/q/1010000003988864 github地址:https://github.com/fergaldoyle/vue-form 安装 ...
Java并发-ThreadGroup获取所有线程
一:获取当前项目所有线程 public Thread[] findAllThread(){ ThreadGroup currentGroup =Thread.currentThread().getTh ...
svg 配合cesium使用
---恢复内容开始--- 1.svg简介在 2003 年一月,SVG 1.1 被确立为 W3C 标准. 参与定义 SVG 的组织有:太阳微系统.Adobe.苹果公司.IBM 以及柯达. 与其他图像格 ...
BZOJ2730 [HNOI2012]矿场搭建 - Tarjan割点
Solution 输入中没有出现过的矿场点是不用考虑的, 所以不用考虑只有一个点的点双联通分量. 要使某个挖矿点倒塌, 相当于割去这个点, 所以我们求一遍割点和点双联通分量. 之后的点双联通分量构 ...
动态链接库DLL导出函数并导入使用
动态链接库DLL导出函数并导入使用本文完全参考自<vs2008制作dll笔记,回带值样例>. 首先制作DLL文件,在vs2010中新建Win32控制台项目,选择DLL选项,简历头文件,源 ...
会话和http请求
一次HTTP请求和响应的过程域名解析 --> 发起TCP的3次握手 --> 建立TCP连接后发起http请求 --> 服务器响应http请求,浏览器得到html代码 --> ...
Python之路(第七篇)Python作用域、匿名函数、函数式编程、map函数、filter函数、reduce函数
一.作用域 return 可以返回任意值例子 def test1(): print("test1") def test(): print("test") ret ...

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的更多相关文章

随机推荐

热门专题