【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级:
第五章:实战环境搭建
Spark源码编译命令:
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Pyarn -Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Dhadoop.version=2.6.0-cdh5.7.0
铭文二级:
第五章:实战环境搭建(所有都配置到环境变量)
1、Scala的安装:Download->previous releases //课程使用2.11.8
2、Maven的安装:Download->archives->binaries //课程使用3.3.9
修改settings.xml的默认仓库地址
3、下载hadoop的安装包(CDH5的地址里有)
生成ssh公钥指令:ssh-keygen -t rsa
拷贝公钥:cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
解压hadoop安装包:
etc/hadoop目录下6个配置文件需要修改(*#* //对应name与value配对):
配置文件第一部分(4个):
hadoop.env.sh //修改java_home地址
core-site.xml /* fs.defaultFS#hdfs://hadoop000:8020 hadoop.tmp.dir#/home/hadoop/app/tmp */
hdfs-site.xml //副本系数自行设置: dfs.replication#1
slaves //修改主机localhost为hadoop000
修改完这四个文件可以格式化hadoop:
进入hadoop目录的bin目录,执行:./hadoop namenode -format
配置到环境变量
到sbin目录下:./start-dfs.sh //hadoop000:50070
配置文件第二部分(2个):
mapred-site.xml //cp一份模板出来 运行在yarn上:mapreduce.framework.name#yarn
yarn-site.xml //整合mapreduce:yarn.nodemanager.aux-services#mapredue-shuffle
到sbin目录下:./start-yarn.sh //hadoop000:8088
hadoop fs -ls /
hadoop fs -mkdir /data
hadoop fs -put $FILE /data/
hadoop fs -test $FILE //查看详细内容
运行一个内置的example测试hadoop环境是否安装成功=>
hadoop目录下有share/hadoop/mapreduce(在这目录下运行?是的)
hadoop jar $example那个jar包 pi 2 3
刷新yarn界面可观察到有内容提交上去
4、Hbase的安装(CDH5网址可以下载1.2.0版本)
需要修改三个配置文件:
hbase.env.sh //A.java_home、B.解开ZK,并设置为false,不用hbase默认的zk来管理
hbase-site.xml //与hadoop-site.xml做比较
A.hbase.rootdir#hdfs://hadoop000:8020/hbase
B.hbase.cluster.distributed#true
C.hbase.zookeeper.quorum#hadoop000:2181
regionservers //修改为hadoop000,与hadoop的slaves类似
启动:先启动zookeeper与hadoop的dfs,再启动hbase,bin目录下: ./start-hbase.sh
hadoop000:60010为默认UI端口
使用(单词不会或者忘了可以按tab键提示):./hbase shell
查看版本:version
查看状态:status
建表:create 'member','info','address'
查看所有表:list
查看表的详细内容:describe 'member'
5、Spark环境搭建,具体操作看笔记一的铭文二、铭文四或者:https://www.imooc.com/article/18419
bin目录下./spark-shell --master local[2] //默认UI端口为:hadoop000:4040
IDEA搭建maven的Spark Streaming环境,在原有的基础上:
1.添加三个version:
spark.version:2.2.0
hadoop:2.6.0-cdh5.7.0
hbase:1.2.0-cdh5.7.0
2.因为使用cdh5,所以要引入cdh5仓库<repositories><repository>:
id#可以自己取
url#http://repository.cloudera.com/artifactory/cloudera-repos
3.添加四个dependency://单个依赖实际是包含了很多的依赖,否则自己一个一个地引入非常地麻烦
groupId#org.apache.*
artifactId#hadoop-client、hbase-client、hbase-server、spark-streaming_2.11
version#//${相对于的引入即可}
ps:spark-streaming_2.11可在官网文档
Programming Guides->Spark Streaming->拉下:Basic Concepts看到,直接引入即可
最后可以rebuild 一下maven项目(菜单栏或者右键即可)
【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的更多相关文章
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理 需求:统计主站每个(指定)课程访问的客户端.地域信息分布 地域:ip转换 Spark SQL项目实战 客户端:useragent获取 Hadoop基础课程 ==&g ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息- ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战 黑名单过滤 访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...
随机推荐
- 在textarea中鼠标指定的位置插入字符或表情
有些时候我们已经在textarea中输入了一些字符,然后想在鼠标指定的位置插入表情或者字符,这就需要用到jquery的一个小插件了. 代码如下: (function ($) { $.fn.extend ...
- c# sql 复制表后提示列无效解决办法
--CREATE TABLE [dbo].[JinanCount] SELECT * FROM [dbo].[ChengXiangCount] 这条指令错误select * into [dbo]. ...
- hdu 1394(线段树) 最小逆序数
http://acm.hdu.edu.cn/showproblem.php?pid=1394 给出一列数组,数组里的数都是从0到n-1的,在依次把第一个数放到最后一位的过程中求最小的逆序数 线段树的应 ...
- 深入研究 UCenter API For .NET
康盛旗下产品的搭建 来自http://www.dozer.cc/2011/02/ucenter-api-in-depth-4th/ 1.UCenter 这个当然是最基本的东西,安装起来也很简单,官方就 ...
- How to convert a PDF file to JPEGs using PHP
Hey, Today I would like to show you how we can convert PDF to JPEG using imagick extension. Imagick ...
- Intellij idea 系列教程目录
Intellij idea 系列教程目录 Intellij idea 系列教程之破解方法 Intellij idea 系列教程之常用快捷键 Intellij idea 系列教程之常用配置项 每天用心记 ...
- c++11 时间相关操作练习
博客和书籍资料 来自该地址 https://www.cnblogs.com/qicosmos/category/490693.html 自行编写相应代码进行学习 // TimeTest.cpp: 定义 ...
- 第一个spring boot 程序
安装.运行.预览省略 错误1:8080端口被IIS占用,关闭它 Description: The Tomcat connector configured to listen on port 8080 ...
- js实现多标签页效果
点击导航按钮切换div的内容 html代码: <div class="tabs"> <ul id="tab"> <li>&l ...
- SQL判断如果一列值为null则取另一列值代替 isnull()
[chClientCode] ,[nvcClientName] ,[chRegionCode] ,isnull(chUltimateHeadClientCode,[chClientCode]) as ...