铭文一级:

第五章:实战环境搭建

Spark源码编译命令:
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Pyarn -Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Dhadoop.version=2.6.0-cdh5.7.0

铭文二级:

第五章:实战环境搭建(所有都配置到环境变量)

1、Scala的安装:Download->previous releases   //课程使用2.11.8

2、Maven的安装:Download->archives->binaries   //课程使用3.3.9

修改settings.xml的默认仓库地址

3、下载hadoop的安装包(CDH5的地址里有)

生成ssh公钥指令:ssh-keygen -t rsa

拷贝公钥:cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

解压hadoop安装包:

etc/hadoop目录下6个配置文件需要修改(*#*  //对应name与value配对):

配置文件第一部分(4个):

hadoop.env.sh  //修改java_home地址

core-site.xml   /*     fs.defaultFS#hdfs://hadoop000:8020     hadoop.tmp.dir#/home/hadoop/app/tmp      */

hdfs-site.xml   //副本系数自行设置: dfs.replication#1

slaves       //修改主机localhost为hadoop000

修改完这四个文件可以格式化hadoop:

进入hadoop目录的bin目录,执行:./hadoop namenode -format

配置到环境变量

到sbin目录下:./start-dfs.sh     //hadoop000:50070

配置文件第二部分(2个):

mapred-site.xml  //cp一份模板出来 运行在yarn上:mapreduce.framework.name#yarn

yarn-site.xml  //整合mapreduce:yarn.nodemanager.aux-services#mapredue-shuffle

到sbin目录下:./start-yarn.sh     //hadoop000:8088

hadoop fs -ls /

hadoop fs -mkdir /data

hadoop fs -put $FILE /data/

hadoop fs -test $FILE      //查看详细内容

运行一个内置的example测试hadoop环境是否安装成功=>

hadoop目录下有share/hadoop/mapreduce(在这目录下运行?是的)

hadoop jar $example那个jar包 pi 2 3

刷新yarn界面可观察到有内容提交上去

4、Hbase的安装(CDH5网址可以下载1.2.0版本)

需要修改三个配置文件:

hbase.env.sh  //A.java_home、B.解开ZK,并设置为false,不用hbase默认的zk来管理

hbase-site.xml //与hadoop-site.xml做比较

A.hbase.rootdir#hdfs://hadoop000:8020/hbase

B.hbase.cluster.distributed#true

C.hbase.zookeeper.quorum#hadoop000:2181

regionservers   //修改为hadoop000,与hadoop的slaves类似

启动:先启动zookeeper与hadoop的dfs,再启动hbase,bin目录下: ./start-hbase.sh

hadoop000:60010为默认UI端口

使用(单词不会或者忘了可以按tab键提示):./hbase shell

查看版本:version

查看状态:status

建表:create 'member','info','address'

查看所有表:list

查看表的详细内容:describe 'member'

5、Spark环境搭建,具体操作看笔记一的铭文二、铭文四或者:https://www.imooc.com/article/18419

bin目录下./spark-shell --master local[2]    //默认UI端口为:hadoop000:4040

IDEA搭建maven的Spark Streaming环境,在原有的基础上:

1.添加三个version:

spark.version:2.2.0

hadoop:2.6.0-cdh5.7.0

hbase:1.2.0-cdh5.7.0

2.因为使用cdh5,所以要引入cdh5仓库<repositories><repository>:

id#可以自己取

url#http://repository.cloudera.com/artifactory/cloudera-repos

3.添加四个dependency://单个依赖实际是包含了很多的依赖,否则自己一个一个地引入非常地麻烦

groupId#org.apache.*

artifactId#hadoop-client、hbase-client、hbase-server、spark-streaming_2.11

version#//${相对于的引入即可}

ps:spark-streaming_2.11可在官网文档

Programming Guides->Spark Streaming->拉下:Basic Concepts看到,直接引入即可

最后可以rebuild 一下maven项目(菜单栏或者右键即可)

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的更多相关文章

  1. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版

    铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...

  2. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版

    铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...

  3. 【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版

    铭文一级: 第二章:初识实时流处理 需求:统计主站每个(指定)课程访问的客户端.地域信息分布 地域:ip转换 Spark SQL项目实战 客户端:useragent获取 Hadoop基础课程 ==&g ...

  4. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版

    铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...

  5. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

    铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息- ...

  6. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版

    铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...

  7. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版

    铭文一级: 第8章 Spark Streaming进阶与案例实战 黑名单过滤 访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...

  8. 【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版

    铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...

  9. 【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

    铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

  1. ubuntu下安装nginx1.11.10

    (本页仅作为个人笔记参考) 为openssl,zlib,pcre配置编译 wget http://om88fxbu9.bkt.clouddn.com/package/nginx/nginx-1.11. ...

  2. Python爬虫项目--爬取自如网房源信息

    本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http:/ ...

  3. 线特征---EDLines原理(六)

    参考文献:EDLines: A real-time line segment detector with a false detection control ----Cuneyt Akinlar  , ...

  4. node.js中对同步,异步,阻塞与非阻塞的理解

    我们都知道javascript是单线程的,node.js是一个基于Chrome V8 引擎的 javascript 运行时环境,注意 node.js 不是一门语言,别搞错了. javascript为什 ...

  5. YII2中操作数据库的方式

    一.以createCommand方式: // YII2中通过createCommand来处理数据库 // 查询多条记录 // {{%user}} 表示如果设置了表前缀,YII会自动帮你替换 $data ...

  6. L1-030 一帮一(15)(代码)

    L1-030 一帮一(15 分) "一帮一学习小组"是中小学中常见的学习组织方式,老师把学习成绩靠前的学生跟学习成绩靠后的学生排在一组.本题就请你编写程序帮助老师自动完成这个分配工 ...

  7. JQuery Deferred 对象

    http://www.ruanyifeng.com/blog/2011/08/a_detailed_explanation_of_jquery_deferred_object.html <jQu ...

  8. UI设计师需要熟记的45个快捷键Windows、Mac

    大家都知道PS快捷键很多,其实没必要都记住,今天为大家整理了45个比较实用的,别忘了收藏. 图层 填充图层 MAC: Alt+Backspace (前景) or Cmd+Backspace (背景) ...

  9. Python之路(第二十七篇) 面向对象进阶:内置方法、描述符

    一.__call__ 对象后面加括号,触发执行类下面的__call__方法. 创建对象时,对象 = 类名() :而对于 __call__ 方法的执行是由对象后加括号触发的,即:对象() 或者 类()( ...

  10. centos7构建python2.7常用开发环境

    把下面的代码保存到一个sh文件中执行即可 yum -y install epel-release yum -y install python-pip yum -y install mysql-deve ...