第一章:课程介绍

铭文一级:

VMware Fusion
Mac上搭建:为了给大家演示如何使用我们的OOTB环境
Hadoop环境:虚拟机,我是远程登录
Mac
那么就不需要使用我们的OOTB环境
VMware Fusion+OOTB

Window:VMware

hadoop/hadoop
root用户的密码是什么?
修改配置文件,是需要root权限的,怎么办?
sudo command

只有一个地方需要修改:ip地址
/etc/hosts
192.168.199.128 hadoop000
192.168.199.128 localhost

铭文二级:

项目需求=>

1.今天到现在为止的流量访问量

2.今天到现在为止从搜索引擎引流过来的流量访问量

处理流程:产生->采集->清洗->分析->入库->可视化

学习前提基础:1.linux基础 2.java/python/scala其中一种语言 3.hadoop/spark基础

学习建议=>

1.笔记(如写博客)

2.官网(*为apache顶级项目):

A.官网:*.apache.org

B.源码:github.com/apache/*

3.动手

环境介绍=>

CenOs6.4、CDH5.7、IDEA、Jdk1.8、Scala2.11.8、Spark2.2.0、flume1.6.0、kafka0.9.0.0、ZooKeeper-3.4.5、Hbase1.2.0

CDH5的环境网址:http://archive.cloudera.com/cdh5/cdh/5/   (或搜:cdh5 第一个网址)

OOTB环境使用=>

用VMware打开hadoop000.vmx文件(若为VMware Fusion环境:选择“已拷贝”、“是”)

用户:hadoop 密码:hadoop

1.ifconfig查询ip地址 2.sudo vi /etc/hosts修改成查到的ip地址

(远端登录指令:ssh hadoop@192.168.0.1)//ip地址改成自己的

虚拟机核心文件夹:(/home/hadoop/) app、data、lib、software、source

若要进行Spark版本的升级(前提需要装好maven)=>

官网介绍:http://spark.apache.org/docs/latest/building-spark.html(官网主页:Documentation->Latest Release->More->Building Spark)

中文介绍:https://www.imooc.com/article/18419

1.jdk升级到1.8    2.scala版本若为2.10,勿忘执行:./dev/change-scala-version.sh 2.10

环境变量=>

配置在~/.bash_profile里面

export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9

export PATH=$MAVEN_HOME/bin:$PATH

铭文三级:

问题:虚拟机每次重启,ip地址会自动变化,如何固定?

方案1:setup--网络设置--不要选dhcp--手动设置ip,掩码---退出---service network restart--ifconfig查看
或者应用程序--网络--eth0--编辑--使用固定ip--手动输入设置--确定--激活--service network restart--ifconfg查看 方案2:http://blog.csdn.net/wang_zhenwei/article/details/48706651

排位赛总结:

linux vi 删除1行:dd

ssh hadoop@ip  //注意是hadoop机器,不是用户名

铭文四级:

Spark源码编译

第一种方式:打包成tgz包(custom-spark改成2.6.0-cdh5.7.0

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

老师参考:
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

第二种方式:mvn编译(如今官网-Phadoop是使用2.6.X,所以参数也可以不传递)

./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package

mvn知识补充:-P传递pom.xml里的profile参数 -D传递dependency参数


【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版的更多相关文章

  1. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版

    铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...

  2. 【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

    铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...

  3. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版

    铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...

  4. 【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版

    铭文一级: 第二章:初识实时流处理 需求:统计主站每个(指定)课程访问的客户端.地域信息分布 地域:ip转换 Spark SQL项目实战 客户端:useragent获取 Hadoop基础课程 ==&g ...

  5. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版

    铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...

  6. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

    铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息- ...

  7. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版

    铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...

  8. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版

    铭文一级: 第8章 Spark Streaming进阶与案例实战 黑名单过滤 访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...

  9. 【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版

    铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...

  10. 【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

    铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

  1. 在eclipse上写代码的时候,tomcat突然不能用了,重启都是闪一下就关了

    严重: A child container failed during start 严重: The required Server component failed to start so Tomca ...

  2. (五)ROS节点

    一. 理解ROS 节点: ROS的节点: 可以说是一个可运行的程序.当然这个程序可不简单.因为它可以接受来自ROS网络上其他可运行程序的输出信息,也可以发送信息给ROS网络,被其他 ROS 可运行程序 ...

  3. YII2中日志的配置与使用

    YII2中给我们提供了非常方便的日志组件,只需要简单配置一下就可以使用. 我们在config/web.php中配置如下: return [ //log必须在bootstrap期间就被加载,便于及时调度 ...

  4. (转)OOP(面向对象编程)的几大原则

    文章转载自:http://blog.csdn.net/anders_zhuo/article/details/8949566 设计模式遵循的一般原则: 1.开-闭原则(Open-Closed Prin ...

  5. Jenkins+svn+maven自动部署到tomcat

    jenkins所在主机配置好,jdk,maven,Tomcat 1.配置maven,jdk环境 1) 进入配置界面--->[系统管理]--->[Global Tool Configurat ...

  6. hdu 1509 & hdu 1873 & hdu 1896 (基础优先队列)

    http://acm.hdu.edu.cn/showproblem.php?pid=1509 裸的优先队列的应用,输入PUT的时候输入名字,值和优先值进队列,输入GRT的时候输出优先值小的名字和对应的 ...

  7. if __name__ == '__main__的理解

    模块之间引用不能循环成环,圆圈   模块的收搜   !!!把模块当作脚本执行 什么叫模块:py文件,如果一个py文件被导入了,他就是一个模块, 模块没有具体的调用过程 但是能对外提供功能   什么叫脚 ...

  8. python imaplib无痕取信的主要

    typ, data = M.fetch(num, (UID BODY.PEEK[]))  

  9. UVA 11324.The Largest Clique tarjan缩点+拓扑dp

    题目链接:https://vjudge.net/problem/UVA-11324 题意:求一个有向图中结点数最大的结点集,使得该结点集中任意两个结点u和v满足:要目u可以到达v,要么v可以到达u(相 ...

  10. 糟糕的@@identity,SCOPE_IDENTITY ,IDENT_CURRENT

    在某数据库里面,某甲用@@identity来获取最近插入的id值,当在多人环境,发生获取到null值的问题. 那么@@identity是否有存在的必要? 感觉像生个孩子,多了个指头. 有的数据库的ge ...