搭建单机版spark】的更多相关文章

0x00 环境及软件 1.系统环境 OS:Windows10_x64 专业版 2.所需软件或工具 JDK1.8.0_131 spark-2.3.0-bin-hadoop2.7.tgz hadoop-2.8.3.tar.gz scala-2.11.8.zip hadoop-common-2.2.0-bin-master.zip(主要使用里面的winutils.exe) IntelliJ IDEA(版本:2017.1.2 Build #IU-171.4249.32,built on April 21…
二.下载软件 JDK,Scala,SBT,Maven 版本信息如下: JDK jdk-7u79-linux-x64.gz Scala scala-2.10.5.tgz 三.解压上述文件并进行环境变量配置 # cd /usr/local/ # tar xvf /root/jdk-7u79-linux-x64.gz # tar xvf /root/scala-2.10.5.tgz # tar xvf /root/apache-maven-3.2.5-bin.tar.gz # unzip /root/…
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署 理论已经了解的差不多了,接下来是实际动手实验: 练习1 利用Spark Shell(本机模式) 完成WordCount spark-shell 进行Spark-shell本机模式 第一步:通过文件方式导入数据 scala> val rdd1 = sc.textFile("file:///tmp/wordcount.txt")…
在Ubuntu14.04 64bit上搭建单机Spark环境,IDE为Intelli IDEA 一. 环境 Ubuntu14.04 64位    JDK 1.8.0_73    scala-2.10.4    spark 1.5.1  [此处注意Spark版本和Scala版本的兼容性问题]    IntelliJ IDEA 14.04 二. 安装JDK 1.从http://www.oracle.com/technetwork/java/javase/downloads页面下载JDK 1.8安装包…
1. 首先搭建好spark和hive,参见相关文档 2. 在spark/conf下创建hive-site.xml <configuration> <property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> <description>connection romate metastores</description>…
原文链接:http://www.yiidian.com/springcloud/build-eureka-single.html 本文介绍搭建单机版的Eureka Server服务 1 创建项目,导入依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="…
搭建单机版的kafka  …
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档<Spark词频前十的统计练习> Spark on standalone 类似于yarn的一个集群资源管理框架,spark自带的 yarn ResourceManager(进程) 管理和调度集群资源,主要包括:申请.调度.监控 NodeManager(进程) 管理当前节点的资源,以及启动container资源:CPU和内存(CPU决定快慢,内存决定生死) 注…
依赖的安装包 首先hadoop和spark肯定是必须的,而hadoop是用java编写的,spark是由Scala编写的,所以还需要安装jdk和scala. 大数据第三方组件我们统统都安装在/opt目录下,首先这个目录当前是空的 我们创建相应的目录,用于存放对应的组件 然后将相应的gz包进行上传 安装jdk 此刻在/opt目录 tar -zxvf ./jdk-8u221-linux-x64.tar.gz -C ./java 然后添加到环境变量,我一般添加到~/.bashrc里面去 export…
1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚拟机的网络设置为NAT模式,这样安装好后的3台虚拟机的IP是挨着的,不然还要修改IP,以达到便于配置集群的目的! NAT模式可以在断网的情况下连接上虚拟机而桥架模式不行! 2.安装JDK 参考我的博客:https://www.cnblogs.com/yszd/p/10140327.html 3.运行…
开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量.网上资料很多,安装过程忽略.此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本. 1. Eclipse开发环境搭建 1.1. 安装scala插件 安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html 解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可.…
第一章:Zookeeper介绍 Zookeeper,动物管理员,是用来管理hadoop(大象).Hive(蜜蜂).Pig(小猪)的管理员. Apache Hbase和Apache Solr的分布式集群都用到了Zookeeper. Zookeeper是一个分布式.开源的程序协调服务,是Hadoop项目下的一个子项目.它提供的主要功能是配置管理.名字服务.分布式锁.集群管理. 1.1:Zookeeper的作用:配置管理(重点) 抛出问题: 在我们的应用中,除了代码,还有一些就是各种配置.比如:数据库…
Zookeeper是一个分布式协调组件,本质是一个软件. Zookeeper常用的功能有: 发布订阅功能,把 zookeeper 当作注册中心的原因. 分布式/集群管理功能 Zookeeper是Java语言实现的,所以需要JDK环境的支持. 一.JDK环境的搭建 1. 将jdk-8u144-linux-x64.tar.gz上传到 /tmp下 2. 解压:tar  -zxvf  jdk-8u144-linux-x64.tar.gz 3. 拷贝到: cp -r  jdk1.8.0_144  /usr…
理论参考:http://www.cnblogs.com/hseagle/p/3673147.html 基于3台主机搭建:以下仅是操作步骤,原理网上自查 :1. 增加ip和hostname的对应关系,跨主机WORKER无法连接MASTER问题 ]$ cat /etc/hosts 192.168.1.6 node6192.168.1.7 node7192.168.1.8 node8 2. 新增spark用户,并建立无密互信 3. 下载依赖安装包,解压$ lltotal 426288-rw-rw-r-…
Redis解决的问题是:作为一个缓存nosql数据库,能够支持高并发,关系型数据库是存储在磁盘中,通过io读写,而redis是存储在内存中,因此,能够实现高可用,他主要是解决数据库性能瓶颈而产生的. 当单机版redis在访问量高的时候,可能出现承载的性能问题,于是对他进行扩容就产生了多机版,多机版有一个同步问题,为了解决该问题应用了集群,集群是有一个master和多个slave之间进行同步,Redis3.0之后的Redis cluster集群更便捷,为此本篇主要是讲Redis cluster-s…
在前面我们已经准备了三台服务器,并做好初始化,配置好jdk与免密登录等.并且已经安装好了hadoop集群. 如果还没有配置好的,参考我前面两篇博客: Spark集群环境搭建--服务器环境初始化:https://www.cnblogs.com/doublexi/p/15623436.html Spark集群环境搭建--Hadoop集群环境搭建:https://www.cnblogs.com/doublexi/p/15624246.html 集群规划: 搭建Spark集群 1.下载: 官网地址:ht…
一,原理讲解 FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储.文件同步.文件访问(文件上传.文件下载)等,解决了大容量存储和负载均衡的问题.特别适合以文件为载体的在线服务,如相册网站.视频网站等等. FastDFS为互联网量身定制,充分考虑了冗余备份.负载均衡.线性扩容等机制,并注重高可用.高性能等指标,使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传.下载等服务. 从中可以看到,Client想上传图片,它先向Tracker进行询问,Tra…
一.kafka介绍 1.1 主要功能 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1:It lets you publish and subscribe to streams of records.发布和订阅消息流,这个功能类似于消息队列,这也是kafka归类为消息队列框架的原因 2:It lets you store streams of records in a fault-tolerant way.以容错的方式记录消息流,kafka以文件的方式来存储…
注意点: 安装Spark前先要配置好Scala运行环境. Spark和Scala需要在各个机器上配置. 环境变量配置 在~/.bashrc中添加如下的配置信息. #scala conf export SCALA_HOME=/usr/local/src/scala-2.11.8 export PATH=$PATH:$SCALA_HOME/bin #spark conf export SPARK_HOME=/usr/local/src/spark export PATH=$PATH:$SPARK_H…
首先注意版本兼容问题!!!本文采用的是Scala 2.11.8 + Hadoop 2.7.5 + Spark 2.2.0 请在下载Spark时务必看清对应的Scala和Hadoop版本! 一.配置JDK 1. 下载jdk http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2. 配置环境变量 (1)在终端使用 sudo su 命令进入root用户模式: (2)使用 vim /etc…
为了开发测试方便,想直接在 IDEA 里运行 Spark 程序,可以连接 Hive,需不是打好包后,放到集群上去运行.主要配置工作如下: 1. 把集群环境中的 hive-core.xml, hdfs-site.xml, core-site.xml 三个文件复制一份,放到 resource 目录下.网上有说只需要放 hive-core.xml 就可以了.我部署的是高可用的集群,只复制 hive-core.xml 会报错.三个都放就不会有问题了. 2. 在本机上解压 hadoop 的安装包,下载 w…
[手动验证:任意2个节点间是否实现 双向 ssh免密登录] 弄懂通信原理和集群的容错性 任意2个节点间实现双向 ssh免密登录,默认在~目录下 [实现上步后,在其中任一节点安装\配置hadoop后,可以将整个安装目录scp复制到各个节点::::各个节点的文件内容是一样的!!!!] [hadoop@bigdata-server-03 ~]$ jps 9217 SecondaryNameNode 9730 Jps 9379 ResourceManager 9497 NodeManager 8895…
[手动验证:任意2个节点间是否实现 双向 ssh免密登录] 弄懂通信原理和集群的容错性 任意2个节点间实现双向 ssh免密登录,默认在~目录下 [实现上步后,在其中任一节点安装\配置hadoop后,可以将整个安装目录scp复制到各个节点::::各个节点的文件内容是一样的!!!!] [hadoop@bigdata-server-03 ~]$ jps 9217 SecondaryNameNode 9730 Jps 9379 ResourceManager 9497 NodeManager 8895…
solr,什么是solr,就是你要吃的东西“馊了”,不能吃了,out of date~ 嘛...开个玩笑,发音就是‘搜了’,专门用于搜索的一个开源框架,lunce就不说了,不好用,麻烦 来讲讲solr吧 目前最新更新的是6.0,4月7-8号更新的,哥不太喜欢用新出来的版本,多多少少会有bug,centos7出来后我至今使用的是6.5(实在无法忍受7啊...西吧) 6.0我也试着装了,但是会报错,日志文件找不到,自己新建一个也不行,去官方的jira看看,发现的确有这么一个bug,但是已经close…
1. 如果你的集群尚未安装所需软件,你得首先安装它们. 以Ubuntu Linux为例: $ sudo apt-get install ssh $ sudo apt-get install rsync 2.为了获取Hadoop的发行版,从Apache的某个镜像服务器上下载最近的 稳定发行版 3.解压所下载的Hadoop发行版.编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径. 4.在etc/hadoop目录下修改hadoop-env.sh加入j…
LAMP 通常表示 Linux + Apache + MySQL/MariaDB + Perl/PHP/Python,LAMP 的各个组件不是一成不变的,并不局限于它最初的选择.作为一个解决方案套件,LAMP 非常适合构建动态网站和网站应用程序.另外使用类似 Zabbix 这样的组件做监控也是网站必不可少的. 更好的阅读体验,可以点击此处. 安装 LAMP 本文档的 LAMP 代指 Linux + Apache2 + MySQL + php5 且各示例步骤基于 Azure 环境下的 LINUX…
一.下载zookeeper http://mirrors.shu.edu.cn/apache/zookeeper/stable/ 我下载的是3.4.13版本 上传到liunx虚拟机上,解压 再复制出2份来 分别修改每份下conf/zoo.cfg配置文件,如果没有,复制一份 其他不变,主要配置 dataDir   对应目录要手动创建下 dataLogDir 对应目录要手动创建下 clientPort端口修改一下,分别2181,2182,2183 server.1=192.168.1.166:400…
1.创建模板文件 docker-compose.yml #backend web application, scale this with docker-compose scale web=3 web: image: tomcat-fhm:1.0 environment: SERVICE_8080_NAME: my-web-server SERVICE_TAGS: backend-1 MY_HOST: host-1 ports: - "8080" #load balancer will…
1.安装CUDA 1.1安装前工作 1.1.1选取实验器材 实验中的每台计算机均装有双系统.选择其中一台计算机作为master节点,配置有GeForce GTX 650显卡,拥有384个CUDA核心.另外两台计算机作为worker节点,一个配置有GeForce GTX 650显卡,另外一个配置有GeForce GTX 750 Ti显卡,拥有640个CUDA核心. 在每台计算机均创建hadoop用户并赋予root权限,本文所有的操作都将在hadoop用户下进行. 1.1.2安装前准备 用以下命令来…
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 增加cdh5.0.2相关profile,如下: <profile> <id>cdh5.0.2</id> <properties> <hadoop.version>2.3.0-cdh5.0.2</hadoop.version> <hb…