1.免秘钥登录配置: ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys chmod 600 authorized_keys 2.环境工具 2.1环境 系统 urbuntu jdk 1.7.0_79 scala 2.10.4 hadoop 2.6.0 spark 1.6.2 2.2打包工具 IDEA + sbt1.2打包工具 3.打包 3.1安装插件 需要预先安装scala插件,点击File ->S…
一.下载Spark安装包 1.从官网下载 http://spark.apache.org/downloads.html 2.从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3.从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 二.安装基础 1.Java8安装成功 2.zookeeper安装成功 3.hadoop2.7.5 HA安装成功 4.Scala安装成功(不安装进程也可以启动) 三.Spar…
下载Spark安装包 从官网下载 http://spark.apache.org/downloads.html 从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 安装基础 Java8安装成功 zookeeper安装成功 hadoop2.7.5 HA安装成功 Scala安装成功(不安装进程也可以启动) Spark安装过程 上传并解压缩 [hadoop…
1,首先确保hadoop和spark已经运行.(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动). 2.打开idea,创建maven工程.编辑pom.xml文件.增加dependency. <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifac…
WordCount程序 求下列文件中使用空格分割之后,单词出现的个数 input.txt java scala python hello world java pyfysf upuptop wintp top sfok sf sf sf java android sf pyfysf upuptop pyfysf upuptop java android spark hello world world hello top scala spark spark spark sql 创建maven项目…
QT学习之第一个程序 目录 手动创建主窗口 居中显示 添加窗口图标 显示提示文本 Message Box的应用 手动连接信号与槽 手动创建主窗口 窗口类型 QMainWindow: 可以包含菜单栏.工具栏.状态栏.标题栏等,是最常见的窗口形式,也是GUI程序的主窗口 QWidget: 如果是主窗口就使用,如果是对话框就使用,如果不确定,或者有可能作为顶层窗口,也有可能嵌入到其他窗口中,那么就使用 QWidget类 QDialog: 对话窗口的基类.对话框主要用来执行短期任务,或者与用户进行互动,…
win7下eclipse远程开发hadoop程序,分为两种: (1)运行[Run As] Java Application, 打包程序为jar,上传集群执行(这里不做解释) (2)运行[Run As] Run on Hadoop 重点来说说Run on Hadoop这种方式,搭建好eclipse远程开发环境,执行Run on Hadoop,程序成功了,心里窃喜,却发现是这个样子: 我明明设置job.setNumReduceTasks(6),最终本应该有6个reduce输出,怎么成了一个? 发现这…
flink idea 打包jar 并放到集群上运行 在开始之前注意前提,当前项目的scala的版本要和集群上的scala一致   我已经创建好一个wordCount的flink项目   注意项目的pom文件给这些依赖加上<scope>provided</scope>(表示执行和打包都不用此依赖,只有编译时用)不进行这些依赖的打包,因为这些依赖集群的环境都有了,不排除的话,会导致jar包很大,同时还容易很集群的依赖冲突   方法一 在pom文件里加入插件配置 <build>…
一.HDFS的相关基本概念 1.数据块 1.在HDFS中,文件诶切分成固定大小的数据块,默认大小为64MB(hadoop2.x以后是128M),也可以自己配置. 2.为何数据块如此大,因为数据传输时间超过寻到时间(高吞吐率). 3.文件的存储方式,按大小被切分成若干个block,存储在不同的节点上,默认情况下每个block有三个副本. 2.复制因子 就是一个block分为多少个副本,默认情况下是3个 3.fsimage文件作用: fsimage是元数据镜像文件(保存文件系统的目录树). 4.ed…
前面已经学习了RockeMQ的四种集群方式,接下来就来搭建一个双Master(2m)的集群环境. 1. 双Master服务器环境 序号 ip 用户名 密码 角色 模式 (1) 47.105.145.123 root nameServer1,brokerServer1 Master1 (2) 47.105.149.61 root   nameServer2,brokerServer2   Master2 2. 修改hosts环境 两台机器同时修改:vim /etc/hosts 重启网卡:servi…
以前也看过一系列的java方面的程序,但是还没有正式敲过,今天正式学习并且正式敲出代码.在这里记录下来今日所得 写作工具:Notepad++ 在写作工具方面好多人建议用 记事本,但是我还是认为用 Notepad++ 这个编辑工具比较好. 这个相较于记事本来说,关键字可以编写,能够提高学习中的拼写错误提交效果: 再者,写好以后也要手动执行命令,更能够知道程序是怎么运行的. 第一个程序 public class HelloWorld { public static void main(String[…
在目录/home/hadoop/2016113012下有文件words.txt hello scala hello java hello python hello wujiadong 上传该文件到hdfs hadoop@slave01:~/2016113012$ hadoop fs -put /home/hadoop/2016113012/words.txt /student/2016113012/spark hadoop@slave01:~/2016113012$ hadoop fs -lsr…
wordcount程序 文件wordcount.txt hello wujiadong hello spark hello hadoop hello python 程序示例 package wujiadong_sparkCore import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/25. */ object LocalSpark { def main(args: Ar…
Exception 1:当我们将任务提交给Spark Yarn集群时,大多会出现以下异常,如下: 14/08/09 11:45:32 WARN component.AbstractLifeCycle: FAILED SelectChannelConnector@0.0.0.0:4040: java.net.BindException: Address already in use java.net.BindException: Address already in use at sun.nio.…
一,开发环境: 操作系统:win19 64位 IDE:IntelliJ IDEA JDK:1.8 scala:scala-2.10.6 集群:linux上cdh集群,其中spark为1.5.2,hadoop:2.6.0(其实我也想用spark最新版和hadoop的最新版,但1.6以前有spark-assembly-1.x.x-hadoop2.x.x.jar) 二,实现步骤: 1,设置maven的pom.xml <project xmlns="http://maven.apache.org/…
提交Spark程序到集群与提交MapReduce程序到集群一样,首先要将写好的Spark程序打成jar包,再在Spark-submit下通过命令提交. Step1:打包程序 Intellij IDEA进行打包步骤: Step2:提交任务 ./spark-submit  --class com.jz.bigdata.DecisionTree --master spark:master:7077 --executor-memory 2g --num-executors 5  /bigdata/Dec…
windows环境下编写hadoop程序 新建:File->new->Project->Maven->next GroupId 和ArtifactId 随便写(还是建议规范点)->finfsh 会生成pom.xml,文件内容如下 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0&qu…
一般我们采用win开发+linux hadoop集群的方式进行开发,使用插件:hadoop-***-eclipse-plugin. 运行程序的时候,我们一般采用run as application或者选择run as hadoop.按照这个字面理解,我们可以认为第一种是运行在本地,第二种是运行在hadoop集群上.但是实际情况是一般如果不进行配置的话,全部是在本地进行运行的.如果需要将job提交到集群上,那么需要进行必要的设置和添加部分代码. 1.copy mapred-site.xml &&am…
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yarn jar方式运行. 3.本地编译环境在IDE里直接提交到集群上运行,实际上这种方式就是第二种方式的变种. 本例说的就是第三种方式 1)核心的部分就是Confirguration的配置 2)本地需要编译成jar包 3)运行参数在本地配置,包括输入输出参数4)出现windows下的环境配置问题,参照h…
本文是redis学习系列的第四篇,前面我们学习了redis的数据结构和一些高级特性,点击下面链接可回看 <详细讲解redis数据结构(内存模型)以及常用命令> <redis高级应用(主从.事务与锁.持久化)> 本文我们继续学习redis的高级特性——集群.本文主要内容包括集群搭建.集群分区原理和集群操作的学习. Redis集群简介 Redis 集群是3.0之后才引入的,在3.0之前,使用哨兵(sentinel)机制(本文将不做介绍,大家可另行查阅)来监控各个节点之间的状态.Redi…
一:打包成jar 1.修改代码 2.使用maven打包 但是目录中有中文,会出现打包错误 3.第二种方式 4.下一步 5.下一步 6.下一步 7.下一步 8.下一步 9.完成 二:在集群上运行(local模式) 1.上传 2.学习spark-submit的使用方式 3.运行(local模式) 4.运行结果 三:集群上运行(standalone模式) 1.DeoloyMode 表示Driver执行的位置. client如果是参数,则表示driver执行在执行spark-submit命令的机器上.…
0x00 单节点搭建和简述 minikube Minikube是一个工具,可以在本地快速运行一个单点的Kubernetes,尝试Kubernetes或日常开发的用户使用.不能用于生产环境. 官方地址:https://kubernetes.io/docs/setup/minikube/ kubeadm Kubeadm也是一个工具,提供kubeadm init和kubeadm join,用于快速部署Kubernetes集群. 官方地址:https://kubernetes.io/docs/refer…
0x00 概述 关于如何搭建ELK部分,请参考这篇文章,https://www.cnblogs.com/JetpropelledSnake/p/9893566.html. 该篇用户为非root,使用用户为“elk”. 基于以前ELK架构的基础,结合Kafka队列,实现了ELK+Kafka集群,整体架构如下: # 1. 两台es组成es集群;( 以下对elasticsearch简称es ) # 2. 中间三台服务器就是我的kafka(zookeeper)集群啦; 上面写的 消费者/生产者 这是ka…
写在前面 相关随笔: Hadoop-1.0.4集群搭建笔记 用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试 用python + hadoop streaming 编写分布式程序(三) -- 自定义功能 为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题. 为了更好地模拟集群环境,我们可以在mapred-site.xml中增设reducer和mapper的最大…
本文原创,如需转载,请注明作者以及原文链接! 一.前期准备: 1.jdk安装        不要用centos7自带的openJDK2.hostname    配置       配置位置:/etc/sysconfig/network文件3.hosts           配置        配置位置 : /etc/hosts4.date            配置       date -s "....."设置日期一致5.   关闭安全机制 /etc/sysconfig/selinux…
转载请标注原链接 http://www.cnblogs.com/xczyd/p/8570437.html 2018年3月从新司重新起航了.之前在某司过了的蛋疼三个月,也算给自己放了个小假了. 第一个小目标,从腾讯云上的hdfs集群拷贝一些文件到本地.唔唔,听上去似乎很简单的样子. 于是新建了一个Java的Maven工程,在pom.xml中添加如下依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artif…
一.准备工作 同一个局域网中的三台linux虚拟机,我用的是redhat6.4,如果主机是windows操作系统,可以先安装vmware workstation, 然后在workstation中装上3台虚拟机,这样就形成了一个以物理机为DNS服务器的局域网,物理机和虚拟机都有一个局域网IP,互相之间可以通信. 因为hadoop是一个java开发者写的开源软件,所以你懂得,肯定用的是java语言编写的,所以要装jdk,当然还有一些perl语言写的东西,所以也要装perl,因为是个集群,所以互相之间…
论文内容: 待整理 参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NS…
一.背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中, HDFS 解决数据的存储问题:MapReduce 解决数据的计算问题 Hadoop 的设计考虑:设计分布式的存储和计算解决方案架构在廉价的集群之上,所以,服 务器节点出现宕机的情况是常态.数据的安全是重要考虑点.HDFS 的核心设计思路就是对 用户存进 HDFS 里的所有数据都做冗余备份,以此保证数据的安全 那么 Hadoop 在设计时考虑到数据的安全,数据文件默认在 HDFS 上存放三份.显然,…
前言 本文从零开始搭hadoop完全分布式集群,大概花费了一天的时间边搭边写博客,一步一步完成完成集群配置,所以相信大家按照本文一步一步来完全可以搭建成功.需要注意的是本文限于篇幅和时间的限制,也是为了突出重点,一些很基础的操作就不再详细介绍,如果是完全不懂linux,建议先看一下Linux的基础教程,再来进行hadoop配置.同时建议,hadoop安装版本不宜很高.第一次写这么长的博客,希望对大家有所帮助,如果有帮到你,可以在评论区夸夸我哦.哈哈.(原文是在word里编辑的,虽然排版不好看,但…