1. 提交任务的命令 spark-submit \--class <classname> \--master yarn \--deploy-mode client \--executor-memory 2g \--executor-cores 2 \--driver-memory 2g \--num-executors 2 \--queue default \--principal ocsp-yg@ASIAINFO.COM \--keytab /etc/security/keytabs/hdf…
thin 客户端的实例代码 jdbc:phoenix:thin:url=<scheme>://<server-hostname>:<port>;authentication=SPNEGO 示例 jdbc:phoenix:thin:url=<scheme>://<server-hostname>:<port>;authentication=SPNEGO;principal=my_user;keytab=/home/my_user/my_…
目标 配置一个spark standalone集群 + akka + kafka + scala的开发环境. 创建一个基于spark的scala工程,并在spark standalone的集群环境中运行. 创建一个基于spark+akka的scala工程,并在spark standalone的集群环境中运行. 创建一个基于spark+kafka的scala工程,并在spark standalone的集群环境中运行. 集群框架图 本图主要是说明各个组件可以发布到不同的逻辑机器上. GSpark C…
消费者相关配置类为  org.apache.kafka.clients.consumer.ConsumerConfig 具有以下配置参数 1. GROUP_ID_CONFIG = "group.id"; 消费者分组ID,分组内的消费者只能消费该消息一次,不同分组内的消费者可以重复消费该消息.简单讲就是一条消息会被发送到不同的分组,每个分组是否消费该消息不会互相影响,但是,分组内的消息只能被其中一个消费者消费一次.Kafka利用这个分组来实现单播和多播的功能. 2. MAX_POLL_R…
4. Hadoop相关配置及Executor环境变量的设置 4.1 Hadoop相关配置信息 默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下: 获取的配置信息包括: 将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration: 将SparkConf中所有以spark.hadoop. 开头的属性都复制到Hadoop的Configuration: 将SparkConf的属性s…
根据flume官网:当kafka涉及kerberos认证: 涉及两点配置,如下: 配置一:见下实例中红色部分 配置conf实例: [root@gz237-107 conf]# cat flume_slipstream.conf a1.sources =r1 a1.sinks = k1 a1.channels = c1   # 定义source a1.sources.r1.type = avro a1.sources.r1.bind = 0.0.0.0 a1.sources.r1.port = 8…
本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现,案例的整体框架图如下: 下面分析详细分析下上述步骤: 应用程序将购物日志发送给Kafka,topic为”sex”,因为这里只是统计购物男女生人数,所以只需要发送购物日志中性别属性即可.这里采用模拟的方式发送购物日志,即读取购物日志数据,每间隔相同的时间发送给Kafka. 接着利用Spark Stre…
Kerberos主从配置文档   1. Kerberos主从同步机制 在Master上通过以下命令同步数据: kdb5_util dump /var/kerberos/krb5kdc/slave_db kprop -f  /var/kerberos/krb5kdc/slave_db kerberos2.hadoop.com 2. 搭建 Kerberos 2.1 环境 我们在两个备用NameNode节点上实现Kerberos主从,并在其它需要接入认证的主机上安装Kerberos客户端. 操作系统:…
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础软件的安装 CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件 第五章:Kafka集群的配置 CentOS6安装各种大数据软件 第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件 第七章:Flume安装与配置 CentOS6安装各…
1.环境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 master作为active主机,data1作为standby备用机,三台机器均作为数据节点,yarn资源管理器在master上开启,在data1上备用,data1上开启历史服务器 主要参考见下表 master 192.168.1.215 Namenode DataNode QuorumPeerMain ZKFC JournalNode ResourceManager NodeManager data1…