StreamSets是一个大数据采集工具,数据源支持包括结构化和半/非结构化,目标源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一个拖拽式的可视化数据流程设计界面,定时任务调度等功能。举例,它可以将数据源从Kafka+Spark Streaming连接到你的Hadoop集群,而不需要写一行代码。

StreamSets并没有集成在cdh中,因此需要我们自己去官方下载软件包

下载地址: https://archives.streamsets.com/index.html

下载下来的文件如下,软件包有4.6G左右,需要点耐心

配置本地yum源

新建一个目录,把STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel, manifest.json放目录里

mkdir /var/www/html/streamsets
mv STREAMSETS_DATACOLLECTOR-3.10.-el7.parcel /var/www/html/streamsets
mv manifest.json /var/www/html/streamsets
cd /var/www/html/streamsets
createrepo .

配置yum

[root@cm ~]# cat /etc/yum.repos.d/ss.repo
[ssrepo]
name = ss_repo
baseurl = http://10.1.1.120/streamsets
enable = true
gpgcheck = false

yum源

把ss.repo拷贝到集群其他节点,然后执行 yum. repolist,可以看到配置的yum 源

下载分发激活Parcel包

主机---Parcel---配置

点击下载--分配--激活,因为包比较大,时间可能会稍微有点长

#######小坑##########

就是分配过程中cloudera server那台机一直卡在那里,其他节点没问题,进行了回滚操作

#curl -u user:password -X POST http://cm.bigdata-heboan.com:7180/api/v18/clusters/cdh-heboan/parcels/products/{product}/versions/{version}/commands/deactivate

curl -u admin:admin -X POST http://cm.bigdata-heboan.com:7180/api/v18/clusters/cdh-heboan/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.10.0/commands/deactivate

回滚

后面发现,是clouder server这台机器的/etc/cloudera-scm-agent/config.ini 中的server_host是localhost,后面改为如下问题解决

...
# Hostname of the CM server.
server_host=cm.bigdata-heboan.com

config.ini

中途遇到一次提示STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel哈希验证失败,解决办法是去到cm机器上的/opt/cloudera/parcel-repo目录

执行 sha1sum /opt/cloudera/parcel-repo, 把得出的哈希值替换STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel.sha里面的内容

添加服务

选择StreamSets

分配角色

数据目录

启动成功后

点击Data Collector Web UI

默认账号: admin/admin

CDH部署StreamSets的更多相关文章

  1. CDH部署日志

    CDH部署时出现如图所示的错误 可去服务器查看:/opt/cm-5.5.0/run/cloudera-scm-agent/process/ccdeploy_hbase-conf_etchbasecon ...

  2. CDH 5.16.1 离线部署 & 通过 CDH 部署 Hadoop 服务

    参考 Cloudera Enterprise 5.16.x Installing Cloudera Manager, CDH, and Managed Services Installation Pa ...

  3. CDH 部署 Hadoop:5.开始安装

    Cloudera Enterprise 6.2.x   或者参考https://blog.csdn.net/shawnhu007/article/details/52579204 第零步:优化相关 e ...

  4. cdh部署

    supermicro安装环境 本次安装基于无因特网的环境,共安装2个节点(一个master节点,一个data及节点),所用系统为centos7.x,所有安装过程均使用root用户.具体的节点信息如下: ...

  5. 离线部署 Cloudera Manager 5 和 CDH 5.12.1 及使用 CDH 部署 Hadoop 集群服务

    Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera ...

  6. CM记录-CDH部署手册

    1.安装环境和软件准备 CentOS release 7.4 JDK1.8.0_121 mysql-connector-java-5.1.40-bin.jar CDH-5.10.2-1.cdh ...

  7. CDH部署(以5.7.5为例)

    博客园首发,转载请注明出处https://www.cnblogs.com/tzxxh/p/9120020.html 一.准备工作(下面的内容括号内写master的表示仅在master节点执行,all代 ...

  8. 使用Windows Azure的VM安装和配置CDH搭建Hadoop集群

    本文主要内容是使用Windows Azure的VIRTUAL MACHINES和NETWORKS服务安装CDH (Cloudera Distribution Including Apache Hado ...

  9. 【CDH篇】---CDH从初识到搭建到应用

    一.前述 CDH(Cloudera's Distribution, including Apache Hadoop)是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache ...

随机推荐

  1. openssl-1.0.1u静态库编译

    不管Windows还是linux都是需要安装好perl环境的 Windows步骤 1.解压openssl-1.0.1u.tar.gz 2.使用Vs2005命令行工具进入解压后的目录 3.执行如下命令 ...

  2. [HTML辅助方法-Html.Raw()的简单应用]

    Html.Raw(); 当我们使用 文本编辑器,存入到数据库中的数据会带 html 标签,如果我们需要在前台显示存入时的相同样式,不输出为带有html标签的字符串 ,不通过富文本显示的话,可以通过ht ...

  3. CondenseNet: An Efficient DenseNet using Learned Group Convolutions

    1. 摘要 作者提出了一个前所未有高效的新奇网络结构,称之为 CondenseNet,该结构结合了密集连接性和可学习的分组卷积模块. 密集连接性有利于网络中的特征复用,而可学习的分组卷积模块则可以移除 ...

  4. matlab7与win7不兼容

    移动鼠标到其打开图标,右键打开属性,选择兼容性,勾选"以兼容模式运行程序",选择Windows Vista

  5. DVM 和 JVM 的区别?

    a) dvm 执行的是.dex 文件,而 jvm 执行的是.class.Android 工程编译后的所有.class 字节码会被 dex 工具抽取到一个.dex 文件中.b) dvm 是基于寄存器的虚 ...

  6. React 之form表单、select、textarea、checkbox使用

    1.案例如下 import React from 'react'; /** * 非约束性组(类似defaultValue等属性,不可以程序修改): <input type="text& ...

  7. 报错:Original error: Could not proxy command to remote server. Original error: Error: read ECONNRESET

    问题:Appium的android真机启动手机时,会遇到以下问题: An unknown server-side error occurred while processing the command ...

  8. shell历史命令

    1.每分钟备份历史命令 制定计划任务:每分钟执行备份历史命令的脚本 注意:要用python写计划任务脚本,因为用shell脚本写的计划任务总是不执行 先写脚本: [root@master ~]# ca ...

  9. Day01:API文档 / 字符串基本操作

    JDK API 什么是JDK API? JDK中包含大量的API类库,所谓AP就是一些写好的,可提供直接调用的功能(在Java语言中,这些功能以类的形式封装). JDK API包含的类库功能强大,经常 ...

  10. python学习之内置函数(一)

    4.7 内置函数 4.7.1 内置函数(1) eval 执行字符串类型的代码,并返回最终结果. eval('2 + 2') # 4 n=81 eval("n + 4") # 85 ...