昊合数据整合平台HHDI常见问题
Q: HaoheDI和Informatica PowerCenter、IBM DataStage的区别在哪里?
A: Informatica和DataStage是比较重量级的ETL平台,其自身就是比较复杂的数据处理引擎,一般是通过大量转换组件利用自身引擎的计算能力完成数据抽取、清洗、转换并最后加载到目标数据库中,主体为c/s架构,数据转换、作业流程、监控、管理等都由不同的软件部件完成,由于其包含大量的组件和功能,导致学习曲线较长,对开发和运维人员的技术水平要求较高,出现问题难以排错和性能调优,安装部署迁移等都非常复杂,且采购成本过高,反而给企业实施数据类项目带来较大障碍。相比而言,HaoheDI优势主要在于大大简化ETL实施过程的复杂度,产品采用B/S架构,0部署,实施方法论采用先将数据抽取到ODS,再利用数据库自身的SQL或存储过程来进行数据处理的ELT模式,因此对开发人员的要求较低,只需要掌握SQL开发即可上手,任务作业的开发、管理、执行监控、运维等各项操作均通过浏览器完成,使开发人员将更多的时间和精力用于数据业务逻辑的处理上,显著降低实施复杂度和成本。
Q: 系统能否支持从SAP ECC系统中的抽取数据?采用何种方式?
A: 可以通过2种方式从SAP ECC系统中抽取数据,一种是通过JCO驱动利用OPEN SQL来抽取透明表和簇表,支持表关联和条件查询,这种方式需要在SAP系统中创建自定义函数RFC,且只支持ECC6.0及以上版本;另外一种方式是使用专门的CDATA JDBC驱动进行连接,支持通常的SQL语句,可访问透明表和簇表,这种方式对于字段较多的表也需要创建RFC。
Q: 该产品数据抽取的速度如何?如何提高抽取的效率?
A: 以一个有10个字段,字段总长度在512个字节的表为例,异构数据库的数据抽取速度通常在每秒1-5万条,这主要取决于源和目标数据库的性能、驱动程序的性能、网络带宽、IO速度、字段类型等多方面因素制约。如果需要在短时间内倒入大批量数据,可以采用多张表并行抽取的方式,为了不给源和目标数据库服务器造成较大压力,建议控制在10个并发以下。
Q: 系统意外宕机导致本应自动调度的计划没有执行怎么办?
A: HaoheDI支持主备机模式,同时部署两套应用,一个为主机,一个为备机,两个应用共用一个资料库(hhdi.h2.db),在调度计划达到触发条件被自动调起时,备机会检测主机的服务是否还活着,如果主机活着,备机不做任何操作,如果主机无法探测到,则备机执行自动的调度计划。
Q: 能否执行Kettle(PDI)开发的转换和作业?是否需要在HaoheDI的服务器上安装Kettle?
A: 可以,包括直接调用文件和从文本资源库、数据库资源库中调用,可以传递变量,并在执行监控页面中可以看到Kettle的完整的执行信息,无需安装Kettle的程序,只需要将ktr、kjb文件或资源库拷贝到HaoheDI的服务器中,如果用到kettle插件的话,需要将其plugins目录下的插件目录拷贝到HaoheDI的应用目录下。
Q: 一个公司有100个子公司,每个子公司均部署有独立的业务系统,其数据库格式完全一致,只是服务器IP地址不同,如何从这100个相似的数据库中抽取数据到总部?
A: 如果每个子公司都配置单独的数据连接,这样工作量无疑是很大的,HaoheDI的数据连接配置项中有些内容是支持变量配置的,包括IP地址(机器名)、端口号、数据库/模式,可以将IP地址配置成变量,然后通过变量赋值任务、条件判断任务、子作业等组合成可循环执行的作业流程,按IP地址从小到大循环依次抽取到目标数据库中。
Q: 系统能否调用Java开发的类及其方法?
A: 可以通过执行JavaScript任务,写JavaScript语句来调用Java文件,使用手册中有示例,需要将要调用的Jar包或class文件上传到HaoheDI应用的Lib目录中。
Q: 产品是否可以支持自动建表?
A: 如果目标表不存在,数据抽取任务可以根据源表或SELECT语句的字段结构来创建目标表,建表语句可以修改。
Q: 产品对Hadoop的支持如何?
A: 可通过各种专门的JDBC驱动连接不同的SQL on Hadoop引擎,比如Hive/Spark、Hbase、Impala、Cassandra、Drill等,可以从这些系统中Select数据,也可以执行各种DDL或DML操作,如使用Load Data命令将文本中的数据导入Spark中。
Q: 数据库量级大了后效率会变慢吗?
A: 整合平台的速度不会变慢,没直接关系,当然由于数据库量级大了后,数据库的速度变慢以后,在整合平台里执行的任务也会变慢,但这是和数据库相关,不是和整合平台相关。
Q: 产品能否支持实时的数据采集?
A: 做实时的CDC数据采集通常是需要访问数据库日志的,且对数据库的归档模式有一定要求,能做这方面工作的工具比较少,常见的有Oracle的goldengate和Informatica PowerExchange,这类工具通知只实现数据实时采集,其它的ETL工作还需要借助其它工具完成,HaoheDI目前只能做到按批进行抽取,比如按时间戳或id号做定时的增加抽取,如果数据量不是特别大,可以将调度计划设为每分钟抽取一次增量数据,以实现准实时的效果,但是无时间戳的数据和修改删除的数据还是不容易实时获取,可搭配其它实时CDC工具来进行使用。
Q: 正式版产品的授权License是怎么计算的?
A: 产品按照一台服务器一个License进行授权,lic文件将绑定这台服务器的主板UUID,对cpu核数、操作系统、用户数、任务作业数都没有限制。
Q: 外部应用是否可以通过一个URL来调用系统中的作业的执行?
A: 可以通过http协议调用一个url来手工执行系统中的一个作业。
Q: 系统中的数据源、转换任务、作业流程、执行日志等内容都存放在什么地方?如何备份和迁移?
A: 系统中的所有对象和数据都存储在一个h2数据库文件中,备份和迁移只需要将此文件备份和复制到其它位置即可。
昊合数据整合平台HHDI常见问题的更多相关文章
- [转]ios平台内存常见问题
本文转自CocoaChina,说的满详细的: 链接地址:http://www.cocoachina.com/bbs/read.php?tid=94017&keyword=%C4%DA%B4%E ...
- 2012开源项目计划-WPF企业级应用整合平台
2012开源项目计划-WPF企业级应用整合平台 开篇 2012年,提前祝大家新年快乐,为了加快2012年的开发计划,特打算年前和大家分享一下2012年的开发计划和年后具体的实施计划,希望有兴趣或者有志 ...
- 东正王增涛浅析OA信息化整合平台系统在企业中的应用价值
王增涛说OA信息化整合平台系统作为企业管理中最基础的管理软件,已在企业成长道路上存在多年,它的应用开启了智能移动办公的先河,也让企业的办公流程管理更加的便捷.高效.流畅.省时.省力,它的使用不但让企业 ...
- Netsharp平台工具常见问题(FAQ)
1. 请问EntityId如何填? 回答:Netsharp中EntityId是经常需要输入的一个字段,因为Netsharp工具一般的源头是实体元数据,也就是一般常说的所谓模型驱动.所以很多工具都需要E ...
- 如何用SQL语句处理缓慢变化维(渐变维,拉链表)SCD-2?
假设有一张居民维表,需要记录居民状态的变更历史,根据Kimball建模理论,设计居民维表如下: 另外在ODS中有居民信息的每日快照表(每天都记录一份居民的全量信息):O_USERINFO 如何将ODS ...
- 基于两种架构的ETL实现及ETL工具选型策略
企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...
- HaoheDI让ETL变得简单
HaoheDI(昊合数据整合平台)http://www.haohedi.com,产品基于BS架构,开发运维均极为简单,可快速搭建ETL平台,广泛支持各种数据库.文本文件.SAP和Hadoop,开发数据 ...
- 在我的职业生涯中,没有一种技能比 SQL 更有用!
作者 | Craig Kerstiens 译者 | 阿拉丁 创业公司 CitusData(CitusData 是一家将 PostgreSQL 商业化的初创企业,也是 PostgreSQL 社区领导者, ...
- linux下apache和tomcat整合
一 Apache与Tomcat比较联系 apache支持静态页,tomcat支持动态的,比如servlet等. 一般使用apache+tomcat的话,apache只是作为一个转发,对jsp的处理是由 ...
随机推荐
- Linux下分布式项目部署环境搭建与使用(druid-1.0.25.jar)数据库连接加密
一.JDK安装 1.执行命令:cd Downloads/ 2.上 传:jdk-8u111-linux-x64.tar.gz 到Downloads 3.执行命令:tar -zxvf jdk-8u111- ...
- SQL Server ->> SQL Server 2016重要功能改进之 -- INSERT SELECT时并发插入数据
SQL Server 2016对INSERT INTO XXXX SELECT语句进行了优化,在某些情况下可以触发数据的并行插入,但是要求兼容模式是130(SQL Server 2016)以及在插入的 ...
- 【NLP_Stanford课堂】文本分类1
文本分类实例:分辨垃圾邮件.文章作者识别.作者性别识别.电影评论情感识别(积极或消极).文章主题识别及任何可分类的任务. 一.文本分类问题定义: 输入: 一个文本d 一个固定的类别集合C={c1,c2 ...
- Oracle案例02——ORA-12034: "SCOTT"."USER_TABLE" 上的实体化视图日志比上次刷新后的内容新
最近同事在交接工作时,发现有几个schedule job没有执行成功,我这边给看了下,其中一个是由于数据库迁移,调用dblink的host主机IP在tnsnames中没有变更导致,还有一个是无法视图的 ...
- 【Leetcode】【Medium】Combination Sum
Given a set of candidate numbers (C) and a target number (T), find all unique combinations in C wher ...
- 修改容器的hosts文件
修改容器的hosts文件 1.介绍 docker容器中的hosts文件虽然在宿主机磁盘上/var/lib/docker/containers/xxx/hosts中,但是修改该文件是无效的,需要通过其他 ...
- Nginx配置虚拟机,url重写,防盗链
配置目录: · 虚拟主机 · PHP支持 · URL重写 · 防止盗链 · 持续更新… 一.虚拟主机 1.创建 文件格式:{域名}.conf 具体如下: $ s ...
- 2017U-Mail邮件营销平台新邮件模板功能
据U-Mail调查表明,企业用户中普遍最关心群发邮件会不会被列入垃圾箱?的确,哪怕你最用功,一旦邮件进了垃圾箱,意味着全盘尽废.业界知名服务商U-Mail一直想用户之所想,急用户之所急,十几年如一日, ...
- 静态路由解决双外卡,PC做路由器的实现
1,曾经医院,有两个网卡,一个内,一个外,但都有网关(192.168.1.246. 192. 168.6.1) 这样同一时候开启就会出现网络不通. 当时并没有细究原因. 这次医院信息化项目上马,我学到 ...
- 第三篇——第二部分——第一文 SQL Server镜像简单介绍
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/DBA_Huangzj/article/details/26951563 原文出处:http://bl ...