Q: HaoheDI和Informatica PowerCenter、IBM DataStage的区别在哪里?

A: Informatica和DataStage是比较重量级的ETL平台,其自身就是比较复杂的数据处理引擎,一般是通过大量转换组件利用自身引擎的计算能力完成数据抽取、清洗、转换并最后加载到目标数据库中,主体为c/s架构,数据转换、作业流程、监控、管理等都由不同的软件部件完成,由于其包含大量的组件和功能,导致学习曲线较长,对开发和运维人员的技术水平要求较高,出现问题难以排错和性能调优,安装部署迁移等都非常复杂,且采购成本过高,反而给企业实施数据类项目带来较大障碍。相比而言,HaoheDI优势主要在于大大简化ETL实施过程的复杂度,产品采用B/S架构,0部署,实施方法论采用先将数据抽取到ODS,再利用数据库自身的SQL或存储过程来进行数据处理的ELT模式,因此对开发人员的要求较低,只需要掌握SQL开发即可上手,任务作业的开发、管理、执行监控、运维等各项操作均通过浏览器完成,使开发人员将更多的时间和精力用于数据业务逻辑的处理上,显著降低实施复杂度和成本。

Q: 系统能否支持从SAP ECC系统中的抽取数据?采用何种方式?

A: 可以通过2种方式从SAP ECC系统中抽取数据,一种是通过JCO驱动利用OPEN SQL来抽取透明表和簇表,支持表关联和条件查询,这种方式需要在SAP系统中创建自定义函数RFC,且只支持ECC6.0及以上版本;另外一种方式是使用专门的CDATA JDBC驱动进行连接,支持通常的SQL语句,可访问透明表和簇表,这种方式对于字段较多的表也需要创建RFC。

Q: 该产品数据抽取的速度如何?如何提高抽取的效率?

A: 以一个有10个字段,字段总长度在512个字节的表为例,异构数据库的数据抽取速度通常在每秒1-5万条,这主要取决于源和目标数据库的性能、驱动程序的性能、网络带宽、IO速度、字段类型等多方面因素制约。如果需要在短时间内倒入大批量数据,可以采用多张表并行抽取的方式,为了不给源和目标数据库服务器造成较大压力,建议控制在10个并发以下。

Q: 系统意外宕机导致本应自动调度的计划没有执行怎么办?

A: HaoheDI支持主备机模式,同时部署两套应用,一个为主机,一个为备机,两个应用共用一个资料库(hhdi.h2.db),在调度计划达到触发条件被自动调起时,备机会检测主机的服务是否还活着,如果主机活着,备机不做任何操作,如果主机无法探测到,则备机执行自动的调度计划。

Q: 能否执行Kettle(PDI)开发的转换和作业?是否需要在HaoheDI的服务器上安装Kettle?

A: 可以,包括直接调用文件和从文本资源库、数据库资源库中调用,可以传递变量,并在执行监控页面中可以看到Kettle的完整的执行信息,无需安装Kettle的程序,只需要将ktr、kjb文件或资源库拷贝到HaoheDI的服务器中,如果用到kettle插件的话,需要将其plugins目录下的插件目录拷贝到HaoheDI的应用目录下。

Q: 一个公司有100个子公司,每个子公司均部署有独立的业务系统,其数据库格式完全一致,只是服务器IP地址不同,如何从这100个相似的数据库中抽取数据到总部?

A: 如果每个子公司都配置单独的数据连接,这样工作量无疑是很大的,HaoheDI的数据连接配置项中有些内容是支持变量配置的,包括IP地址(机器名)、端口号、数据库/模式,可以将IP地址配置成变量,然后通过变量赋值任务、条件判断任务、子作业等组合成可循环执行的作业流程,按IP地址从小到大循环依次抽取到目标数据库中。

Q: 系统能否调用Java开发的类及其方法?

A: 可以通过执行JavaScript任务,写JavaScript语句来调用Java文件,使用手册中有示例,需要将要调用的Jar包或class文件上传到HaoheDI应用的Lib目录中。

Q: 产品是否可以支持自动建表?

A: 如果目标表不存在,数据抽取任务可以根据源表或SELECT语句的字段结构来创建目标表,建表语句可以修改。

Q: 产品对Hadoop的支持如何?

A: 可通过各种专门的JDBC驱动连接不同的SQL on Hadoop引擎,比如Hive/Spark、Hbase、Impala、Cassandra、Drill等,可以从这些系统中Select数据,也可以执行各种DDL或DML操作,如使用Load Data命令将文本中的数据导入Spark中。

Q: 数据库量级大了后效率会变慢吗?

A: 整合平台的速度不会变慢,没直接关系,当然由于数据库量级大了后,数据库的速度变慢以后,在整合平台里执行的任务也会变慢,但这是和数据库相关,不是和整合平台相关。

Q: 产品能否支持实时的数据采集?

A: 做实时的CDC数据采集通常是需要访问数据库日志的,且对数据库的归档模式有一定要求,能做这方面工作的工具比较少,常见的有Oracle的goldengate和Informatica PowerExchange,这类工具通知只实现数据实时采集,其它的ETL工作还需要借助其它工具完成,HaoheDI目前只能做到按批进行抽取,比如按时间戳或id号做定时的增加抽取,如果数据量不是特别大,可以将调度计划设为每分钟抽取一次增量数据,以实现准实时的效果,但是无时间戳的数据和修改删除的数据还是不容易实时获取,可搭配其它实时CDC工具来进行使用。

Q: 正式版产品的授权License是怎么计算的?

A: 产品按照一台服务器一个License进行授权,lic文件将绑定这台服务器的主板UUID,对cpu核数、操作系统、用户数、任务作业数都没有限制。

Q: 外部应用是否可以通过一个URL来调用系统中的作业的执行?

A: 可以通过http协议调用一个url来手工执行系统中的一个作业。

Q: 系统中的数据源、转换任务、作业流程、执行日志等内容都存放在什么地方?如何备份和迁移?

A: 系统中的所有对象和数据都存储在一个h2数据库文件中,备份和迁移只需要将此文件备份和复制到其它位置即可。

昊合数据整合平台HHDI常见问题的更多相关文章

  1. [转]ios平台内存常见问题

    本文转自CocoaChina,说的满详细的: 链接地址:http://www.cocoachina.com/bbs/read.php?tid=94017&keyword=%C4%DA%B4%E ...

  2. 2012开源项目计划-WPF企业级应用整合平台

    2012开源项目计划-WPF企业级应用整合平台 开篇 2012年,提前祝大家新年快乐,为了加快2012年的开发计划,特打算年前和大家分享一下2012年的开发计划和年后具体的实施计划,希望有兴趣或者有志 ...

  3. 东正王增涛浅析OA信息化整合平台系统在企业中的应用价值

    王增涛说OA信息化整合平台系统作为企业管理中最基础的管理软件,已在企业成长道路上存在多年,它的应用开启了智能移动办公的先河,也让企业的办公流程管理更加的便捷.高效.流畅.省时.省力,它的使用不但让企业 ...

  4. Netsharp平台工具常见问题(FAQ)

    1. 请问EntityId如何填? 回答:Netsharp中EntityId是经常需要输入的一个字段,因为Netsharp工具一般的源头是实体元数据,也就是一般常说的所谓模型驱动.所以很多工具都需要E ...

  5. 如何用SQL语句处理缓慢变化维(渐变维,拉链表)SCD-2?

    假设有一张居民维表,需要记录居民状态的变更历史,根据Kimball建模理论,设计居民维表如下: 另外在ODS中有居民信息的每日快照表(每天都记录一份居民的全量信息):O_USERINFO 如何将ODS ...

  6. 基于两种架构的ETL实现及ETL工具选型策略

    企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...

  7. HaoheDI让ETL变得简单

    HaoheDI(昊合数据整合平台)http://www.haohedi.com,产品基于BS架构,开发运维均极为简单,可快速搭建ETL平台,广泛支持各种数据库.文本文件.SAP和Hadoop,开发数据 ...

  8. 在我的职业生涯中,没有一种技能比 SQL 更有用!

    作者 | Craig Kerstiens 译者 | 阿拉丁 创业公司 CitusData(CitusData 是一家将 PostgreSQL 商业化的初创企业,也是 PostgreSQL 社区领导者, ...

  9. linux下apache和tomcat整合

    一 Apache与Tomcat比较联系 apache支持静态页,tomcat支持动态的,比如servlet等. 一般使用apache+tomcat的话,apache只是作为一个转发,对jsp的处理是由 ...

随机推荐

  1. css零星进阶知识点

    display: inline-block: 可设置宽高的行级元素,如果inline-block元素本行无法显示完全的话则整个换行而不是里面的单词换行 position: 设置参照物,top,left ...

  2. java代码修改了之后运行仍然是原程序

    有的时候java代码改了之后但是运行的程序却没有发生改动,这是什么情况呢?可能懂得的人都觉得十分简单,但对于我这样的小白来说确实很费力.java代码更改后需要编译生成.class文件,说的直白点,这个 ...

  3. MyEclipse中关于JRE System Library、Web App Libraries的疑惑

    简要说明一下:其实,这三个都是jar包的存放集合. 1.JRE System Library主要存放J2SE的标准jar,一般不需要调整. 2.Referenced Libraries是存放第三方的j ...

  4. myeclipse 复制项目不包含svn或CVS目录

    目前只记录到2个方法:(SVN和CVS都适用) 方法一:导出法 1.右击需要cp的目录,点击export,General/File System 2.next 3.确认你选择的目录,并勾选:Creat ...

  5. 理解Underscore中的restArgs函数

    虽然Underscore并没有在API手册中提及到restArgs函数,我们仍然可以通过_.restArgs接口使用restArgs函数.如果不去阅读源码,我们很难发现Underscore中还有这样的 ...

  6. C# using、namespace使用注意事项

    一.using 用法 1.引用命名空间. 如: using System; 2.自动释放对象使用的资源. 如: using (SqlConnection connection = new SqlCon ...

  7. iOS学习笔记09-核心动画CoreAnimation

    http://www.cnblogs.com/liutingIOS/p/5368536.html 一.CALayer CALayer包含在QuartzCore框架中,具有跨平台性,在iOS中使用Cor ...

  8. .ne 基础(2)

    类是一种抽象 抽象的概念,具体的实例. 现实是先有对象,再抽象成类,再用类来创建实例 构造方法 (1)如果写好了类,不写构造方法,系统会默认一个无参的构造方法 (2) 如果手动添加了一个 构造方法,就 ...

  9. 二十、在Intellij IDEA中使用Debug

    Debug用来追踪代码的运行流程,通常在程序运行过程中出现异常,启用Debug模式可以分析定位异常发生的位置,以及在运行过程中参数的变化.通常我们也可以启用Debug模式来跟踪代码的运行流程去学习三方 ...

  10. 【洛谷P2258】子矩阵

    子矩阵 题目链接 搜索枚举选了哪几行,将DP降为一个一维的问题, 先预处理出w[i]表示该列上下元素差的绝对值之和 v[i][j]为第i列和第j列对应元素之差的绝对值之和 f[i][j]表示前j列中选 ...