Q: HaoheDI和Informatica PowerCenter、IBM DataStage的区别在哪里?

A: Informatica和DataStage是比较重量级的ETL平台,其自身就是比较复杂的数据处理引擎,一般是通过大量转换组件利用自身引擎的计算能力完成数据抽取、清洗、转换并最后加载到目标数据库中,主体为c/s架构,数据转换、作业流程、监控、管理等都由不同的软件部件完成,由于其包含大量的组件和功能,导致学习曲线较长,对开发和运维人员的技术水平要求较高,出现问题难以排错和性能调优,安装部署迁移等都非常复杂,且采购成本过高,反而给企业实施数据类项目带来较大障碍。相比而言,HaoheDI优势主要在于大大简化ETL实施过程的复杂度,产品采用B/S架构,0部署,实施方法论采用先将数据抽取到ODS,再利用数据库自身的SQL或存储过程来进行数据处理的ELT模式,因此对开发人员的要求较低,只需要掌握SQL开发即可上手,任务作业的开发、管理、执行监控、运维等各项操作均通过浏览器完成,使开发人员将更多的时间和精力用于数据业务逻辑的处理上,显著降低实施复杂度和成本。

Q: 系统能否支持从SAP ECC系统中的抽取数据?采用何种方式?

A: 可以通过2种方式从SAP ECC系统中抽取数据,一种是通过JCO驱动利用OPEN SQL来抽取透明表和簇表,支持表关联和条件查询,这种方式需要在SAP系统中创建自定义函数RFC,且只支持ECC6.0及以上版本;另外一种方式是使用专门的CDATA JDBC驱动进行连接,支持通常的SQL语句,可访问透明表和簇表,这种方式对于字段较多的表也需要创建RFC。

Q: 该产品数据抽取的速度如何?如何提高抽取的效率?

A: 以一个有10个字段,字段总长度在512个字节的表为例,异构数据库的数据抽取速度通常在每秒1-5万条,这主要取决于源和目标数据库的性能、驱动程序的性能、网络带宽、IO速度、字段类型等多方面因素制约。如果需要在短时间内倒入大批量数据,可以采用多张表并行抽取的方式,为了不给源和目标数据库服务器造成较大压力,建议控制在10个并发以下。

Q: 系统意外宕机导致本应自动调度的计划没有执行怎么办?

A: HaoheDI支持主备机模式,同时部署两套应用,一个为主机,一个为备机,两个应用共用一个资料库(hhdi.h2.db),在调度计划达到触发条件被自动调起时,备机会检测主机的服务是否还活着,如果主机活着,备机不做任何操作,如果主机无法探测到,则备机执行自动的调度计划。

Q: 能否执行Kettle(PDI)开发的转换和作业?是否需要在HaoheDI的服务器上安装Kettle?

A: 可以,包括直接调用文件和从文本资源库、数据库资源库中调用,可以传递变量,并在执行监控页面中可以看到Kettle的完整的执行信息,无需安装Kettle的程序,只需要将ktr、kjb文件或资源库拷贝到HaoheDI的服务器中,如果用到kettle插件的话,需要将其plugins目录下的插件目录拷贝到HaoheDI的应用目录下。

Q: 一个公司有100个子公司,每个子公司均部署有独立的业务系统,其数据库格式完全一致,只是服务器IP地址不同,如何从这100个相似的数据库中抽取数据到总部?

A: 如果每个子公司都配置单独的数据连接,这样工作量无疑是很大的,HaoheDI的数据连接配置项中有些内容是支持变量配置的,包括IP地址(机器名)、端口号、数据库/模式,可以将IP地址配置成变量,然后通过变量赋值任务、条件判断任务、子作业等组合成可循环执行的作业流程,按IP地址从小到大循环依次抽取到目标数据库中。

Q: 系统能否调用Java开发的类及其方法?

A: 可以通过执行JavaScript任务,写JavaScript语句来调用Java文件,使用手册中有示例,需要将要调用的Jar包或class文件上传到HaoheDI应用的Lib目录中。

Q: 产品是否可以支持自动建表?

A: 如果目标表不存在,数据抽取任务可以根据源表或SELECT语句的字段结构来创建目标表,建表语句可以修改。

Q: 产品对Hadoop的支持如何?

A: 可通过各种专门的JDBC驱动连接不同的SQL on Hadoop引擎,比如Hive/Spark、Hbase、Impala、Cassandra、Drill等,可以从这些系统中Select数据,也可以执行各种DDL或DML操作,如使用Load Data命令将文本中的数据导入Spark中。

Q: 数据库量级大了后效率会变慢吗?

A: 整合平台的速度不会变慢,没直接关系,当然由于数据库量级大了后,数据库的速度变慢以后,在整合平台里执行的任务也会变慢,但这是和数据库相关,不是和整合平台相关。

Q: 产品能否支持实时的数据采集?

A: 做实时的CDC数据采集通常是需要访问数据库日志的,且对数据库的归档模式有一定要求,能做这方面工作的工具比较少,常见的有Oracle的goldengate和Informatica PowerExchange,这类工具通知只实现数据实时采集,其它的ETL工作还需要借助其它工具完成,HaoheDI目前只能做到按批进行抽取,比如按时间戳或id号做定时的增加抽取,如果数据量不是特别大,可以将调度计划设为每分钟抽取一次增量数据,以实现准实时的效果,但是无时间戳的数据和修改删除的数据还是不容易实时获取,可搭配其它实时CDC工具来进行使用。

Q: 正式版产品的授权License是怎么计算的?

A: 产品按照一台服务器一个License进行授权,lic文件将绑定这台服务器的主板UUID,对cpu核数、操作系统、用户数、任务作业数都没有限制。

Q: 外部应用是否可以通过一个URL来调用系统中的作业的执行?

A: 可以通过http协议调用一个url来手工执行系统中的一个作业。

Q: 系统中的数据源、转换任务、作业流程、执行日志等内容都存放在什么地方?如何备份和迁移?

A: 系统中的所有对象和数据都存储在一个h2数据库文件中,备份和迁移只需要将此文件备份和复制到其它位置即可。

昊合数据整合平台HHDI常见问题的更多相关文章

  1. [转]ios平台内存常见问题

    本文转自CocoaChina,说的满详细的: 链接地址:http://www.cocoachina.com/bbs/read.php?tid=94017&keyword=%C4%DA%B4%E ...

  2. 2012开源项目计划-WPF企业级应用整合平台

    2012开源项目计划-WPF企业级应用整合平台 开篇 2012年,提前祝大家新年快乐,为了加快2012年的开发计划,特打算年前和大家分享一下2012年的开发计划和年后具体的实施计划,希望有兴趣或者有志 ...

  3. 东正王增涛浅析OA信息化整合平台系统在企业中的应用价值

    王增涛说OA信息化整合平台系统作为企业管理中最基础的管理软件,已在企业成长道路上存在多年,它的应用开启了智能移动办公的先河,也让企业的办公流程管理更加的便捷.高效.流畅.省时.省力,它的使用不但让企业 ...

  4. Netsharp平台工具常见问题(FAQ)

    1. 请问EntityId如何填? 回答:Netsharp中EntityId是经常需要输入的一个字段,因为Netsharp工具一般的源头是实体元数据,也就是一般常说的所谓模型驱动.所以很多工具都需要E ...

  5. 如何用SQL语句处理缓慢变化维(渐变维,拉链表)SCD-2?

    假设有一张居民维表,需要记录居民状态的变更历史,根据Kimball建模理论,设计居民维表如下: 另外在ODS中有居民信息的每日快照表(每天都记录一份居民的全量信息):O_USERINFO 如何将ODS ...

  6. 基于两种架构的ETL实现及ETL工具选型策略

    企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...

  7. HaoheDI让ETL变得简单

    HaoheDI(昊合数据整合平台)http://www.haohedi.com,产品基于BS架构,开发运维均极为简单,可快速搭建ETL平台,广泛支持各种数据库.文本文件.SAP和Hadoop,开发数据 ...

  8. 在我的职业生涯中,没有一种技能比 SQL 更有用!

    作者 | Craig Kerstiens 译者 | 阿拉丁 创业公司 CitusData(CitusData 是一家将 PostgreSQL 商业化的初创企业,也是 PostgreSQL 社区领导者, ...

  9. linux下apache和tomcat整合

    一 Apache与Tomcat比较联系 apache支持静态页,tomcat支持动态的,比如servlet等. 一般使用apache+tomcat的话,apache只是作为一个转发,对jsp的处理是由 ...

随机推荐

  1. 工作总结:mvc分层架构

    pojo:plain ordinary java object 简单无规则java对象,我个人觉得它和其他不是一个层面上的东西,VO和PO应该都属于它 po:persistant object 持久对 ...

  2. SQL Server ->> Memory Allocation Mechanism and Performance Analysis(内存分配机制与性能分析)之 -- Minimum server memory与Maximum server memory

    Minimum server memory与Maximum server memory是SQL Server下配置实例级别最大和最小可用内存(注意不等于物理内存)的服务器配置选项.它们是管理SQL S ...

  3. 代码分析工具推荐Understand

    之前看ogitor ,第一次看到那么多代码~~不知道从哪里下手,而且好多东西都不会Ogre什么的都不是很清楚,对ogitor的代码结构的了解就更不用提了.晕头转向的 不知道从哪里下手,一点点的看起来好 ...

  4. Linux->Ubuntu下配置telnet环境

    1.首先查看telnet运行状态 netstat -a | grep telnet 输出为空,表示没有开启该服务 2.安装openbsd-inetd apt-get install openbsd-i ...

  5. Yii框架记录

    Yii框架记录 Yii 结构 使用yii开发一段时间,发现自身知其形不知其意,重温了下yii,理解框架,也可以梳理自己的知识库,借鉴成长,阶段性总结如下: 模型 模型是MVC模式中的一部分,是表现业务 ...

  6. yii2.0表单自带验证码

    Yii2.0的自带的验证依赖于GD2或者ImageMagick扩展. 使用步骤如下: 第一步,控制器: 在任意controller里面重写方法

  7. 表空间常用sql汇总

    表空间碎片相关:select tablespace_name,       round(sqrt(max(blocks) / sum(blocks)) *             (100 / sqr ...

  8. PhoneGap API 之多媒体

    一. MediaApi 简单介绍 PhoneGap API Media 对象提供录制和回放设备上的音频文件的能力 参数: var media = new Media(src, mediaSuccess ...

  9. 汇编试验一:查看CPU和内存,用机器码指令和汇编指令编程

    预备知识: r命令查看,改变CPU寄存器的内容 2.D命令查看内存 3.E命令改写内存 两种方式: 1: 2: 内存中写入机器码 用T命令执行机器码(先将CS:IP指向要执行的内存处) 用a命令写汇编 ...

  10. 使用Timer组件_实现定时更改窗体颜色

    1 向窗体拖入Timer组件 2 更改其Enable属性为true 3 其interval属性为300 4 在Tick事件中写入随机变色代码 private void timer1_Tick(obje ...