KETTLE元数据表】的更多相关文章

表名 说明 R_CLUSTER R_CLUSTER_SLAVE R_CONDITION R_DATABASE 数据库连接信息 R_DATABASE_ATTRIBUTE 数据库属性 R_DATABASE_CONTYPE 连接类型:Native (JDBC) JDBC等 R_DATABASE_TYPE 数据库类型,oracle mysql等 R_DEPENDENCY R_DIRECTORY 资源库目录 R_ELEMENT R_ELEMENT_ATTRIBUTE R_ELEMENT_TYPE R_JO…
在上一篇文章<PowerDesigner建模应用(一)逆向工程,配置数据源并导出PDM文件>步骤二中导出了目标数据库对应的PDM文件, 该文件中展示出了所有表的信息与关系. 某些业务场景下只需要导出部分的表(或者视图.存储过程等)信息与关系,PowerDesigner提供了过滤元数据的功能. 1.点击下图红色框内的[Customize Columns and Filter]自定义列于过滤按钮 2.在[Operator]列的下拉框中列出了多种运算符 (1)本次为了过滤部分表,所以选择[In Li…
kettle的表输出: 双击后,看设置, 1,在connecttion后面,点击new里新建一个.设定各个选项值,如选择mysql类型,则配置hostname,database name,端口, 用户名,密码,一般java里用jdbc连接. 2,然后,可以设定是否truncate table.注意,输出是将内容全部作为新增插入,与原表内容没关系,相同内容执行两次,就会有重复内容.原表内容不动,要么全部保留,要么全部删除. 3,最后 在database fields标签页,获得表中对应字段,同时e…
重点: ETL 优化多数在于表输入和表输出. 转自: https://blog.csdn.net/qq_37124304 https://blog.csdn.net/qq_37124304/article/details/82664665 由于Kettle提高表输出写入速度太低,每秒速度三四十,实在忍受不了,参考一些资料之后进行了以下改变,我只进行了第一项的速度每秒五六千,加上其他的测试速度有达到3万多,有一分钟二十多万的记录,没测试极限,下为更改的地方: NO.1 mysql表输出的时候出现减…
在上一篇文章<PowerDesigner应用01 逆向工程之配置数据源并导出PDM文件>步骤二中导出了目标数据库对应的PDM文件, 该文件中展示出了所有表的信息与关系. 某些业务场景下只需要导出部分的表(或者视图.存储过程等)信息与关系,PowerDesigner提供了过滤元数据的功能. 1.点击下图红色框内的[Customize Columns and Filter]自定义列于过滤按钮 2.在[Operator]列的下拉框中列出了多种运算符 (1)本次为了过滤部分表,所以选择[In List…
Hive--元数据表含义 1.VERSION   -- 查询版本信息   Field Type Comment   VER_ID bigint(20) ID主键   SCHEMA_VERSION varchar(127) Hive版本   VERSION_COMMENT varchar(255) 版本说明 2.DBS -- 存储Hive中所有数据库的基本信息   Field Type Comment   DB_ID bigint(20) 数据库ID   DESC varchar(4000) 数据…
内容来自<Spring Batch 批处理框架>,作者:刘相. 一.spring batch 框架进行元数据管理共有六张表,三张SEQUENCE用来分配主键的,九张表分别是: BATCH_JOB_INSTANCE BATCH_JOB_EXECUTION BATCH_JOB_EXECUTION_PARAMS BATCH_STEP_EXECUTION BATCH_STEP_EXECUTION_CONTEXT BATCH_JOB_EXECUTION_CONTEXT BATCH_STEP_EXECUT…
在实际工作中,我们有可能遇见只更新不插入的情况,可以由以下2种方式去实现: 1.更新控件 如下图所示,根据id字段,更新name和cjsj时间字段 该控件不足的地方是,用来查询关键值得字段不够灵活,一些在sql里面where条件后的decode,nvl,to_date等字段均无法写在用来查询值的关键字上,但是速度较快 2.sql输入 如下图所示,根据id字段,更新name和cjsj时间字段 该控件比较灵活,一些在sql里面where条件后的decode,nvl,to_date等字段均无法写在用来…
背景: 接到上级指示,要从外网某库把数据全部导入到内网,数据每天更新一次即可,大约几百万条数据,两个库结构一样,mysql的,两台数据库所在服务器都是windows server的,写个java接口实现下吧,给了一个外网数据库信息,好了,给你3天时间,开始搞吧. 分析: 用java接口写逻辑?不好意思,基本没思路,大神就不要喷我了.前公司的数据中台的数据都是通过kettle定时抽取的,虽然暂时我还不知道是个什么鬼,但总比me思路强,于是果断舍弃java接口,全面百度kettle,为了工作啊--…
1 创建表 hive命令行操作 CREATE TABLE IF NOT EXISTS emp( name STRING, salary FLOAT, subordinates ARRAY<STRING>, deductions MAP<STRING,FLOAT>, address STRUCT<street:STRING,city:STRING,province:STRING,zip:INT> ) PARTITIONED BY (province STRING,city…