数据抽取平台pydatax使用案例---11个库项目使用

数据抽取平台pydatax，前期项目做过介绍：

项目2：客户有9个分公司，用的ERP有9套，有9个库，不同版本，抽取的同一个表字段长度有不一样，字段可能有多有少，客户ERP核心分公司ERP几个月后有大版本升级。

在2023年12月，当时做这个抽取时，客户只是做一个分公司的，抽取9套其中的一套ERP的Oracle库，当时考虑是否把这9个库的都抽取了，免得后面客户要做，浪费时间再做一遍，太麻烦，问了项目负责人也没说是要把这9个库都抽取过来，没说要做! 到底怎么处理？

想想早晚要做，还是先都抽取了，把他的8家公司的Oracle数据库都抽取过来，各个公司的数据，9张表合并成1张，在表加租户id字段区分：tenant_id 确定是那个公司的，把这个大数据抽取，数据指标计算完成。

到了2024年7月份，客户突然说后续指标计算暂停，要把其他的子公司的数据和计算也加进去，这半年又新参股合并了3家公司，原先有一家去掉。一共要新加7+3=10家公司，为支持该业务需要，pydatax的修改过程如下：

1，JSON抽取模板修改

oracle_gp_table_df_job.json文件加上新加的3个分公司，再原有的json去掉一家公司：

{

"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'wflsy' as tenant_id,${src_table_columns_wflsy} from wflsy.${src_table_name} ${relation} where ${condition}" ],

"jdbcUrl": [ "jdbc:oracle:thin:@10.0.1.206:1521:erp"]

},

{

"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'ky' as tenant_id, ${src_table_columns_ky} from ky.${src_table_name} ${relation} where ${condition}" ],

"jdbcUrl": [ "jdbc:oracle:thin:@10.0.1.206:1521:erp"]

},

{

"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'wfjy' as tenant_id, ${src_table_columns_wfjy} from wfjy.${src_table_name} ${relation} where ${condition}" ],

 "jdbcUrl": [ "jdbc:oracle:thin:@10.0.1.206:1521:erp"]

},

2，Python程序修改

以上加上后，同时要在pydatax.py和vprepair.py的脚本上加上3个变量，传递给datax的json模板，这样每天抽取任务的全量和增量3家新公司数据生效。

src_table_columns_wflsy=get_org_src_columns(src_table_columns,"WFLSY",src_table_name)    
src_table_columns_ky=get_org_src_columns(src_table_columns,"KY",src_table_name)    
src_table_columns_wfjy=get_org_src_columns(src_table_columns,"WFJY",src_table_name)


" -Dsrc_table_columns_std='" + src_table_columns_std + "' " \

" -Dsrc_table_columns_ky='" + src_table_columns_ky + "' " \

" -Dsrc_table_columns_wflsy='" + src_table_columns_wflsy + "' " \

" -Dsrc_table_columns_wfjy='" + src_table_columns_wfjy + "' " \

" -Ddes_table_columns='"+des_table_columns+"' \" "

这样整个每天11家公司的表全量数据和表增量数据就正常的，全量同步的表数据是每天全量，不用处理，但增量表历史数据怎么抽取过来？

3，增量表历史数据处理

1，将1中的3个Json单独编写成1个json模板，模板的"preSql"中的“truncate table 表“ 数据不再使用。

2，新模板json文件放到对应文件夹下，写一条数据到datax_json中

3，是增量的历史表datax_config的数据copy一份到datax_config_repair中，并将json_id和2中的一致，只按2的新模板抽取数据

4，执行vprepair.py后，数据同步到临时表stg表，再执行select sp_stg();

4, 特殊表处理

商品表，有家公司的商品表，同一个商品有多个，直接抽取商品表，会在该公司有多条数据，客户做了个视图过滤成1条，说抽取这个视图数据就可以，但pydatax的11个库的表名要必须一致，怎么处理？

想想也可以实现，就是对这个商品表单独配置一个抽取JSON模板，如下：dbo.base_${src_table_name} ，当然也可以把这个表名写死，也可以使用。在datax_config表的json_id配置成新的模板，就可以实现单独表的特殊处理。

"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'zb' as tenant_id,${src_table_columns} from dbo.base_${src_table_name} ${relation} where ${condition}" ],

 "jdbcUrl": [ "jdbc:oracle:thin:@192.168.0.17:1521/erpdg"]

},

修改的文件放在压缩包的”11库抽取”文件夹下：

pydatax源码下载地址：

1，https://files.cnblogs.com/files/zping/pydatax.rar

总结：

1，pydatax的灵活性在此项目得到很好的验证

2，其简单的修改就可以快速满足客户的需求