pg_bulkload使用记录

很久之前就使用过pg_bulkload来导入数据了，并做了对比试验，现在另一个项目又需要用了，这里做个记录：

1.rpm包比较老，下下来之后发现只支持到pg94，目前我用的是pg10，因此放弃。

2.下载源码安装：

git clone https://github.com/ossc-db/pg_bulkload.git

cd pg_bulkload

make && make install

--这里他会读取pg_config来获取pg的环境变量。

3.在要使用的数据库中执行：

create extension pg_bulkload;

4.导入csv文件：

pg_bulkload -i c_xxx.csv -O c_xxx -l c_xxx_load.log -d xxx -o "TYPE=CSV" -o "WRITER=PARALLEL"

5.导入压缩文件：

zcat c_xxx.gz |pg_bulkload -i stdin -O c_xxx -l c_xxx_load.log -d xxx -o "TYPE=CSV" -o "WRITER=PARALLEL"

6.关于-o的选项在help中没有，我们可以通过导入的log来看有哪些参数可以配置：

pg_bulkload 3.1.14 on 2018-09-28 11:31:12.641693+08

INPUT = stdin

PARSE_BADFILE = /var/lib/pgsql/pg10/data/pg_bulkload/20180928113112_sgdw_public_c_xxx.prs

LOGFILE = /var/lib/pgsql/sgdw/data/c_xxx_load.log

LIMIT = INFINITE

PARSE_ERRORS = 0

ENCODING = UTF8

CHECK_CONSTRAINTS = NO

TYPE = CSV

SKIP = 0

DELIMITER = ,

QUOTE = "\""

ESCAPE = "\""

NULL =

OUTPUT = public.c_xxx

MULTI_PROCESS = YES

VERBOSE = NO

WRITER = DIRECT

DUPLICATE_BADFILE = /var/lib/pgsql/pg10/data/pg_bulkload/20180928113112_sgdw_public_c_xxx.dup.csv

DUPLICATE_ERRORS = 0

ON_DUPLICATE_KEEP = NEW

TRUNCATE = YES

  0 Rows skipped.

  29423400 Rows successfully loaded.

  0 Rows not loaded due to parse errors.

  0 Rows not loaded due to duplicate errors.

  0 Rows replaced with new rows.

Run began on 2018-09-28 11:31:12.641693+08

Run ended on 2018-09-28 11:39:48.835205+08

CPU 2.63s/399.05u sec elapsed 516.19 sec

理论上黑体的都是可以配置的，比如配置为verbose为yes，那就在后面加一个-o "verbose=yes"

另外：默认逗号分隔，双引号将值括起来，默认直接写。如果忘记了，就导一个默认的，看看log就知道了。

附一个批量的脚本：

 -bash-4.1$ cat load.sh

 #!/bin/sh

 #$ data fil ename

 file=$

 if [ ! -f $file  ]

 then

     echo "File is not exist"

     exit

 fi

 echo "-----------------------------------------------------------------"

 tbname=$( echo $file |cut -d . -f1 )

 echo "Table name is : "$tbname

 zcat $file|pg_bulkload -i stdin -O public.$tbname -l $tbname.log -o "TYPE=CSV" -o "WRITER=PARALLEL" -d sgdw

 echo "load complete"

 echo "-----------------------------------------------------------------"

pg_bulkload使用记录的更多相关文章

记一次debug记录：Uncaught SyntaxError: Unexpected token ILLEGAL
在使用FIS3搭建项目的时候,遇到了一些问题,这里记录下. 这里是发布搭建代码: // 代码发布时 fis.media('qa') .match('*.{js,css,png}', { useHash ...
nginx配置反向代理或跳转出现400问题处理记录
午休完上班后,同事说测试站点访问接口出现400 Bad Request Request Header Or Cookie Too Large提示,心想还好是测试服务器出现问题,影响不大,不过也赶紧上 ...
Kali对wifi的破解记录
好记性不如烂笔头,记录一下. 我是在淘宝买的拓实N87,Kali可以识别,还行. 操作系统:Kali 开始吧. 查看一下网卡的接口.命令如下 airmon-ng 可以看出接口名称是wlan0mon. ...
2015 西雅图微软总部MVP峰会记录
2015 西雅图微软总部MVP峰会记录今年决定参加微软MVP全球峰会,在出发之前本人就已经写这篇博客,希望将本次会议原汁原味奉献给大家因为这次是本人第一次写会议记录,写得不好的地方希望各位园友见谅 ...
分享一个SQLSERVER脚本（计算数据库中各个表的数据量和每行记录所占用空间）
分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间) 很多时候我们都需要计算数据库中各个表的数据量和每行记录所占用空间这里共享一个脚本 CREATE TABLE #tab ...
我是如何在SQLServer中处理每天四亿三千万记录的
首先声明,我只是个程序员,不是专业的DBA,以下这篇文章是从一个问题的解决过程去写的,而不是一开始就给大家一个正确的结果,如果文中有不对的地方,请各位数据库大牛给予指正,以便我能够更好的处理此次业务. ...
前端学HTTP之日志记录
前面的话几乎所有的服务器和代理都会记录下它们所处理的HTTP事务摘要.这么做出于一系列的原因:跟踪使用情况.安全性.计费.错误检测等等.本文将谥介绍日志记录记录内容大多数情况下,日志的记录出于两 ...
ASP.NET Core应用中如何记录和查看日志
日志记录不仅对于我们开发的应用,还是对于ASP.NET Core框架功能都是一项非常重要的功能特性.我们知道ASP.NET Core使用的是一个极具扩展性的日志系统,该系统由Logger.Logger ...
python+uwsgi导致redis无法长链接引起性能下降问题记录
今天在部署python代码到预生产环境时,web站老是出现redis链接未初始化,无法连接到服务的提示,比对了一下开发环境与测试环境代码,完全一致,然后就是查看各种日志,排查了半天也没有查明是什么原因 ...

随机推荐

Python3.x：报错POST data should be bytes, an iterable of bytes
Python3.x:报错POST data should be bytes, an iterable of bytes 问题: python3.x:报错 POST data should be byt ...
关于MVC 中EF调用存储过程
Entity Framework 4.3 中使用存储过程分类:ASP.NET MVC 3, ASP.NET 0 尽管 Entit ...
saltstack之keepalived的安装配置
使用saltstack编译安装keepalived: 创建相应的目录,并在目录下创建相应的sls配置文件 [root@node1 ~]# mkdir /srv/salt/prod/keepalived ...
20145327 《Java程序设计》第四周学习总结
20145327 <Java程序设计>第四周学习总结教材学习内容总结继承也符合DRY原则. Java中只有单一继承,也就是只能有一个父类继承可以复用代码,更大的用处是实现「多态」:封 ...
20145333 《Java程序设计》第7周学习总结
20145333 <Java程序设计>第7周学习总结教材学习内容总结时间的度量 1.格林威治标准时间(GMT):常被不严谨地当成是UTC时间,现已不作为标准时间使用. 2.世界时(UT ...
HDFS并行复制Distcp
1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具. 2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入.每一个文件是由一个M任务来拷贝 ...
转载：poj题目分类（侵删）
转载:from: POJ:http://blog.csdn.net/qq_28236309/article/details/47818407 按照ac的代码长度分类(主要参考最短代码和自己写的代码) ...
select * from table_name where 1=1的
我们先来看看这个语句的结果:select * from table where 1=1,其中where 1=1,由于1=1永远是成立的,返回TRUE,条件为真:所以,这条语句,就相当于select * ...
centos7安装ambari教程
ambari版本 :2.4.2 (不过各版本安装过程没啥差异) 目录: 为什么要用Ambari 概念概述版本信息原理简介安装创建集群创建集群手动修改配置 NameNode HA 安装Sma ...
Codeforces Round #357 (Div. 2) 优先队列+模拟
C. Heap Operations time limit per test 1 second memory limit per test 256 megabytes input standard i ...

pg_bulkload使用记录

pg_bulkload使用记录的更多相关文章

随机推荐

热门专题