在很多场景下,我们经常会遇到将某个Excel或Csv文件中的数据,插入到Postgresql。对于这个需求,我们常规的处理办法就是将文件中的数据,按照文件表头名称转换成集合对象然后插入到数据库,当然这对于数据体量不大的文件而言,很显眼没有任何问题,但是如果数据体量一旦上来,将面临如下问题:

  1. 将文件中的数据转换为集合对象,就有可能造成内存溢出;
  2. 就算内存没有溢出,那么这么大的数据,分批插入效率也能难满足需求;

针对上述问题,Postgresql提供了批量插入神器,官方文档对copy给出了如下解释,认为COPY命令针对加载大量行进行了优化;它不如INSERT灵活,但对于大数据负载的开销要小得多。

也就是COPY命令比较适合大量行数据的快速插入,但是灵活度上没有Insert方便,下面主要说明下COPY命令的用法。

COPY命令用法:
导入命令如下:
Copy table_name[(column_name…)] from 'filename' [ [WITH] (option [, ...]) ] [where condition]
导出命令如下
COPY { table_name [ ( column_name [, ...] ) ] | ( query ) } TO 'filename' [ [ WITH ] ( option [, ...] ) ] 其中table_name为数据库表名称,我们可以根据文件名称和文件列表头来创建一个合适的表数据。 column_name为列名称,也就是我们可指定将数据填充到指定的某些列,如果不指定,则默认将数据列从左至右依次填充到每一个列中。 FILE 文件名称,即就是文件的绝对路径。 WITH 后面的option有如下选项: FORMAT format_name 文件格式名称,主要有csv、txt、二进制文件 FREEZE [ boolean ] 不常用 DELIMITER 'delimiter_character' 分隔符,比如CSV默认分隔符逗号,txt默认是制表符,二进制文件中禁止使用此选项 NULL 'null_string' 指定表示空值的字符串。在文本格式中默认为\N,在CSV格式中默认为不加引号的空字符串 HEADER [ boolean ] 指定文件包含一个头行,其中包含文件中每个列的名称,一般用在csv文件中,值可以是true、on、1; QUOTE 'quote_character' 指定在引用数据值时使用的引号字符,默认是双引号。 ESCAPE 'escape_character' FORCE_QUOTE { ( column_name [, ...] ) | * } FORCE_NOT_NULL ( column_name [, ...] ) FORCE_NULL ( column_name [, ...] ) ENCODING 'encoding_name' 指定对文本的编码格式,默认是客户端编码格式,可通过show client_encoding查看客户端编码; WHERE condition 任何不满足此条件的行都不会被插入到表中。如果将实际行值替换为任何变量引用时该行返回true,则该行满足条件。

比如要将一个test.csv文件导入到数据库,首先根据CSV的表头信息创建数据库表test,字段包括gid、zipcode、telephone、name、address创建成功后,使用copy导入数据:

Copy test from ‘D:/test.csv’ with header DELIMITER ‘,’

注意:小编在使用导入命令时,发现windows操作系统下,文件路径中如果有中文,无法导入,系统会报could not open file  for reading: Invalid argument这个错误。

如果gid是自增字段,数据中只有后续的几个字段,则我们可以在插入时,增加列名称:

Copy test(zipcode,telephone,name,address) from ‘D:/test.csv’ with header true DELIMITER ‘,’

此时如果需要将test表中的数据导出,则使用如下命令:

Copy test to ‘D:/test_new.csv’  csv header  DELIMITER ‘,’  ENCODING 'UTF8';

对于导出数据中有中文的,特别说明下,如果我们导出的csv中的中文,试用excel查看是乱码的,但是试用其它文本编辑器(比如nodepad++)是好的,这时候只需要在文本编辑器中,将文件编码格式改为UTF-8-BOM就行,这应该是微软自己对文件编码格式的判断问题。

对于上面官方给出的说明文档,需要澄清以下几点:

官方文档的这个说明不知道是我理解错了,还是本身有问题,我按照它的说明使用不分参数,就会报错,比如:

Copy test to ‘D:/test_new.csv’ format csv header DELIMITER ‘,’  ENCODING 'UTF8';

意思是不需要加这个format的key,加上就会报语法错误;

再比如,官方文档指出header后面可以跟true,on,1表示开启,但实际加上就会报错,比如如果你写成下面的方式就会报语法错误:

Copy test to ‘D:/test_new.csv’ csv header true DELIMITER ‘,’  ENCODING 'UTF8';

因此只需要加上header,默认就是true,不加就是false。

而其它的key,比如DELIMITER,ENCODING就必须输入前面的key,所以不知道是自己哪里没理解还是本身这个就有问题,麻烦了解的朋友给说明下。

Postgresql 批量插入命令COPY使用的更多相关文章

  1. postgresql批量插入copy_from()的使用

    在批量插入postgresql时想使用同Mysql的语法时发现并不能使用: cursor.executemany("INSERT INTO persons VALUES (%d, %s, % ...

  2. 2017.9.15 postgresql批量插入造成冲突后执行更新

    参考来自:https://stackoverflow.com/questions/40647600/postgresql-multi-value-upserts/46233907#46233907 1 ...

  3. postgresql优化数据的批量插入

    原文:http://www.cnblogs.com/mchina/archive/2012/08/11/2537393.html 有以下几种方法用于优化数据的批量插入. 1. 关闭自动提交:      ...

  4. mysql命令行批量插入100条数据命令

    先介绍一个关键字的使用: delimiter 定好结束符为"$$",(定义的时候需要加上一个空格) 然后最后又定义为";", MYSQL的默认结束符为" ...

  5. 解决Oracle+Mybatis批量插入报错:SQL 命令未正确结束

    Mybatis批量插入需要foreach元素.foreach元素有以下主要属性: (1)item:集合中每一个元素进行迭代时的别名. (2)index:指定一个名字,用于表示在迭代过程中,每次迭代到的 ...

  6. MyBatis操作Oracle批量插入 ORA-00933: SQL 命令未正确结束

    最近在使用MyBatis操作Oracle数据库的时候,进行批量插入数据,思路是封装一个List集合通过Myabtis 的foreach标签进行循环插入,可是搬照Mysql的批量插入会产生 异常 ### ...

  7. 聊聊编程开发的数据库批量插入(sql)

    这里的批量插入,主要是支持SQL的大型存储数据库,本文以Mysql,Oracle,SqlServer,postgresql4类来说明,这大概是国内应用比较多的了.其余的应该可以按照这些去找.提到编程的 ...

  8. FreeSql (六)批量插入数据

    var connstr = "Data Source=127.0.0.1;Port=3306;User ID=root;Password=root;" + "Initia ...

  9. MyBatis魔法堂:Insert操作详解(返回主键、批量插入)

    一.前言    数据库操作怎能少了INSERT操作呢?下面记录MyBatis关于INSERT操作的笔记,以便日后查阅. 二. insert元素 属性详解   其属性如下: parameterType  ...

  10. Entity Framework与ADO.NET批量插入数据性能测试

    Entity Framework是.NET平台下的一种简单易用的ORM框架,它既便于Domain Model和持久层的OO设计,也提高了代码的可维护性.但在使用中发现,有几类业务场景是EF不太擅长的, ...

随机推荐

  1. Mysql- DDL/DML/DQL/DCL 数据库基本操作语句(持续更新中)

    Mysql基本语法 前言: 在测试项目中经常需要使用到简单的Mysql语句,但是不知道语句结构是什么,经常在百度查来查去: 以下就是总结Mysql常用的基础操作语句: 只需要执行从创建开始执行示例中的 ...

  2. union()并集intersection()交集difference()差集

    union并集,即:合并 intersection()交集 difference()差集 qs1=Course.objects.filter(price__get=240) qs2=Course.ob ...

  3. 40% building 31/38 modules 7 active ...es\core-js\modules\es6.object.assign.jsBrowserslist: caniuse-lite is outdated.

    一早运行项目发现不正常 虽然能运行,但是怎么看都不顺眼啊,那就照着提示先: npm update 一连串下来啥也看不懂是不是 我就直接npm install看看重新下载一下依赖结果直接给我来了个 :c ...

  4. 「P4」试下1个半月能不能水出个毕设

    期间的一些感想 对于这个时间的把控,前一个月实际上我什么都没做,现在都堆在最后的半个月了 在做毕业设计的阶段,我总结了一个教训,就是:「慢就是快」,我想这句话可能对我以后的学习都会有比较大的影响.我是 ...

  5. Hackathon 代码黑客马拉松采访复盘

    AIGC Hackathon 2023 北京站 我参加了选手采访提纲,这里我感觉有些点可以分享给大家.之前复盘的链接: 下面是采访我的回答内容: 1. 请向大家简单介绍一下自己吧? 子木,社区名称为程 ...

  6. ggplot2 调整绘图区域大小

    熟悉 R 绘图的朋友肯定知道,在普通绘图中,图片的大小可以直接在 png() 和 pdf() 中指定,而绘图区大小则可以用 par() 中的 mar 或 mai 来指定.但是在 ggplot2 中,图 ...

  7. 使用脚本收发 protobuf 协议数据

    问题背景 最近做了一个 ipv6 相关的功能,发现使用 getifaddrs 获取的本地 ipv6 地址有可能不是真实的网络 ipv6 地址: 例如上图中通过 getifaddrs 获得了多个本地 i ...

  8. P1585 魔法阵 题解

    题意: 题目传送门 可以看做一个人手中有一些宝石,并将宝石分成两组,一组的编号为 1 至 n×m/2,二组为 n×m/2+1 至 n×m+1.当两组两个宝石编号相差为 n×m/2 为一对.现在要遍历一 ...

  9. 爆肝万字带你超级详细全面了解Linux命令大全

    前言 作者主页:CSDN丨博客园 学习交流:在下周周ovoの社区 对这篇万字博客目录总结如下: 关机命令.重启命令,创建用户.删除用户.修改密码.切换用户.切换到超级用户.禁用/解锁用户账户.修改信息 ...

  10. [QML]事无巨细开始实践QML开发(一)什么是QML,为什么学习QML,先写一个简单的页面

    [QML]从零开始QML开发(一)什么是QML,为什么学习QML,先写一个简单的页面 QML开发和QWidget开发的区别 QML(Qt Meta-Object Language)是Qt提供的一种声明 ...