PostgreSQL快速导入千万条数据

2025-10-16 15:46:29 原文

目录

一、测试环境
二、修改源数据为COPY可用的格式
三、DDL
四、COPY
五、结论

为了与MySQL做个对比，做一个PG的数据导入测试，使用COPY方式，测试环境保持一致，具体如下所述。

一、测试环境

■ 48CPU/376G

CPU(s):                48

Thread(s) per core:    2

Core(s) per socket:    12

Socket(s):             2

Model name:            Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz

L1d cache:             32K

L1i cache:             32K

L2 cache:              1024K

L3 cache:              16896K

■ DISK

Model: AVAGO HW-SAS3508 (scsi)

Disk /dev/sdb: 12.0TB

test write：1.1GB/s

test read： 3.9GB/s

■ OS

Red Hat Enterprise Linux Server 7.4 (Maipo)

■ FS

Filesystem                  Type      Size  Used Avail Use% Mounted on

/dev/mapper/vgora-lv_u01    xfs        11T  792G   11T   8% /u01

■ db version

[postgres@adg1:2 ~]$ psql -V

psql (PostgreSQL) 14.2

[postgres@adg1:2 ~]$ pg_ctl -V

pg_ctl (PostgreSQL) 14.2

二、修改源数据为COPY可用的格式

源数据：与MySQL测试保持一致

格式：MySQL导出的DOS文本文件格式(\n\r)，修改为unix文本文件格式(\n)

【此处使用csv格式】

使用head、awk、sed工具取出所需的记录行，并修改各行数据格式。

由于源数据存在'，导致无法正确导入，需把'替换成"或其他字符。

sed -i "s/\\\'/\"/g" mydata.sql

三、DDL

■ 根据最原始的源数据，调整DDL语句

CREATE TABLE tablename (

  id int4 NOT NULL,

  code varchar(100) DEFAULT NULL,

  init_value text,

  master_id text DEFAULT NULL,

  code_id varchar(11) DEFAULT NULL,

  end_value text

);

ALTER TABLE tablename ADD PRIMARY KEY (id);

CREATE INDEX tablename_master_id ON tablename USING btree (master_id);

CREATE INDEX tablename_code ON tablename USING btree (code);

四、COPY

COPY tablename FROM '/u01/pg/mydata.sql' WITH DELIMITER ',' CSV QUOTE '''';

耗时记录如下：

■ 100万

COPY 1000000

Time: 8938.071 ms (00:08.938)

■ 500万

COPY 4999966

Time: 70209.830 ms (01:10.210)

COPY 5000000

Time: 56365.434 ms (00:56.365)

COPY 5000000

Time: 65061.424 ms (01:05.061)

■ 2000万

COPY 19999961

Time: 257502.571 ms (04:17.503)

COPY 19999962

Time: 252777.564 ms (04:12.778)

COPY 20000000

Time: 250620.213 ms (04:10.620)

COPY 10578983

Time: 138167.048 ms (02:18.167)

■ 3000万

COPY 30578975

Time: 397111.329 ms (06:37.111)

COPY 30578983

Time: 391768.993 ms (06:31.769)

COPY 30578983

Time: 388049.729 ms (06:28.050)

五、结论

pg用LOAD方法的大数据量导入，千万条数据需要1分钟以上。

关于pg的数据导入，后续再探讨一下其他更好的方式。

PostgreSQL快速导入千万条数据的更多相关文章

orcle 如何快速插入百万千万条数据
有时候做实验测试数据用到大量数据时可以用以下方法插入: 方法一:使用xmltable create table bqh8 as select rownum as id from xmltable('1 ...
java之5分钟插入千万条数据
虽说不一定5分钟就插入完毕,因为取决去所插入的字段,如果字段过多会稍微慢点,但不至于太慢.10分钟内基本能看到结果. 之前我尝试用多线程来实现数据插入(百万条数据),半个多小时才二十多万条数据. 线程 ...
腾讯面试题,js处理1千万条数据排序并且页面不卡顿
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
mysql自定义函数并在存储过程中调用，生成一千万条数据
mysql 自定义函数,生成 n 个字符长度的随机字符串 -- sql function delimiter $$ create function rand_str(n int) returns VA ...
快速生成100W条数据
快速生成100W条数据,生成的时候是顺序生成,取的时候是随机取用,生成100W条数据大概一分多钟,比网上其他代码速度要快很多 )) --truncate table tb --select top 1 ...
LOAD DATA INFILE读取CSV中一千万条数据至mysql
作业要求构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...
[MyBatis]五分钟向MySql数据库插入一千万条数据批量插入用时5分左右
本例代码下载:https://files.cnblogs.com/files/xiandedanteng/InsertMillionComparison20191012.rar 我的数据库环境是mys ...
Postgresql快速写入/读取大量数据（.net）
环境及测试使用.net驱动npgsql连接post数据库.配置:win10 x64, i5-4590, 16G DDR3, SSD 850EVO. postgresql 9.6.3,数据库与数据都安 ...
快速导入导出Oracle数据demo(sqlldr、UTL_FILE)
本文演示快速sqlldr导入.UTL_FILE导出Oracle表数据实例表结构如下,演示数据约112万,可自行准备. create table MemberPointDemo ( MEMBERID ...
python+mysql:实现一千万条数据插入数据库
作业要求构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...

随机推荐

CF1817E Half-sum
题意有一个大小为 \(N\) 的非负整数集合 \(A\),每次你可以从集合中取任意两个数,并将它们的平均数放回序列.不停操作,知道集合最后剩下两个数.请求出这两个数的差的绝对值的最大值对 \(10^ ...
Prometheus-2：blackbox_exporter黑盒监控
黑盒监控blackbox_exporter 前边介绍有很多exporter可以直接将metrics暴露给Prometheus进行监控,这些称为"白盒监控",那些exporter无法 ...
Python数据分析易错知识点归纳（二）：Numpy
二.numpy 不带括号的基本属性 arr.dtype arr.shape # 返回元组 arr.size arr.ndim # 维度 arr.reshape/arr.resize/np.resize ...
linux基础命令及常用命令总结
1.ls命令 ls命令是最基础的命令之一,作用是列出当前目录下所有的文件和目录.ls命令有很多选项可以使用,比较常用的是-l选项,可以以详细信息的形式列出所有文件和目录的信息. 示例:列出当前目录下的 ...
[python]使用diagrams绘制架构图
简介 diagrams是python的一个第三方库,用于实现使用代码绘制架构图. 安装依赖于 Graphviz,安装diagrams之前需要先安装 Graphviz(下载压缩包后,将bin目录添加到 ...
用户空间协议栈设计和netmap综合指南
本文分享自华为云社区<用户空间协议栈设计和netmap综合指南,将网络效率提升到新高度>,作者:Lion Long . 协议概念 1.1.七层网络模型和五层网络模型应用层: 最接近用户的 ...
Unity UGUI的Image（图片）组件的介绍及使用
UGUI的Image(图片)组件的介绍及使用 1. 什么是UGUI的Image(图片)组件? UGUI的Image(图片)组件是Unity引擎中的一种UI组件,用于显示2D图像.它提供了一种简单而灵活 ...
如何基于 Kubernetes 实现优质开发者平台体验？
内部开发者平台(或 IDP)是使开发团队能够更快.更轻松.更一致地交付应用程序的基础设施.Kubernetes 本身是一个功能强大的平台,但它引入了太多复杂性和功能,因此不能简单地将其作为 IDP 交 ...
使用阿里云ECS和RDS搭建个人博客
一.ECS实例配置 1.重置云服务器ECS密码前往ECS控制台,点击实例,找到刚才开通的ECS实例(找不到的话就看一下上方的地区是否是你的服务器的地域),点击右侧操作栏中的三个点,找到重置实例密码, ...
Vue【原创】基于elementui的【分组多选下拉框group-select】
效果图: 如图分为多选模式和单选模式. group-select: 1 <template> 2 <div> 3 <el-select 4 v-model="i ...