1.数据集下载

TPC-H数据集: https://github.com/gregrahn/tpch-kit

2.解压安装

unzip  tpch-kit-master.zip

cd tpch-kit-master/dbgen/

make  -f  Makefile

通过上面命令,生成两个文件,分别是dbgen、qgen。分别用于产生数据和查询。

3.生成数据

##进入dbgen目录

cd tpch-kit-master/dbgen/

##生成8个tbl文件,生成以后修改八个文件的可执行权限,将这八个tbl文件放入创建好的文件目录tbl下(注意1表示1G数据量,0.1表示100M数据量)。

./dbgen  -s 1 -fchmod 777 tbl/*.tbl

或者单独生成每个表的数据(生成数据文件目前只能在dbgen目录中)

./dbgen -vf -s 0.01 -T r | tee -a region.tbl

./dbgen -vf -s 0.01 -T n | tee -a nation.tbl

./dbgen -vf -s 0.01 -T c | tee -a customer.tbl

./dbgen -vf -s 0.01 -T L | tee -a lineitem.tbl

./dbgen -vf -s 0.01 -T O | tee -a orders.tbl

./dbgen -vf -s 0.01 -T P | tee -a part.tbl

./dbgen -vf -s 0.01 -T S | tee -a partsupp.tbl

./dbgen -vf -s 0.01 -T s | tee -a supplier.tbl

##将生成的数据转移到/data/tpchdata

mv *.tbl  /data/tpchdata  ;

4.创建数据库和表

su - postgres

##连接数据库
psql  -h  192.168.80.131  -U postgres

##创建数据

create  database  tpch

##进入数据库

\c  tpch

##创建表 (建表语句在dbgen下面的dss.ddl)

CREATE TABLE NATION  (

N_NATIONKEY  INTEGER NOT NULL,

N_NAME       CHAR(25) NOT NULL,

N_REGIONKEY  INTEGER NOT NULL,

N_COMMENT    VARCHAR(152));

CREATE TABLE REGION  (

R_REGIONKEY  INTEGER NOT NULL,

R_NAME       CHAR(25) NOT NULL,

R_COMMENT    VARCHAR(152));

CREATE TABLE PART  (

P_PARTKEY     INTEGER NOT NULL,

P_NAME        VARCHAR(55) NOT NULL,

P_MFGR        CHAR(25) NOT NULL,

P_BRAND       CHAR(10) NOT NULL,

P_TYPE        VARCHAR(25) NOT NULL,

P_SIZE        INTEGER NOT NULL,

P_CONTAINER   CHAR(10) NOT NULL,

P_RETAILPRICE DECIMAL(15,2) NOT NULL,

P_COMMENT     VARCHAR(23) NOT NULL );

CREATE TABLE SUPPLIER (

S_SUPPKEY     INTEGER NOT NULL,

S_NAME        CHAR(25) NOT NULL,

S_ADDRESS     VARCHAR(40) NOT NULL,

S_NATIONKEY   INTEGER NOT NULL,

S_PHONE       CHAR(15) NOT NULL,

S_ACCTBAL     DECIMAL(15,2) NOT NULL,

S_COMMENT     VARCHAR(101) NOT NULL);

CREATE TABLE PARTSUPP (

PS_PARTKEY     INTEGER NOT NULL,

PS_SUPPKEY     INTEGER NOT NULL,

PS_AVAILQTY    INTEGER NOT NULL,

PS_SUPPLYCOST  DECIMAL(15,2)  NOT NULL,

PS_COMMENT     VARCHAR(199) NOT NULL );

CREATE TABLE CUSTOMER (

C_CUSTKEY     INTEGER NOT NULL,

C_NAME        VARCHAR(25) NOT NULL,

C_ADDRESS     VARCHAR(40) NOT NULL,

C_NATIONKEY   INTEGER NOT NULL,

C_PHONE       CHAR(15) NOT NULL,

C_ACCTBAL     DECIMAL(15,2)   NOT NULL,

C_MKTSEGMENT  CHAR(10) NOT NULL,

C_COMMENT     VARCHAR(117) NOT NULL);

CREATE TABLE ORDERS  (

O_ORDERKEY       INTEGER NOT NULL,

O_CUSTKEY        INTEGER NOT NULL,

O_ORDERSTATUS    CHAR(1) NOT NULL,

O_TOTALPRICE     DECIMAL(15,2) NOT NULL,

O_ORDERDATE      DATE NOT NULL,

O_ORDERPRIORITY  CHAR(15) NOT NULL,

O_CLERK          CHAR(15) NOT NULL,

O_SHIPPRIORITY   INTEGER NOT NULL,

O_COMMENT        VARCHAR(79) NOT NULL);

CREATE TABLE LINEITEM (

L_ORDERKEY    INTEGER NOT NULL,

L_PARTKEY     INTEGER NOT NULL,

L_SUPPKEY     INTEGER NOT NULL,

L_LINENUMBER  INTEGER NOT NULL,

L_QUANTITY    DECIMAL(15,2) NOT NULL,

L_EXTENDEDPRICE  DECIMAL(15,2) NOT NULL,

L_DISCOUNT    DECIMAL(15,2) NOT NULL,

L_TAX         DECIMAL(15,2) NOT NULL,

L_RETURNFLAG  CHAR(1) NOT NULL,

L_LINESTATUS  CHAR(1) NOT NULL,

L_SHIPDATE    DATE NOT NULL,

L_COMMITDATE  DATE NOT NULL,

L_RECEIPTDATE DATE NOT NULL,

L_SHIPINSTRUCT CHAR(25) NOT NULL,

L_SHIPMODE     CHAR(10) NOT NULL,

L_COMMENT      VARCHAR(44) NOT NULL);

5.导入数据

COPY region FROM '/data/tpchdata/region.tbl' DELIMITER '|' CSV HEADER;

COPY nation FROM '/data/tpchdata/nation.tbl' DELIMITER '|' CSV HEADER;

COPY customer FROM '/data/tpchdata/customer.tbl' DELIMITER '|' CSV HEADER;

COPY lineitem FROM '/data/tpchdata/lineitem.tbl' DELIMITER '|' CSV HEADER;

COPY orders FROM '/data/tpchdata/orders.tbl' DELIMITER '|' CSV HEADER;

COPY part FROM '/data/tpchdata/part.tbl' DELIMITER '|' CSV HEADER;

COPY partsupp FROM '/data/tpchdata/partsupp.tbl' DELIMITER '|' CSV HEADER;

COPY supplier FROM '/data/tpchdata/supplier.tbl' DELIMITER '|' CSV HEADER;

TPCH-PostgreSQL生成数据集并导入数据表的更多相关文章

  1. sqlloader导出数据和导入数据

    分类: Oracle 忙了一天终于把sqlloader导出数据和导入数据弄清楚了,累死俺了... 这个总结主要分为三个大部分,第一部分(实例,主要分两步),第二部分(参数小总结),第三部分(完全参数总 ...

  2. oracle中使用impdp数据泵导入数据提示“ORA-31684:对象类型已经存在”错误的解决

    转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/47448751 本文出自[我是干勾鱼的博客] oracle中使用impdp数据泵导 ...

  3. 问题分析探讨 --> 大约有700W数据的表,把当天的10W数据select导入新表,整个原来的表就锁死

    Sun shine  16:15:55 帅哥  我有个手机表 大约有700百数据,,每天新增 大约五万,并且新也有update 大约10万  然后 我每晚 把当天的数据select 导入一个新表中的时 ...

  4. Hive创建表|数据的导入|数据导出的几种方式

    * Hive创建表的三种方式 1.使用create命令创建一个新表 例如:create table if not exists db_web_data.track_log(字段) partitione ...

  5. oracle 导出数据和导入数据

    导出数据 exp zl_gj/zlkj@gqxt  grants=y tables=(zl_gj.ckgj,zl_gj.gjlx,zl_gj.rkgj) file=c:\gj.dmp log=c:\g ...

  6. SQL Server 2008 导出数据与导入数据任务介绍

    一. 实例数据库介绍 源数据库Test_Other_DB:存在tb_Class,tb_Student,tb_TestTable三张表. 目标数据库TestDB_Output:空库,不含任何表. 二. ...

  7. 将Excel中的数据批量导入数据库表

    private boolean import_to_database(String excel_path) throws BiffException, IOException, HsException ...

  8. oracle数据库cmd导出数据和导入数据

    一:前言 每次我自己来导出oracle数据的数据进行备份的时候都是要看一遍记载的语句,还别说自己敲多了,也熟练了,但是还是不是很放心,所以就记载下来吧. 二:内容 (1).最简单,最直接的导入方式(这 ...

  9. layui数据表格导入数据

    作为一个后端程序员,前端做的确实很丑,所以就学习了一下layui框架的使用.数据表格主要的问题就是传输数据的问题,这里我用我的前后端代码来做一个实际的分解. 前端部分 可以到layui官网示例中找到数 ...

  10. 使用struct模块从定宽数据文件导入数据

随机推荐

  1. freeswitch on centos dockerfile模式

    概述 freeswitch是一款简单好用的VOIP开源软交换平台. centos7 docker上编译安装fs的流程记录,本文使用dockerfile模式. 环境 docker engine:Vers ...

  2. 小白学标准库之反射 reflect

    1. 反射简介 反射是 元编程 概念下的一种形式,它在运行时操作不同类型的对象,检查对象的类型,大小等信息,对于没有源代码的包反射尤其有用. 设想一个场景,读取一个包中变量 a 的类型,并打印该类型的 ...

  3. Guava缓存工具类封装和使用

    本文为博主原创,未经允许不得转载: Guava是谷歌提供的一款强大的java工具库,里面包含了很多方便且高效的工具,在项目开发中有业务场景需要保存数据到内存当中, 且只需要保存固定时间就可以,该数据只 ...

  4. 你不知道的JavaScript APIs

    前言 在本文中,将介绍一些鲜为人知但却非常有用的API,如: Page Visibility API Web Share API Broadcast Channel API International ...

  5. 第二章 VB.NET 绘图基础

    GDI+( Graphics Device Interface Plus)是 Windows操作系统用来执行绘画及其他相关图形操作的一套子系统,是由. Net Framework中的System.Dr ...

  6. [转帖]TiDB的tikv节点的压缩算法

    简介:TiDB的tikv节点实用的RocksDB,RocksDB的默认压缩算法为:[no:no:lz4:lz4:lz4:zstd:zstd] RocksDB 每一层数据的压缩方式,可选的值为:no,s ...

  7. [转帖]Linux下AWK、SED、GREP、FIND命令详解

    https://www.jianshu.com/p/d54e0359db01 AWK AWK是一个优良的文本处理工具,Linux和Unix环境中现有的功能最强大的数据处理引擎之一. 语法 awk [选 ...

  8. [转帖]ELF文件详解

    一.ELF概述 1.ELF的定义 ELF(Executable and Linkable Format)文件是一种目标文件格式,常见的ELF格式文件包括:可执行文件.可重定位文件(.o).共享目标文件 ...

  9. Redis7.0.7的简单安装与学习

    Redis7.0.7的简单安装与学习 摘要 2022.12.18 世界杯决赛 另外是我感染奥密克戎第五天. 高烧已经没了,但是嗓子巨疼. 睡不着觉,肝胆学习一下最新的Redis7.0.7 第一部分安装 ...

  10. 【转载】Linux常用命令大全(非常全!!!)

    [转载]Linux常用命令大全(非常全!!!) https://www.cnblogs.com/purple5252/p/11870584.html Linux常用命令大全(非常全!!!) 最近都在和 ...