1、下载工具

两种渠道

a、官网(建议直接跳过~)

地址:http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp

在信息填写正确的情况下,无法下载。看网友的解答,需要用谷歌浏览器才能下载。尝试未果。

b、github上下载

地址: https://github.com/gregrahn/tpcds-kit.git

ps:官方的包生成sql的时候会报错,上面这个大神已经修复。

2、编译

操作环境:Ubuntu16

进入TPC-DS工具包所在目录,由于下载的是源码,需要编译后才能使用。

a、解压

unzip  tpcds-kit-master.zip

b、编译

编译之前请确认依赖环境ok

ubuntu:

 sudo apt-get install gcc make flex bison byacc git

CentOS/RHEL:

 sudo yum install gcc make flex bison byacc git
tpcds-kit-master/tools

make  -f  Makefile.suite

编译过程中报错:

make: yacc: Command not found。报错是因为yacc没有安装 。

安装yacc

sudo apt-get install -y byacc

再次编译

又报错对‘yy_create_buffer’未定义的引用。对C/C++不熟悉,搜索了一下也没有相关的解答。百思不得其解之下,换了个思路。可能是第一次编译报错生成的错误文件对第二次编译产生的影响。

于是删除解压后的目录,重新编译成功。

如果生成dsdgen和dsqgen且无报错,说明编译成功

ll *gen

 3、生成数据

第一次使用这个工具我是一脸懵比的。因为官方的文档特喵的根本看不懂。回想一下,你碰到不熟悉的linux命令是怎么做的?man或者--help,对吧。这里也可以用--help。

先不着急生成数据,看一下帮助信息先。

./dsdgen  --help

  • DIR:数据存放目录。
  • SCALE:数据量,以GB为单位。
  • TABLE:生成哪张表的数据,一共有24张表哦。
  • PARALLEL:生成的数据一共分为多少份,一般生成TB级数据才会用到。
  • CHILD:当前数据是第几份,与PARALLEL配对使用。
  • FORCE:强制写入数据。

常用的参数就上面几个。下面我们来生成1G包含所有表的数据。

./dsdgen  -scale  -dir ../data/

等待dsdgen程序正常退出后,1G数据需要2~3min左右,进入data目录查看生成的数据。

cd ../data

假如只想生成其中某一张表的数据呢?这就需要用到-table参数了,以web_returns表为例。

./dsdgen  -scale  -dir ../data -table web_returns

报错了,信息如下:

web_returns是子表,它是依赖于父表web_sales的。生成父表的时候也会同时生成子表,我们来验证一下。

./dsdgen  -scale  -dir ../data -table web_sales

说明一下,最终生成的数据量以少于scale值的。

dsdgen的用法暂时先总结到这里。

 4、生成SQL

查询SQL使用dsqgen生成,主要用于测试数据仓库的性能,一共99个。详细用法可以用--help查看帮助信息。这里不做介绍直接生成。

./dsqgen  -DIRECTORY ../query_templates/ -TEMPLATE "query1.tpl" -DIALECT netezza -FILTER Y > ../sql/query1.sql
  • -DIRECTORY:SQL模板的路径
  • -TEMPLATE:SQL模板的名称
  • -DIALECT:include query dialect defintions found in <s>.tpl
  • -FILTER:重定向到标准输出。

查看生成的SQL:

一共有99,每一个都要这样生成多费劲呀。来写个for循环一把生成所有的SQL。

shell版:

 #!/bin/sh
for i in `seq `
do
./dsqgen -DIRECTORY ../query_templates/ -TEMPLATE "query${i}.tpl" -DIALECT netezza -FILTER Y > ../sql/query${i}.sql
done

Python3版:

 #coding:utf-8
import os
print("generate query sql")
for i in range(1,100):
tpl = "query"+str(i)+".tpl"
qsql = "query" +str(i) +".sql"
#拼接命令
cmd = "./dsqgen -DIRECTORY ../query_templates/ "+"-TEMPLATE "+tpl+" -DIALECT netezza -FILTER Y > "+"../sql/"+qsql
#print(cmd)
#执行命令
os.system(cmd)

去sql目录下查看刚才生成的SQL:

这种情况下还是shell更快一点。

5、总结

  1. 通过TPC-DS,可以生成指定量级的数据。
  2. 碰到报错不要慌,先google或bing,不要用某度,原因你懂的。
  3. TPC-DS基本用法已经总结完了,但是实际操作中还有很多问题,比如:
  • 我想要生成10T数据怎么搞?
  • 怎么判断生成的数据是否正确呢?
  • child和parallel怎么使用?
  • 数据和SQL生成完了怎么测试?
  • 。。。。。。

后面有时间再总结。

使用TPC-DS工具生成数据的更多相关文章

  1. 微信小程序开发工具的数据,配置,日志等目录在哪儿? 怎么找?

    原文地址:http://www.wxapp-union.com/portal.php?mod=view&aid=359 本文由本站halfyawn原创:感谢原创者:如有疑问,请在评论内回复   ...

  2. 我写的一个ExcelHelper通用类,可用于读取或生成数据

    读取或生成EXCEL数据的方法有很多,一般常见的有: 1.通过OFFICE EXCEL组件,优点:读取与生成EXCEL文件方便,缺点:服务器上必须安装OFFICE软件,且进程无法及时释放 2.通过第三 ...

  3. hibernate中.hbm.xml和注解方式自动生成数据表的简单实例(由新手小白编写,仅适用新手小白)

    绝逼新手小白,so 请大神指点! 如果真的错的太多,错的太离谱,错的误导了其他小伙伴,还望大神请勿喷,大神请担待,大神请高抬贵嘴......谢谢. 好了,正题 刚接触ssh,今天在搞使用.hbm.xm ...

  4. 利用TPC-H为MYSQL生成数据

    ## 利用TPC-H为MYSQL生成数据 导言 这篇文章是看了joyee写的TPC-H数据导入MySQL教程以及另一篇网上的MySQL TPCH测试工具简要手册 后写的,有些内容是完全转载自以上两篇文 ...

  5. excel生成数据地图

    在数据分析过程中,图表是一个十分重要的部分,通过图表可以清晰明了的说明一些数字特征.在众多数据分析图表中,数据地图是常用的一中分析图.在一般的数据分析中,excel已经可以满足绝大部分功能.在本文中, ...

  6. java 通过接口在后台管理器中生成数据

    需求:测试人员在后台批量添加数据很麻烦,特别是针对一款商品配置了英语,还需要手动添加法语.俄语.阿拉伯语,很麻烦,但是因为没有项目组配合,做个小工具批量生成数据就只有自己去研究了 第一步:通过抓包工具 ...

  7. 使用FastReport报表工具生成报表PDF文档

    在我们开发某个系统的时候,客户总会提出一些特定的报表需求,固定的报表格式符合他们的业务处理需要,也贴合他们的工作场景,因此我们尽可能做出符合他们实际需要的报表,这样我们的系统会得到更好的认同感.本篇随 ...

  8. 使用FastReport报表工具生成标签打印文档

    在我们实际开发报表的时候,我们需要按一定的业务规则组织好报表的模板设计,让报表尽可能的贴近实际的需求,在之前的随笔中<使用FastReport报表工具生成报表PDF文档>介绍了FastRe ...

  9. 创建基于ASP.NET core 3.1 的RazorPagesMovie项目(二)-应用模型类配合基架生成工具生成Razor页面

    本节中,将学习添加用于管理跨平台的SQLLite数据库中的电影的类Movie.从ASP.NET core 模板创建的应用使用SQLLite数据库. 应用模型类(Movie)配合Entity Frame ...

随机推荐

  1. 从零开始学java(二)类与对象

    面向对象是把构成问题事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙某个事物在整个解决问题的步骤中的行为. 类是对象的抽象,对象是类的具体实例. 1.构造一个类,让其拥有属性和方法 ...

  2. IntelliJ IDEA2017 + tomcat 即改即生效 实现热部署

    https://www.cnblogs.com/1024zy/p/6344000.html

  3. MySQL数据库学习书单/书籍

    MySQL数据库学习书单 1.MySQL必知必会(MySQL Crash Course) 豆瓣详情 主要适合前期掌握MySQL,豆瓣评分8.4. 2.高性能MySQL 豆瓣详情 ​ 主要适合进阶阅读使 ...

  4. 织梦dedecms后台文章搜索关键字,关键字包含文章内容的代码修改

    1.织梦dedecms后台文章搜索功能在哪里找?织梦dedecms后台-->核心-->常用操作-->所有档案列表(或)织梦dedecms后台-->核心-->内容管理--& ...

  5. dhcp服务简单配置

    dhcp服务搭建 注意事项: > 配置虚拟机虚拟网络编辑器,取消"使用本地DHCP服务将IP地址分配给虚拟机" > 虚拟机网络连接设置为"仅主机模式" ...

  6. 【Spring】入门HelloWorld

    参考:https://www.yiibai.com/spring/spring-tutorial-for-beginners.html 一.创建项目 1.利用IntelliJ创建Maven项目 2.配 ...

  7. html、css基础整理

    1.块元素与行内元素之间的转换: HTML可以将元素分类方式分为行内元素.块状元素和行内块状元素三种.这三者是可以互相转换的,使用display属性能够将三者任意转换: (1)display:inli ...

  8. vshost32-clr2.exe 已停止工作

    软件中使用了DevComponents.DotNetBar2.dll MessageBoxEx.Show("ddd");运行到这句出现如上错误 解决:在项目属性里->调试: ...

  9. 简析 __init__、__new__、__call__ 方法

    简析 __init__.__new__.__call__ 方法 任何事物都有一个从创建,被使用,再到消亡的过程,在程序语言面向对象编程模型中,对象也有相似的命运:创建.初始化.使 用.垃圾回收,不同的 ...

  10. Node.js 开发指南

    1.Node.js 简介 Node.js 其实就是借助谷歌的 V8 引擎,将桌面端的 js 带到了服务器端,它的出现我将其归结为两点: V8 引擎的出色: js 异步 io 与事件驱动给服务器带来极高 ...