1. 安装TPC-H工具

  • 安装 git
apt install git
  • 安装gcc
apt install gcc
  • 下载 TPC-H 数据生成代码

在服务器上自己手动创建目录:/root/tpcH/tools/。再此目录下执行如下脚本

git clone https://github.com/gregrahn/tpch-kit.git
  • 进入数据生成工具代码目录
cd tpch-kit/dbgen
  • 编译数据生成工具代码

若未安装make,执行 apt install make

make

2. 生成数据

  • 编译成功后,您可以使用如下代码查看代码生成工具的相关参数。
./dbgen --help
  • 本次测试仅生成 1 GB 数据,所以运行如下代码生成数据。
./dbgen -vf -s 1

如您需要生成更多数据量的数据,可以调整 SF 的参数,例如您可以使用如下代码生成 1 T 数据

./dbgen -vf -s 1000
  • 数据生成后,您可以使用如下代码查看生成的文件。可以看到生成工具生成了 8 个数据文件,每个数据文件都对应一张数据集中的表。
ls | grep '.*.tbl'

注意:tpc-h在生成数据时,不能指定生成的数据存放到某个文件夹,因此需要手动去移动xxx.tbl到自己想要的文件下

3、将数据移动到其他文件下

#创建data,存放生成的数据
mkdir -p /root/tpcH/data
#将生成的数据,移动到创建的data下
mv /root/tpcH/tools/tpch-kit/dbgen/*.tbl /root/tpcH/data/

【TPC-H】工具安装与生成数据_git

   作者:Syw

本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

如果文中有什么错误,欢迎指出。以免更多的人被误导。