hbase 入库慢 hbase入库1亿条

转载

IT独行侠 2023-07-12 17:49:00

文章标签 hbase 入库慢大数据 hbase hadoop 数据 文章分类 Hbase 数据库

测试环境配置信息

Ambari+HDP大数据平台，5个节点服务器

CPU配置：16核 Intel 2.20GHz

操作系统：CentOS7.7/Linux x86_64

HDFS空间：4TB

HDFS文件备份数：3节点

Hbase MASTER和REGIONSERVERS各一个

测试数据模型

模拟某酒店顾客信息表1个列族，33列字段，目标数据量1亿+

一、新增数据性能

单条数据插入，平均不到250条/秒，每1000条需要4秒多，平均每条耗时4毫秒

本地往服务器批量插入数据，平均在1000条/秒左右

服务器上测试批量插入数据，基数2004万条，新增100万耗时693秒，平均1443条/秒

基数2004万条，新增1000万耗时6887秒，平均1452条/秒

基数2004万条，新增8000万耗时15:21:24，合55284秒，平均1447条/秒

结论：

随着入库数据量的增长插入数据性能没有受影响，一直比较稳定。

二、查询数据性能

1亿+数据量的表

1、Java客户端查询

连续根据rowKey查4条记录，分别耗时5575毫秒、39毫秒、6毫秒、4毫秒，初次查询较慢，需要几秒时间，之后查询很快，都是毫秒级响应。

2、HBase shell查询

连续根据rowKey查3条记录，分别耗时137毫秒、29毫秒、31毫秒

连续根据rowKey查同一条记录，分别耗时31毫秒、27毫秒、17毫秒

3、scan性能

HBase shell根据rowKey范围scan扫描10条记录，耗时159毫秒

4、行键过滤性能

根据rowKey前缀进行过滤查询，1亿+数据中过滤出1条记录耗时1170秒，

一直等待很长时间，效率很差，可能全表扫描了，不建议使用

三、修改数据性能

连续根据rowKey修改3条记录，分别耗时31毫秒、5毫秒、7毫秒

四、删除数据性能

连续根据rowKey删除3条记录，分别耗时54毫秒、3毫秒、22毫秒

五、数据导入性能

1、Kettle导入

Kettle 从csv读取数据导入HBASE库，平均1800条/秒左右

2、ImportTsv命令导入

HBASE ImportTsv命令从Hdfs上的csv目录导入数据2004万条，耗时2小时22分32秒，合8552秒，平均2343条/秒

六、count统计性能

1、HBase shell count命令统计

200万数据统计count数，耗时 61秒

2004.1009万数据统计count数，耗时664秒

2、执行 hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'hotel_guest’命令统计

2004.1009万数据count数，耗时284秒

3、执行 hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'hotel_guest’命令统计

1亿+数据count数，耗时21分25秒，合1285秒

七、总结

Hbase库新增数据，以及根据RowKey修改、查询、删除数据性能较好，都是毫秒级响应，与MySQL小表操作基本相当，且性能不会像MySQL那样随着存入数据量增长而下降。

Hbase行键过滤性能较差，大数据量环境下不建议使用。

Hbase库数据批量导入性能与其他数据库相比没有优势，应该算比较低的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：html5允许我们自己控制哪些文件需要缓存 html5浏览器

下一篇：hive sql 小数保留计算除法 hive 保留小数点后两位

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯