大数据的概念在2018年火爆的非常彻底,各个行业、各个领域都在不断的加快对大数据的应用。当然,就大数据的技术本身而言,为了更快、更高效的处理BIG DATA,hbase的应用就场景就非常值得关注。

hbase 商业版_应用场景

如今,上至世界500强企业,下至中小型实体店都开始借力大数据来实现自身更加快速的发展,那么对于大数据中的重点内容——hbase,在其实际应用中又该如何分清场景呢?

对于如何分清hbase的应用场景,我们应该先从其概念出发去分析。Hbase是Hadoop生态圈中的非关系型数据库,最大的特点是面向列存储、可以实现在超大规模数据集上的实时读写和随机访问,可以说是对HDFS的有益补充。传统的行存储是将完整的数据行存储在磁盘中,查询时会读取该行的所有数据列。但有些应用场景,只需要一小部分数据列,这种方式就很浪费IO。列存储就是将同一个数据列的各个值存放在一起,也就是说插入某行数据时,该行的各个数据列的值会存放到不同的地方。好处就是需要某几列数据时,可以很方便读取。Hbase出现的目的其实就为处理更大、更多的数据提供了便捷,提供了保障,能够让处理的速度更快。

此外,hbase的特点我们也应该了解一下。HBase采用的是Key/Value的存储方式,这意味着,即使随着数据量增大,也几乎不会导致查询的性能下降。HBase又是一个列式数据库(对比于传统的行式数据库而言),当你的表字段很多的时候,你甚至可以把其中几个字段放在集群的一部分机器上,而另外几个字段放到另外一部分机器上,充分分散了负载压力。然而,如此复杂的存储结构和分布式的存储方式带来的代价就是:哪怕只是存储少量数据,它也不会很快。所以有一种对于hbase的说法就很贴切,HBase并不快,只是当数据量很大的时候它慢的不明显”。可以说,hbase在数据量越多的时候其价值体现的将愈加的明显。

Hbase并不只是拥有优点,其缺点也很明显,比如:数据分析是HBase的弱项,因为对于HBase乃至整个NoSQL生态圈来说,基本上都是不支持表关联的。当你想实现group by 或者order by的时候,你会发现,你需要写很多的代码来实现MapReduce。

关于hbase的含义、特点、劣势都为大家做了简答的分析,下面我们就可以列举一下hbase的应用场景。

场景一:实时场景的应用,HBase之上有OpenTSDB模块,可以满足时序类场景的需求。

场景二:构建精准用户画像,蚂蚁的风控就是构建在HBase之上。

场景二:时空数据,主要是轨迹、气象网格之类,滴滴打车的轨迹数据主要存在HBase之中,另外在技术所有大一点的数据量的车联网企业,数据都是存在HBase之中。

场景四:消息和订单的处理,在电信领域、银行领域,不少的订单查询底层的存储,另外不少通信、消息同步的应用构建在HBase之上。

根据hbase的特性,我们不难发现其在各个行业的应用都非常丰富,这里所讲的场景比较少,希望能够为大家带来一些思路,当然,在实际的应用当中,你也将发像hbase的场景会比你想象的更加丰富。