hive 统计行数 hive统计出现字符串的次数

转载

mob6454cc716fb0 2023-08-21 18:23:53

文章标签 hive 统计行数 Hive 词频统计数据 文章分类 Hive 大数据

Hive词频统计

数据准备

在/root目录下新建word.txt
输入几行单词，单词之间以空格隔开
Hello Hadoop
Hello HDFS
Hello MapReduce
Hello Hive
Hello HBase
Hello Pig

在Hive中创建表text(line string)

将word.txt加载到表text中

查看text表

词频统计

对于这个text表，我们如何将其中的每行的单词进行统计呢？
由于一行文本有多个单词，所以我们需要将每行的文本切割成单个的单词，这里我们需要使用split函数：
每行文本已经被切割开来，但是得到的是数组类型，并不是Hive能直接通过group by处理的形式，所以我们需要使用Hive的另一个高级函数explode。
explode函数的功能是行转列（俗称炸裂），也就是说将上面我们得到的数组中的每个元素生成一行。
使用group by来对炸裂开来的数据进行统计。
将上面得到的结果作为另一张表t(子查询)，然后对这张表进行统计。
将所有单词按照降序排列，同时输出最高频次的三个单词
将查询结果存入另一张表wc中。
查看wc表

本实验介绍了如何通过hive实现单词统计，旨在加深了解Hive这个基于HDFS的数据仓库。

Hive词频统计

数据准备

在/root目录下新建word.txt
输入几行单词，单词之间以空格隔开
Hello Hadoop
Hello HDFS
Hello MapReduce
Hello Hive
Hello HBase
Hello Pig

在Hive中创建表text(line string)

将word.txt加载到表text中

load data local inpath '/root/word.txt' overwrite into table text;

查看text表

select * from text;

词频统计

对于这个text表，我们如何将其中的每行的单词进行统计呢？
由于一行文本有多个单词，所以我们需要将每行的文本切割成单个的单词，这里我们需要使用split函数：

select split(line,' ') from text;

每行文本已经被切割开来，但是得到的是数组类型，并不是Hive能直接通过group by处理的形式，所以我们需要使用Hive的另一个高级函数explode。
explode函数的功能是行转列（俗称炸裂），也就是说将上面我们得到的数组中的每个元素生成一行。

select explode(split(line,' ')) as word from text;

使用group by来对炸裂开来的数据进行统计。
将上面得到的结果作为另一张表t(子查询)，然后对这张表进行统计。

select t.word,count(*) from (select explode(split(line,' '))as word from text) as t group by t.word;

将所有单词按照降序排列，同时输出最高频次的三个单词

select t.word,count(*) as c from (select explode(split(line,' '))as word from text) as t group by t.word order by c desc limit 3;

将查询结果存入另一张表wc中。

create table wc as select t.word,count(*) c from (select explode(split(line,' '))as word from text) as t group by t.word order by c desc limit 3;

查看wc表

本实验介绍了如何通过hive实现单词统计，旨在加深了解Hive这个基于HDFS的数据仓库。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：主板刷bios支持nvme 升级bios支持nvme

下一篇：数据仓库数据类型常用数据仓库

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive 统计行数 hive统计出现字符串的次数

hive 统计行数 hive统计出现字符串的次数

Hive词频统计

数据准备

在Hive中创建表text(line string)

将word.txt加载到表text中

查看text表

词频统计

Hive词频统计

数据准备

在Hive中创建表text(line string)

将word.txt加载到表text中

查看text表

词频统计

51CTO博客