Hive项目实战系列(1) | 项目创建与上传数据

原创

不温卜火 2022-04-21 10:33:55 博主文章分类：Hadoop ©著作权

文章标签 大数据 hive hadoop apache 数据 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者不温卜火的原创作品，请联系作者获取转载授权，否则将追究法律责任

此次博主为大家带来的是Hive项目实战系列。

一. 项目需求

统计谷粒影音视频网站的常规指标，各种TopN指标：

1–统计视频观看数Top10
2–统计视频类别热度Top10
3–统计视频观看数Top20所属类别
4–统计视频观看数Top50所关联视频的所属类别Rank
5–统计每个类别中的视频热度Top10
6–统计每个类别中视频流量Top10
7–统计上传视频最多的用户Top10以及他们上传的视频
8–统计每个类别视频观看数Top10

二. 项目

2.1 数据结构

1. 视频表

字段	备注	详细描述
video id	视频唯一id	11位字符串
uploader	视频上传者	上传视频的用户名String
age	视频年龄	视频在平台上的整数天
category	视频类别	上传视频指定的视频分类
length	视频长度	整形数字标识的视频长度
views	观看次数	视频被浏览的次数
rate	视频评分	满分5分
Ratings	流量	视频的流量，整型数字
conments	评论数	一个视频的整数评论数
related ids	相关视频id	相关视频的id，最多20个

2. 用户表

字段	备注	字段类型
uploader	上传者用户名	string
videos	上传视频数	int
friends	朋友数量	int

2.2 上传数据

1. 上传到虚拟机中

Hive项目实战系列(1) | 项目创建与上传数据_hadoop

Hive项目实战系列(1) | 项目创建与上传数据_数据_02

2. 上传到HDFS中

[bigdata@hadoop002 datas]$ hadoop fs -put guli /

Hive项目实战系列(1) | 项目创建与上传数据_hive_03

2.3 ETL原始数据

通过观察原始数据形式，可以发现，视频可以有多个所属分类，每个所属分类用&符号分割，且分割的两边有空格字符，同时相关视频也是可以有多个元素，多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作，我们首先进行数据重组清洗操作。即：将所有的类别用“&”分割，同时去掉两边空格，多个相关视频id也使用“&”进行分割。

1. 先粘贴依赖创建好编程环境

<dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>jdk.tools</groupId>
            <artifactId>jdk.tools</artifactId>
            <version>1.8</version>
            <scope>system</scope>
            <systemPath>D:/java/jdk-1.8.0/lib/tools.jar</systemPath>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin </artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>wordcount.WcDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

2.ETL之ETLMapper

package com.buwenbuhuo.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ETLMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    private Text k = new Text();

    private StringBuilder sb = new StringBuilder();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();

        String result = handleLine(line);

        if (result == null) {
            context.getCounter("ETL", "False").increment(1);
        } else {
            context.getCounter("ETL","True").increment(1);
            k.set(result);
            context.write(k, NullWritable.get());
        }
    }

    /**
     * ETL方法，处理掉长度不够的数据，并且把数据形式做转换
     * @param line 输入的行
     * @return 处理后的行
     */
    private String handleLine(String line) {

        String[] fields = line.split("\t");
        if (fields.length < 9) {
            return null;
        }

        sb.delete(0, sb.length());

        fields[3] = fields[3].replace(" ", "");

        for (int i = 0; i < fields.length; i++) {
            if (i == fields.length - 1) {
                sb.append(fields[i]);
            } else if (i < 9) {
                sb.append(fields[i]).append("\t");
            } else {
                sb.append(fields[i]).append("&");
            }
        }

        return sb.toString();
    }
}

3. ETL之ETLDriver

package com.buwenbuhuo.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class ETLDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(ETLDriver.class);

        job.setMapperClass(com.buwenbuhuo.etl.ETLMapper.class);

        job.setNumReduceTasks(0);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

5. 打包并上传jar包

Hive项目实战系列(1) | 项目创建与上传数据_apache_05

6. 执行ETL

hadoop jar /opt/software/jars/1.jar com.buwenbuhuo.etl.ETLDriver /guli/video /guli/video_etc

Hive项目实战系列(1) | 项目创建与上传数据_数据_06

Hive项目实战系列(1) | 项目创建与上传数据_hive_07

我们可以看到去除了5000多条数据，保留了74万多条数据。

下面我们看下处理过后的数据：

Hive项目实战系列(1) | 项目创建与上传数据_大数据_08

Hive项目实战系列(1) | 项目创建与上传数据_hadoop_09

这样数据看上去就没啥问题了。

现在我们所需要的原始数据就已经全部准备好了，下面我们就可以建表了。

Hive项目实战系列(1) | 项目创建与上传数据_大数据_10

好了，这次的分享到这里就结束了，下篇开始进行建表

Hive项目实战系列(1) | 项目创建与上传数据_apache_11

看完就赞，养成习惯！！！ \color{#FF0000}{看完就赞，养成习惯！！！} 看完就赞，养成习惯！！！^ _ ^ ❤️ ❤️ ❤️

码字不易，大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦！

上一篇：Hive快速入门系列(16) | Hive性能调优 [三] 数据倾斜

下一篇：Hive快速入门系列(3) | 如何Mysql安装

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯