此次博主为大家带来的是Hive项目实战系列。


目录


一. 项目需求

统计谷粒影音视频网站的常规指标,各种TopN指标:

  • 1–统计视频观看数Top10
  • 2–统计视频类别热度Top10
  • 3–统计视频观看数Top20所属类别
  • 4–统计视频观看数Top50所关联视频的所属类别Rank
  • 5–统计每个类别中的视频热度Top10
  • 6–统计每个类别中视频流量Top10
  • 7–统计上传视频最多的用户Top10以及他们上传的视频
  • 8–统计每个类别视频观看数Top10

二. 项目

2.1 数据结构

  • 1. 视频表

字段

备注

详细描述

video id

视频唯一id

11位字符串

uploader

视频上传者

上传视频的用户名String

age

视频年龄

视频在平台上的整数天

category

视频类别

上传视频指定的视频分类

length

视频长度

整形数字标识的视频长度

views

观看次数

视频被浏览的次数

rate

视频评分

满分5分

Ratings

流量

视频的流量,整型数字

conments

评论数

一个视频的整数评论数

related ids

相关视频id

相关视频的id,最多20个

  • 2. 用户表

字段

备注

字段类型

uploader

上传者用户名

string

videos

上传视频数

int

friends

朋友数量

int

2.2 上传数据

  • 1. 上传到虚拟机中

Hive项目实战系列(1) | 项目创建与上传数据_hadoop

Hive项目实战系列(1) | 项目创建与上传数据_数据_02

  • 2. 上传到HDFS中
[bigdata@hadoop002 datas]$ hadoop fs -put guli /

Hive项目实战系列(1) | 项目创建与上传数据_hive_03

2.3 ETL原始数据

  通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。

  • 1. 先粘贴依赖创建好编程环境
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>RELEASE</version>
</dependency>
<dependency>
<groupId>org.apache.logging.log4j</groupId>
<artifactId>log4j-core</artifactId>
<version>2.8.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>jdk.tools</groupId>
<artifactId>jdk.tools</artifactId>
<version>1.8</version>
<scope>system</scope>
<systemPath>D:/java/jdk-1.8.0/lib/tools.jar</systemPath>
</dependency>
</dependencies>

<build>
<plugins>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>2.3.2</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
<plugin>
<artifactId>maven-assembly-plugin </artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
<archive>
<manifest>
<mainClass>wordcount.WcDriver</mainClass>
</manifest>
</archive>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
  • 2.ETL之ETLMapper
package com.buwenbuhuo.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ETLMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
private Text k = new Text();

private StringBuilder sb = new StringBuilder();

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString();

String result = handleLine(line);

if (result == null) {
context.getCounter("ETL", "False").increment(1);
} else {
context.getCounter("ETL","True").increment(1);
k.set(result);
context.write(k, NullWritable.get());
}
}

/**
* ETL方法,处理掉长度不够的数据,并且把数据形式做转换
* @param line 输入的行
* @return 处理后的行
*/
private String handleLine(String line) {

String[] fields = line.split("\t");
if (fields.length < 9) {
return null;
}

sb.delete(0, sb.length());

fields[3] = fields[3].replace(" ", "");

for (int i = 0; i < fields.length; i++) {
if (i == fields.length - 1) {
sb.append(fields[i]);
} else if (i < 9) {
sb.append(fields[i]).append("\t");
} else {
sb.append(fields[i]).append("&");
}
}

return sb.toString();
}
}
  • 3. ETL之ETLDriver
package com.buwenbuhuo.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class ETLDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Job job = Job.getInstance(new Configuration());

job.setJarByClass(ETLDriver.class);

job.setMapperClass(com.buwenbuhuo.etl.ETLMapper.class);

job.setNumReduceTasks(0);

job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);

FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));

boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
  • 5. 打包并上传jar包
    Hive项目实战系列(1) | 项目创建与上传数据_hive_04

Hive项目实战系列(1) | 项目创建与上传数据_apache_05

  • 6. 执行ETL
hadoop jar /opt/software/jars/1.jar com.buwenbuhuo.etl.ETLDriver /guli/video /guli/video_etc

Hive项目实战系列(1) | 项目创建与上传数据_数据_06

Hive项目实战系列(1) | 项目创建与上传数据_hive_07

  我们可以看到去除了5000多条数据,保留了74万多条数据。

  下面我们看下处理过后的数据:

Hive项目实战系列(1) | 项目创建与上传数据_大数据_08

Hive项目实战系列(1) | 项目创建与上传数据_hadoop_09

  这样数据看上去就没啥问题了。

现在我们所需要的原始数据就已经全部准备好了,下面我们就可以建表了。

Hive项目实战系列(1) | 项目创建与上传数据_大数据_10

好了,这次的分享到这里就结束了,下篇开始进行建表


Hive项目实战系列(1) | 项目创建与上传数据_apache_11

   看 完 就 赞 , 养 成 习 惯 ! ! ! \color{#FF0000}{看完就赞,养成习惯!!!} 看完就赞,养成习惯!!!^ _ ^ ❤️ ❤️ ❤️

  码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦!