两大基本结构
B站有两大基本的信息分类结构,分区结构和标签结构。无论是普通用户日常查找内容,还是做专业的数据分析,可利用的信息分类结构主要是这两种。
分区结构
分区是B站最基本的结构。B站主页和排行榜会将分区放在最明显的位置。
B站的UGC内容总共有14个分区,60多个子分区。比如“游戏”区下面的“单机游戏”和“电子竞技”就是平行的子分区。
一个视频只能属于一个子分区,所以子分区内部的视频不会重合。通过分区和子分区,就可以将视频完全分类。
分区、子分区、视频之间是一个金字塔结构:
分区结构相对严谨。分区和子分区的数量是有限的,且相互不重合,这样方便信息分类管理。
但是这样金字塔式的信息结构的缺点是很多内容无法严格地划归到某个子分区之中。比如生活区的“日常”子分区就很宽泛,一部分也可以划归到“搞笑”子分区之中。
标签结构
内容的属性是多元的,并不能只用分区这种金字塔结构做分类,所以标签也是很重要的结构信息。
一个视频只属于一个子分区,但可以有一组标签,通常为3-10个。
标签与视频是多对多的网状结构:
标签的主要作用:
- 作为搜索结果排序的主要依据,标签与搜索词匹配可以提升权重
- 被个性化推荐算法用于做相似内容推荐,与热门视频标签相似,可能获得更多推荐流量。
- 用于做类目细分,比如“美妆”子分区下面的“彩妆”和“护肤”其实是标签。
- 标记参加某些运营活动。
- 标记产品名或品牌名方便检索。
B站各分区首页同时使用了子分区和标签来做分类:
博主的混合分类
将分区和标签一起看,B站的信息分类结构是这样的:
由于博主(在B站上称为UP主)不同的视频属于不同的分区,每条视频又有不同的标签,所以UP主都是多分区和多标签的。
统计UP主每条视频的分区和标签设置,可以获得UP主在不同分区和不同标签之中的权重分配情况。
单个UP主发布的所有视频对应的子分区数如图所示:
(横坐标为子分区数,纵坐标为对应的UP主数)
可以看出大多数UP主都只会在5个以内子分区发布视频。但也有超过15%的UP主会在超过5个子分区发布视频。
如果我们统计一位UP主所使用的Tag数量的话,则会得到以下分布:
(横坐标为Tag数,纵坐标为对应的UP主数)
可以看出这条曲线下降得比较平缓,大量的UP主使用的标签在100个以上,也说明B站UP主的创作内容还是比较丰富的,也愿意使用标签来完善视频的结构信息。
案例分析
举例来看,“纳豆奶奶”这位UP主,从分区的视角看,主要属于“生活”分区:
如果我们统计这位UP主近一段时间发布的视频在子分区的浏览量,可以看出其部分内容与美食相关:
如果我们统计视频标签和其相关的视频浏览量,则得到以下结果:
标签能够反映UP主更多元更加个性化的信息。但是标签是半结构化的,不如分区和子分区的分类模式严谨。同样含义的标签有不同的表达方法,标签与标签之间也可能是相互包含的关系。我们会在后续的文章中讨论如何使用标签对UP主进行分类。
总结
B站有分区和标签两种信息分类结构。分区是金字塔结构,标签是网状结构。一位UP主可以同时属于多个分区,拥有多达几百个标签,这些分区和标签共同描述了UP主的内容构成情况。如果我们要挖掘细分领域的UP主,要更多地使用标签作为分析筛选的标准。