话题检测与跟踪(Topic Detection and Tracking)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。
TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。根据不同的应用需求,TDT评测会议把话题检测和跟踪分成五个子任务。
● 报道切分(Story Segmentation)找出所有的报道边界,把输入的源数据流分割成各个独立的报道。
● 话题跟踪(Story Tracking)给出某话题的一则或多则报道,把后输入进来的相关报道和该话题联系起来。它实际上包括两步,首先给出一组样本报道,训练得到话题模型,然后在后续报道中找出所有讨论目标话题的报道。
● 话题检测(Story Detection)发现以前未知的新话题。
● 首次报道检测(New Event Detection)在数据流中检测或发现首次,并且只能是首次讨论某个话题的报道。与话题检测本质相同,区别只在于结果输出的形式不同。
● 关联检测(Link Detection)判断两则报道是否讨论的是同一个话题。
主要实现方法
构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:
(1)话题/报道的模型化
(2)话题-报道相似度的计算
(3)聚类策略
(4)分类策略(阈值选择策略)