话题检测与跟踪(Topic Detection and Tracking)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。

TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。根据不同的应用需求,TDT评测会议把话题检测和跟踪分成五个子任务。



  ● 报道切分(Story Segmentation)找出所有的报道边界,把输入的源数据流分割成各个独立的报道。


  ● 话题跟踪(Story Tracking)给出某话题的一则或多则报道,把后输入进来的相关报道和该话题联系起来。它实际上包括两步,首先给出一组样本报道,训练得到话题模型,然后在后续报道中找出所有讨论目标话题的报道。


  ● 话题检测(Story Detection)发现以前未知的新话题。


  ● 首次报道检测(New Event Detection)在数据流中检测或发现首次,并且只能是首次讨论某个话题的报道。与话题检测本质相同,区别只在于结果输出的形式不同。


  ● 关联检测(Link Detection)判断两则报道是否讨论的是同一个话题。


  主要实现方法


  构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:


  (1)话题/报道的模型化


  (2)话题-报道相似度的计算


  (3)聚类策略


  (4)分类策略(阈值选择策略)