话题追踪 java 话题检测与跟踪

转载

mob6454cc7ccdfc 2012-06-02 17:53:59

话题检测与跟踪（Topic Detection and Tracking）是近年提出的一项信息处理技术，这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题，对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。

TDT是一项综合的技术，需要比较多的自然语言处理理论和技术作为支撑，因此这些测评对其进行了细化。根据不同的应用需求，TDT评测会议把话题检测和跟踪分成五个子任务。

　　● 报道切分(Story Segmentation)找出所有的报道边界，把输入的源数据流分割成各个独立的报道。

　　● 话题跟踪(Story Tracking)给出某话题的一则或多则报道，把后输入进来的相关报道和该话题联系起来。它实际上包括两步，首先给出一组样本报道，训练得到话题模型，然后在后续报道中找出所有讨论目标话题的报道。

　　● 话题检测(Story Detection)发现以前未知的新话题。

　　● 首次报道检测(New Event Detection)在数据流中检测或发现首次，并且只能是首次讨论某个话题的报道。与话题检测本质相同，区别只在于结果输出的形式不同。

　　● 关联检测(Link Detection)判断两则报道是否讨论的是同一个话题。

　　主要实现方法

　　构造一个实用化的TDT系统是进行TDT研究的主要目的之一，也是检验现有方法优劣的基础。从参评的数量来看，话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言，要实现话题发现与跟踪功能，需要解决以下主要问题：

　　（1）话题/报道的模型化

　　（2）话题－报道相似度的计算

　　（3）聚类策略

　　（4）分类策略（阈值选择策略）

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客