文本可视化
文本可视化系统:1、产生可视化所需数据的问笨分析过程;2、可视化呈现(低纬信息图);3、用户与信息图的交互;
- 文本分析:主要是对文本信息词汇今次那个提取,利用词汇特征处理数据,分类数据。(文本分析技术:词袋模型、命名实体识别、关键词的抽取、主题分析、情感分析)
- 可视化呈现:视觉编码来呈现文本信息的特征。(呈现方式:网络图、维恩图、树状图、坐标轴)
- 交互:交互方式(高亮、缩放、动态转换、关联更新、焦点加上下文)
文本可视化的研究现状:
- 基于文本内容的可视化:
- 基于词频的文本可视化(可视化形式:标签云即词云)
- 基于词汇分布的文本可视化
- 基于文本关系的可视化:
- 基于文本内在关系:内部结构、语义关系(呈现方式:网络图、文字树+后缀树、短语网络(Phrase Net)、径向空间填充)
- 基于文本外在关系:引用、网页的超链接、主题相似性(呈现方式:网络图、文本地图(基于特征降维技术)、标签云、TreeMap)
- 基于多层面信息的可视化:
- 基于时间与其他信息结合的可视化(表现形式:时间轴。呈现方式:标签云+折线图、叠式图、螺旋图)
- 其他基于多层面信息的可视化(表现形式:平行坐标轴+标签云、平行坐标轴、文本密度图)
小结:文本可视化形式:标签云、文本地图、TreeMap、ThemeRiver。
文本可视化技术的评价方式:可用性测试、可用性检查、个案研究、对比试验。
可用性测试:以用户为中心,直接获取用户的使用情况。
可用性检查:以专家学者为中心运用经验检查可视化技术,发现可用性问题。
个案研究:以应用场景为中心,通过不断地场景实验分析,来理解认知规律。
对比试验:以可视化技术为中心,相似应用场景对比可视化技术,掌握主观感受和客观数据。
总结与问题:文本可视化集成了文本分析、数据挖掘、数据可视化、计算机图形学、人机交互、认知科学等学科的理论和方法、结合了计算机的计算能力和人的认知能力。本文也概括性的阐述了文科本可视化系统的主干,在每个板块的处理方式;以及目前文本可视化的研究主要集中在哪些板块并且利用了哪些主流技术实现文本可视;最后也提出了对于文本可视化技术的评价方式。在文章的末尾也提出了在文本可视化领我们面临的挑战,及可视化技术受限于文本数据规模;文本可视化的视觉效果单一,可视化技术未普及利用;文本分析结果和效率较低;评价标准不尽人意;
(作者:唐家渝)
















