时间是一个非常重要的维度和属性,随时间变化、带有时间属性的数据称为时变数据。处理时变型数据的方法有时候又与顺序型数据有想通之处。从宏观上看,数据类型包括数值型、有序型和类别型三类。其中,任意两个有序型数据之间都具有某种顺序关系,而数值型数据可看成某种有具体数值的有序型数据。
①以时间轴排列的时间序列数据,如:个人摄像机采集的视频序列、各种传感器设备获取的监控数据和故事股票交易数据、太阳黑子随时间的变化、奥运会比赛日程。在时间序列数据中,每个数据实例都可以看做某事件,事件的时间可当成一个变量。
②不以时间为变量,但具有内在的排序顺序的顺序型数据集,如文本、生物DNA测序和化学质谱等。这类数据的变化顺序可以与映射为时间轴进行处理。
两类数据统称为时变数据,它们在时间应用中量大、维数多、变量多,而且类型丰富,分布范围广泛。特别是在各类传感器网络、移动互联网应用中,以流模式生成的流数据是一类特殊的具有无限长度时间轴的时变型数据。
人类社会的微观活动和历史事件也构成了一个随时间变化的数据。历史学界的一个新理论——历史动力学(Cliodynamics)通过考察人口数量、社会结构、国家强盛程度和政局的不稳定性等变量,认为人类历史有经验性规律和周期性。例如,人口下降时期每10年发生的稳定的事件数,是人口上升时期每10年发生的不稳定事件数的好几倍。
分析和理解时变型数据通常可以通过统计、数值计算和数据分析的方法完成。例如,考察时变序列数据的极值,计算两个时变序列数据的相似性,检测时变序列数据与某个数据分布的匹配性,快速检测时变序列数据,某个数据元素的变化情况,k个(k>2)数据元素在时变序列数据中出现的频率和概率,序列中相似片段的检测等。这些任务同是也是流数据分析、序列分析的核心目标。
从特征计算的角度看,也可采用传统的数据挖掘方法对时变型数据进行信号分解、模式挖掘和特征预测等处理,例如常用的粒子滤波器、卡尔曼滤波和隐马尔科夫链。
在数据尺度中等时,上述方法可以取得令人满意的结果。然而,针对大尺度的时变型数据,自动的数据挖掘方法往往难以预测蕴含其中的千变万化的规律。数据挖掘的结构通常带有噪声,需要人工解释和滤波。此时,采用合适的数据可视化方法展现原始数据或分析后的结果,可有效地揭示数据中隐藏特征模式,展示与时间相关的变化规律和趋势。
时变型数据的可视化方式可分为两种。一类方法采用静态方式展示数据中记录的内容,不随时间变化,但可采用多视角、数据比较等方法体现数据随时间变化的趋势和规律。另一类方法采用动画手法,动态地展示随时间变化的感觉和过程,因而具有更多的局限性,需谨慎看待采用动画方式可视化时变型数据的可行性和表达力。
1 时间属性的可视化
如果将时间属性或顺序性当成时间轴变量,那么每个实例是轴上某个变量值对应的单个事件。对时间属性的刻画有三种方式。
线性时间和周期时间,线性时间假定一个出发点并定义从过去到将来数据元素的线性时域。许多自然界的过程具有循环规律,如季节的循环。
时间点和时间间隔,离散时间点将时间描述为可与离散空间欧拉点相对等的抽象概念。单个事件点没有持续的概念。与此不同的是,间隔时间表示小规模的线性时间域,例如几天、几个月或几年。在这种情况下,数据元素被定义为一个持续段,由两个时间点分隔,时间点和时间间隔都被称为时间基元。
顺序时间、分支时间和多角度时间,顺序时间域考虑那些按先后发生的事情。对于分支时间、多股时间分支展开,这有利于描述和比较有选择性的方案。这种类型的时间支持做出只有一个选择发生的决策过程。
1.1 线性和周期时间可视化
螺旋图,径向分布。
1.2 日历时间可视化
时间属性可以和人类日历对应,并分为年、月、周、日、小时等多个等级。因此,采用日历表达时间属性,和我们识别时间习惯符合。
1.3 分支和多角度时间可视化
类似于叙事型小说,时变型数据中蕴涵的信息存在分支结构,对同一个事件也可能存在多个角度的刻画。按照时间组织结构,这类可视化可分为线性、流状、树状、图状等类型。
1.4 时间属性的动态可视化
动态可视化有助于普通用户以可视化的形式了解整个事件过程。例如,GapMinder软件用动态可视化展示纽约时报的可视化工作室制作了一个动画,生动地阐述了从飞机起飞到飞机降落的全过程。
2 多变量时变型数据可视化
多变量时变数据是实际应用中常见的数据集。由于存在多个变量,可视化需要兼顾数据本身属性和数据集的顺序性,结合数据分析的方法展现和挖掘顺序型数据的规律。而想大尺度数据,首要任务是对数据进行抽象和重构,以便刻画复杂有序数据集的内蕴特征,生成紧凑的概述图像,方便索引好搜索,进而允许用户在交互分析中添加其他细节。即数据抽象、数据聚类和特征分析。
数据抽象指通过数据降维、特征选取和数据简化等方法,构建增强关键特征而抑制不相关细节的表达,获得有序数据流的时间相关或无关的内蕴量或隐含的特征模式。
聚类指将数据集划分为多个具有某种相似性的子集的操作。
特征分析包括特征抽取、语义分析等操作。
2.1 基于线表示的可视化
高维抽象的时变非空间数据通常蕴含宏观的、结构性的、随时间变化的规律。将时变序列中的每个数据采样点连接,原时变序列组成一条在高维空间的线,在低维空间可视化这条线可揭示高维空间的时间序列演化趋势。
高维曲线采样,采样的频率由用户交互指定。
将采样后的高维曲线分段,便于刻画每段曲线的特征,小段之间可以重叠。
用主元分析法将高维曲线投影到二维空间,显示和研究曲线特性。
2.2 基于图结构的可视化
基于事件的时变型或顺序型数据可视化的核心是事件演化的组织。用户根据领域需求和任务描述关注点,并基于此从数据中找到与用户关注点实际匹配的事件,对事件分类获得不同类型;继而,根据事件类型的特征描述,从输入有序数据中检测事件,得到事件实例,最后,通过可视化方法将检测到的事件整合到可视化表达中。
在可视化中,可采用树、图等非线性结构表述事件结构的非线性。
2.3 时间序列数据的可视化交互
直接可视化大规模的时变型数据难以呈现其全部细节,因此需要设计合适的的交互方法表现重要的区域。代表性方法有概览加上下文、层次细节等。
常用的一种交互手段是从时变型数据集中查询特定的时间序列,以便交互地发现特征和趋势。