大数据可视化必须避免的三种常见错误
最近一段时间以来,围绕大数据可视化所展开的讨论可谓层出不穷——其话题之丰富、交锋之激烈甚至不亚于大数据技术本身。目前业界普遍认为可视化是最优秀的(或者说是惟一一种)数据内容表达方式,甚至如果不对数据进行可视化处理,我们将错失大量宝贵信息。
可视化是获取并分享观点的绝佳途径,但很多大数据团队却没能选对正确的方式。可视化怎么会出现问题?原因很简单,因为存在多种可能破坏数据可视化效果的实施方式。下面我们就一同来探讨最为常见的三种错误实践。
错误一:显示所有数据
尽管我们在学校里被告知表达意见应当尽全面,但事实上大多数人根本不在乎我们实际做过多少工作,他们不关心我们每天处理了多少数据或者Hadoop集群的规模到底有多大。客户与内部用户需要的是具体且紧紧围绕核心问题的答案,而且最好能让他们尽早得到这些答案。我们的答案与他们的需求关联越是紧密,他们在寻找答案方面所投入的精力也就越少。请千万记住,页面上显示的无关数据越多、找出正确结论与相关信息就变得越困难;无论出于什么样的理由,无关数据就是分散注意力、浪费时间资源的干扰因素。
这类干扰因素在信息面板当中显得特别普遍,因为这类面板的指导理念往往是“显示所有状态”。但事实上其中大部分状态都是正常、乏味、甚至不值一提的,因此把这些没问题的内容显示出来很可能导致相关人员因为视觉疲劳而忽略了真正异常的状况。
出色的信息面板方案应该只显示那些值得关注或者重要性较高的内容。优先显示重要信息、而后是意外信息、接下来是可操作性信息,其它内容则都应该尽可能淡化。深入挖掘数据信息当然也很重要,不过信息面板并不是处理这项工作的舞台。对于信息挖掘工作,报告等包含广泛非可操作性数据的表达载体更为适合。
错误二:信息关联性不好、复杂性过高
这种错误的危险性绝不逊于第一条。显示全部信息子集当然不错,但前提是数据的关联性必须得到保证。举例来说,如果大家关注销售情况,那么同时也可能希望了解各个地区的销售走势或者其随时间推移而发生的变化。首先考虑到用户对数据的使用方式,而后才能作出正确决策。
将所有信息都塞进同一套图表当中很可能不足以概括整体情况,相比之下制作多份紧密关联的图表才是最理想的处理方式。一般来说,多份简洁而清晰的图表在实际表现方面要优于单一且高度复杂的数据可视化成果。
错误三:糟糕的数据表现形式
即使我们在绘制图形时使用的数据完全正确,得到的结果也仍然无法保证有效。结合实际体验,大家会发现日常工作中很少见到某些奇特的图形设计——这是因为它们的效果并不好。在满足可视化需求方面,绝大部分优秀的案例都会相对保守地使用样形图、折线图、散点图以及饼状图(其中饼状图的制作难度更大一些)。
我们需要思考不同数据字段之间的核心关联,并想办法将这些字段铺设在坐标轴之上。接下来,按照类型进行分组,并以时间、幅度或者重要性为依据对数据加以排序。(如果这些排序方式都不合适,按照首字母或者拼音排序也是可行的。)另外,请务必用颜色来标记不同类别(而不要用大小);大家可以利用不同亮度或者色彩饱和程度来说明大小。再有,请使用标签及其它标记有选择地引导阅读者的注意力,同时又不至于扰乱正常查看。
良好的设计
思考与规划优先要规避上述错误,最好的办法就是首先专注于我们想要表达的核心目标。在考虑可视化方案的直观效果之前,请大家依次回答以下几个问题:
1. 我们需要采取哪些行动(或者我们关注什么样的重点)?
2. 我们需要传达怎样的决定(我们又将如何将其付诸实施)?
3. 我们需要提出怎样的问题?
4. 我们需要看到哪些数据?
5. 我们要选择什么样的最佳结构来准确提示数据内容之间的重要关系?
6. 我们需要突出显示哪些数据信息?
在大家回答了上述问题之后,就可以开始着手设计并利用正确的数据来实施理想的可视化方案了。当然,在处理过程中我们可能还需要作出各种调整。调整并不是坏事,我们可以利用迭代、测试、测试不同的实现方法而后再次迭代的方式来找到最佳选项。只有经过深思熟虑且坚持面向用户的设计方案才能打造出切实有效且更富效率的数据可视化成果。