人人都在谈数据驱动,如数据化管理、数据驱动的运营、或者数据驱动的测试等,关于数据驱动的应用的讨论很多,但关于数据驱动基本原理的讨论较少,本文试图追根溯源,谈一谈数据驱动的基本原理:数据如何驱动?能够驱动什么?

 

谈原理之前,先说一个我个人的经历。


有一次我老婆从首都机场T3航站楼回家,我帮她叫了一个滴滴,后来我看到账单显示是80多元,路程是20多公里,而我家离机场不过7-8公里,一般滴滴专车的费用是40多元,显然司机是绕路了,滴滴的APP上同时也显示了一条信息,大致意思是:车费异常,是否需要申诉?


我点击了“需要申诉”,滴滴APP立刻弹出一个界面,大意是:您有很好的信誉记录,接受您的申诉,此次收费按42元计算(具体数字忘了,反正是按正常的计费水平)。


当时觉得,哇,滴滴这个功能太牛了,给客户的体验太好了!


试想一下,在滴滴之前打出租车,类似状况是完全不同的场景:


1,  你可能根本不知道司机绕路了

2,  你事后发现司机绕路了,但你下车时忘了要票据,无法举证

3,  你当时就发现司机绕路了,跟司机要了票据,但票据上只有里程和时间,而没有出发地点、目的地和行车路线,你无法证明司机绕了路


而滴滴则彻底改变了这一状况:主动提醒你是否需要投诉,你提出申诉后,立刻就做出令你满意的处理!


滴滴的投诉处理如此贴心而智能,它是怎么做到的呢?如果我们对数据,以及数据与信息、知识和人工智能的关系有一些基本的了解,就能理解滴滴这种投诉处理的运作机制。


数据金字塔可以帮助我们理解数据信息知识人工智能的关系。


wKioL1mmGwiDMyZPAABtvzSoKaU189.png




数据本身是没有意义的如果它不能转化为信息和知识的话;但如果没有数据,或者数据匮乏,信息和知识的产生也就成了无水之源。


  • 如果你经历了某件事,把它记录下来。

  • 如果你记录了某件事,把它上传。

  • 如果你上传了某件事,分享它。

这意味着每个人都成为数据的采集、处理和分享者。


在上述滴滴的例子里,滴滴显然做到了这一点:乘客的所有用车经历都由系统做了记录、上传和分享。


企业在数据层面存在的两个问题


1. 数据存在缺失:

比如我所服务的一家互联网公司,他们就没有关于客户推荐的数据(有多少客户向他人推荐了产品),这是一个很小的例子,但数据缺失是企业普遍存在的现象,原因在于目前企业所拥有的数据主要来自于各业务系统, 如 CRM 和 ERP 等,而业务系统是为完成特定业务而设计的,数据只是副产品而已,必然导致决策所需的一些数据是缺失的;


2. 数据采集的无效性:

传统企业很重视数据的采集,例如他们会要求门店的员工将接待客户的相关信息记录下来,但所记录的数据质量不高,用途极有限,这里面原因有二:

一是采用纸笔或者Excel来记录,过程比较麻烦

二是他们只是单纯的数据采集、处理和分享,但数据的应用却基本和他们无关,员工采集数据只是应付了事,缺乏内在的动力。


互联网公司也同样存在数据采集无效的情况,如一家互联网公司通过QQ和潜在客户沟通,他们所了解到的客户需求信息记录都在QQ里,如果要想过一段时间再跟进某个客户,往往很难找到这个客户的相关信息,QQ里记录的这些数据实际上无法为业务所用。


要解决企业在数据层的这两个问题,需要企业基于经营决策需要,对数据进行统一的规划:需要哪些数据?如何采集?以什么方式记录?


比如上面所说的互联网公司,如果一开始就有关于潜在客户开发需要哪些数据支持的规划,就有可能设计出一个结构化的需求沟通工具,既可以有效记录客户的需求信息,又利于后期的数据分析。


如果没有对数据的统一规划,企业的数据将很可能会处于“ROT垃圾状态”,即冗余(Redundant)、过时无用 (Obsolete)和琐碎(Trivial)。


信息:是被组织起来的数据,是为了特定目的对数据进行处理和建立内在关联,从而让数据具有意义,它可以回答谁(who)、什么(what)、哪里(where)、什么时候(when)的问题,对于企业经营而言,信息的作用在于过程管理和绩效评估。


在上述例子里,滴滴的系统将时间、出发地、目的地、行驶路线、会员等资料整合起来,就形成了一条完整的乘客乘车信息,从而实现了对司机服务过程的监控和管理。


将数据转化为信息的阶段,企业存在两个问题: 


1. 缺乏有效的数据分析工具:

少数大型企业(如银行和电信公司)一般拥有BI系统可以实现将不同源的数据进行整合、并支持在线分析处理和报表,但很多企业还是依靠Excel进行分析和报表,比如一家拥有上百家门店的中型珠宝公司,老板很重视数据,强调用数据说话,每次开经营分析会,大区经理就要熬夜用Excel来做各种分析报表,效率很低,也很让区域经理窝火:我是带兵打仗的,却需要我做这么多案头工作!


2. 缺乏将数据转化为信息的分析能力:

有一定规模的企业现在都拥有大量的数据,例如我们从一家互联网公司各业务系统导出来的数据,就达数千万行之多,如何从这些数据里看到数据之间的联系,将他们组织成有意义的信息,无疑是一个挑战,一般的企业不具备既了解业务又会数据分析的人才。


这导致企业所拥有的数据里,只有很少一部分得到了有效处理,变成了有价值的信息,而大部分数据停留在其原始状态:只是一个无意义的客观存在。


知识:对信息的总结和提炼。是基于信息之间的联系,总结出来的规律和方法论,主要用于回答为什么(why)和怎么做(how)的问题,在企业里的应用包括问题诊断、预测和最佳做法。


举个例子,北京夏季高温多雨,8月份温度在20-36度之间,平均降水天数12天,这是根据多年资料总结出来的北京气候的规律,这个知识有三个作用:

1,  问题诊断(回答为什么),如这个知识解释了北京今年8月份为什么下了那么多雨

2,  预测:明年8月份北京很可能温度还在20-36度之间,平均降水天数12天

3,  最佳做法:8月份来北京旅游穿短袖衣服即可,体弱者要带长袖,最好带伞。


滴滴的系统里应该有一个关于如何处理司机绕路问题的知识库,否则就不会这么智能化地完成投诉处理了。


大多数企业在知识层面做得较差,一些企业虽然建立了知识管理系统,但并没有一个有效的知识生成、应用和更新机制;更多的企业没有知识管理的体系,这些企业存在大量隐性知识,比如企业里总有一些销售高手,他们凭直觉或经验能够取得突出的销售业绩,他们也许说不清楚,但他们知道怎么筛选潜在客户、知道何时跟进、知道何时应该促成,这就是所谓“隐性知识”,隐性知识显得如此神秘,导致很多管理者认为销售高手是天生的,是无法复制的。


有效的数据驱动机制将能实现企业里隐性知识显性化,显性知识结构化,从而让企业里的每个人可以随时随地获取相关知识进行业务操作。


以销售为例,克隆一个销售高手或许不可能,但从数据的角度来看,如果销售人员的销售行为资料都能够得以完整记录,并得到有效整理和总结,就可以提炼出销售的最佳做法,从而让每个销售人员都可以在销售中运用这些做法。(对这个议题感兴趣的可以看看Jenny Dearborn所著《销售的革命》,它以讲故事的方式阐述了数据如何帮助销售管理者进行问题诊断、预测以及销售最佳做法总结)


人工智能:机器对信息和知识的自主应用

人工智能是系统基于数据、信息和知识,形成类似于人脑的思维能力(包括学习、推理、决策等)。

在信息和知识层面,数据都是提供决策支持作用,而到了人工智能阶段,则是系统模仿人类应用信息和知识进行自主决策了。


我所经历的滴滴司机绕路的例子,就是滴滴的系统根据我的乘车信息,以及滴滴系统里的知识库,由系统而非滴滴员工完成了一个投诉处理过程。


实际上,这样的应用早已很普遍,亚马逊著名的推荐机制也是类似的,系统代替了员工,不厌其烦地向顾客推荐他可能感兴趣的商品。


不少人认为,数据金字塔的顶端是智慧而非人工智能,对此我有不同看法:智慧不是建立在知识基础上的,知识不是智慧的必要条件,很多高僧很有智慧,但并没有很多的知识,比如六祖慧能从小不识字,却能闻经解义。


原因在于,知识来源于经验(数据),来源于人类对这个三维世界的观察,而智慧可以无需通过经验,有可能通过与高维度建立连接而获得(北大的刘丰教授有一个演讲,名字叫《开启你的高维智慧》,大家可以参考)


而人工智能则一定要建立在数据基础之上,没有数据,无论是专家算法还是深度学习都无用武之地,有了数据,计算机才有可能通过专家算法或深度学习形成知识,进而具备类似人类头脑的思维能力。


从这个意义上来说,人工智能永远无法超越人类的智慧。由此我们也可以看到数据的局限性:它可以将人类的理性发挥到极致,但它只会模仿却无法创造,它无法替代人类的感性和直觉,而正是这份感性和直觉,让生命多了一些有趣和柔软,真正的创造也由此发生!