先说下个人的经历,小弟毕业于一家普通的全日制本科,计算机专业,一直对数据有一种迷之好奇。包括我的毕业论文,我的选题是大数据与数据挖掘相关,导师跟我说你的研究选题有点虚,不容易过。但是我还是坚持自己的课题,题目就是《基于Hadoop的数据挖掘技术》,通过挖掘某地的政府电话咨询热线文本,最后为当地政府提供了一些民生问题建议。最后我还差点得了系的优秀毕业论文。然后我从此对这样一个问题产生了思考:究竟数据是怎样影响我们的生活和决策?
一个小游戏
记得在上世纪六七十年代有个电视节目很火,叫找山羊,具体玩法就是有三扇门,期中一扇门后面藏着一部汽车和两只山羊,此时你随机选一个门,如果你选择一扇门A记下来。然后主持人从剩下的B和C中打开一扇门,发现是山羊,此时你选择换还是不换?
此时你会选择换门吗?或许你会想,这不是概率一样吗?三扇门,随机选一个,无论怎么选都是1/3的概率。然后主持人打开了一个空门,剩下不就是1/2的机会吗?此时你中奖的概率就是1/2。
但是如果我告诉你,这个节目的主持人其实是知道哪个门是有汽车了,那情况就不同了。只要此时你换一道门,你的获胜概率就是2/3,为什么。看下图。
其实可以列举一下,除非你第一次从三个门中选择中选中了汽车,否则,只需要按照这个策略都会选中汽车。大家可以试下列举其他情况。所以通过获取一个小小的信息,我们就可以通过选择,来大大地提高事情往自己预想的方向发生。
数据的商业应用
上面看起来就是一个小游戏,其实我觉得就是当今互联网信息技术应用的一个缩影。事实上,用户就是上面的玩家,门后的汽车就是用户希望得到的商品,它可以是各种各种各样的商品或者文章,而一般来说我们这些互联网从业者就扮演了裁判的角色,需要知道这个门后面的是什么。有些项目用的技术天花乱坠,但是卖不出什么钱,有些项目只是普普通通,但是却价值很高,我想用户对其中信息的”烹饪“很重要吧。而所谓的数据,只是背负着信息的载体,而不能提取到信息的数据,也是磁盘上的几道划痕而已。
所以我们来探讨下怎样从数据中获取信息为用户进行辅助决策,而辅助决策的方式,各种各种,但是个人觉得帮用户做排除法是最好的,因为就像上面的游戏那样我们只需要把错误答案排除掉,客户只需要根据自己情况在优秀里面选最优的体验最好。
其实谷歌在推荐系统上提供了一系列的技术方案和框架。总的来说就是从两个方面来从数据中提取信息,第一个就是从历史数据来提取业务经验,第二种就是根据用户实时操作数据的行为模式来摸索用户习惯。这两部份的数据各有特点,像历史的交易这些积累较长时间,但是可参考性比较高。而像一些实时的浏览数据虽然数据量大但是存在很多无效数据,但是却实时体现了用户的当下的喜好变化,时间上具有参考性。
技术是为了数据服务的,随着机器性能的提高和更加便宜,出现了大数据时代和人工智能时代,原本一个巨大的计算任务可以拆分成多个分散到不同的机器上,这样运算成本降低,所以出现了大数据时代和人工智能时代。下面从宏观的角度看待技术的发展,是怎样的一种需求,产生了怎样的一种技术。