我理解的这几个概念:

无线网络:无线传感器网络,通过传感器采集物理信息,将物理信息量化为数字信息,通过无线网络传递给互联网。

大数据:是一个相对的概念。对于需要分析的对象,获取足够多的信息。数据多是表象,但是不一定就是多,数据丰富是本质。只要对于我们分析的对象,获取到了足够的丰富信息,就是大数据。

1、对于智能车比赛,就是获取了车的速度,位置,电压,赛道等信息。

2、对于智能机器人,就要多很多,机器人的姿势(两条腿,两条胳膊,身体,头,脚,手,各个关节等),外界的环境情况,如果涉及交互就要采集外界的信息(语音,图像等)。

3、对于谷歌的流感预测,则是使用了50多亿的数据,分析了4亿多数学模型,得到了一个几乎准确的流感传播模型。

4、对于亚马逊的图书推荐,则是收集了我们的浏览与购买信息,根据这些给我们推荐相关的书籍。

5、对于淘宝的年度账单,得出的一些结论,是根据大量的购买信息分析出来的。

6、还有Farecast机票预测,沃尔玛的飓风与甜点预测等,这些几乎都是海量数据进行的分析。

(这中间传感器的使用,方便了我们采集物理信息,实现数字化,进而实现数据化。数据化给我们提供了丰富的,可分析的信息。这中间信息将成为分析的关键。数据分析也从样本分析,越来越接近于全体分析)

智能制造:我理解的是指工业上,机器能够自主进行生产。如果机器要做到自主生产,这里边就要随时获取外界信息来调整自己的工作状态。随着,外界信息通过传感器,越来越容易数字化,数据化。机器通过这些数据化的外界信息,进行决策与运行。只有足够丰富的信息,机器才会做到合适的决策与执行相应的动作。这里边对于机器而言,丰富的数据化外界信息,就是大数据。我们是以自己的感官来取得信息,并根据所取得的信息来行动,那机器人又何尝不是呢(机器人的器官是传感器)?(注2)

因果关系:一件事情(原因)的发生,必然导致了另一件事件(结果)的发生。

相关关系:一件事件(事件A)的发生,可能导致另一件事件(事件B)的发生。

对于因果与相关是按自己的理解来解释的,与严谨的解释估计偏差很大。下文的因果与相关,都应用这个理解。

在这里,自己理解的因果关系是相关关系的一种特例,即完全相关。因果关系,导致了我们在分析问题时,简化了大脑的工作量。而相关,导致了我们分析问题时,要考虑很多可能导致问题的因素,会很费脑筋。由于人的特性,导致了希望简化脑力分析,而因果关系告诉我们,如果结果B发生了,一定是因为原因A的缘故。而不用去分析很多可能导致B发生的问题,这样能节省很多脑力活动。因果关系,是在数据少的时候,大脑分析跟不上的时候,一种折中的办法(这个在心理学上有这个解释,小孩子的辨别相似物体的能力,要高于成年人)。而现在计算机的处理速度,节省了我们大脑的活动,这样就不必使用近似的方法了,详细的分析成为可能。

现在我们的技术还主要在收集信息(无线传感网),对于信息的分析将要(或者正在)进入主要视野。谷歌翻译的准确度,建立在其强大的语料库上。当然算法也很重要,但是这里语料库大小起到的作用可能会超过算法。相当于在数据量小时的方法,在数据量很大时可能就不是很适用。就像牛顿力学三定律,超过了其适用范围,就不适用一样。

下边主要说因果与相关。

就像上边提到的,在数据量小的时候,更可能得出因果关系。先提出假设,根据我们观察到的样本,验证假设。如果没有验证假设,则假设失败。重新提出新的假设,再继续验证,这相当于是一个试错过程。即使是验证了的假设,由于观察的样本不是足够大,观察的可能没有包含反例。

当数据量大的时候,发现原来认为成立的因果关系,也出现了反证(对于光的解释历史,可能最能解释这个)。当然这也是相对大,相对于之前大了很多。绝对大做不到,因为有测量极限的存在。暂且以电路中的本底噪声来解释,电路中的信号如果小于电路的本底噪声可能就无法检测到信号的存在。我们的数据测量也一样,所以我们看到的数据是我们看到的那些。我们没有看到的肯定还有很多,但是我们没有看到。我们看到的,我们看到了;我们没有看到的,现在没有看到,以后可能会看到。就像以前我们没有看到细胞,当看到细胞的时候,以为细胞就是最小单元;当看到分子的时候,认为细胞就是最小单元;当看到原子的时候,认为原子就是最小单元;当又出现了夸克,夸克又成了最基本粒子。那么是不是还有什么我们没有观察到的呢?

于是原来的因果关系成了相关关系。在因果关系成立前,需要先给出很多前提,在这个前提下,因果关系是成立的。出了这个前提,可能就不成立了,只有在外界环境都满足的情况下,才可能成立。当前的所有(有些绝对,或者说几乎全部)科学定律,科学发现,都有成立的前提。出了这个前提,可能就不成立,当然也可能成立。引用一句: “我们大多数人都认为数学是一切科学中最最面对事实的科学,但它却提出了最为大量的可资想象的隐喻;人们无论是从智力的角度或是从审美的角度来判断数学,都不免要以这种隐喻的成就为依据”(注2)。

由此,对于很多事情,都是由其前提条件决定了因果关系。如果没有了这些前提条件,我们如何来依据因果来做决策?或许在现在的条件下,超过这些前提的概率很小。可以看做近似于因果关系(即几乎完全相关)。因果是相对的,相关是绝对的。就像静止是相对的,运动是绝对的。当然这样说可能也是正确的,或者说几乎是正确的。

在大数据时代,分析事件间的关系,相关可能更能说明问题。统计学会在以后会更普及,不论是物理学、心理学、电子通信还是其他,当那一方面的研究到达一定阶段的时候,统计学会逐渐成为理论基础。因为有时候,我们无法证明其中的因果关系。而找到相关关系确是相当容易。对于需要因果的地方,再去严格寻找因果,寻找因果成立的前提。这个时候,是先有数据,后有结论。从数据中找结论。而过去是,现有假设,再去找数据。而这里边,都会出现因为偏见造成的错误结论。我们都会设法找有利于我们自身的例证,而忽视对我们不利的例证。这是由我们的认知和心理的自我趋利决定的。

现在各种传感器,更便利于将各种物理世界信息数据化,以存储起来,进行分析与利用。当然这里不仅仅是指实际的物理世界,甚至包括我们的心理,我们的情绪,我们的社会关系,更甚于包括我们的思想。当大量的信息被数据化,是否在不久的将来真的会出现《黑客帝国》中那样的假想。有一个数据化的世界存在着。

在如此多的数据中寻找因果几乎是不可能的,这时候同样是因为我们本能的自我趋利,减少脑力或者其他资源的消耗,会将相关放在第一位,而忽略了因果。

在目前的观察范围内,可能是这样的:世界的本质是数据,数据的关系是相关。

参考的书籍:

1、《大数据时代》

2、《人有人的用处》

3、《暗时间》

4、《最佳可能的世界》

5、《超越时空》

6、《判断与决策》

 

后记:

发现以前记得一句话在《最佳可能的世界》是:

“结果的成立,都不如其成立的前提更有价值”(注4)。但是在核对的时候怎么都找不到了。所以放在这里。

关于这里写的是在自己的观察范围内的理解。可能有自己没有察觉到的地方。那样,可能就需要以后再去补充,或者改正。