一、开普勒三大定律
开普勒定律是德国天文学家开普勒提出的关于行星运动的三大定律。这三大定律又分别称为椭圆定律、面积定律和调和定律,内容如下:
- 椭圆定律:所有行星绕太阳的轨道都是椭圆,太阳在椭圆的一个焦点上。
- 面积定律:行星和太阳的连线在相等的时间间隔内扫过相等的面积。
- 调和定律:行星绕太阳一周的恒星时间()的平方与它们轨道长半轴()的立方成正比,即
二、数据从哪里来?第谷:观测与数据收集
第谷(Tycho Brahe,1546-1601)是丹麦天文学家和占星学家。他在天文望远镜发明之前,对于星象的观测精度极高,甚至接近了肉眼分辨率的极限。开普勒能够发现行星三大定律,得益于第谷的数据。
第谷(Tycho Brahe,1546-1601)
2.1 一个奇怪的天文学家
第谷在天文学历史上绝对算得上一大奇人。他出生于丹麦贵族,在出生前父母许诺将其送给财产富可敌国的叔叔。第谷出生后父母又反悔了。他叔叔不高兴了,在第谷两岁时强行将其带走养大。他13岁上大学学习法律,却爱上了天文学。这里我再介绍两个广为流传的故事。
一个是关于他的鼻子。1565年,19岁的第谷因一个数学公式与同学以剑决斗,结果失去了鼻子的大部分,后来就一直装着金属制作的假鼻子。所幸其从事的天文学研究不怎么需要用到鼻子。
另一个则是他的死因。据说他在参加一位男爵举办的宴会上,喝了很多很多酒。想上厕所却因为觉得在主人之前离开餐桌是很不礼貌的,选择一直憋着导致膀胱感染,最后因此丧命。
2.2 精确的数据观测
第谷是如何获得精确的观测数据的?首先,雄厚的财力和人力支持非常重要。1576年,丹麦国王为了将这位卓越的天文学家留在丹麦,将汶岛赐予第谷,还耗资一吨多黄金为他建造了一座天文台“天之城堡”。这也是世界上最早的大型天文台。
汶岛“天之城堡”天文台
后来,因为空间不够,第谷在附近又建造了一座天文台,称为“星之城堡”。
“星之城堡”天文台
在第谷的天文台上,安装了很多他发明的大型天文观测仪器。其中最重要的有三类:大型浑仪、象限仪和纪限仪。大型浑仪用于测量星体的坐标。象限仪的刻度环是圆周的四分之一,用来测得太阳的地平高度。纪限仪(也称为六分仪)可以自由转动,用于测量任意两个星体之间的角距。
大型浑仪、象限仪和纪限仪
2.3 第谷的数据
第谷毕生精力观测记录了数百多颗恒星几十年间每个夜晚的数据。这里,我们仅仅以他对火星偏角的记录数据来感受下他观测的精确性。
1652年到1600年,第谷的火星轨道数据(偏角)观测数据如下图所示。
第谷火星观测数据截图
下载第谷火星数据Excel文件请在本公众号发送关键词“火星数据”。
其中对于火星偏角数据(declination),有人进行了可视化,如下图中的空心圆点所示。图中粉红线是采用现代方法计算出的火星偏角。
第谷观测火星轨道数据可视化
从图中我们可以直观地感受到第谷观测数据的精确性。虽然第谷获得了大量的一手天文观测数据,然而他并没有能够很好地挖掘出数据中的价值。在这些珍贵的数据基础上完成了出色工作的,是他的研究助手开普勒。
三、如何找出规律?开普勒:分析数据产生价值
开普勒(Johannes Kepler,1571-1630)是德国杰出的天文学家、物理学家和数学家。开普勒的三大定律是根据第谷留给他的观察数据总结出来的。
开普勒(Johannes Kepler,1571-1630)
1588年,丹麦新国王上位后第谷失宠。随后他搬到了布拉格。从现在的角度看,这是一个很重要的历史转折点。因为这最终使得开普勒能够接触到第谷的数据,最终发现了行星运行三大定律。第谷搬到布拉格后,在王宫内廷任职,他向开普勒发出了邀请。开普勒欣然接受,于1600年举家搬到布拉格,任第谷的研究助手。
这里简单提一下,开普勒取得了卓越的成就,但是他的命运却是坎坷的。他17岁时父亲去世。17世纪的欧洲掀起了震惊世界的“猎杀女巫”的热潮,开普勒的母亲被指控为女巫。开普勒辗转多年母亲辩护,所幸最终赢了官司。开普勒与他的两任妻子一共生了12个子女,大多却因为贫困而夭折。
1601年第谷死之前将他的观测数据赠送给了开普勒。经过近9年的数据分析,开普勒于1609年发表了第一和第二定律。这两个定律主要依据第谷观测火星位置所得资料中总结出来的。在对火星轨道数据研究过程中,开普勒曾说到:“通过对火星轨道的研究,我们必须要么从中找到天文学的秘密,要么永远对它们一无所知”。
:
By the study of the orbit of Mars, we must either arrive at the secrets of astronomy or forever remain in ignorance of them.
又经过10年左右的分析,1619年开普勒提出了第三定律。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。
太阳系八大行星绕太阳运动的数据
从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。
四、什么是大数据?
开普勒三大定律与大数据有什么关系?我认为三大定律的发现过程其实就是大数据分析的过程。关于大数据,很难有一个严格的统一的定义。不过,从开普勒三大定律的例子中,可以用一句简单直白的话来理解大数据:
分析和挖掘数据,从数据中找出规律,这些规律为我们所用,从而产生价值。
4.1 大数据分析的基本流程
我们也可以很直观地理解大数据的基本流程,包括数据采集、数据管理、数据分析和数据应用(价值)。
大数据分析的基本流程
例如在开普勒三大定律的例子中:
- 数据采集:第谷是借助天文台中的大型浑仪、象限仪和纪限仪等工具,利用肉眼观测和纪录的。
- 数据管理:原始的人工记录和存储方式。
- 数据分析:开普勒基于第谷的数据,利用数学等方法对数据进行分析,找出了数据中的规律(例如第三定律就是一条公式
- 数据应用(价值):开普勒三大定律对推动整个天文学的发展起到了关键的作用。
当然我们现在做大数据,条件已经发生了质的飞跃。比如数据采集,依靠的主要是各种物联网设备(例如各种传感器、视频采集设备等)。还可以通过编写爬虫程序去互联网上采集数据,例如百度和谷歌的搜索引擎就是这样采集互联网上的网页数据的。
现代的数据管理主要依靠计算机,包括数据库系统、NoSQL、分布式文件系统等。数据分析则主要依靠机器学习、深度学习和强化学习等来完成。比如说最近热门的AlphaGo,其核心的数据分析技术就是深度学习和强化学习。
通过数据分析之后,往往能够找出数据中的规律,这些规律通常可以表示为一个简单的数学公式:
其中 代表我们从数据中抽取的特征,他们是对于解决我们的问题,也即预测目标
有了这样一条数学公式,我们就可以用它去实际问题中进行应用,帮助我们的决策,从而产生价值。
举一个简单的例子,银行会收集客户的信息,例如信用卡信息、贷款信息、信用时长和收入情况等,这些可以看作是 。银行还会记录很多客户历史信息,知道哪些客户违约过,哪些客户从来没有违约。是否违约我们可以看作是
我们现在做大数据分析,最主要的方式就是利用历史积累的大量已知的 这样的数据,去找出他们的映射函数 。一旦找到了这样的函数 ,对于新的客户,我们只要收集了他的 ,就可以输入到这个函数,函数就能给出输出。银行也就能够对这个客户是否会违约进行预测。
4.2 数据分析的重要性
数据分析是大数据的核心,因为它处理的是直接从数据中挖掘出规律。做这些事情的目前主要包括机器学习、深度学习和强化学习。
第谷这位天文学家几十年如一日坚持天文观测,所以手里就积累了大量的天文资料,天文的数据,第谷就想把这些资料好好利用一下。但是需要数学特别好才行,可是第谷知道自己的数学能力还不是太够,所以就希望能够找到一个很擅长数学的助手帮助自己。所以他一看到开普勒的研究成果,就觉得开普勒数学水平真厉害。
现在我们做大数据,数学好也非常重要。大部分大数据的算法和模型都需要非常坚实的微积分、概率、线性代数和统计学知识。前面我们提到数据分析主要是寻找一个函数 ,而寻找这个函数本质上就是求解一个最优化问题。最优化的目标是函数在已知数据中的拟合误差。
4.3 数据质量的重要性
可以想象,如果第谷的数据一点都不准确,噪音太大,开普勒也是很难从中找出数据的规律的。第谷对天文学的贡献是不可磨灭的,他在现代望远镜发明之前就做出如此高精度的观测,实在是让同时代的人望尘莫及。
在大数据分析中也是如此,数据的质量直接影响了数据分析的结果。所以在实际的应用中在开始分析数据前一定要关注数据的质量问题,必要时对数据进行一些额外的处理。
4.4 团队协作的重要性
第谷擅长观测,而开普勒数学好,善于分析数据,两人的协作产生了
布拉格开普勒大街第谷和开普勒的雕像
在一个大数据团队中,往往有不同的角色,例如研发工程师、数据分析师、业务专家等。团队的成员只有相互融合、团结协作,才能在深刻理解业务数据的基础上,充分发挥算法和模型的优势,从数据中找到可用的规律,最后由研发工程师将其开发成合适的产品,最终产生最大化的价值。
4.5 尺度的重要性
著名物理学家张首晟(1963-2018)曾经在一次演讲中提到,“第谷之所以没有收获,一个原因在于他分析的尺度是每天。而开普勒将分析的尺度拉长到年,很快便发现了隐藏在数据中的规律。”
张首晟(1963-2018)
“所以当我们拥有海量数据的时候,我们不是让自己沉浸其中,而是要独具慧眼,在繁杂的数据中,发现内在的规律,才能成就自己的价值。”
五、大数据分析的不足?
开普勒虽然总结出三大定律,但并不理解其内涵。牛顿则不然,牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽略行星之间的相互作用,那么各行星和太阳之间就构成了一个两体问题。我们很容易求出相应的解,并由此推导出开普勒的三大定律。
牛顿(Isaac Newton,1643-1727)
牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且知其所以然。所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。
这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们提出了量子力学。原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决。量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。
六、开普勒模式:大数据的基本范式
牛顿发现了基本原理,这应该说是很成功的,但事情远非这么简单。早在1928年,当英国理论物理学家狄拉克提出著名的狄拉克方程时就指出,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。
狄拉克(1902-1984)
所以如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效。
而基于数据的开普勒模式则是行之有效的。开普勒模式最成功的例子是生物信息学和人类基因组工程。正是因为它们的成功,材料基因组工程等类似的项目也被提上了议事日程。同样,天体信息学、计算社会学等等也成了热门学科。
图像处理是另外一个典型的例子。图像处理是否成功是由人的视觉系统决定的。所以要从根本上解决图像处理的问题,就需要从理解人的视觉系统着手,并了解不同质量的图像,对人的视觉系统产生什么样的影响。这样的理解当然很深刻,而且也许是我们最终所需要的。但从目前来看,它过于困难也过于复杂。解决很多实际问题时并不会真正使用它,而是使用一些更为简单的数学模型。
本文旨在让大家通过一个简单的例子来理解大数据。五、六部分主要摘自《数据科学导引》。
参考资料
[1]
开普勒之长和第谷之短——科学史上的大数据故事: http://www.360doc.com/content/16/1219/21/1545174_616115137.shtml
[2]
潇洒一生,却真被尿给憋死的天文学家第谷: https://new.qq.com/omn/20190928/20190928A00JY600.html
[3]
欧高炎、朱占星、董彬、鄂维南,《数据科学导引》,高等教育出版社: https://item.jd.com/12257841.html
[4]
[5]
第谷的数据怎么测出来的?: http://mini.eastday.com/a/181219033335655-2.html
[6]
天文学家的女巫案: http://book.ifeng.com/a/20170704/78419_0.shtml
[7]
可视化开普勒的数据: http://www.pafko.com/tycho/