近日,著名数学家、中国科学院院士、北京大数据研究院院长鄂维南教授,带来“信息化、大数据、智能化”的主题报告。报告从大数据和人工智能的发展入手,探讨大数据与各行业和领域的深度融合,以及大数据的技术创新和产业发展之道。鄂院士指出,“工业化的核心是出现了‘会劳动的机器’,而智能化的核心将是创造出‘会学习的机器’。这将对很多领域带来彻底的改变。下一阶段人类生产力显著提高最主要的机会就在于智能化。”
一、引言
鄂院士首先分享了同时期创立的雅虎和谷歌两家科技公司的发展路径。雅虎公司于1995年成立,1996年4月上市。它是早期互联网游戏规则(开放、免费和盈利)的制定者。2016年7月,雅虎被Verizon以48亿美元收购。而早在2008年,微软曾出价448亿美元收购雅虎。谷歌公司成立于1998年,到2018年市值约为7820亿美元。
为什么这两家公司有着截然不同的发展命运?其主要原因在于两家公司对互联网的理解不一样,继而采取了不同的业务模式。雅虎对互联网的理解是“图书馆模式”,因此采取了查询目录的方式,主要的业务模式是给互联网做索引。
而谷歌则采用了搜索模式,解决了排序算法问题(PageRank)。此外,虽然两家公司都主要依靠广告来盈利,但其商业模式却完全不同。雅虎采用的是传统的广告位模式,而谷歌则创新性地发明了搜索广告。传统的广告主要采用的是基于规则的方法。而搜索广告则主要基于大数据用机器学习算法来做“精准” 匹配。
基于规则的方法和大数据方法有什么不同?基于规则的方法主要依靠人的经验,也即依靠“拍脑袋”。而大数据和AI方法则更加精准,使整个社会的运转效率得到显著提高。
随后,鄂院士用金融领域的信用评分作为例子做了形象的说明。早期的金融评分办法主要依靠业务专家的经验来制定基于规则的评分卡,而且采取的是人工审批的办法,不仅效率低,而且道德风险高。
从20世纪60年代开始,在美国开始使用基于大数据的信用评分系统。例如FICO的信用分主要依靠机器学习模型,基于个人信贷记录数据来评估坏账概率。这种大数据的评分方法显著提升了效率。如今,基于大数据的FICO信用分已经成为美国金融行业的基础设施,以及美国政府制定法律法规的标准之一。例如,美国联邦存款保险公司将FICO信用分低于620分的借款人认定为次贷借款人。
二、 大数据时代的基本概念
在大数据时代的基础概念部分,鄂院士首先分享了一张公元元年到2000年间西欧和中国的人均GDP产值的变化图。可以看到,人类在相当长的时间内(接近 2000 年)生产效率并没有得到显著的提升。近代的工业化第一次显著地提高了人类的生产效率。而中国的工业化比西欧晚了约 200 年。正是由于这落后的 200 年使得中国在这一阶段长期处于被动挨打的局面。
由此可见,真正推动人类进步的是技术、是生产效率的提高。鄂院士进一步指出,智能化是当前可预见的人类下一阶段生产效率显著提升的主要推动力。工业化的核心是生产出了 “会劳动的机器”(以瓦特发明蒸汽机为主要标志),大幅提高了劳动效率,将人类从繁重的体力劳动中解放出来。而智能化的核心则是创造出“会学习的机器”。例如AlphaGo能够通过自我学习掌握下围棋的本领,成为围棋冠军。
那么究竟什么是智能化?要理解智能化,我们首先要理解什么是信息化和大数据。从数据的角度看,信息化主要是产生和整合数据, 例如移动通信系统、互联网、云服务平台和各种类型的信息化系统。大数据可以认为是智能化的初级阶段,它能够帮助我们把对经验的挖掘和利用做到极致。大数据与传统的统计学和数据分析的主要不同是 我们面临了文本、图像和视频等新的非结构化数据资源,出现了新的数据处理和分析能力(模型、计算能力和分布式系统等),以及出现了很多新的广泛的应用场景。
以围棋为例,信息化主要是建立棋谱的信息化系统,大数据则是在已有棋谱的基础上模仿学习,而智能化是通过自己跟自己下棋(模 拟),不断学习(自主学习)。作为智能化的典型例子,AlphaGo背后的原理和模型(数学模型是马尔科夫决策过程)可广泛应用于其他智能决策问题,例如疾病治疗方案、领导的决策、智能机器人和投资等。
智能化可以理解成“数据+模拟+学习”。这其中数据可以是历史积累,也可以是学习过程中自动生成。例如在AlphaGo的进化版本AlphaZero中,主要通过对下棋的“模拟”来生成数据。智能化的核心是创造“会学习的机器”。如果说大数据主要是在学习过去,智能化则主要是在模拟未来。可见,提供一个模拟平台是智能化的关键。当前大部分模拟平台的框架则都是基于动态博弈论。
为了帮助大家更好地理解智能化,鄂院士列举了医院、投资和政府治理三个案例。
在医院的例子中,信息化的主要工作是构建电子病历,大数据重点在依据过去的经验和案例来优化决策,智能化则需要模拟病人对不同治疗方案的反应来选择最优的治疗方案。
在投资领域,信息化主要是对已有信息的收集和整理(例如Bloomberg和万德的工作),大数据主要是根据已有的信息决定投资方案,智能化则需要模拟市场对各种投资方案的反应来选择最佳方案。
在政府治理的例子中,信息化的重点是搭建信息化平台进行数据汇聚、仪表盘展示和实现便民工程(“最多跑一次”等),大数据重点在根据过去的经验来优化政府的决策,而智能化则要模拟社会对政府不同决策的反应来选择最优的政策组合。
三、大数据时代的软基础设施
鄂院士从大数据时代软基础设施的变革入手,指出大数据时代彻底改变了科研环境,将以往依靠图书馆、电子显微镜等基础设施的科研环境,转变以新型软性科研环境。这类新型科研环境的主要目标是降低科研门槛,让科研人员将更多精力投入到创造性的工作中。
原子模拟是化学、材料、生物等学科的主要理论工具,有希望成为新材料设计和药物设计的有效工具。原子模拟平台自然成为化学、材料和生物等学科的基础设施。原子和原子之间的相互作用满足牛顿方程。因此原子模拟平台的关键在于怎样设计相互作用力。量子力学基本原理,只能模拟几百个原子。传统的办法主要依靠经验公式,其本质还是“猜和反复猜”的方法。
随后,鄂院士介绍了其研究团队在2018年8月27日北京大数据研究院成立三周年大会上发布的Open-Atom开源原子模拟平台。Open-Atom开源平台采用数据积累和机器学习的方法,能够自动学习原子相互作用力的经验公式。在多种分子和材料的实验中取得了非常准确的结果。Open-Atom对科研人员的科研模式将会产生变革性的影响。类似于Open-Atom的平台将成为很多领域的软基础设施,例如经济学、社会学、语言学和地理学,并将彻底改变科研环境。
鄂院士强调基础设施不能是黑盒子。尤其在社会或政府领域,必须考虑稳定性和可解释性等多方面的因素。以信用风险为例,Zest Finance尝试利用个人财务状况和社交网站使用量等上千个数据源来评估违约风险,但并没有取代FICO信用分成为金融行业的基础设施。其主要原因在于FICO信用分是金融行业的“基础设施”,它不能是黑盒子。
四、 结语
大数据时代的带来将会颠覆社会发展的很多方面。大数据时代的核心竞争力依然是人才,而大数据人才的核心需求是创新环境。对于企业来说,要对人才和创新环境给予足够的重视。只有这样才能在竞争中保持优势,提前进入智能化时代。