作者:刘锋
2022年11月份以来,以ChatGPT为代表的大模型成为世界数字科技领域的新热点。在ChatGPT上线的2个月内,其月活用户已经突破1亿,在不到一年时间里全球的大模型数量已经超过百个,从全球已经发布的大模型分布来看,两国数量合计占全球总数的超 80%,据不完全统计,到2023年7月中国 10 亿参数规模以上的大模型已发布 79 个。
8月31日,国内首批八家大模型通过《生成式人工智能服务管理暂行办法》备案,包括百度、智谱、百川、字节、商汤、中科院(紫东太初)、MiniMax、上海人工智能实验室等8个企业/机构的大模型可正式上线面向公众提供服务。其中当天开放的文心一言等大模型。据百度官方平台数据显示,24小时内文心一言回答网友超3342万个问题。
一般而言,大模型(Large Language Models)指的是包含超大规模参数的神经网络模型。大模型通常能够学习到更细微的模式和规律,具有更强的泛化能力和表达能力。大模型代表了AI和深度学习在自然语言处理领域的最新进展。目前在机器翻译、语言理解、聊天机器人、图像识别,图像视频生成、语音识别、语音合成,推荐系统等等领域都获得了革命性的进步。
微软公司创始人比尔·盖茨公开表示,自1980年首次看到图形用户界面以来,以GPT为代表的大模型模型是他所见过的最具革命性的技术进步。对于大模型未来的产业发展趋势和面临的挑战究竟如何,我们将从三个方面进行探讨。
一.人类种群知识库从外化、索引化到智能化的三部曲
我们在《崛起的超级智能:互联网大脑如何影响科技未来》一书中提出,生物的竞争本质上是种群知识库的的竞争。在过去的几亿年里,恐龙因为灭绝导致种群知识库消失为0,鲨鱼一直保持在海洋中游荡,种群知识库没有发生大的变化,熊猫因为趋于灭绝从而种群知识库不断萎缩。
只有人类在近200万年里,在知识和智慧上不断扩展和加速,在最近数百年里随着蒸汽机、工业革命、核能的出现。人类种群知识库出现了巨大的增长。特别是互联网的诞生后,第一次将人类的种群知识库外化成一个基于网络的庞大知识库,通过万维网的发明进一步促使人类种群知识库急剧扩容。表现在科技领域就是21世纪大量新科技新概念不断涌现。
面对海量的互联网公共知识,如何索引就成了人类必须解决的重要课题,因此到20世纪90年代,搜索引擎出现了蓬勃发展,其中优秀和典型的代表分别是谷歌和百度。它们成长背后的推动力也是人类种群知识库发展的必然要求。
在互联网知识库被索引之后,如何智能化也就成为了一个重要议题。在过去的近30年里,以谷歌、百度为代表的搜索引擎公司加大了将互联网知识库进行智能化的步伐,人工智能的兴起也于此有密切的关系。在国内过去的近10年时间里,百度通过百度大脑、小度、自动驾驶等产品不断推动人工智能的产业化应用。
2022年OpenAI的Chatgpt成功引发了大模型的兴起,标志着互联网这个外化的人类种群知识库完成了从索引化到智能化的转变。但不能忘记的是,OpenAI Chatgpt的成功离不开谷歌提出的Transformer注意力机制模型,也离不开微软通过Bing搜索引擎提供的海量数据和巨大资金支持。在中国,2019年百度推出了文心大模型,并在2023年在国内率先推出了大模型消费级产品-文心一言,并与其搜索引擎做了深度结合,另一家中国搜索引擎公司奇虎360也在2023年推出了大模型产品360智脑,搜狗创始人王小川建立的百川智能成为中国首批通过审核的大模型之一,它们在各项评测中都取得了不俗的成果。
从搜索引擎的发展看,通过激烈的竞争,搜索引擎最终形成了若干个巨头公司为人类提供互联网海量数据的索引服务,同样我们认为作为搜索引擎的升级版,人类社会也不需要很多大模型提供同质的服务。包括搜索引擎、大数据、社交网络等领域拥有优质大数据、人工智能技术积累和广泛应用场景的巨头或创业公司,在大模型的产业竞争中将具有更强的竞争力,并在未来的竞争中脱颖而出一家或若干家为人类提供集中统一的智能服务。
二.行业垂直大模型建设思路:继续提升通用大模型智能水平
应该指出,当前,人类社会对大模型充满了热情,特别在中国,很多人希望大模型能够与金融、法律、工业、农业、电力、建筑等等行业领域结合,从而实现弯道超车,但我们必须考虑大模型的特点,需要在大模型的垂直化和行业化过程中保持谨慎。
大模型的成功并不仅仅是参数量大,而是用大规模预训练+微调的方式,对海量的跨领域知识进行学习时涌现出来新的能力,而且这些新的能力往往与创新有关,如翻译,创作文章,创作图像、编写诗歌,编写程序等,然而这种创新能力在工作时产生的结果并不稳定,会出现“幻觉”和胡编乱造的情况。同时由于神经网络本身的特点,其内部运行机制的可解释性问题也一直没有解决,因此对于需要精密控制或精确结果的产业领域,大模型并不是可靠的工具和技术。
另外一个误区,认为用大模型的训练方法加上行业产业的大数据就可以形成高质量的行业大模型。这个观点并不符合大模型涌现出创新能力的规律,过于单一领域的知识反而会降低大模型的涌现出新能力的水平,导致无法有效应用到行业产业中。因此应继续提高Chatgpt,文心一言、Llama、智谱、百川等等通用大模型的智能水平,通过这些通用大模型平台与其他可靠性高的人工智能技术协同工作,并与各个行业结合,这种路径要比建设专门的行业大模型更为稳健和有效。
三.值得期待的大模型未来
当然,大模型并不是人工智能的全部,也不是数字科技的全部,它只是其中一个当前活跃的重要技术和产品。应避免大数据热时,一切皆大数据;元宇宙热时,一切皆元宇宙;大模型热时,一切皆大模型,大模型需要与其他技术和产品结合才能发挥更大的作用。
大模型的不断发展和与其他技术产品结合的过程将是持续探索和尝试的过程。无论如何,大模型的出现的确是一个革命性的突破,有很多科学家认同Chatgpt等大模型已经可以突破图灵测试,未来在智能和意识的基础原理上也将带来更多突破性的启发。
在产业应用上,大模型与其他不同类型的人工智能技术、网络技术、大数据技术结合,与不同的办公、学习、生产、生活结合会持续产生出具有非凡想象力的应用。例如微软办公Office 接入GPT-4,百度利用文心一言重构包括搜索、文库、如流、智能云等业务产品。未来还会发生怎样的革命性变化,我们还需要耐心等待大模型的持续发育和成长,毕竟它还是一个出生来到全人类面前还不到1年的婴儿,(从以ChatGPT3.5为代表的大模型大规模向人类提供服务算起)。
(作者:刘锋,中国科学院虚拟经济与数据科学研究中心研究组成员,中科数字大脑研究院院长、中国指挥与控制学会城市大脑专委会副主任兼秘书长)