“符号”与“向量”,AGI的两条腿。
作者 | 王与桐 整理 | Ricky
2023年3月15日,GPT4亮相。尽管以GPT3.5为基础的ChatGPT更具里程碑意义,毕竟引发了全球C端用户的使用,但是在更多AI从业者看来,GPT4的意义远高于3.5,这是因为,GPT4具备了令人惊艳的“逻辑推理”能力。
但为什么能够实现“推理”?以往热衷分享技术细节的OpenAI,这次却“讳莫如深”,这让全球用从业者和用户都在猜测其中技术原理。
高雪峰也是其中一员,他的想法是,“大图”和“大模型”是支持AGI发展的两条腿,二者缺一不可。现在,业内普遍认可大模型的价值,并因此出现了一众大模型创业者,但是对于“大图”在AGI发展过程中发挥的作用,却并不清晰。
高雪峰告诉36氪,深度学习就是通过概率的方式来记忆和存储泛化知识,也就是大家熟知的“向量”,大模型就是“计算概率”领域的杰出代表;与“概率”相对应的,“符号逻辑”是逻辑推理领域的代表实现,图论是逻辑推理最好的支撑。他从产品角度出发,认为至少可以在prompts engineering的阶段,结合“图”来实现GPT4的“推理”目的。大模型可以很好的沉淀泛化知识,但是如何把泛化的知识进行关联并为人所用,就需要符号逻辑系统的深度参与。
高雪峰,历任IBM认知计算研究院院长,阿里大数据&AI产品部门总经理,在大数据和AI应用领域拥有多年的产品研发和商业化经验积累,曾带领团队打造出多款具备国际影响力的大数据和AI 类相关产品。在AI行业的摸爬滚打,让他洞察到了AI的趋势,并在2021年决定出来做AI 基础层的创业。
Fabarta 成立于2021年,以“大图”能力为核心。在创业初始,随着美国公司Snowflake的上市且市值最高曾达1200亿美元,国内也引发了数据库创业热潮,但在那时,高雪峰就决定不做数仓,他认为那是BI的infra,他要做的是AI的infra。
一年半研发时间让Fabarta等来了行业的变化,此刻,高雪峰认为最重要的就是团结所有力量,学界、大模型、应用方、基础设施团队,合作碰撞出“大图”和“大模型”的结合点,做出真正具备推理能力的中国AI。
01 GPT4的超强推理能力,源于“图”
36氪: 你在2021年开始创业时,那时OpenAI的GPT3应该已经出现了,当时行业里是怎么认知的?
高雪峰: 那时开源的是GPT2。大家举的例子就是:你看OpenAI做了几年也就那样,中国有啥大模型?
我在阿里时就负责大数据和AI的相关产品与解决方案,在大数据方面以离线和实时数仓,数据湖的产品为主,在IBM认知计算解决方案研究院里主要负责帮助企业智能化升级过程中需要的大数据,数据分析和AI的相关技术。
2021年,Snowflake缔造的神话,让很多人意识到了数仓的价值,因此那时很多投资机构跟我说:“雪峰你做数仓,数仓这个项目最火,估值也可以很高。”
但我不做。如果是在五六年前做数仓,我觉得可以做,因为数仓是面向BI的基础设施。但时代已经不同了,2021年,我想做的是AI核心基础设施。
所以我就跟很多投资人说,未来AGI的核心基础就是大模型和大图体系结合在一起, 只有这样才能作为通用人工智能的支撑。当时大部分人认为大模型和大图都不靠谱。
36氪: 您提到的大图和大模型是AGI的基础,怎么理解?
高雪峰:真正做到AI需要两个名词,一个叫向量,一个叫符号,分别对应着大模型和大图。
向量就是概率,可以把大模型transformer理解成在向量领域计算概率,利用大量高维参数组成的向量,通过矩阵运算来计算概率。一长串字符之后是a,它会预测下一个字符可能是b,b之后可能是d,d之后可能是a,就是这种预测,最后用文本生成。不管是之前的 Bert,还是现在广为流行的各种基于 Prompts 的多模态大模型,都不改变它做概率预测这件事。
但它没有办法做逻辑推理,GPT3.5也没有办法做逻辑推理。
比如我们问它:姚明出生的那一年NBA季后赛的亚军教练是谁?这个看起来挺简单的问题,放到GPT3里,它就回答得乱七八糟。教练是谁也不知道,年份也弄错了。
GPT3能猜对时间年份,但很多中国的模型会把那道题放在2002年。
36氪: 为什么是2002年?
高雪峰: 姚明出生那年是1980年,2002年应该是姚明第一次获得CBA冠军的时间,网上它的信息会很多,概率不知道问的是生日还是什么东西。
为什么我不问冠军?因为冠军宣传得多,亚军宣传得就少,问亚军的话它可能就乱了。这完全就是概率,看网上或wiki上哪个信息或更多一些。
但GPT4的逻辑推理能力是很强的,它可以很清晰地把我刚才的问题拆解,并准确回答。目前看来只有GPT4能够做到。
36氪: 3.5和4中间究竟是什么技术的出现或者应用,导致了这种变化的发生呢?
高雪峰:抛开多模态的新能力,核心就是逻辑推理能力的提升。 GPT4的推理能力变得非常强。就像刚才提到的,大模型就是计算概率,符号逻辑才能去辅助推理,图论是它最好的支撑。这就是为什么我们要把大知识图谱而不是传统意义上小数据量图谱的力量融合在一起,才能具备核心的推理能力。
GPT4里一定加了很多推理的能力,但是具体怎么融合的,OpenAI不公开,我们也不得而知。
你直接问ChatGPT “你知识图谱的能力都用在了哪些部分?”,它就会回答“在预训练、prompts的梳理都用到了图技术”。你再问“你用了一些开源的图的技术吗?”就会被告知“都是自研的技术”。后面就不会回答了。
为什么我说 GPT 不同版本的技术,推理能力的显著提升,一定跟图相关技术的结合是密不可分的,还是从一个例子出发,用这个问题来去挑战各个LLM:“姚明出生的那一年的NBA季后赛亚军球队的教练是谁?”
目前来看,除了 GPT4 以外,其他的大模型都无法给出正确的答案。 但是,如果我们将问题拆解,“姚明出生在哪年?” “1980年NBA季后赛的冠亚军球队分别是谁?” “1980年,费城76人队的教练是谁?” ,有很多优秀的 LLM 都可以给出对的答案。之所以出现这种落差,其本质还是 GPT4 在纯概率的模型之上进行偏向符号的逻辑推理,那一定会产生让人意想不到的结果。
先不说GPT4可以在很多专业的领域知识,比如很多经典的科学定律,规则等进行现象和逻辑的推理,至少从上面我们提到的很简单的例子里,在输入Token里关键实体与其逻辑关系的解析和提取上,我推测一定采用了一些与图有关的技术来进行处理。 所以我们说代表符号和连接主义的工程实现,与代表概率和向量领域的工程实现融合在一起,才能体现出令人越来越惊讶的智能。
图的技术与 Transformer 的技术有很多可以结合的点: 1. Transformer的训练架构接收图结构的数据,使得模型更好的理解输入数据之间的关联关系。 2. 用图结构的数据来训练Transformer模型。 3. 图结构的知识蒸馏,以应对细分领域的专家知识。 4. 损失函数的处理上结合图数据形式的重新定义。
就像我们人脑有个很典型的特点,比如去年的某一天,我在一个公园里遇到了一个多年未见的老友,相谈甚欢。 那这个人的模糊印象(向量特征),与当时公园的环境,天气,体感(向量特征),以及我们在做什么事情 (连接关系) 都会记忆在人脑之中。 当我在到这个公园,熟悉的环境,我就可能通过发生过的这个链接关系,想起这个老友的样子。 构建这样一个能够把实体,以及其连接关系,还有对应的向量特征融合在一起的多模存储与计算的大规模引擎,就是未来我们想要做的事情。
36氪: 所以GPT3.5到4,在向量这个层面困难没有更多本质的变化了对吗?
高雪峰: 它可能参数更多,数据量也会更大。
36氪: 质的飞跃,原因集中在符号这个层面?
高雪峰: 对,没错。GPT具备推理上的能力,才是最恐怖的。比如根据物理学的原理或公式,我告诉它一个现象,它就会告诉我有什么结果发生,帮你做出推理。
毕竟,GPT3.5出来的时候,我们都没有感觉这种东西将马上颠覆世界,我觉得就是大力出奇迹,量变会带来质变的必然过程。包括New Bing出来后,其实都是围绕GPT在产品上做创新和变革,比如New Bing能把实时搜索出来的信息summarize并很好地组织起来,然后编辑适当的prompts调用大模型的API,得到结果后把结果组织起来反馈给产品上的客户。这其实就是产品的融合,并没有让我们太惊艳。
36氪: 所以我们需要追赶的,不仅是大模型一件事。
高雪峰: 我们很多本土的开源大模型还停留在拿大量的数据、prompts以及transformer的性能上。但真正要实现一定是向量加符号的融合,这也是学术上大家都认可的方向。
向量就是概率,概率就是不可解释,符号的图论就是可解释,两者融合在一起才能走向真正的智能。GPT有思维逻辑,概率会补充思维逻辑,思维逻辑这张大图又会验证概率,修正概率预测的参数模型,就可以实时且相辅相成地学习新东西。这就是我们未来通用人工智能所需要的智能。
这也是我们创业选择图赛道和方向的原因,因为大图和大模型是通用人工智能的两条腿。
我们等来了大模型的爆发,但目前找不出真正具备分布式计算能力的大图系统,也没有开源,所以我们只能一步步去做。这需要时间的沉淀,不是一两年就能做出举世闻名的大图系统。真正能承载符号推理的大图系统,一定能帮助未来通用AI实现非常强大的推理能力。
36氪: GPT4,或者说在AGI的基础设施中,其“图能力”是怎么发挥作用的,是类似于引擎吗?
高雪峰: 你可以把它理解成一个图的引擎,能够存储图结构的数据,并在图结构数据上做高速的检索。像搜索引擎Google、百度背后都有庞大的图的能力做搜索的支撑,但并不能直接拿出来作为通用产品给别的应用使用。
GPT4如果有图的系统,一定深入融合在预训练各方面的过程里,不是可剥离可抽离的东西。我们未来想做的是开源开放且具备分布式存储和分布式计算性能的大图引擎,我们也会跟国内外开源的LLM或多模态模型进行深度的合作,来确定怎么利用大图的能力去支撑预训练、prompt engineering或者是重新定义loss function这样一些收敛能力进行深度结合。这一定是需要尝试纠偏,再去调整的的过程。
36氪: 那从您的角度,现在大图该怎么样做,才能助力中国的AGI发展?
高雪峰: 这里面有很多核心的技术,目前尚不可知。这需要学术上研究它们的理论结合点,从工程上我们跟大模型的公司合作完成这件事。
我们也会开源,也要把大图的分布式计算效率解决。图上的分布式计算很少有人做,但数仓这种二维关系的分布式计算很多人做,其中的原因是图的分布式是一个NP问题,也就是在数学上无解的问题。不管怎么去拆分你的大图,分成什么样逻辑的partition,分布式的通信都不能达到最优的效率。因为图最擅长的应用就是多跳, 大规模多跳的情况下,如果出发点是1000个点配上全连通的图,1000个点5跳6跳的路径会把所有的点全部遍历一遍,数据量非常大,这就很难拆分,下一步不可预测。不管怎么拆都涉及到不同的分布式计算节点之间频繁的网络通信,这个就是所谓图的 Np问题。
我们现在在工程实现上做了很多优化,比如利用原图内存当中的多级缓存,就可以很容易预判多跳应该访问哪些计算节点,避免产生频繁的网络通信和风暴,这就是我们做的工程上的优化。
我们预计会在下半年开源核心引擎,到时应该是世界上唯一一个真正做图的分布式计算来支撑大图的开源系统。现阶段大部分图的相应应用,还都是以mpp架构为基础,不能做到云原生的大图存算分离以及分布式计算这种典型架构。
02 要做加油站旁边的便利店,而不是再做一个加油站
36氪: 你刚才提到和大模型的结合,咱们现在进展到什么程度了?
高雪峰: 我们自己内部也做了一些Hackathon的创新尝试。在输入prompts的阶段把图的能力引入进来,其实还是做prompts engineering,我觉得这种方法能迅速地让没有推理能力的大模型产生推理能力。我认为还是偏产品层面的组合,有点像New Bing的实现方式,或是微软office 365的Copilot。Copilot里也推出了新的产品,你听说过微软推出图的产品吗?但它推了一个Microsoft Graph,把不同文档或微软的组件和工具用图的方式组织起来,不同的文档之间才能互通,它也是利用产品的方式,再去调用大模型API产生协同价值。
我觉得这一点是可以做的,但也需要我们图和产品的能力,更重要的是在预训练过程中将向量、逻辑符号和图的逻辑推理能力融合在一起。这一点需要不断的工程实践,才知道如何融合。
这个问题扔到业界随便问一个人,研究过这个的都会觉得有结合的点在,但结合的点在哪需要大家一起来试。
36氪: 现在大家都还在探索的阶段?
高雪峰: 肯定要探索。我们和一些知名院校在图计算领域做学术共研,真正的阶段性的学术成果可以发非常多顶刊论文。
共同探索也是我们选择开源的最主要原因。既然我的引擎是唯一的具备分布式计算能力架构的引擎,我闷声去跟云厂商合作赚钱就好,为什么要开源呢?就为了最终的目的,开源以后,大家可以拿来碰撞去试,甚至debate这样的架构里哪些性能对预期模型支持时有本质的差别,我们才知道大家怎么用;如果是封闭的东西,就很难形成合力。选择开源不是因为要通过开源做商业化的转化,而是为了真正想要实现的目的。
36氪: 你刚才提到,在2021年已经看到AI的趋势了,为什么没有选择做大模型?
高雪峰: 我当时认为,一定要做AI的基础设施。虽然很多科学家在做深度学习,但要让我找上百人的话,这在中国比较难,但要做成大模型,我觉得没有上百人是实现不了的。
而且训练大模型的资源成本很高,对于创业团队来说,这都是很难逾越的障碍。最重要的就是用于训练的资源,现在我们整个儿的 A100 卡的资源都非常的紧张,很多的领域都需要 GPU卡的集群, 除了大家都在谈论的AI大模型的训练和推理外,自动驾驶,金融的量化分析等等都需要 GPU 的资源。而现在云厂商也都在自己集中力量做属于中国的大模型,还有越来越多的创业公司加入到这个队伍中来。云厂商开放的 GPU 的服务通常都是公共的分时服务,也很难在一段时间之内集中大量地给到哪些企业进行大模型的训练。
这就会出现用于训练和推理资源挤兑的问题。所以大厂在做大模型的这件事情上还是有先天的资源上的优势的。
36氪: 创业公司做大模型,还是需要源源不断资金来源的。
高雪峰: 我觉得,踏踏实实地做客户做业务,与客户、社区一起成长,这是做To B该有的心态。
如果我去做大模型,可能瞬间就会烧掉我所有的钱,然后还没有明显的商业化结果,别人不会为你买单。
OpenAI经历那么多年,烧了那么多钱,是因为它被定义成非盈利组织;直到微软投进来,才决定改变自己的营利性原则。有了投资盈利100倍的盈利目标然后再去做非盈利的事情。
可成立一个公司还是需要奔着商业化的方向去做,所以国外目前跑出来的寥寥,真正出圈的就是一家做大模型的OpenAI。
36氪: 现在大模型创业热潮已经来了,所有公司都想要成为中国版OpenAI。
高雪峰: 大模型现在不是一种容易复制的东西,OpenAI也经历了很多波折。
早期的 Open AI 在prompts和design之类的枯燥工作上也下了很多的功夫,而Transformer的技术很早就有了,像之前的 Bert等也都是基于transformer来做的,所以业界在算法上也都在走这个路线。
所以并不是说大模型是一种容易复制的东西,我不认为有几亿人民币就能搞定这件事情。训练一次千亿级别参数的模型,像GPT3.5或GPT4这种,各种成本叠加起来,肯定需要上亿美金,这是不可能改变的。
现在也有一些公司专门做框架的优化和分布式训练的优化,想办法让大模型参数很多时,所需的资源变得越来越少。但优化不了多少,它没有办法改变量级。所以LLM的技术或者模型的发展,在给自己带来商业价值与营收之前,先是给像英伟达这种 GPU 的厂商带来特别多的营收利润和发展前景。
还有一件确定的事是,耗电量的提升和导致全球变暖。
36氪: 前两天我还看到新闻,说GPT目前每天的用电量抵美国的一个小镇。
高雪峰: 是的。所以做大模型,是非常有挑战的事情,不管是从算法,优化,数据的整合,以及算力资源的调配,当然还有持续的资金的支持,都非常具有挑战。
36氪: 现在还有一个争议,就是大模型走开源还是闭源的路线。
高雪峰: 我跟一些圈里技术人的交流中关注到这个争议,我个人觉得闭源的大模型这件事是有一定局限的,也都相信肯定会快速地涌现出各种开源领域的 LLM 或者多模态的通用大模型,甚至是在不同的专业领域的专有大模型。
为什么闭源有局限性?一是相对更耗钱。二是闭源就是封闭的生态,这样就很难产生有阶段性的商业价值、好的未来商业潜力。
我认为,在AI这个领域里,真正的分布式工程化能力非常重要。好的工程化AI平台,和承载很多优秀的开源大模型的公共平台,我觉得都有价值的。
比如美国的Hugging Face,我觉得它的潜力应该是更大的。随着模型生态越来越多,需要有社区把不同的模型和其潜在用户、训练者、优化者这些不同角色的人链接起来。这个能量可以比喻成当时的品牌经济,像阿里巴巴的天猫,它就是把商品和消费者在平台上链接起来。阿里做了ModelScope,也想实现像Hugging Face的初衷与目的。Hugging Face目前的营收虽不多,但它如果真的想盈利,瞬间就会做成很大的营收。你可以看一下上面各种模型的下载量,它们投入了很多扎实的功力,帮助优化模型让它可用。
所以,在这样大的细分领域里,一定有很多机会可以去做,并不是所有人都得去做大模型。在中国就是好多人冲进来做大模型,而且融了很多钱。在美国出现一个加油站,特别挣钱,所以加油站附近就又出现了快餐店和小旅馆等,慢慢地加油站旁边就形成了一个小镇;反过来在中国很典型的场景是,一个加油站非常挣钱,周围就会出现十几家加油站,把这块地给掏空。
GPT出来后,美国涌现出很多AI通用的工程化平台和各种各样细分领域大模型。虽然不是像OpenAI那样通用的大模型,但是在细分领域里效果是非常好的。参数可以不用那么大,达到百亿或者近千亿的规模,但它可以通过优化的方式。因为它是特定领域,不是完全通用的,数据来源也会容易一些,不用像OpenAI找那么多的公开数据以及书籍,对数据的质量还有极高的要求。
而开源能够加速生态发展。
36氪: 现在国内做大模型的创业公司、大厂很多,会不会出现资源分散的问题?
高雪峰: 目前来看,对中国来说算力是最难突破的,科学家的储备也不足。但是相对于算力来说,数据这个领域,中国应该会越来越有优势,中国现在数据量占世界的9.9%,四年之后可能会占到世界的20%,如果能用来进行多模态大模型训练肯定对中国大模型发展十分有好处。
并且今年大数据局的成立,在我们行业从业者看来是一个非常利好的消息。
03 AI时代,要有自己的Infra
36氪: 图引擎和图数据库的关系究竟是什么样的?
高雪峰: 我们把fabarta的产品定义成图分布式的交互式查询和图计算融合的引擎,没有把它定义成图数据库。为了迎合大家的理解,我会把它比喻成大图TP与AP融合的分布式数据库能力,但其实定义成“集图数据的存储,交互式查询与图计算算法融合的引擎“更合适。
数据库是非常泛的概念,当前很多图数据库也能解决当下的问题,但需要图分析平台这类低代码化产品,客户才能很好地使用,否则也会面临很多问题。但它没办法直接演变到我想要的星辰大海。关系型数据库、数仓都是由各种引擎组成的,比如存储引擎、计算引擎、分析引擎。数据库更像是一个大的概念,处理关系型数据的各种引擎协同在一起,可以称为数据库,处理非关系型,比如图的数据的各种引擎聚合在一起,也可以叫做数据库。
数据库只是一个名词。现在泛数据库更像基础设施的代名词,对于各种数据存储计算和处理就叫数据库。no SQL数据库、时序数据库与多模数据库都是存储各类不同种类数据的数据库。
原来的图计算与图数据库是完全割裂的,图计算是学术上做的各种各样算法,可解释的AI,然后是分布式的计算框架,跟数据库没有关系。图数据库是在数据之上做数据存储、数据多跳查询,也是SQL解析之类的工作。这就是图数据库与图计算很割裂的表现。
我觉得引擎也好、数据库也好,都只是个概念,AI的infra structure需要大图引擎与大模型协同在一起才能去工作。
而infra这个概念,其实大家也不一定已有共识。传统的infra概念来自于云厂商体系;而目前, AI没有形成水电煤气这样通用的能力,那就不需要具备自己的“infra”。
但是未来, AI将来能成为真正的水电煤气,这是我坚信的。大模型出来后,大家才开始谈AI的infra。有人会把AI的infra等价为大模型,我不认可,这并不是通用人工智能未来的基础。
所以我一直说大图大模型的深度融合就是未来 AGI 的 Infra。
36氪: 有人认为,AI快速增长会挤占一定的云计算市场,您是怎么看待的。
高雪峰: 如果AI下面的技术,比如大图、大模型变成真正的infra,它一定需要云原生。因为它需要弹性扩张,所以一定要放在云上,那怎么挤占云的资源呢?大模型推理起来,需要GPU,一定会让云市场变得更大。
也要看你如何定义市场,如果是传统面向ERP workflow或面向BI 统计分析指标分析传统数仓,或者像游戏这类TP,我认为这部分市场才是既有云的市场,这样的话一定会挤占。
36氪: 你们如何一边创新,一边喂饱自己?
高雪峰: Fabarta 构建在多云之上的云原生分布式图数据库引擎可以将企业不同数据源的数据和数据之间的关系用图的方式进行存储和分析,基于Fabarta 图分析平台的低代码化能力结合在行业中的图分析算法与框架的沉淀,可以更好的帮助企业级客户构建基于图的场景化分析 (风控,营销,智能化运维,行业知识图谱等)。
36氪: 也就是说,你们现在业务其实分为两部分,一部分是给客户使用的图引擎+低代码产品,另一部分是与LLM结合的大图产品?
高雪峰: 你可以理解成三部分:
一个是最上层,图与细分场景的深度融合,比如Data Fabric,下一代的数据平台,这个市场是无限大的,因为大家已经不可能做数据的大集中。而且湖仓一体的发展会导致越来越多数据割裂在不同的地方,而且没法治理。我先做基于图数据组织的数据资产地图,慢慢把它做成下一代的Data Fabric,解决分散的,异构数据之间的协同计算问题,这是一个星辰大海的市场。
中间是Intelligent workflow。当前大模型的能力出来后,企业既有的工作流就智能了吗?并不是的,将AI的能力,融入企业的工作流,还是有非常多的挑战,所以低代码平台要先一步步把这件事做出来。我们先通过将对图数据的各种模式查询和算法分析的能力抽象沉淀在平台上,在通过低代码,进而无代码的方式对业务组件进行编排并产生业务价值,最后通过 App 的 Builder 直接生成可以为用户带来价值的应用组件,先通过可解释AI赋能企业工作流的智能化改造,进而融入其他AI的能力,打造企业的 Intelligent Workflow。
最后的引擎就是通用人工智能未来核心的基础设施之一。这就是我们为之努力的方向。
编者按:本文来自公众号“数字时氪”(ID:digital36kr),36氪旗下官方账号,作者:王与桐,Fabarta 经授权发布。