好吧,激发我的不是自信,而是鼠标垫…
近日,在大量的刷ChatGPT逆向的文档资料,作为一个终极的还原论者和机器智能的偏执者,领略了大语言模型的巨大进展,也发现在它无限逼近人类知识水平的同时,反而压实了自己的天花板……
这一点有点像正切曲线——无线趋近数轴的同时,也在像我们展示什么是“望山跑死马”,哇数学不好?那慢慢地就接不住梗啦
#目前大语言模型的基本模式#
当前不论采取了什么工程化架构,NLP的主流底层依然是对词汇向量化(word2vec)后的数学解决,这么说都有点抬高了,为了避免中文这种复杂语言的切词技术关的尴尬,GPT索性直接把汉字基于字节对进行编码,只不过一个汉字是一个字节对,左手右手一个甜甜圈——两个字节间的矢量关系更紧致而已。
我们假设任何一种自然语言的常规字库大概在7000词(汉语为字)才能实现常规交流无障碍,同时覆盖汉语,英语,法语,俄语,西班牙语,阿拉伯语这六种语言以及少数部族语言我们按照50000词计算。为了降低分析的复杂度,我们假设在机器学习训练之前,可以把不同语言的词汇归一化翻译为英文或者中文(还是英文做切词简单,空格即可),大概中考2500词,高考3500词,大一1000词,一共7000词,也就是说我们要构成一个7000维度的向量。比如(按照英文单词的颗粒度,但是汉字呈现):
{'今天': 0, '上': 1, 'NLP': 2, '课程': 3, '的': 4, '有': 5, '意思': 6, '数据': 7, '也': 8}
然后,每分析一句话,都要给它一个向量值。比如
["今天 上 NLP 课程", "今天 的 课程 有 意思" , "数据 课程 也有 意思"],
就会成为
[[1 1 1 1 0 0 0 0 0] [1 0 0 1 1 1 1 0 0] [0 0 0 1 0 0 1 1 0]]
使用向量表示单词,向量空间表示句子。在将单词转化为向量之后,句子也就可以被表示成一个矩阵,这样就把现实中的语言成功转化成了数字。
这里只是举个例子,具体实现更复杂,因为只是想说明问题的关键以便支持后面的结论,足够
#语言只是理论的“坎儿井”式的浅表示现#
我们知道,人类几千年来尤其是近300年来的科学进步,来自于对自然世界的大量逆向分析,而不是来自对语言规模化的统计。所以,更多的专业知识是超出(以一维向量为代表的)个位数维度向量的表义能力的,尤其是复杂系统所呈现出的涌现现象等需要深度理论还原的领域。言简意赅的说,当人类还没有完备的能力去用语言描述深层理论的时候,NLP何德何能可以突破人类智能的局限带领人类走向未来?NO
#追问与理论迭代#
我们要把A、B两个东西做一次交换律时,往往要三个空间,一个给A,一个给B,一个用于腾挪暂存的swap空间。人类知识迭代中,也有这样的模式,即把寄存于经验区间的知识,经过反思还原为理性区间,这就要把知识整理过程拆解一下:提取、反刍、消化。反刍的过程,“反刍动物采食一般比较匆忙,特别是粗饲料,大部分未经充分咀嚼就吞咽进入瘤胃,经过瘤胃浸泡和软化一段时间后,食物经逆呕重新回到口腔,经过再咀嚼,再次混入唾液并再吞咽进入瘤胃”。关键就在于再咀嚼,它是食物在一种空间和颗粒度上的重整,即按照消化道的要求,对食物进行再加工。那消化道的要求,口腔是如何预知的呢?感觉?这里只是提出问题,暂搁待议…
人类遇到知识的时候,其实有个过程随时在发生——追问,对概念的追问(what),对意义的追问(why),对过程的追问(how)。最有趣的是,我们经常要在研究what的时候,深入到概念内部追问why和how以及micro what,而有时认知足够鲁棒后,我们会把小的系统(what why how)封装为更大的macro what而忽略其内部的why和how。
#ChatGPT会追问吗?#
近期看到一个有趣的应用,Auto-GPT(https://github.com/Torantulino/Auto-GPT/),他可以把一个ChatGPT任务分解成几个子任务交给单独的机器人进程去完成,最后组装起来,似乎表现出很强的主动性。但我们会发现它的障碍依然如故,那就是他只是在素材的依赖关系上去索引,无法在概念和系统的颗粒度间跳跃——不断地追问或者封装,格局固化了。
#从word2vec到theory2vec#
前述的障碍,其实根本上是因为目前的NLP还是基于词语符号的向量化进而实现统计的,这一点上把向量对于理论架构的描述能力极大压缩了,换言之,如果向量不是用作了词汇的转义,而是用于了概念的建模,向量被真正用于有意义的关系表达,才能构建出基于认知的智能模型。
#统计模型真的一无是处吗#
还原论者总苛求完备性,在他们的“统一场论”没有出来前,他们做不出任何东西,这个时候统计学者就会尝试做一个不那么完备但基本可用得东西出来,而没做之前还原论者还在思考演算,一旦做出来,还原论者就成了最佳评委——可以指出各种不足,并且基于还原论者的大量理论工作给出可以优化的维度,继而统计学者就会给出调整后的模型,当然(调侃)依然是给还原论者拿来批评的。就像盖楼,承重柱到达一定高度后,就得横向搭楼板,闭合后承重柱继续向上,统计学其实是给出了收敛的尝试,来检验还原论者给系统输入的模因是否合理的途径。所以,统计学和还原论并非既生瑜何生亮的关系,而是唇齿关系,泛言之,批评者往往不是事物发展的对立面,而是组成部分。
毕竟矛盾是事物发展的核心动力嘛
待续…