Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样”颠覆“,”全面包围“等等。有些文章偏向技术,有些文章偏向宣媒,小编认为还是需要比较客观独立的来分析它,尤其是其背后设计的思路以及演化的过程更加重要。因此这个小专题将从历史说起,沿着SSM、S4、HIPPO一路走来,期间还会抛弃冗杂的文辞,以更加接地气的方式打开模型设计的思维逻辑。
记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。就当小编还在准备Mamba时,说时迟,那时快。在不断发展的AI领域,五一劳动节期间一种新的架构正在掀起波澜,来自麻省理工学院的创新框架被称为柯尔莫哥洛夫-阿诺德网络(KAN),准备以其独特的方法改变传统模型。
记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。在Transformers、Mamba、KAN之后,长短期记忆 (LSTM) 架构的发明者Sepp Hochreiter和他在NXAI的团队推出了一种称为扩展LSTM (xLSTM) 的新变体。本文为通识版本,后续将会推出细究版本,敬请期待!
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号