openai的ai大模型设计是不是很神秘?

其实不神秘,看国内最新的一个团队招人

新型研究机构,AI团队招收ai大模型算子搜索、大模型训练与推理算法

ai大模型算子搜索:方向:算子辅助搜索工具的实现与开发、群体遗传算法研发、并行遗传算法研发,要求:Python/C++实现,优化、计算数学、遗传进化计算相关专业

ai大模型训练与推理算法:方向:LLM参数高效算法、幻觉抑制算法、反学习(unlearning)算法研发,要求:Pytorch深度学习/大模型训练经验,计算机、数学、EE相关专业

也就是ai大模型的算法模型研发就两块,一个就是模型的最优化算子设计,这要用并行遗传算法来搜索,不是靠人想,第二块就是训练的算法,前训练算法和后训练算法,这个靠人想

————

ibm一个做生产排程aps优化算法的,后来去openai搞ai大模型,估计就是干大模型算子搜素这个,用并行遗传算法搜索最佳的算子设计,比如几层,每层的参数(国内的免费生产排程软件isuperaps也是用并行遗传算法优化)

openai现在跑出来那么多核心员工,技术早就不保密了,估计这个团队就是按openai的模式搞

也就是说,openai的大模型的参数算子设计,其实也是并行遗传算法用超算搜索出来的

做法基本就是,先搞一个初始的算子设计,比如几层,每层多少参数,然后准备一个小规模的训练集,比如100g的训练集,和对应的测试集,先对初始算子的算法模型用100g的小规模训练集训练,测试集得分60分,然后对每个算子,用并行遗传算法搜素,对搜索出来的新算子的算法模型用100g的小规模训练集训练,测试集得分65分,这样反复的优化搜索,最后得到一个测试集得分最高的最优的算子

再对这个最优算子的算法模型,用15t 的大数据集训练,得到正式发布的模型(gpt3,gpt3.5,gpt4,gpt5)