书生·浦语大模型全链路开源体系
介绍
开篇介绍了先介绍了书生浦语大模型开源开放体系,强调这是一个全链路打通的体系,包括数据的收集整理、数据标注到模型训练模型微调模型评测,再到基于模型的agent rag搜索引擎,最后以及AI应用的部署 相较于上一代的2.0,本次更新有以下亮点
开源体系的核心思想和技术
书生浦语开源体系的核心思想和技术,主要是一个不断反馈的过程,包括对数据进行过滤、智能评估、去指令生成一些辅助标注等。最终是数据驱动的模型性能,数据质量驱动的模型性能,高质量的合成数据是通过一系列策略获得的,包括基于规则的数据构造、基于模型进行数据扩充、基于反馈的这种数据生成等。
100W token上下文
这个功能相当令我惊喜。之前尝试过很多大模型让它们找出三体中描写日落的片段,无一例外都翻车了,想着看看书生浦语到底能不能成功
基于规划和搜索解决复杂问题的能力&Mind Search项目
视频提到通过结合模型的原生能力和调用外部工具如搜索引擎和数据库,可以模拟人解决问题的过程。具体来说,首先对问题进行分析,然后分解成若干个子问题,再分别解决这些子问题,最后整合所有的结果并返回最终答案。相对于市面上层出不穷的AI搜索,书生浦语这次对标的是searchgpt,具体怎么样到时候上手试试
开源模型谱系和模型生态
介绍了开源模型谱系的概况,包括1.8B参数的模型、7B参数的模型和200亿参数的模型。视频强调20B参数的模型才是真正出现“涌现”现象的模型,也就是说,它可以回答之前未见过的新问题。
深入扩展
这部分的内容都很详细深入,全面展示了一个大模型的数据集,预处理,微调,部署,评测等等,这些也是后续学习的内容
总结
已经迫不及待开始这场学习之旅啦!!