第三季度社区开源大模型回顾

原创

努力犯错AI 2023-10-25 17:06:43 ©著作权

©著作权归作者所有：来自51CTO博客作者努力犯错AI的原创作品，请联系作者获取转载授权，否则将追究法律责任

随着人工智能技术的不断发展，我们在2023年第三季度见证了一系列令人激动的开源模型的发布，包括语言模型、多模态模型和精调模型。这些模型在各自的领域都取得了显著的成果，为我们提供了更多的可能性和机会。

1. 基座模型

介绍： Meta公司推出的LLaMA 2是一款强大的大语言模型，包括基础和对话模型版本，参数为7B、13B、70B。它在多个外部基准测试中优于其他开源语言模型，具有出色的推理、编码、精通性和知识测试能力。LLaMA 2的训练数据比LLama 1多了40%，上下文长度也翻倍，采用了分组查询注意力机制，使其能够更好地处理聊天对话任务。
推荐下载地址：

Baichuan 2

介绍： 百川智能推出的新一代开源大语言模型Baichuan 2，采用2.6万亿Tokens的高质量语料进行训练。它在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。本次发布包含有7B、13B的Base和Chat版本，并提供了Chat版本的4bits量化。所有版本对学术研究完全开放，同时，开发者可通过邮件申请并获得官方商用许可后，即可免费商用。
推荐下载地址：

介绍： ChatGLM-6B发布了第二代版本ChatGLM2-6B，该模型支持中英对话，不仅保留了初代模型的对话流畅性和低部署门槛等优秀特性，还引入了更强大的性能、更长的上下文、更高效的推理和更开放的协议等新特性。其中，ChatGLM2-6B的上下文长度扩展到了32K，并使用8K的上下文长度进行训练，允许更多轮次的对话。
推荐下载地址：

介绍： VisualGLM-6B是由智谱AI和清华大学共同开源的多模态对话模型，支持图像、中文和英文。它依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间，并在微调后实现了生成人类偏好的答案。
推荐下载地址：

介绍：阿里云开源的大规模视觉语言模型 Qwen-VL，包含基础模型和对齐模型两个版本。该模型可将图像、文本、检测框作为输入，并以文本和检测框作为输出，可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。
推荐下载地址：

在法律、医疗、心理和天文等领域，我们也见证了一系列精调模型的诞生，如法律领域的智海-录问和夫子·明察，医疗领域的DISC-MedLLM和仲景，心理领域的Mindchat和MeChat，天文领域的StarGLM等。这些模型的出现，为我们提供了更多解决特定问题的工具和方法。

在未来，我们希望看到更多的开源模型被开发出来，助力人工智能技术的进步和发展。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯