大语言模型对比

原创

laoge776 2024-03-14 13:57:45 ©著作权

文章标签 语言模型讯飞 github 文章分类 copilot AIGC

©著作权归作者所有：来自51CTO博客作者laoge776的原创作品，请联系作者获取转载授权，否则将追究法律责任

产品综合对比
产品名称	文心一言	讯飞星火	通义千问	智谱轻言	豆包	ChatGPT	Qwen-72B-Chat	OrionStar-Yi-34B-Chat	Baichuan2-13B-Chat	XVERSE-13B-2-Chat	Chinese-Alpaca-2-13B	Llama_2_13B_Chat
公司名称	百度	科大讯飞	阿里	北京智谱华章科技有限公司（清华大学）	字节	OpenAl	阿里巴巴	零一万物	百川智能	元象科技	yiming cui	Meta+Llama中文社区
一句话介绍	国产大语言模型	国产大语言模型	国产大语言模型	国产大语言模型	国产大语言模型	目前主流的大语言模型	国产大语言模型	国产大语言模型	国产大语言模型	国产大语言模型	国产大语言模型	根据国外大模型改造的中文大模型
模型是否开源	否	否	否	是（ChatGLM）	否	否	是	是	是	是	是	是
应用场景	1、内容创作：文心一言可以提供更具创意的文本创作、图像创作和图文混合内容创作，帮助人们撰写邮件、博客文章、新闻报道、广告等各种类型的文本与图像内容，提供语法纠错、词汇建议和写作风格建议。 2、知识问答：文心一言可以作为聊天机器人的核心，服务于知识问答和对话领域，成为更具感情的数字人、更具理解力的智能客服、更有知识的教辅老师，广泛应用于金融、传媒、互联网等领域。 3、语音助手：文心一言可以用于开发语音助手，结合小度硬件产品走进千家万户，与用户进行语音交互，执行各种任务，例如设置提醒、查找信息、播放音乐等。	1、代码快速生成或者改Bug的智能编程助手iFlyCode1.0 2、视频创作的讯飞智作2.0 3、帮助教师设计教学活动、一键生成课件的星火教师助手 4、面向学生口语练习的星火语伴2.0 5、讯飞AI学习机也升级AI编程空间和AI创意画板 6、科大讯飞还和华为联合发布讯飞星火一体机，为每一家企业提供专属的大模型，联合打造全国产化算力底座。	1、智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等 2、企业可以基于‘通义千问’开发智能对话系统，提供更便捷、智能的客户服务、产品推荐、用户互动等应用，提升用户体验和黏性，拓展业务边界 3、‘通义千问’还可以应用于市场调研、舆情分析、用户情感分析等领域，为企业决策提供数据支持和智能分析	1、工作：可用于解决工作中的各种问题，包括技术咨询、数据分析、文案写作等 2、学习：为学生和教育工作者提供学科知识解答、教案制作、编程辅导等支持 3、日常生活：在日常生活中，可以用于获取各种信息、策划活动、创意写作等	同前面的国产大模型	同前面的国产大模型	同前面的国产大模型	同前面的国产大模型	同前面的国产大模型	同前面的国产大模型	同前面的国产大模型	同前面的国产大模型
硬件需求	不能本地部署，故，无硬件需求	不能本地部署，故，无硬件需求	不能本地部署，故，无硬件需求	CPU部署最小化模型：需要至少32G内存 GPU部署最小化模型：推理需要至少6G显存，微调需要至少7G显存	不能本地部署，故，无硬件需求	不能本地部署，故，无硬件需求	GPU部署：需要A100、H100、RTX3060、RTX3070等显卡，显存大小官方未给出说明 CPU部署: 使用CPU进行推理，需要约32GB内存	GPU推理：显存：24G CPU推理：官方未给出说明，可能不支持	GPU推理：显存：9G CPU推理：支持，硬件要求官方未给出说明	GPU推理：显存：11G CPU推理：不支持	GPU推理：显存：10G， CPU推理：内存: 至少16G	GPU推理：内存：12G，显存：10G， CPU推理：内存: 8G，显存: 500MB
商务模式	闭源，文心3.5版本免费使用，文心4.0版本付费（49.9元/月，在理解、生成、逻辑、记忆等能力上都有提升）	闭源，免费使用	闭源，免费使用	开源 https://github.com/thudm/chatglm2-6b	闭源，免费使用	闭源，3.5版本免费使用，4.0版本每月20美元	开源 https://github.com/QwenLM/Qwen/blob/main/README_CN.md	开源 https://github.com/OrionStarAI/OrionStar-Yi-34B-Chat	开源 https://github.com/baichuan-inc/Baichuan2	开源 https://github.com/xverse-ai/XVERSE-13B	开源	开源
优势	针对中文的优化，可能在处理中文语料时具有较好的表现，例如处理复杂的语义关系、歧义等问题。作为国内的AI语言模型，可能更符合中国市场的需求，提供更多本地化的支持，例如对于中国特色的网络用语、俚语等的理解	在多个领域展现出强大的能力，特别是在文本生成、语言理解和泛领域知识问答方面表现优异	在语言的理解能力上表现得可圈可点，基本没有出现一些所问非所答的情况，并且在生成结果时的响应速度方面也表现得较为出色	在基础数学计算、编程以及AI绘图领域，还是非常好的，能保证大体准确度以及精度要求	可以连接互联网搜索答案	目前最好的大语言模型	开源使用	开源使用	开源使用	开源使用	开源使用	开源使用
劣势	相较于OpenAI的GPT-4，文心一言可能在规模和研发资源方面具有一定的劣势。	存在一些局限性，比如在代码生成等复杂问题上的表现还有待进一步提升	在内容的呈现方面较为粗略，生成的内容更偏向一个内容梗概，而不是细节丰富的内容	在生成内容上，缺乏“灵魂”，需要更多“涌现”发生	豆包的多轮对话记忆（上下文联系）能力较弱	1、可信性无法保证:ChatGPT 的回复可能是在一本正经地胡说八道 2、时效性差:ChatGPT 无法实时地融入新知识，可回答的知识范围有明显的边界;	无相关说明	无相关说明	无相关说明	无相关说明	无相关说明	无相关说明
详细功能对比（功能对比为测评分数）
计算能力	77.84（文心一言4.0 API）	38.54（讯飞星火V3.0）	70.1（通义千问2.0）	69.07	54.69	97.24（GPT4-Turbo）	68.56	50	40.62	43.3	22.4	24.74
逻辑推理能力	87.84	57.43	73.29	77.4	68.92	97.59	68.06	64.38	66.22	50.68	45.21	40.54
代码能力	73.19	49.26	76.81	59.42	45.65	96.18	60.14	49.28	39.23	43.48	20.45	25.36
知识百科能力	98.63	83.57	93.15	89.73	86.99	89.62	95.89	88.36	78.77	72.92	51.37	36.11
语言理解能力	71.93	62.28	71.93	64.91	56.14	87.82	63.16	65.18	53.51	57.02	51.75	41.07
生成创作能力	66.36	47.17	62.73	61.11	48.18	89.93	42.59	62.73	52.78	47.27	39.09	43.64
对话	57.03	46.83	68.75	57.81	53.12	89.22	48.44	58.87	55.47	46.88	47.66	28.91
角色扮演	53.77	47.17	61.32	61.32	44.34	94.46	47.06	44.34	46.23	49.06	42.45	33.02
工具使用（主要考察模型在检索、调用、规划API和通用工具使用的能力）	80.92	44	76.32	83.78	55.26	100	60.67	71.05	56.58	63.33	27.63	32.67
传统安全（主要考察模型在财产隐私、违法犯罪、偏见歧视、社会和谐等方面的安全能力）	68	43.14	52.94	65.31	67.65	62.75	52	65.31	54.9	57.84	46.94	53.92
结论
从目前市场上的反馈来看，国产大模型中，讯飞星火和通义千问表现较好，文心一言、智谱轻言、豆包相对较差，建议选用讯飞星火或通义千问；国外大模型中，ChatGPT表现较好。综合排序（根据通用大模型综合性基准SuperCLUE）:chatGPT > 通义千问2.0 > 智谱清言 > 文心一言4.0 > Qwen-72B-Chat > Yi-34B-Chat > 云雀大模型(豆包) > XVERSE-13B-2-Chat > 讯飞星火V3.0 > Chinese-Alpaca-2-13B > Llama_2_13B_Chat 参考资料：https://github.com/jeinlee1991/chinese-llm-benchmark/blob/v1.11/README.md