产品综合对比 | ||||||||||||
产品名称 | 文心一言 | 讯飞星火 | 通义千问 | 智谱轻言 | 豆包 | ChatGPT | Qwen-72B-Chat | OrionStar-Yi-34B-Chat | Baichuan2-13B-Chat | XVERSE-13B-2-Chat | Chinese-Alpaca-2-13B | Llama_2_13B_Chat |
公司名称 | 百度 | 科大讯飞 | 阿里 | 北京智谱华章科技有限公司(清华大学) | 字节 | OpenAl | 阿里巴巴 | 零一万物 | 百川智能 | 元象科技 | yiming cui | Meta+Llama中文社区 |
一句话介绍 | 国产大语言模型 | 国产大语言模型 | 国产大语言模型 | 国产大语言模型 | 国产大语言模型 | 目前主流的大语言模型 | 国产大语言模型 | 国产大语言模型 | 国产大语言模型 | 国产大语言模型 | 国产大语言模型 | 根据国外大模型改造的中文大模型 |
模型是否开源 | 否 | 否 | 否 | 是(ChatGLM) | 否 | 否 | 是 | 是 | 是 | 是 | 是 | 是 |
应用场景 | 1、内容创作:文心一言可以提供更具创意的文本创作、图像创作和图文混合内容创作,帮助人们撰写邮件、博客文章、新闻报道、广告等各种类型的文本与图像内容,提供语法纠错、词汇建议和写作风格建议。 2、知识问答:文心一言可以作为聊天机器人的核心,服务于知识问答和对话领域,成为更具感情的数字人、更具理解力的智能客服、更有知识的教辅老师,广泛应用于金融、传媒、互联网等领域。 3、语音助手:文心一言可以用于开发语音助手,结合小度硬件产品走进千家万户,与用户进行语音交互,执行各种任务,例如设置提醒、查找信息、播放音乐等。 | 1、代码快速生成或者改Bug的智能编程助手iFlyCode1.0 2、视频创作的讯飞智作2.0 3、帮助教师设计教学活动、一键生成课件的星火教师助手 4、面向学生口语练习的星火语伴2.0 5、讯飞AI学习机也升级AI编程空间和AI创意画板 6、科大讯飞还和华为联合发布讯飞星火一体机,为每一家企业提供专属的大模型,联合打造全国产化算力底座。 | 1、智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等 2、企业可以基于‘通义千问’开发智能对话系统,提供更便捷、智能的客户服务、产品推荐、用户互动等应用,提升用户体验和黏性,拓展业务边界 3、‘通义千问’还可以应用于市场调研、舆情分析、用户情感分析等领域,为企业决策提供数据支持和智能分析 | 1、工作: 可用于解决工作中的各种问题,包括技术咨询、数据分析、文案写作等 2、学习: 为学生和教育工作者提供学科知识解答、教案制作、编程辅导等支持 3、日常生活: 在日常生活中,可以用于获取各种信息、策划活动、创意写作等 | 同前面的国产大模型 | 同前面的国产大模型 | 同前面的国产大模型 | 同前面的国产大模型 | 同前面的国产大模型 | 同前面的国产大模型 | 同前面的国产大模型 | 同前面的国产大模型 |
硬件需求 | 不能本地部署,故,无硬件需求 | 不能本地部署,故,无硬件需求 | 不能本地部署,故,无硬件需求 | CPU部署最小化模型:需要至少32G内存 GPU部署最小化模型:推理需要至少6G显存,微调需要至少7G显存 | 不能本地部署,故,无硬件需求 | 不能本地部署,故,无硬件需求 | GPU部署:需要A100、H100、RTX3060、RTX3070等显卡,显存大小官方未给出说明 CPU部署: 使用CPU进行推理,需要约32GB内存 | GPU推理:显存:24G CPU推理:官方未给出说明,可能不支持 | GPU推理:显存:9G CPU推理:支持,硬件要求官方未给出说明 | GPU推理:显存:11G CPU推理:不支持 | GPU推理:显存:10G, CPU推理:内存: 至少16G | GPU推理:内存:12G,显存:10G, CPU推理:内存: 8G,显存: 500MB |
商务模式 | 闭源,文心3.5版本免费使用,文心4.0版本付费(49.9元/月,在理解、生成、逻辑、记忆等能力上都有提升) | 闭源,免费使用 | 闭源,免费使用 | 开源 | 闭源,免费使用 | 闭源,3.5版本免费使用,4.0版本每月20美元 | 开源 | 开源 | 开源 | 开源 | 开源 | 开源 |
优势 | 针对中文的优化,可能在处理中文语料时具有较好的表现,例如处理复杂的语义关系、歧义等问题。作为国内的AI语言模型,可能更符合中国市场的需求,提供更多本地化的支持,例如对于中国特色的网络用语、俚语等的理解 | 在多个领域展现出强大的能力,特别是在文本生成、语言理解和泛领域知识问答方面表现优异 | 在语言的理解能力上表现得可圈可点,基本没有出现一些所问非所答的情况,并且在生成结果时的响应速度方面也表现得较为出色 | 在基础数学计算、编程以及AI绘图领域,还是非常好的,能保证大体准确度以及精度要求 | 可以连接互联网搜索答案 | 目前最好的大语言模型 | 开源使用 | 开源使用 | 开源使用 | 开源使用 | 开源使用 | 开源使用 |
劣势 | 相较于OpenAI的GPT-4,文心一言可能在规模和研发资源方面具有一定的劣势。 | 存在一些局限性,比如在代码生成等复杂问题上的表现还有待进一步提升 | 在内容的呈现方面较为粗略,生成的内容更偏向一个内容梗概,而不是细节丰富的内容 | 在生成内容上,缺乏“灵魂”,需要更多“涌现”发生 | 豆包的多轮对话记忆(上下文联系)能力较弱 | 1、可信性无法保证:ChatGPT 的回复可能是在一本正经地胡说八道 2、时效性差:ChatGPT 无法实时地融入新知识,可回答的知识范围有明显的边界; | 无相关说明 | 无相关说明 | 无相关说明 | 无相关说明 | 无相关说明 | 无相关说明 |
详细功能对比(功能对比为测评分数) | ||||||||||||
计算能力 | 77.84(文心一言4.0 API) | 38.54(讯飞星火V3.0) | 70.1(通义千问2.0) | 69.07 | 54.69 | 97.24(GPT4-Turbo) | 68.56 | 50 | 40.62 | 43.3 | 22.4 | 24.74 |
逻辑推理能力 | 87.84 | 57.43 | 73.29 | 77.4 | 68.92 | 97.59 | 68.06 | 64.38 | 66.22 | 50.68 | 45.21 | 40.54 |
代码能力 | 73.19 | 49.26 | 76.81 | 59.42 | 45.65 | 96.18 | 60.14 | 49.28 | 39.23 | 43.48 | 20.45 | 25.36 |
知识百科能力 | 98.63 | 83.57 | 93.15 | 89.73 | 86.99 | 89.62 | 95.89 | 88.36 | 78.77 | 72.92 | 51.37 | 36.11 |
语言理解能力 | 71.93 | 62.28 | 71.93 | 64.91 | 56.14 | 87.82 | 63.16 | 65.18 | 53.51 | 57.02 | 51.75 | 41.07 |
生成创作能力 | 66.36 | 47.17 | 62.73 | 61.11 | 48.18 | 89.93 | 42.59 | 62.73 | 52.78 | 47.27 | 39.09 | 43.64 |
对话 | 57.03 | 46.83 | 68.75 | 57.81 | 53.12 | 89.22 | 48.44 | 58.87 | 55.47 | 46.88 | 47.66 | 28.91 |
角色扮演 | 53.77 | 47.17 | 61.32 | 61.32 | 44.34 | 94.46 | 47.06 | 44.34 | 46.23 | 49.06 | 42.45 | 33.02 |
工具使用(主要考察模型在检索、调用、规划API和通用工具使用的能力) | 80.92 | 44 | 76.32 | 83.78 | 55.26 | 100 | 60.67 | 71.05 | 56.58 | 63.33 | 27.63 | 32.67 |
传统安全(主要考察模型在财产隐私、违法犯罪、偏见歧视、社会 和谐等方面的安全能力) | 68 | 43.14 | 52.94 | 65.31 | 67.65 | 62.75 | 52 | 65.31 | 54.9 | 57.84 | 46.94 | 53.92 |
结论 | ||||||||||||
从目前市场上的反馈来看,国产大模型中,讯飞星火和通义千问表现较好,文心一言、智谱轻言、豆包相对较差,建议选用讯飞星火或通义千问;国外大模型中,ChatGPT表现较好。 综合排序(根据通用大模型综合性基准SuperCLUE):chatGPT > 通义千问2.0 > 智谱清言 > 文心一言4.0 > Qwen-72B-Chat > Yi-34B-Chat > 云雀大模型(豆包) > XVERSE-13B-2-Chat > 讯飞星火V3.0 > Chinese-Alpaca-2-13B > Llama_2_13B_Chat 参考资料:https://github.com/jeinlee1991/chinese-llm-benchmark/blob/v1.11/README.md |
大语言模型对比
原创
©著作权归作者所有:来自51CTO博客作者laoge776的原创作品,请联系作者获取转载授权,否则将追究法律责任
上一篇:Jenkins X使用
下一篇:SDN 介绍
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩
人工智能 自然语言处理 大语言模型 深度学习 模型量化