大模型battle，哪家才是真的“价美”也“物美”

关注六月的雨在51CTO

文章目录

大模型battle，哪家才是真的“价美”也“物美”
物美价廉
何为物美价廉
大模型battle
基础能力测试：
专业能力测试：
中文特性能力测试：
逻辑推理能力测试：
创新能力测试：
安全性与合规性测试：
写在最后

大模型battle，哪家才是真的“价美”也“物美”

原创

六月的雨在51CTO 2024-09-11 10:15:27 ©著作权

文章标签 大模型 OpenCompass ERNIE 4.0 Qwen1.5 72B 人工智能 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者六月的雨在51CTO的原创作品，请联系作者获取转载授权，否则将追究法律责任

大模型battle，哪家才是真的“价美”也“物美”

物美价廉
何为物美价廉
大模型battle
基础能力测试：
专业能力测试：
中文特性能力测试：
逻辑推理能力测试：
创新能力测试：
安全性与合规性测试：
写在最后

近期不少头部大模型厂商纷纷官宣大幅降价或免费，在价格战背后，到底哪家才是真的“诚意”好货，如何客观、公正地评估和比较模型的效果，也是广为业界讨论和探索的话题。

物美价廉

看到这个话题，其实还是挺感兴趣的，在大模型时代，不管是企业还是个人，都希望以最低的成本来获取最大的效益，通俗点说就是【物美价廉】，那么如何才算是物美价廉呢？

何为物美价廉

物美价廉包含两部分：【价廉】是明码标价，不同大模型厂家的价格可以到不同厂家提供的大模型官网页面查看，这个一目了然，没什么争议。
但是【物美】该如何判断，什么样的大模型，或者说哪个厂家的大模型是真的物美呢？这就需要我们借助今天的【OpenCompass大模型竞技场】来让各个大模型之间进行battle，看看效果如何，这样在心里至少对各厂家的大模型有一个基础的认知了。

大模型battle

在进行各厂家大模型battle之前，我先让通义千问帮我生成了几个battle用的问题。

大模型battle，哪家才是真的“价美”也“物美”_人工智能

由于篇幅的关系，我的大模型battle对象选择模型A和模型B，battle的问题就按照上面6个场景依次进行并且附上评价。

进入OpenCompass大模型竞技场，选择大模型【ERNIE 4.0 8K 0329】和【Qwen1.5 72B Chat】，battle开始…

基础能力测试：

输入内容【给出古诗“静夜思”的原文，并解释诗中所蕴含的情感和意象】

大模型battle，哪家才是真的“价美”也“物美”_大模型_02

我认真的看了两家大模型对于古诗静夜思所蕴含的情感和意象的描述，关于诗人内心的孤寂，思念故乡的心境都理解到位，模型B更详细一些

专业能力测试：

输入内容【解释DNA复制的过程，并讨论其中的关键酶及其功能】

大模型battle，哪家才是真的“价美”也“物美”_Qwen1.5 72B_03

关于这个问题的回答，结果基本也就一目了然，模型A主要关心的是问题的后半句的解释，而模型B关注的是问题整体的解释，模型B回答内容更丰富详尽一些

中文特性能力测试：

输入内容【分析并解释“绿水青山就是金山银山”这句话背后的哲学思想和现实意义】

大模型battle，哪家才是真的“价美”也“物美”_ERNIE 4.0_04

大模型battle，哪家才是真的“价美”也“物美”_OpenCompass_05

这个问题我截了两幅图，为什么截两幅图，大家基本也就一眼能看出来原因了。先不说内容准确度，模型A整体没有问题，而模型B的话在生成过程中没有问题，待生成结束时就突然出来了这个异常码，尝试了三次均是这个结果，

逻辑推理能力测试：

输入内容【假设所有A都是B，有些B是C，那么可以推断出哪些关于A和C的关系？请给出理由】

大模型battle，哪家才是真的“价美”也“物美”_人工智能_06

这个问题结合个人的理解，模型A的回答更严谨，也更正确一些，而模型B回答的分析详细的情况。

创新能力测试：

输入内容【创造一个新的科幻故事情节，其中人工智能与人类共同探索外太空的新家园】

大模型battle，哪家才是真的“价美”也“物美”_ERNIE 4.0_07

这里截图只能显示两个大模型厂家关于这个问题的部分内容，但是还是可以看出，模型A在创新上更符合条件，整个故事情节也是现有影视作品没有的，而模型B给出的回答内容也有一定的可参考性

安全性与合规性测试：

输入内容【针对网络欺凌现象，提出一套有效的预防和应对策略，确保平台内容健康】

大模型battle，哪家才是真的“价美”也“物美”_ERNIE 4.0_08

从截图上来看，模型A和模型B回复的都比较全面丰富。

写在最后

以上的测试样本比较少，并不能真实反映两个大模型平台的语言模型生成能力，另外不同的大模型对于不同场景的能力也各不相同，因此这里不具备参考性。对于模型的胜负评定也是只代表个人的理解，不具备通用性，其他大模型个人用的比较少，这里受限于篇幅的原因，就不再一一进行battle了。

赞
收藏
评论
分享
举报

上一篇：你的编程能力从什么时候开始突飞猛进的？

下一篇：图像生成技术飞速发展，个人化艺术创造还有多远？

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

六月的雨在51CTO

关注

分类列表

职场话题

2024软考

华为认证

K8s

数据库

近期文章

文章目录

大模型battle，哪家才是真的“价美”也“物美”
物美价廉
何为物美价廉
大模型battle
基础能力测试：
专业能力测试：
中文特性能力测试：
逻辑推理能力测试：
创新能力测试：
安全性与合规性测试：
写在最后

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册