搞不定高考的ChatGPT，原来只有小学4年级水平

关注夕小瑶谈人工智能

文章目录

大模型研究测试传送门
数据集
实验结果
总结
大模型AI全栈手册

搞不定高考的ChatGPT，原来只有小学4年级水平

原创

夕小瑶谈人工智能 2023-07-17 08:09:51 ©著作权

文章标签 高考 chatgpt 数据集语言模型深度学习 文章分类 jQuery 前端开发

©著作权归作者所有：来自51CTO博客作者夕小瑶谈人工智能的原创作品，请联系作者获取转载授权，否则将追究法律责任

搞不定高考的ChatGPT，原来只有小学4年级水平_高考

夕小瑶科技说原创

作者 | Python

之前，复旦大学的研究者让ChatGPT参加了中国高考，发现成绩惨不忍睹（参见推送），其中理科数学竟只有20多分。这次，小米AI lab的研究者们给模型降低一下难度，找了1700道中国小学数学题，测试了10个大语言模型。实验表明，ChatGPT只能通过小学4年级水平，而GPT-4可以小学毕业。同时，国产大模型如Baichuan、MOSS、ChatGLM2等表现较差。让我们来看看吧。

论文题目:
CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

论文链接:
https://arxiv.org/pdf/2306.16636.pdf

大模型研究测试传送门

GPT-4能力研究传送门（遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

数据集

本实验使用的小学数学题数据集CMATH获取自开源的小学练习册和考卷。如下图所示，每道题标注了年级（Grade），推理步数（#Steps）与最大有效数字位数（#Digits）来标示难度。

搞不定高考的ChatGPT，原来只有小学4年级水平_语言模型_02

搞不定高考的ChatGPT，原来只有小学4年级水平_语言模型_03

实验结果

实验设置上，作者只采用了零监督设置，没有使用CoT等技巧。作者表示这样才能最原生态地评价大模型。但这样可能也会让模型表现偏低。

各个年级的题目上，实验结果如下图所示。可以看到，GPT-4可以在所有年级的题目中拿到60分以上的成绩，而ChatGPT只能达到4年级及格的水平。国产大模型中，只有ChatGLM2与Ziya-LLaMA-13B能达到2年级及格的水平，其它模型在一年级的问题中也都难以得到50分以上的成绩。

不过，即使GPT-4成绩相对最好，大家回想一下自己小学时的成绩，可能还是要比GPT-4强不少的。

搞不定高考的ChatGPT，原来只有小学4年级水平_chatgpt_04

接下来观看不同模型对需要不同推理步骤的问题，与不同计算位数的问题的表现，也可以看出，当推理步数较多或数字位数较大时，国产大模型表现下滑明显。

搞不定高考的ChatGPT，原来只有小学4年级水平_chatgpt_05

搞不定高考的ChatGPT，原来只有小学4年级水平_chatgpt_06

作者还尝试在问题中增加干扰条件（Distractors）来检测大模型的鲁棒性。

搞不定高考的ChatGPT，原来只有小学4年级水平_深度学习_07

实验结果表明，GPT-4具有较强的抗干扰能力，而其他大模型在抗干扰上表现不佳。

搞不定高考的ChatGPT，原来只有小学4年级水平_深度学习_08

总结

该文用中国小学数学题测试了GPT-4、ChatGPT与国产大模型。实验结果表明，GPT-4可以较好地解答中文小学数学题，但和人类相比还有差距；即使是面对中文试题，国产大模型与OpenAI的产品之间还有很大距离，我们还需要进一步加强国产大模型的研究。

大模型AI全栈手册

行业首份AI全栈手册开放下载啦！！

长达3000页，涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。

微信公众号关注“夕小瑶科技说”，回复“789”下载资料

搞不定高考的ChatGPT，原来只有小学4年级水平_深度学习_09

赞
收藏
评论
分享
举报

上一篇：chatgpt中文

下一篇：最后一位Transformer作者离开谷歌，已宣布离职创业

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册