多模态大模型：LLM Applications in Automated Essay Scoring (AES)

原创

拧螺丝的大白菜 2024-07-21 00:05:17 博主文章分类：Others ©著作权

文章标签 多模态大模型 LLM AES 文章分类 AI写作 AIGC AIGC二三事

©著作权归作者所有：来自51CTO博客作者拧螺丝的大白菜的原创作品，请联系作者获取转载授权，否则将追究法律责任

::: hljs-right DATE: July 18, 2024 :::

LLM Applications in AES Recent studies have explored The potential of leveraging the capabilities of modern LLMs in AES tasks. Mizumoto and Eguchi (2023) provided ChatGPT with specific IELTS scoring rubrics for essay evaluation but found limited improvements when incorporating GPT scores into the regression model. In a different approach, Yancey et al. (2023) used GPT-4’s few-shot capabilities to predict Common European Framework of Reference for Languages (CEFR) levels for short essays written by second-language learners. However, the Quadratic Weighted Kappa (QWK) scores still did not surpass those achieved by the XGBoost baseline model or human annotators. Similarly, Han et al. (2023); Stahl et al. (2024) introduced prompting frameworks that did not outperform the conventional baselines. AES 中的 LLM 应用最近的研究探索了在 AES 任务中利用现代 LLM 功能的潜力。Mizumoto 和 Eguchi (2023) 为 ChatGPT 提供了特定的雅思评分标准用于论文评估，但在将 GPT 分数纳入回归模型时发现改进有限。在另一种方法中，Yancey 等人 (2023) 使用 GPT-4 的少样本功能来预测第二语言学习者撰写的短文的欧洲语言共同参考框架 (CEFR) 水平。但是，二次加权 Kappa (QWK) 分数仍然没有超过 XGBoost 基线模型或人工注释者所取得的分数。同样地，Han 等人 (2023)；Stahl 等人 (2024) 引入的提示框架的表现并未超越传统基线。 [1] Xiao C, Ma W, Song Q, et al. Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs[M]. arXiv, 2024.

BERT(Bidirectional Encoder Representations from Transformers)

未经微调的 BERT 仅提供通用的文本表示，不能直接用于完成特定任务。

BERT微调步骤

添加任务特定的层： 在 BERT 的顶部添加一个或多个任务特定的层。例如，文本分类任务通常会在 BERT 的输出上添加一个全连接层。
在任务特定的数据集上训练： 使用特定任务的数据集进行微调，使模型能够适应该任务。
评估和优化： 在验证集上评估模型表现，进行参数调整和优化。

开源多模态大模型（MLLM）

仅比较了文字识别和阅读两个测评数据

	CogVLM2-LLaMA3-Chinese	Yi-VL-34B	XVERSE-V	DeepSeek-VL-7B	OmniLMM-12B
OCRbench	780	290	489	435	420
TextVQA	85.0	54.0	74.2	63.8	62.4

多模态大模型的其他有趣用途

视障真实场景

元象的大模型XVERSE-V在真实视障场景测试集VizWiz中，表现出色。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答，能准确反映用户的真实需求与琐碎细小的问题，帮助视障人群克服他们日常真实的视觉挑战。

多学科问题解答

模型具备了广泛的知识储备和逻辑推理能力，能够识别图像解答不同学科的问题。

自动驾驶

以上图源为参考2

参考：

上一篇：NOTE5：二阶矩/DNNs Ownership Protection评估标准/LLM常见参数含义

下一篇：NOTE2: Normalization/优化器/其他GAN

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯