::: hljs-right DATE: July 18, 2024 :::

LLM Applications in AES Recent studies have explored The potential of leveraging the capabilities of modern LLMs in AES tasks. Mizumoto and Eguchi (2023) provided ChatGPT with specific IELTS scoring rubrics for essay evaluation but found limited improvements when incorporating GPT scores into the regression model. In a different approach, Yancey et al. (2023) used GPT-4’s few-shot capabilities to predict Common European Framework of Reference for Languages (CEFR) levels for short essays written by second-language learners. However, the Quadratic Weighted Kappa (QWK) scores still did not surpass those achieved by the XGBoost baseline model or human annotators. Similarly, Han et al. (2023); Stahl et al. (2024) introduced prompting frameworks that did not outperform the conventional baselines. AES 中的 LLM 应用最近的研究探索了在 AES 任务中利用现代 LLM 功能的潜力。Mizumoto 和 Eguchi (2023) 为 ChatGPT 提供了特定的雅思评分标准用于论文评估,但在将 GPT 分数纳入回归模型时发现改进有限。在另一种方法中,Yancey 等人 (2023) 使用 GPT-4 的少样本功能来预测第二语言学习者撰写的短文的欧洲语言共同参考框架 (CEFR) 水平。但是,二次加权 Kappa (QWK) 分数仍然没有超过 XGBoost 基线模型或人工注释者所取得的分数。同样地,Han 等人 (2023);Stahl 等人 (2024) 引入的提示框架的表现并未超越传统基线。 [1] Xiao C, Ma W, Song Q, et al. Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs[M]. arXiv, 2024.

BERT(Bidirectional Encoder Representations from Transformers)

未经微调的 BERT 仅提供通用的文本表示,不能直接用于完成特定任务。

BERT微调步骤

  1. 添加任务特定的层: 在 BERT 的顶部添加一个或多个任务特定的层。例如,文本分类任务通常会在 BERT 的输出上添加一个全连接层。
  2. 在任务特定的数据集上训练: 使用特定任务的数据集进行微调,使模型能够适应该任务。
  3. 评估和优化: 在验证集上评估模型表现,进行参数调整和优化。

开源多模态大模型(MLLM)

仅比较了文字识别和阅读两个测评数据

CogVLM2-LLaMA3-Chinese Yi-VL-34B XVERSE-V DeepSeek-VL-7B OmniLMM-12B
OCRbench 780 290 489 435 420
TextVQA 85.0 54.0 74.2 63.8 62.4

多模态大模型的其他有趣用途

视障真实场景

元象的大模型XVERSE-V在真实视障场景测试集VizWiz中,表现出色。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答,能准确反映用户的真实需求与琐碎细小的问题,帮助视障人群克服他们日常真实的视觉挑战。 image.png

多学科问题解答

模型具备了广泛的知识储备和逻辑推理能力,能够识别图像解答不同学科的问题。 image.png

自动驾驶

image.png 以上图源为参考2

参考:

  1. 智谱开源新一代多模态大模型CogVLM2,性能媲美GPT-4V
  2. 元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入