前言

提示词只是让LLM具有一定的推理能力,并不能直接提高模型能力,可以借助CoT思维链、提示词规则一定程度微调模型。

尽量使用新模型,通用性能更好,支持提示词规则更多。

参考

  • https://www.rgznbk.com/archives/Prompt-Engineering-step.html - https://m.okjike.com/originalPosts/653338a3aa7d4f2b30112ab7?s=eyJ1IjoiNjRiNzQwZTViOGM3NWExYmI4ZDQwNGI3IiwiZCI6MX0%3D
  • 使用ChatGPT API构建系统——大语言模型、API格式和Token_哔哩哔哩_bilibili
    - ChatGPT Prompt 最佳指南

背景

往期博客针对AI解题场景设计了一版通用提示词,GPT4 + 通用提示词模板对小、初、高英语学科进行了一次教研测评,发现小、初英语学科单选解题正确率有一定程度提升,基本能达到95%以上,对于高中英语单选效果不是那么好,需要进行系列优化。

假设现在有三位${courseName}学科的不同的教师协商着来给在校学生提问的试题写答案和解析,
所有教师都写下他们思考这个试题的第一个步骤,然后与大家分享,然后所有教师都写下他们思考的下一
个步骤并分享,以此类推,直到所有教师写完他们思考的所有步骤,只要大家发现有教师的步骤出
错了,就让这位教师离开。下面请解答类型为${questionTypeName}的试题`${questionStem}` ,
从三位老师协商中确定一个正确答案,输出格式按照"【答案】:xxx;【解析】:xxx",语言需要简洁。

一、指令性LLM

首先LLM是有大量数据监督训练而成的一种映射(函数)体,生成的结果是按照概率反复预测选取token的过程。

AI实践于学习3_大模型之AI解题提示词优化实践_学习

ps:词和token还是有区别的,对应一句话如果都是常见的词如"Learning new things is fun!" 则每个词都会被分为一个token,但是如果是包含不常见词的一句话如 “Prompting is a powerful developer tool” ,对于Prompting会被分为prompt、pt、ing。因此对于英语来说,一个token大概对应2/3个词或者4个字符。

可以把LLM分为两类

  • Base LLM:基础LLM,训练需要海量数据以及较强的运算能力,训练比较困难,训练周期一般几个月。
  • Introduction Tuned LLM:指令调优LLM,训练相对容易,周期一般几天,如ChatGPT就是在基础LLM上进行微调,使用少量的数据集进行再训练,使得能根据输入的指令预测下一个token的概率。想要模型输出高质量答复,最常用的一种RLHF即来自人类反馈的强化学习,如就是给输出的结果评分反馈,可以提升LLM高质量输出的概率。市面上基本都是此类LLM,在Base LLM的基础上套个壳子,针对某一业务场景进行微调。

二、提示词规则回顾

1.1、基础思维链提示词相关规则

  1. Zero-shot Prompting(零样本):在没有任何数据或示例问题的情况下LLM直接回答问题
  2. Chain-of-Thought Prompting(思维链):使用提示词工程(prompt engineering)来引导LLM过程化逐步的得出答案。
  1. **Zero-shot Cot(零样本思维链):**在提示词里加上简单的一句 “Let’s think step by step.” 即可让 AI 按照一步步推理的方式来回答问题。其他几种类似语句:docs.qq.com
  2. Few-shot Cot(少样本思维链):LLM被提供了一些示例问题和答案,以帮助模型理解任务的上下文。这个方法虽然简化,但是存在一定的局限性,所给的示例可能引导LLM进行错误的思考。
  3. Auto Few-shot CoT(自动少样本思维链):相当于Few-shot-Learning的自动版,在解题前,自己给自己先打样,再解题。但这个方式的前提是有针对问题归类好的数据集。因为 AI 需要从数据集里查询相似的问题来打样。需要工程方面解决。因此,不适合在提示词层面使用。相关论文测试数据,结果相比 Few-shot Learning 提升不是特别明显,约 5% 左右。
  4. **Explicit CoT(精确思维链):**这个工作的主要目的是让 LLM 在对话时考虑用户的状态,比如用户的 personality, empathy 和 psychological,遵循的还是思维链套路,并且将思维链拆成了多个步骤(LLM 每次回答一点,不是一次性基于思维链全部回答)。这样的好处在于用户还可以修改、删除中间过程的一些回答,原始的上下文和所有中间过程都会用于最终回答的生成。
  5. 𝗟𝗲𝗮𝘀𝘁-𝘁𝗼-𝗠𝗼𝘀𝘁 𝗖𝗼𝗧:教育心理学里的一个概念。意思是通过循序渐进的提示,逐步引导学生掌握目标技能。核心是把问题拆解成一个个的子问题,并且每一个子问题的答案是有助于解决下一个子问题的。我觉得这是一个可以在提示词层面使用的非常好的方法。具体的应用并不难,提示词类似:“要解决 XXX 问题,需要知道如下问题的答案:1:Q1 2: Q2”,又或者是“让我们来拆分一下这个问题:1:Q1 2: Q2”,然后再让 AI 给出最终答案。
  6. 𝗟𝗼𝗴𝗶𝗖𝗼𝗧:这篇论文的核心思想是对 CoT(Chain-of-Thought)的每一步推理结果进行二次校验,校验完对这一步的推理过程进行修正,然后重新让 AI 按照新的步骤推理。这种方式如果用提示词来实现,提示词会非常长,都有可能超出会话上下文。在进行二次校验的时候,思路是让 AI 自己针对指定的步骤,从两个不同的角度进行评审,然后依次分析,最后给出它认为更可信的角度。举例一个让 AI 自己校验答案的提示词详情见:m.okjike.com(左右互搏)
  7. 𝗖𝗼𝗩𝗲 𝗖𝗼𝗧:思路和 LogiCoT 有点像。其核心思路是从 AI 的回复中抽取关键的事实,然后针对这些事实生成一系列问题让 AI 自己回答,最后再汇总输出最终回复。有点像老师让学生在做完题后,针对关键步骤再仔细检查一遍,看看有没有哪个环节做错了。针对这个思路,之前也写过一些感想,详情见:m.okjike.com
  1. 𝗦𝗲𝗹𝗳-𝗖𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 𝗖𝗼𝗧:让 AI 模型针对问题生成不同的推理路径或者说解题思路,得出一个结果集,最后选择占多数的那个的答案。核心思想就是少数服从多数,多让模型回答几次(这里的提问也用到了少样本思维链),然后在 LLM 的多次回答中选择出现多次的答案。
  2. Tree-of-Thought(思维树):使用提示词工程来生成一个答案树,然后使用广度优先搜索(BFS)或深度优先搜索(DFS)等经典搜索算法结合LLM来搜索这棵树。

一些精简版使提示词具有CoT思维的例子

CoT (Chain-of-Thought): Let’s think step by step.
CoT (思维链):让我们一步一步来思考。

PS (Plan and Solve): Let’s first understand the problem and devise a plan to solve the problem. Then, let’s carry out the plan and solve the problem step by step.
PS (计划与解决):让我们先理解问题,然后制定计划来解决问题。之后,让我们按照计划一步一步解决问题。

PS+ (Plan and Solve): Let’s first understand the problem, extract relevant variables and their corresponding numerals, and make a plan. Then, let’s carry out the plan, calculate intermediate variables (pay attention to correct numerical calculation and commonsense), solve the problem step by step, and show the answer.
PS+ (计划与解决+):让我们先理解问题,提取相关的变量及对应的数字,并制定计划。然后,让我们执行计划,计算中间变量(注意正确的数字计算和常识),一步一步解决问题,并给出答案。

APE (Automatic Prompt Engineer): Let’s work this out in a step by step way to be sure we have the right answer.
APE (自动提示工程):让我们用一步一步的方式来解决这个问题,以确保得出正确答案。

OPRO (Optimization by PROmpting): Take a deep breath and work on this problem step-by-step.
OPRO (通过提示进行优化):深呼吸,一步一步解决这个问题。

A little bit of arithmetic and a logical approach will help us quickly arrive at the solution to this problem. (稍微进行一些算术运算和逻辑思考,可以帮助我们快速得出这个问题的解决方案。)
Let's combine our numerical command and clear thinking to quickly and accurately decipher the answer.(让我们结合数字命令和清晰的思维,快速准确地解密答案。)

1.2、Program Synthesis提示词规则

程序合成提示词规则LLM被提示编写一个解决问题的程序,然后在解释器中运行该程序。

https://selfboot.cn/2023/07/24/gpt4_prompt_tools/

针对那些计算型的任务,可以先让LLM生成一个解决任务得到程序(代码)然后针对任务执行任务得出结果,比较适合数学类的题目。

1.3、Progressive-Hint提示词规则

类似于一致性提示的进阶,试图模拟人类推理的过程,通过反复检查和修正答案来提高推理的准确性。具体来说,PHP 方法会对上一次的推理过程进行处理,然后将其合并到初始问题中,让模型进行再次推理。当连续两次的推理结果一致时,就认为得出的答案是准确的,并返回最终答案。

AI实践于学习3_大模型之AI解题提示词优化实践_ide_02

问:小树学校有 96 名四年级学生。其中 43 名是女孩。周五,5 名四年级女生和 4 名四年级男生缺席。周五小树学校有多少四年级男生?

正确答案应该是 96 - 43 - 4 = 49

可以对LLM生成结果校验并反问一遍以提高准确率,比较适合数学类的题目。

1.4、Critique提示词规则

LLM生成一个对答案 A 的批判 C,然后答案通过迭代使用这些批判来进行改进。这个过程可以表示为以下形式:Q, A → C; Q, A, C → A’ ; Q, A, C, A’ → C’ ; 等等。

举例:

  1. I recently tested the AI Critic Prompt I had heard about to see if it could help improve my written work.我最近测试了我听说过的AI Critic Prompt,看看它是否可以帮助改善我的书面工作。
  2. The prompt works in 3 steps: starting by asking ChatGPT to act as a critic, then to criticize the given text, and finally to rewrite the text and improve it based on the critique.提示分为3个步骤:首先要求ChatGPT充当评论家,然后评论给定的文本,最后重写文本并根据评论进行改进。
  3. Having now tested the AI Critic Prompt several times, I’ve found that the results ChatGPT can provide are quite impressive. I especially appreciate that it draws on its extensive knowledge of language and communication to help optimize the text and ensure it is as clear and effective as possible.在多次测试AI Critic Prompt之后,我我特别赞赏它利用其广泛的语言和沟通知识来帮助优化文本,并确保文本尽可能清晰和有效。
  4. On the downside, using the AI Critic Prompt can be somewhat time consuming. After writing and submitting your text, it can take several minutes for ChatGPT to analyze it and suggest improvements. Also, some creative writers may not like having their work challenged or receiving criticism from a software program.缺点是,使用AI Critic Prompt可能有点耗时。在编写并提交文本后,ChatGPT可能需要几分钟时间来分析文本并提出改进建议。此外,一些有创造力的作家可能不喜欢他们的工作受到挑战或收到来自软件程序的批评。
  5. Overall, my experience with the AI Critic Prompt has been mostly positive. It has helped me to identify and address areas of my writing in need of improvement, as well as giving me some helpful perspective on my work. I highly recommend giving it a try if you’re looking for a way to ensure you’re producing the most effective, high-quality writing.总的来说,我对AI Critic Prompt的体验大多是积极的。它帮助我确定和解决我的写作需要改进的地方,以及给我一些有用的观点对我的工作。如果你正在寻找一种方法来确保你能写出最有效、最高质量的文章,我强烈建议你试试。

可以让LLM先对输入的文本进行批评,然后结合这些批评点再让LLM修改文本,比较适合文章润色、写作等方面。

1.5、Multimodal thinking chain提示词规则

**多模态思维链,**整个过程可以分分为下面两个部分

(1)理由生成:在这个阶段,我们将语言和视觉输入提供给模型,以生成推理的理由。这个理由可以看作是解决问题的中间步骤或思考链的一部分。这个过程可以帮助模型理解问题的上下文,并为下一步的答案推断做好准备。

(2)答案推断:在这个阶段,我们将从第一阶段生成的理由添加到原始的语言输入中。然后,我们将更新后的语言输入和原始的视觉输入一起提供给模型,以推断出答案。这个过程允许模型利用在理由生成阶段获得的信息来做出更准确的推断。

AI实践于学习3_大模型之AI解题提示词优化实践_学习_03

二、测评结果分析与优化

主要针对主流的LLM进行简单CASE测评,包括OpenAI的GPT4、ChatGPT 3.5、讯飞星火、百度千帆平台(百度自研ERNIR-Bot 4.0、Meta自研Llama-2-70B)等。

对比OpenAI GPT4、ChatGPT3.5和百度ERNIE-bot 4.0对CASE解题效果,发现在AI解题场景中

  • 对于当前CASE1、CASE2、CASE3主要是ChatGPT3.5解答错误但是OpenAI GPT4解答正确的试题
  • 对于CASE4、CASE5主要是针对教研测评的OpenAI GPT4解答错误的小学英语题(测试59道,错误2道)
  • 对于CASE6主要是针对教研测评的OpenAI GPT4解答错误的初中英语题(测试31道,错误1道)
  • 对于CASE7主要是针对教研测评的OpenAI GPT4解答错误的高中英语题(测试32道,错误9道)

1、通用提示词模板下,百度千帆平台模型测试的ERNIE-Bot 4.0效果相比其他模型解答准确,CASE1、CASE2、甚至CASE3的阅读理解全部解题正确,而GPT4错了一小问。后面试用次数用完了,没在跟进测试。科大讯飞认知模型回复内容和百度千帆模型平台-LLama-2模型比较像,但是针对CASE1、CASE2都解答错误,对于当前解题业务场景能力不是很强。

2、绝大多数情况GPT4.0效果是要好于ChatGPT3.5的。但是在CASE7发现,GPT4解答错误的试题在ChatGPT3.5不使用提示词模板的情况下解答正确,证明

  • GPT4是增强ChatGPT3.5,但不是全集,但是还是**要尽量使用最新的模型,不能针对个例评判,**GPT4.0内置支持很多提示词规则,有的提示词规则GPT3.5不一定支持。
  • 另外就是提示词模板所加的题型信息(课程、题型)等可能干扰,有时候不是加上的条件越多越好,条件太多限制模型BFS能力,尽量让模型BFS的广度多一些,比如之前指定的是高中英语学科老师,现在指定为不同学科的教师,可以提高搜索广度,详情见CASE7。附加条件太少模型可能生成正确答案,但是每次生成结果不太稳定。
  • 即使采用思维树提示词规则生成多个答案然后选择一个最佳的,占比多数的答案也不一定是正确的,这跟模型能力有关,可以借助CoT把那些易错的试题加入到思维链中,从而进行一定程度的模型微调。

3、其他参数结论对于模型的temperature、topP(两个值调整一个就行)参数值设置,需要考虑到提示词模板,理论上值越低回答越生硬确定(呆板),可以设置 确定性tempetature为0,多样性topP为1

1、拆分提示词场景

进行提示词场景和模板拆分优化后(具体哪个生成更加准确稳定还得大量测试)的提示词

// 场景1
假设你是一位试题命题专家,现在有数学、英语、语文、物理、生物、地理等学科的不同的5位高级
教师协商着来给在校学生提问的试题写答案和解析,首先所有教师认真审查试题题干,然后所有教
师都写下他们思考分析这个试题的第一个步骤,然后与大家分享讨论并根据其他老师思路以及试题考点等信息调整自
己思路,然后所有教师都写下他们思考的下一个步骤并分享,以此类推,直到所有教师写完他们思考
的所有步骤,只要你发现有教师的步骤出错了,就让这位教师离开。

// 模板1
下面请解答试题${questionStem},确保答案正确,输出最终的答案与解析,输出格式按照
"【答案】:xxx;【解析】:xxx",语言需要简洁。


// 场景2
在国家图书馆中举行学术研讨会,有不同学科的语文教师,数学教师,英语教师,政治教师,历史
教师,地理教师,物理教师,化学教师,生物教师,来解答学生提问的问题。第一步:所有教师都
按照格式("【答案】:xxx;【解析】:xxx")写下他们的思考方法和计算步骤,念出来进行激
烈的辩论和投票。第二步:开始进行观点阐述分别说出自己的观点,再投票(不允许投给自己),
至少进行三轮投票,自我思考,选出票数最高的思考方法和计算步骤。 第三步:所有教师再根据
票数最高的思考方法和计算步骤复现答案,得出答案案后,再投票。记录票数最高的教师的答案,
至少进行三轮投票(不允许投给自己)。第四步:输出整个辩论的过程。第五步:按格式输出
("【答案】:xxx;【解析】:xxx")。请逐步进行。

// 模板2
下面请解答试题${questionStem} ,输出格式按照"【答案】:xxx;【解析】:xxx",语言
需要简洁。


// 场景3
在国家图书馆中举行学术研讨会,有不同学科的语文教师,数学教师,英语教师,政治教师,历史教师,地理教师,物理教师,化学教师,生物教师,来解答学生提问的问题。
第一步:所有教师都按照格式("【答案】:xxx;【解析】:xxx")写下他们的思考方法和计算步骤,念出来进行激烈的辩论和投票。
第二步:开始进行观点阐述分别说出自己的观点,再投票(不允许投给自己),至少进行三轮投票,自我思考,选出票数最高的思考方法和计算步骤。 
第三步:所有教师再根据票数最高的思考方法和计算步骤复现答案,得出答案案后,再投票。记录票数最高的教师的答案,至少进行三轮投票(不允许投给自己)。
第四步:输出整个辩论的过程。
第五步:按格式输出("【答案】:xxx;【解析】:xxx")。
请逐步进行。

// 模板4
下面请解答试题${questionStem} ,输出格式按照"【答案】:xxx;【解析】:xxx",语言
需要简洁。

ps:检查生成结果可信度的提示词场和提示词(用于分析)

// 场景
在国家图书馆中举行学术研讨会,有语文教师,数学教师,英语教师,政治教师,历史教师,
地理教师,物理教师,化学教师,生物教师,来解答学生提问的问题。 从教师中,根据题目
类型抽选3名相关学科的教师,根据不同的思路,不同的考察方向和不同的知识点按照格式
("【答案】:xxx;【解析】:xxx" )写3种不同的答案和解析+可信度(考察的内容,步骤等)
,不能抄袭,确保认真思考和结果正确及3种不同的答案和解析+可信度。

// 模板
下面请解答试题${questionStem} ,确保答案正确,输出最终的答案与解析,
输出格式按照"【答案】:xxx;【解析】:xxx",语言需要简洁。

2、增加思维链试题示例

针对哪些怎么调整提示词,模型生成正确答案的可信度都较低的试题,可以配置在CoT上下文中,一定程度提高同类型的题、原题的解题正确率。

// CoT思维链上下文
// role:assistent、user
[
    {
        "stem":"Mike is considering _______ the position as a nurse, which is often considered ______ a woman’s job. A. applying for; being B. applying for; to be C. to apply to; to be D. to apply to; being",
        "answer":"B",
        "explanation":"考查非谓语动词和短语。句意:迈克正在考虑申请护士的职位,这通常被认为是女性的工作。apply for“申请”,apply to“适用于”,根据句意,空一表示“申请(职位)”,用apply for,consider doing sth.“考虑做某事”,用动名词作宾语;空二为consider sb./sth. to be...“认为某人/某物是……”的被动结构sb./sth. be considered to be,用不定式作主语补足语,故选B。"
    },
    {
        "stem":"Later in this chapter the case will be introduced to readers ______ consumers’ support became a stream of motivation for improvement of the company. A.who B.when C.which D.where",
        "answer":"D",
        "explanation":"考查定语从句关系词。句意:之后,在这章中,这种案例将会被介绍给读者,在这种案例中,消费者的支持变成了对于公司提升的一股激励的清泉。A. who谁,指代人;B. when什么时候,指代时间;C. which哪一个,指代物;D. where什么地方,指代地点。分析从句结构,主语consumers’ support消费者的支持,系动词became变成,表语a stream of motivation一股激励的清泉,结构完整,考虑关系副词。限制性定语从句修饰主句先行词case,在从句中作状语成分in the case,表示抽象地点,故选D。"
    },
    {
        "stem":"Man may disappear________ other creatures who became too specialized to survive their environment. A.as  B.just as  C.as if  D.as have",
        "answer":"B",
        "explanation":"考查非谓语动词。句意:村子里似乎无人居住,唯一的生命迹象是一只长相丑陋的山羊,被拴在附近田野的一棵树上。分析句子结构可知,空处为非谓语动词,逻辑主语是the only sign of life +分词being an ugly-looking goat构成独立主格结构,分词的动作与其逻辑主语之间是主动关系,用现在分词,故填B。"
    },
    {
        "stem":"The village seemed deserted, the only sign of life ________ an ugly-looking goat tied to a tree in a field nearby. A.is  B.being  C.was  D.be",
        "answer":"D",
        "explanation":"考查非谓语动词。句意:村子里似乎无人居住,唯一的生命迹象是一只长相丑陋的山羊,被拴在附近田野的一棵树上。分析句子结构可知,空处为非谓语动词,逻辑主语是the only sign of life +分词being an ugly-looking goat构成独立主格结构,分词的动作与其逻辑主语之间是主动关系,用现在分词,故填B。"
    },
    {
        "stem":"For an individual ______ as having gaming disorder, the WHO suggests an individual should have shown significant impairment due to computer games for at least 12 months. A.diagnosed  B.having been diagnosed  C.to be diagnosed  D.being diagnosed",
        "answer":"C",
        "explanation":"考查非谓语动词。句意:对于被诊断为游戏障碍的个体,世卫组织建议,该个体应因电脑游戏而表现出至少12个月的严重障碍。A.diagnosed诊断,过去式或过去分词;B.having been diagnosed已经被诊断,现在分词的完成被动式;C.to be diagnosed将要被诊断,动词不定式的被动式;D.being diagnosed正在被诊断,现在分词的被动式。分析句子可知句子谓语动词是suggests,空格处填入非谓语动词,an individual和diagnose之间是被动关系,根据下文“an individual should have shown significant impairment due to computer games for at least 12 months.”可知,一个人应该因电脑游戏而表现出至少12个月的严重损害才属于游戏障碍。因此推断diagnose属于将来的动作,用不定式的被动式作后置定语,现在分词作定语一般不用完成式。故选C。"
    }
]

三、CASE7-测试试题2897120171327488

高中英语,单选,教研测评题

GPT4 + 通用提示词模板

解答错误

AI实践于学习3_大模型之AI解题提示词优化实践_ai_04

尝试调整提示词场景 + 提示词模板为下面内容:

在国家图书馆中举行学术研讨会,有一群知识储备丰富的教师来解答学生提出的试题。
从教师中,根据题目类型抽选3名相关学科的教师,根据不同的思路,不同的考察方向
和不同的知识点按照格式("【答案】:xxx;【解析】:xxx" )写3种不同的答案和解
析+可信度(考察的内容,步骤等),不能抄袭,确保认真思考和结果正确及3种不同的答
案和解析+可信度。

已知这道试题考点为让步状语从句,下面请解答学科为${courseName}类型为
${questionTypeName} 的试题 `${questionStem}` ,确保答案正确,
输出最终的一个答案与解析,输出格式按照"【答案】:xxx;【解析】:xxx",
语言需要简洁。

解答错误

AI实践于学习3_大模型之AI解题提示词优化实践_人工智能_05

尝试调整提示词场景 + 提示词模板为下面内容

假设你是一位试题命题专家,现在有五位学科的不同的高级教师协商着来给在校学生提问的试题写
答案和解析,首先所有教师认真审查试题题干,然后所有教师都写下他们思考分析这个试题的第一
个步骤,然后与大家分享讨论,然后所有教师都写下他们思考的下一个步骤并分享,以此类推,直
到所有教师写完他们思考的所有步骤,只要你发现有教师的步骤出错了,就让这位教师离开。


下面请解答试题${questionStem} ,确保答案正确,输出最终的答案与解析,
输出格式按照"【答案】:xxx;【解析】:xxx",语言需要简洁。

解答正确

AI实践于学习3_大模型之AI解题提示词优化实践_ide_06

(3)尝试调整提示词场景 + 提示词模板为下面内容(分析致信度)

// 提示词场景
在国家图书馆中举行学术研讨会,有语文教师,数学教师,英语教师,政治教师,历史教师,地理
教师,物理教师,化学教师,生物教师,来解答学生提问的问题。 从教师中,根据题目类型抽选3
名相关学科的教师,根据不同的思路,不同的考察方向和不同的知识点按照格式
("【答案】:xxx;【解析】:xxx" )写3种不同的答案和解析+可信度(考察的内容,步骤等)
,不能抄袭,确保认真思考和结果正确及3种不同的答案和解析+可信度。

// 提示词模板
下面请解答试题${questionStem} ,确保答案正确,输出最终的答案与解析,
输出格式按照"【答案】:xxx;【解析】:xxx",语言需要简洁。

AI实践于学习3_大模型之AI解题提示词优化实践_学习_07

四、系列优化后的效果

针对高中英语部分解答错误的单选试题,经过上述系列优化,对于之前测试解体错误的7道试题CASE,优化后能能解答正确4-5左右,基本满足要求。

由于教研从题库选取的CASE具有少量性、随机性,因此测评结果不具有普遍性,后续需要针对复制次数等功能持续评测优化。