如何让AI"准确"地给你的考试评分

2025年8月2日

我们经常看到的一件事是，人们把他们的写作样本上传到像ChatGPT或Claude这样的AI工具上，要求评估，然后抱怨评分不一致或不公平。我们不会在这篇文章中深入讨论LLM的本质，但

a.) 你需要正确地提示工具以获得更准确的结果

b.) LLM目前还没有达到你应该完全依赖它们来准备考试的程度

让我们以这个雅思样题/回答为例：

问题：有些人认为应该教孩子在学校竞争，而另一些人认为应该教他们合作。讨论这两种观点并给出你自己的意见。

回答：如今，关于孩子应该在学校学习竞争还是合作存在争论。两种方法都有优点，我将在这篇文章中讨论它们...（完整的问题/答案在评论中）。

正确提示工具

如果你只是把这个复制粘贴到ChatGPT中并要求给出你的雅思分数——你的提示方式是不正确的！你会得到高方差，而且可能是夸大的分数。你的提示应该看起来像这样：

你是一位专业的雅思考官。阅读这个附加的评分标准，然后准确公正地给以下雅思写作任务评分：

[在这里插入你的问题/答案对]"

你会看到更低的方差（你可以通过在多个LLM中以隐身模式打开多个聊天并给它们完全相同的提示来测试这一点）和更低的分数膨胀。

为什么？通过使用评分标准进行提示，你迫使"虚拟考官"将你回答中的特定单词和短语与评分标准中的指南进行匹配。这将给你一个更"准确"的结果。

LLM不是考官

我们总是把"准确"放在引号里，因为LLM的工作方式。这些本质上是基于它们之前看到的内容的预测算法。真正的人类考官已经参加过口头、书面和虚拟培训，其中专业的培训师向评分标准添加了上下文。他们可以更容易、更一致地给新颖的问题/答案对评分。

虽然考官之间也存在差异，但数十年的培训项目开发意味着让专业考官审查你的结果可能会与你的考试日结果更加一致。

我们非常支持在达到某个点之前不在考试准备上花一分钱。PDF、免费在线测试、与朋友聊天、AI工具等应该首先用尽。然而，一旦你用尽了免费资源，是时候与专业考官闭环了。你可以在lottalingo.com找到一位。

祝学习顺利！