Anthropic LLM 测试集教程

Anthropic 这个教程教你如何创建一个自己的语言模型评估测试集。

输入提示集

模型对这些提示的响应

用来与模型输出对比的“标准答案”

根据某种评分方法得出的分数

你需要写一些提示，为每个提示编写理想答案，并在你正在评估的模型上测试这些提示。

（基于某种评分方法的分数）可能有些棘手。有3种常见的评分方法：

代码：代码：使用代码来检查精确匹配或关键短语（快速且可靠）

人工：人工比较输出与标准答案（较慢且成本高）

模型：利用大语言模型（LLM）来评估输出

选择哪种评分方法取决于你的具体任务。

理想情况下，基于模型的评分方法可以实现自动化，随着模型智能的提升，这一方法越来越可行。

要改进基于模型的评分效果，可以将其视为一个迭代过程。

先手动评分5至10个输出，将这些评分与模型的评分结果进行比较，然后调整评分提示，使模型的评分更加符合你的标准。

另一个建议是：有时候使用与被评估模型不同的模型来进行评分更为合适。

务必构建一个多样化的测试集，以涵盖你任务中的常见场景。

通过将输出设计为容易验证的形式（例如多项选择题）来设计更易于评分的评估工具。