Industry

教学

Client

2024年4月24日

Anthropic LLM 测试集教程

Anthropic 这个教程教你如何创建一个自己的语言模型评估测试集。

LLM 评估 体系通常包含4个部分:

输入提示集

模型对这些提示的响应

用来与模型输出对比的“标准答案”

根据某种评分方法得出的分数

前三部分相当直观

你需要写一些提示,为每个提示编写理想答案,并在你正在评估的模型上测试这些提示。

第四部分

(基于某种评分方法的分数)可能有些棘手。有3种常见的评分方法:

代码:代码:使用代码来检查精确匹配或关键短语(快速且可靠)

人工:人工比较输出与标准答案(较慢且成本高)

模型:利用大语言模型(LLM)来评估输出

选择哪种评分方法取决于你的具体任务。

理想情况下,基于模型的评分方法可以实现自动化,随着模型智能的提升,这一方法越来越可行。

要改进基于模型的评分效果,可以将其视为一个迭代过程。

先手动评分5至10个输出,将这些评分与模型的评分结果进行比较,然后调整评分提示,使模型的评分更加符合你的标准。

另一个建议是:有时候使用与被评估模型不同的模型来进行评分更为合适。

其他建议:

务必构建一个多样化的测试集,以涵盖你任务中的常见场景。

通过将输出设计为容易验证的形式(例如多项选择题)来设计更易于评分的评估工具。

© 2024 GUIZANG, Inc. All rights reserved.