Industry
教学
Client
2024年4月24日
Anthropic LLM 测试集教程
Anthropic 这个教程教你如何创建一个自己的语言模型评估测试集。
LLM 评估 体系通常包含4个部分:
输入提示集
模型对这些提示的响应
用来与模型输出对比的“标准答案”
根据某种评分方法得出的分数
前三部分相当直观
你需要写一些提示,为每个提示编写理想答案,并在你正在评估的模型上测试这些提示。
第四部分
(基于某种评分方法的分数)可能有些棘手。有3种常见的评分方法:
代码:代码:使用代码来检查精确匹配或关键短语(快速且可靠)
人工:人工比较输出与标准答案(较慢且成本高)
模型:利用大语言模型(LLM)来评估输出
选择哪种评分方法取决于你的具体任务。
理想情况下,基于模型的评分方法可以实现自动化,随着模型智能的提升,这一方法越来越可行。
要改进基于模型的评分效果,可以将其视为一个迭代过程。
先手动评分5至10个输出,将这些评分与模型的评分结果进行比较,然后调整评分提示,使模型的评分更加符合你的标准。
另一个建议是:有时候使用与被评估模型不同的模型来进行评分更为合适。
其他建议:
务必构建一个多样化的测试集,以涵盖你任务中的常见场景。
通过将输出设计为容易验证的形式(例如多项选择题)来设计更易于评分的评估工具。
© 2024 GUIZANG, Inc. All rights reserved.