探讨大型语言模型的评估方法,包含指标、挑战及最佳实践,强调评估的重要性与持续性。
原文标题:独家|评估大型语言模型(LLM)系统:指标、挑战和最佳实践
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、如何确保评估数据集的质量?
3、如何看待AI评估AI的方式?
原文内容
作者:Jane Huang、Kirk Li 和 Daniel Yehdego
翻译:陈之炎
校对:zrx
本文约7300字,建议阅读10分钟
本文介绍了评估大型语言模型。
表1:LLM模型评估基准示例
基准
|
描述 |
参考链接 |
GLUE基准 |
GLUE(通用语言理解评估)基准提供了一套标准化的多样化NLP任务,以评估不同语言模型的有效性 |
https://gluebenchmark.com/
|
SuperGLUE基准
|
与GLUE相比,更具挑战性和多样性的任务,并提供全类人基线
|
https://super.gluebenchmark.com/
|
HellaSwag |
评估LLM完成句子的能力 |
https://rowanzellers.com/hellaswag/
|
TruthfulQA |
衡量模型响应的真实性 |
https://github.com/sylinrl/TruthfulQA
|
MMLU(大规模多任务语言理解) |
评估LLM在多任务方面的表现
|
https://github.com/hendrycks/test
|
框架/平台
|
描述
|
指南
|
参考
|
|
Azure AI Studio Evaluation (Microsoft)
|
Azure AI Studio用于构建、评估和部署生成式AI解决方案和自定义copilots的一体化AI平台。技术前景:无代码:AzureML studio和AI studio中的模型目录;低代码:作为CLI;专业代码:作为azureml-metrics SDK
|
Tutorials
|
Link
|
|
Prompt Flow (Microsoft)
|
开发工具,旨在简化基于LLM的人工智能应用程序的端到端开发周期,从构思、原型设计、测试和评估到生产、部署和监控。
|
Tutorials
|
Link
|
|
Weights & Biases(Weights & Biases)
|
机器学习平台,可快速跟踪实验、对数据集进行版本和迭代、评估模型性能、再现模型、可视化结果和发现回归,并与同事共享发现。
|
Tutorias, DeepLearning.AI Lesson
|
Link
|
|
LangSmith (LangChain)
|
帮助用户跟踪和评估语言模型应用程序和智能代理,以帮助用户从原型转移到生产。
|
Tutorials
|
Link
|
|
TruLens (TruEra)
|
TruLens提供了一组用于开发和监控神经网络(包括LLM)的工具,包括使用TruLens-Eval评估LLM和基于LLM的应用的工具,以及使用TruLens-Explain进行深度学习解释的工具。
|
Tutorials, DeepLearning.AI Lesson
|
Link
|
|
Vertex AI Studio (Google)
|
可以在Vertex AI上评估基础模型和调整后的生成式AI模型的性能。使用一组度量标准对您提供的评估数据集进行评估。
|
Tutorials
|
|
|
Amazon Bedrock
|
Amazon Bedrock支持模型评估作业。模型评估作业的结果允许您评估和比较模型的输出,然后选择最适合下游生成式人工智能应用的模型。模型评估作业支持大型语言模型(LLM)的常见用例,例如文本生成、文本分类、问答和文本摘要。
|
Tutorials
|
Link
|
|
DeepEval (Confident AI)
|
LLM应用程序的开源LLM评估框架。
|
Examples
|
Link
|
|
Parea AI
|
Parea帮助AI Engineers构建可靠的生产就绪型LLM应用程序。Parea提供了用于调试、测试、评估和监控LLM驱动的应用程序的工具。
|
Article on evals
|
Link
|
注:指南、参考等内容可在原文中查看
分类 |
指标 |
描述 |
用户参与度和效用指标 |
访问 |
访问LLM应用程序功能的用户数 |
提交 |
提交提示的用户数 |
|
响应 |
响应的LLM应用程序生成无错误的响应 |
|
查看 |
用户查看来自LLM的回复 |
|
点击 |
单击用户单击LLM响应中的参考文档 |
|
用户交互 |
用户接受率 |
用户接受率用户接受的频率,随着上下文的不同而变化(例如,文本包含或会话场景中的积极反馈) |
LL对话 |
LLM会话每个用户的平均LLM会话数 |
|
活跃天数 |
有效天数每个用户使用LLM功能的有效天数 |
|
交互时长 |
交互时间提示和回答之间的平均时间,以及在每个提示和回答之间花费的时间 |
|
响应质量 |
提示和响应长度 |
提示和响应的平均长度 |
编辑距离指标 |
用户提示之间以及LLM响应和保留内容之间的平均编辑距离度量可作为提示细化和内容定制的指标 |
|
用户反馈和保留 |
用户反馈 |
带有指击向上/向下反馈的响应数 |
日/周/月活跃用户 |
每日/每周/每月活跃用户在一定时间内访问LLM应用功能的用户数量 |
|
用户返回率 |
用户返回率前一周/月使用此功能的用户在本周/月继续使用此功能的比例 |
|
性能指标 |
每秒请求数 |
LLM每秒处理的请求数 |
每秒标记数 |
每秒标记计数LLM响应流期间每秒呈现的令牌 |
|
第一次标记渲染时间 |
从用户提示提交到第一次标记呈现的时间,以多个百分位数测量 |
|
差错率 |
错误率不同类型错误(如401错误、429错误)的错误率。 |
|
可靠性 |
可靠性成功请求占请求总数的百分比,包括错误或失败请求 |
|
延迟 |
Latency从提交请求查询到接收响应之间的平均处理时间 |
|
成本指标 |
GPU/CPU的使用 |
根据标记总数、收到的429个响应的数量计算的利用率 |
|
LLM调用成本 |
例子:OpenAI API调用的成本 |
|
基础设施成本 |
基础设施成本来自存储、网络、计算资源等的成本。 |
|
操作成本 |
运营成本维护、支持、监控、日志记录、安全措施等成本。 |
RAI潜在伤害类别 |
样本评估数据集的危害描述 |
危害内容 |
l自残 l厌烦 l色情 l暴力 l公平 l袭击事件 l越狱(jailbreaks):系统中断指令,导致有害内容 |
规则 |
l版权 l隐私和安全 l第三方内容监管 l与医疗、金融和法律等高度监管领域相关的咨询 l恶意软件的生成 l破坏安保系统 |
幻觉 |
l不真实的内容:非事实的 l不真实的内容:冲突 l基于常识的幻觉 |
其他分类 |
l透明度 l责任:生成内容缺乏出处(生成内容的来源和更改可能无法追溯) l服务质量(QoS)差异 l包容性:对社会群体的刻板印象、贬低或过多或过少的代表性 l可靠性和安全性 |
参考:赋能负责任的AI实践 | 微软AI
不同应用场景的评估指标
指标类型 |
指标名称 |
细节 |
参考 |
基于重叠的指标 |
BLEU |
BLEU评分是一种基于精确度的测量方法,其范围从0到1。值越接近1,预测效果越好。 |
Link |
ROUGE |
Recall-Oriented Understudy for Gisting Evaluation是一套用于评估自动文摘和机器翻译软件的度量标准和相应的软件包。 |
Link |
|
ROUGE-N |
ROUGE-N测量候选文本和参考文本之间的n-gram(n个单词的连续序列)的重叠。它计算精度,召回,和F1分数的基础上n克重叠。 |
Link |
|
ROUGE-L |
ROUGE-L测量候选文本和参考文本之间的最长公共子序列(LCS)。它根据lcs的长度计算精确度、召回率和f1得分。 |
Link |
|
METEOR |
METEOR机器翻译评价的一个自动度量,它基于机器翻译和人工翻译参考译文之间的unigram匹配的广义概念。 |
Link |
|
基于语义相似度的指标 |
BERTScore |
它利用BERT预训练的上下文嵌入,通过余弦相似性匹配候选和参考句子中的单词。 |
Link |
MoverScore |
基于上下文嵌入和Earth MoverScore距离的MoverScore文本生成评价。 |
Link |
|
擅长总结 |
SUPERT |
无监督的多文档摘要评价与生成。 |
Link |
BLANC |
一种无参考的摘要质量度量,用于测量访问和不访问摘要时屏蔽语言建模性能的差异。 |
Link |
|
FactCC |
基于FactCC的文摘事实一致性评价 |
Link |
|
其他 |
Perplexity |
在分析文本样本时,困惑度可以作为语言模型预测准确性的统计标准。简单地说,它衡量模型遇到新数据时的“惊讶”程度。较低的困惑值指示模型对文本的分析中的预测准确度较高。 |
Link |
注:指南、参考等内容可在原文中查看
指标 |
细节 |
参考 |
QAEval |
一种用于估计摘要的内容质量的基于问答的度量。 |
Link |
QAFactEval |
基于QAFactEval的事实一致性评估环节 |
Link |
QuestEval |
评估两个不同的输入是否包含相同信息的NLG指标。它可以处理多模态和多语言输入。 |
Link |
注:指南、参考等内容可在原文中查看
指标 |
细节 |
参考 |
Classification metrics |
实体级或模型级的分类指标(精确度、召回率、准确度、F1得分等)。 |
Link |
InterpretEval |
InterpretEval主要思想是根据实体长度、标签一致性、实体密度、句子长度等属性将数据划分为实体桶,然后分别对每个桶上的模型进行评估。 |
Link |
注:指南、参考等内容可在原文中查看
指标 |
细节 |
参考 |
WikiSQL |
这是为2017年底引入的文本到SQL用例构建的第一个大型数据概要。 |
https://github.com/salesforce/WikiSQL |
Spider |
Spider一个大规模的、复杂的、跨领域的语义分析和文本到SQL数据集。 |
https://yale-lily.github.io/spider |
BIRD-SQL |
BIRD-SQL BIRD(大型数据库基于文本到SQL的评估的Big Bench)代表了一个开创性的跨域数据集,用于检查广泛的数据库内容对文本到SQL解析的影响。 |
https://bird-bench.github.io/ |
SParC |
一个跨域上下文语义分析的数据集。 |
https://yale-lily.github.io/sparc |
表9:文本到SQL任务的评估指标
指标 |
细节 |
Exact-set-match accuracy (EM) |
EM根据相应的基础真值SQL查询计算预测中的每个子句。然而,一个限制是,存在许多不同的方式来表达服务于相同目的的SQL查询。 |
Execution Accuracy (EX) |
EX根据执行结果评估生成的答案的正确性。 |
VES (Valid Efficiency Score) |
这是一个度量所提供的SQL查询的效率和通常执行正确性的指标。 |
评价框架 |
细节 |
参考 |
RAGAs |
帮助评估检索增强生成(RAG)管道的框架 |
Docs, Code |
ARES |
一种检索扩展生成系统的自动评估框架 |
Link |
RAG Triad of metrics |
RAG三要素:答案相关性(最终结果是否有用)、上下文相关性(检索效果如何)和基础性(结果是否得到上下文的支持)。Trulens和LLMA指数一起工作的评价。 |
DeepLearning.AI Course |
指标
|
细节
|
参考
|
Faithfulness
|
根据给定的上下文衡量生成的答案与事实的一致性。
|
Link
|
Answer relevance
|
重点评估生成的答案与给定提示的相关性。
|
Link
|
Context precision
|
评估项目的所有事实,目前在上下文中排名较高。
|
Link
|
Context relevancy
|
测量检索到的上下文相关性,基于问题和上下文计算。
|
Link
|
Context Recall
|
检索到的上下文对齐与注释的答案在何种程度与真相一致。
|
Link
|
Answer semantic similarity
|
评估生成的答案和真相之间的语义相似性。
|
Link
|
Answer correctness
|
将生成的答案与事实进行比较,衡量其准确性。
|
Link
|
注:指南、参考等内容可在原文中查看
原文标题:
译者简介
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。