Amazon Bedrock 评估

评估基础模型,包括自定义和导入的模型,找到契合自己需求的模型。您还可以在 Amazon Bedrock 知识库中评估您的检索或端到端 RAG 工作流程。

概览

Amazon Bedrock 提供一系列评测工具来帮助您加速采用生成式人工智能应用程序。您可以使用模型评测功能,评测、比较并为您的用例选择基础模型。通过评估检索或者检索和生成功能,确保基于 Amazon Bedrock 知识库而构建的 RAG 应用程序做好投产准备。

UI 屏幕截图

评测类型

基于正确性、完整性和危害性等指标,使用您自定义的提示数据集通过 LLM as a Judge 评测模型输出。

使用内置提示数据集或自带数据集,基于传统自然语言算法和各种指标(如 BERT Score、F1 以及其他精确匹配技术)评测模型输出。

使用您自己的员工评测模型输出,或者让 AWS 来管理您使用内置或自定义指标对自定义提示数据集响应展开的评测。

使用您的提示和指标(例如上下文相关性和上下文覆盖率等等),评估自定义 RAG 系统或 Amazon Bedrock 知识库的检索质量。

评估从您的自定义 RAG 管道或 Amazon Bedrock 知识库中生成的端到端 RAG 工作流内容。使用您自己的提示和指标,例如可靠性(幻觉检测)、正确性和完整性。

评估您的端到端 RAG 工作流

使用检索和生成评测功能,评测应用程序的端到端检索增强生成(RAG)能力。确保生成的内容正确、完整、限制幻觉且符合负责任的人工智能原则。评估 Bedrock 知识库的性能,或者从自定义 RAG 系统中引入您自己的推理响应。只需为 Amazon Bedrock 知识库或您的自定义 RAG 输出选择一个 LLM 作为评判者,然后上传您的数据集,并选择最重要的评估指标。

UI 屏幕截图

确保从 RAG 系统执行完整且相关的检索

使用 RAG 检索评估功能,评估您的 Amazon Bedrock 知识库或自定义 RAG 系统的存储和检索设置。确保检索到的内容相关且涵盖整个用户查询。只需选择一个 LLM 作为评判者,选择一个 Bedrock 知识库进行评估,或者将您的自定义 RAG 系统检索结果包含在提示数据集内,然后选择您的指标。

UI 屏幕截图

评估基础模型 (FM) 以选择最适合您的使用案例的版本

Amazon Bedrock 模型评测让您可以通过自动和人工评测来为特定用例选择基础模型。自动(程序化)模型评测使用精选的自定义数据集,并提供准确性、鲁棒性和毒性等预定义指标。对于主观指标,只需使用 Amazon Bedrock 执行几个简单的步骤即可设置人工评估工作流。通过人工评估,您可以引入自己的数据集并定义自定义指标,例如相关性、风格和与品牌声音的一致性。在人工评测工作流中,您既可以使用自己的员工作为评审员,也可以聘请 AWS 管理的团队来执行人工评测,对于后一种情况,AWS 将代表您雇用熟练的评测员和管理整个工作流。您还可以通过 LLM-as-a-Judge,使用正确性、完整性、忠实度(幻觉)等指标以及拒绝回答和答案有害等与负责任的人工智能有关的指标,对数据集进行高质量的评测。通过在输入提示数据集内引入您自己的推理响应,您可以随时随地评估 Bedrock 模型或者任何其他模型。

UI 屏幕截图

比较多个评测任务的结果,更快地做出决策

在评估中使用比较功能,以查看您对提示、被评估的模型、自定义 RAG 系统或 Bedrock 知识库做出任何更改之后,结果有何不同。

UI 屏幕截图