Đánh giá của Amazon Bedrock

Đánh giá mô hình nền tảng, bao gồm các mô hình tùy chỉnh và mô hình đã nhập, để tìm những mô hình phù hợp với nhu cầu của bạn. Bạn cũng có thể đánh giá quy trình truy xuất hoặc quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock.

Tổng quan

Amazon Bedrock cung cấp các công cụ đánh giá để giúp bạn tăng tốc quá trình áp dụng các ứng dụng AI tạo sinh. Đánh giá, so sánh và chọn mô hình nền tảng cho trường hợp sử dụng của bạn bằng Đánh giá mô hình. Chuẩn bị đưa vào sản xuất các ứng dụng RAG được xây dựng trên Cơ sở kiến thức dành cho Amazon Bedrock hoặc hệ thống RAG tùy chỉnh của chính bạn bằng cách đánh giá các hàm truy xuất hoặc truy xuất và tạo.

Ảnh chụp màn hình UI

Các loại đánh giá

Sử dụng LLM làm công cụ đánh giá để đánh giá đầu ra của mô hình bằng cách sử dụng tập dữ liệu câu lệnh tùy chỉnh của bạn với các chỉ số như tính chính xác, tính đầy đủ và tính gây hại.

Đánh giá đầu ra của mô hình bằng thuật toán ngôn ngữ tự nhiên truyền thống và các chỉ số như BERT Score, F1 và các kỹ thuật so khớp chính xác khác, bằng cách sử dụng tập dữ liệu câu lệnh tích hợp sẵn hoặc của riêng bạn.

Đánh giá đầu ra của mô hình bằng nhân sự của riêng bạn hoặc để AWS quản lý bản đánh giá cho phản hồi đối với tập dữ liệu câu lệnh tùy chỉnh của bạn bằng các chỉ số tích hợp sẵn hoặc tùy chỉnh.

Đánh giá chất lượng truy xuất của hệ thống RAG tùy chỉnh hoặc Cơ sở kiến thức dành cho Amazon Bedrock với các câu lệnh và chỉ số của bạn như mức độ liên quan với ngữ cảnh và phạm vi ngữ cảnh.

Đánh giá nội dung được tạo trong quy trình làm việc RAG toàn diện của bạn từ quy trình RAG tùy chỉnh của bạn hoặc Cơ sở kiến thức dành cho Amazon Bedrock. Sử dụng câu lệnh và chỉ số của riêng bạn như tính trung thực (phát hiện ảo giác), tính chính xác và tính đầy đủ.

Đánh giá quy trình làm việc RAG toàn diện của bạn

Sử dụng các bản đánh giá truy xuất và tạo để đánh giá khả năng tạo có kết hợp truy xuất thông tin ngoài (RAG) toàn diện của ứng dụng. Đảm bảo nội dung được tạo chính xác, đầy đủ, hạn chế ảo giác và tuân thủ các nguyên tắc AI có trách nhiệm. Đánh giá hiệu năng của Cơ sở kiến thức dành cho Bedrock hoặc sử dụng phản hồi suy luận của riêng bạn từ hệ thống RAG tùy chỉnh của bạn. Chỉ cần chọn một LLM để sử dụng làm công cụ đánh giá với Cơ sở kiến thức dành cho Amazon Bedrock hoặc cho các đầu ra RAG tùy chỉnh của bạn, tải lên tập dữ liệu và chọn các chỉ số quan trọng nhất cho bản đánh giá của bạn.

Ảnh chụp màn hình UI

Đảm bảo truy xuất hoàn chỉnh và phù hợp từ hệ thống RAG của bạn

Sử dụng các bản đánh giá truy xuất RAG để đánh giá cài đặt lưu trữ và truy xuất của Cơ sở kiến thức dành cho Amazon Bedrock hoặc hệ thống RAG tùy chỉnh. Đảm bảo nội dung được truy xuất có liên quan và bao quát toàn bộ truy vấn của người dùng. Chỉ cần chọn một LLM để sử dụng làm công cụ đánh giá, chọn Cơ sở kiến thức dành cho Bedrock để đánh giá hoặc bao gồm các truy xuất hệ thống RAG tùy chỉnh của bạn trong tập dữ liệu câu lệnh và chọn các chỉ số.

Ảnh chụp màn hình UI

Đánh giá FM để chọn FM phù hợp nhất cho trường hợp sử dụng của bạn

Đánh giá mô hình của Amazon Bedrock cho phép bạn sử dụng các bản đánh giá tự động và đánh giá thực hiện bởi con người để chọn FM cho một trường hợp sử dụng cụ thể. Đánh giá mô hình tự động (theo lập trình) sử dụng các tập dữ liệu được tuyển chọn và tùy chỉnh, đồng thời cung cấp các chỉ số định sẵn bao gồm độ chính xác, độ chắc chắn và độ độc hại. Đối với các chỉ số chủ quan, bạn có thể sử dụng Amazon Bedrock để thiết lập quy trình đánh giá của con người trong một vài bước nhanh chóng. Với đánh giá của con người, bạn có thể sử dụng tập dữ liệu riêng và xác định các chỉ số tùy chỉnh, chẳng hạn như mức độ liên quan, phong cách và mức độ phù hợp với tiếng nói thương hiệu. Quy trình đánh giá thực hiện bởi con người có thể sử dụng nhân viên của bạn trong vai trò người đánh giá, hoặc bạn có thể thuê một đội ngũ do AWS quản lý để thực hiện đánh giá của con người, trong đó AWS thuê các nhân viên đánh giá có tay nghề cao và thay mặt bạn quản lý quy trình làm việc toàn diện. Bạn cũng có thể sử dụng LLM-as-a-Judge (LLM làm công cụ đánh giá) để cung cấp các bản đánh giá chất lượng cao về tập dữ liệu của mình với các chỉ số như tính chính xác, tính đầy đủ, sự trung thực (ảo giác), cùng với các chỉ số về AI có trách nhiệm như mức độ từ chối trả lời và tính gây hại. Bạn có thể đánh giá các mô hình Bedrock hoặc bất kỳ mô hình nào ở bất cứ đâu bằng cách sử dụng các phản hồi suy luận của riêng bạn trong tập dữ liệu câu lệnh đầu vào.

Ảnh chụp màn hình UI

So sánh kết quả giữa nhiều tác vụ đánh giá để ra quyết định nhanh hơn

Sử dụng tính năng so sánh trong bản đánh giá để xem kết quả của bất kỳ thay đổi nào bạn đã thực hiện đối với câu lệnh, mô hình đang được đánh giá, hệ thống RAG tùy chỉnh hoặc Cơ sở kiến thức dành cho Bedrock của bạn.

Ảnh chụp màn hình UI