การประเมิน Amazon Bedrock
ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินขั้นตอนการดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ Amazon Bedrock
ภาพรวม
Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณสำหรับการผลิตที่สร้างขึ้นบน Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ โดยประเมินฟังก์ชันดึงข้อมูลหรือดึงข้อมูลและสร้าง

ประเภทการประเมินผล
ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร
ใช้การดึงข้อมูลและสร้างการประเมินเพื่อประเมินความสามารถในการสร้างเสริมการดึงข้อมูลแบบครบวงจร (RAG) ของแอปพลิเคชันของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่สร้างขึ้นนั้นถูกต้อง สมบูรณ์ จำกัดผลลัพธ์เพี้ยน และปฏิบัติตามหลักการ AI ที่มีความรับผิดชอบ ไม่ว่าจะประเมินประสิทธิภาพของ Bedrock Knowledge Base หรือนำการตอบสนองการอนุมานของคุณเองจากระบบ RAG ที่กำหนดเองของคุณ เพียงเลือก LLM ที่จะใช้เป็นตัวตัดสินโดยใช้ Amazon Bedrock Knowledge Bases ของคุณหรือสำหรับผลลัพธ์ RAG ที่กำหนดเองของคุณ อัปโหลดชุดข้อมูลของคุณ และเลือกตัววัดที่สำคัญที่สุดสำหรับการประเมินของคุณ

ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ
ใช้การประเมินการดึงข้อมูล RAG เพื่อประเมินการจัดเก็บและการตั้งค่าการดึงข้อมูลของ Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่ดึงมามีความเกี่ยวข้องและครอบคลุมคำถามของผู้ใช้ทั้งหมด เพียงเลือก LLM เพื่อใช้ในฐานะตัวตัดสิน เลือก Bedrock Knowledge Base เพื่อประเมินหรือรวมการดึงระบบ RAG ที่กำหนดเองของคุณในชุดข้อมูลพร้อมท์ของคุณ และเลือกตัววัดของคุณ

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ
การประเมินโมเดล Amazon Bedrock ช่วยให้คุณสามารถใช้การประเมินอัตโนมัติและการประเมินโดยมนุษย์เพื่อเลือก FM สำหรับกรณีการใช้งานเฉพาะ การประเมินโมเดลอัตโนมัติ (ทางโปรแกรม) จะใช้ชุดข้อมูลที่ได้รับการคัดสรรและกำหนดเอง และมีมาตรวัดที่กำหนดไว้ล่วงหน้า รวมถึงความแม่นยำ ความทนทาน และความเป็นพิษ สำหรับเมตริกส่วนตัว คุณสามารถใช้ Amazon Bedrock เพื่อตั้งค่าเวิร์กโฟลว์การประเมินโดยมนุษย์ด้วยขั้นตอนที่รวดเร็วเพียงไม่กี่ขั้นตอน ด้วยการประเมินโดยมนุษย์ คุณสามารถนำชุดข้อมูลของคุณเองและกำหนดตัวชี้วัดที่กำหนดเอง เช่น ความเกี่ยวข้อง สไตล์ และการจัดแนวกับลักษณะของแบรนด์ เวิร์กโฟลว์การประเมินโดยมนุษย์สามารถใช้พนักงานของคุณเองในฐานะผู้ตรวจสอบหรือคุณสามารถมีส่วนร่วมกับทีมที่จัดการโดย AWS เพื่อดำเนินการประเมินโดยมนุษย์ โดยที่ AWS จ้างผู้ประเมินที่มีทักษะและจัดการเวิร์กโฟลว์อย่างสมบูรณ์ในนามของคุณ คุณยังสามารถใช้ LLM ในฐานผู้ตัดสินพื่อให้การประเมินคุณภาพสูงบนชุดข้อมูลของคุณด้วยตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (ผลลัพธ์เพี้ยน) รวมถึงตัววัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบและความเป็นอันตราย คุณสามารถประเมินโมเดล Bedrock หรือโมเดลใดก็ได้ทุกที่โดยนำการตอบสนองการอนุมานของคุณเองในชุดข้อมูลอินพุตพร้อมท์ของคุณ

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น
ใช้ฟีเจอร์การเปรียบเทียบในการประเมินเพื่อดูผลลัพธ์ของการเปลี่ยนแปลงใด ๆ ที่คุณทำกับพร้อมท์ โมเดลที่กำลังประเมิน ระบบ RAG ที่กำหนดเองของคุณหรือ Bedrock Knowledge Bases
