การประเมิน Amazon Bedrock

ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินขั้นตอนการดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ Amazon Bedrock

ภาพรวม

Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณสำหรับการผลิตที่สร้างขึ้นบน Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ โดยประเมินฟังก์ชันดึงข้อมูลหรือดึงข้อมูลและสร้าง

ภาพหน้าจอ UI

ประเภทการประเมินผล

ใช้ LLM ในฐานะผู้ตัดสินเพื่อประเมินผลลัพธ์ของโมเดลโดยใช้ชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณที่มีตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ และความเป็นอันตราย

ประเมินผลลัพธ์ของโมเดลโดยใช้อัลกอริทึมและตัววัดภาษาธรรมชาติแบบดั้งเดิม เช่น คะแนน BERT, F1 และเทคนิคการจับคู่ที่แน่นอนอื่น ๆ โดยใช้ชุดข้อมูลพร้อมท์ในตัวหรือใช้ชุดของตัวเอง

ประเมินผลลัพธ์ของโมเดลกับพนักงานของคุณเองหรือให้ AWS จัดการการประเมินของคุณเกี่ยวกับการตอบสนองต่อชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณด้วยตัววัดในตัวหรือแบบกำหนดเอง

ประเมินคุณภาพการเรียกค้นระบบ RAG ที่กำหนดเองของคุณหรือ Amazon Bedrock Knowledge Bases ด้วยพร้อมท์และตัววัดต่าง ๆ เช่น ความเกี่ยวข้องของบริบทและการครอบคลุมบริบท

ประเมินเนื้อหาที่สร้างขึ้นของเวิร์กโฟลว์ RAG ครบวงจรของคุณจากไปป์ไลน์ RAG ที่กำหนดเองของคุณหรือ Amazon Bedrock Knowledge Bases ใช้พร้อมท์และตัววัดของคุณเอง เช่น ความซื่อสัตย์ (การตรวจจับผลลัพธ์เพี้ยน) ความถูกต้อง และความสมบูรณ์

ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร

ใช้การดึงข้อมูลและสร้างการประเมินเพื่อประเมินความสามารถในการสร้างเสริมการดึงข้อมูลแบบครบวงจร (RAG) ของแอปพลิเคชันของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่สร้างขึ้นนั้นถูกต้อง สมบูรณ์ จำกัดผลลัพธ์เพี้ยน และปฏิบัติตามหลักการ AI ที่มีความรับผิดชอบ ไม่ว่าจะประเมินประสิทธิภาพของ Bedrock Knowledge Base หรือนำการตอบสนองการอนุมานของคุณเองจากระบบ RAG ที่กำหนดเองของคุณ เพียงเลือก LLM ที่จะใช้เป็นตัวตัดสินโดยใช้ Amazon Bedrock Knowledge Bases ของคุณหรือสำหรับผลลัพธ์ RAG ที่กำหนดเองของคุณ อัปโหลดชุดข้อมูลของคุณ และเลือกตัววัดที่สำคัญที่สุดสำหรับการประเมินของคุณ

ภาพหน้าจอ UI

ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ

ใช้การประเมินการดึงข้อมูล RAG เพื่อประเมินการจัดเก็บและการตั้งค่าการดึงข้อมูลของ Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่ดึงมามีความเกี่ยวข้องและครอบคลุมคำถามของผู้ใช้ทั้งหมด เพียงเลือก LLM เพื่อใช้ในฐานะตัวตัดสิน เลือก Bedrock Knowledge Base เพื่อประเมินหรือรวมการดึงระบบ RAG ที่กำหนดเองของคุณในชุดข้อมูลพร้อมท์ของคุณ และเลือกตัววัดของคุณ

ภาพหน้าจอ UI

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

การประเมินโมเดล Amazon Bedrock ช่วยให้คุณสามารถใช้การประเมินอัตโนมัติและการประเมินโดยมนุษย์เพื่อเลือก FM สำหรับกรณีการใช้งานเฉพาะ การประเมินโมเดลอัตโนมัติ (ทางโปรแกรม) จะใช้ชุดข้อมูลที่ได้รับการคัดสรรและกำหนดเอง และมีมาตรวัดที่กำหนดไว้ล่วงหน้า รวมถึงความแม่นยำ ความทนทาน และความเป็นพิษ สำหรับเมตริกส่วนตัว คุณสามารถใช้ Amazon Bedrock เพื่อตั้งค่าเวิร์กโฟลว์การประเมินโดยมนุษย์ด้วยขั้นตอนที่รวดเร็วเพียงไม่กี่ขั้นตอน ด้วยการประเมินโดยมนุษย์ คุณสามารถนำชุดข้อมูลของคุณเองและกำหนดตัวชี้วัดที่กำหนดเอง เช่น ความเกี่ยวข้อง สไตล์ และการจัดแนวกับลักษณะของแบรนด์ เวิร์กโฟลว์การประเมินโดยมนุษย์สามารถใช้พนักงานของคุณเองในฐานะผู้ตรวจสอบหรือคุณสามารถมีส่วนร่วมกับทีมที่จัดการโดย AWS เพื่อดำเนินการประเมินโดยมนุษย์ โดยที่ AWS จ้างผู้ประเมินที่มีทักษะและจัดการเวิร์กโฟลว์อย่างสมบูรณ์ในนามของคุณ คุณยังสามารถใช้ LLM ในฐานผู้ตัดสินพื่อให้การประเมินคุณภาพสูงบนชุดข้อมูลของคุณด้วยตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (ผลลัพธ์เพี้ยน) รวมถึงตัววัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบและความเป็นอันตราย คุณสามารถประเมินโมเดล Bedrock หรือโมเดลใดก็ได้ทุกที่โดยนำการตอบสนองการอนุมานของคุณเองในชุดข้อมูลอินพุตพร้อมท์ของคุณ

ภาพหน้าจอ UI

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น

ใช้ฟีเจอร์การเปรียบเทียบในการประเมินเพื่อดูผลลัพธ์ของการเปลี่ยนแปลงใด ๆ ที่คุณทำกับพร้อมท์ โมเดลที่กำลังประเมิน ระบบ RAG ที่กำหนดเองของคุณหรือ Bedrock Knowledge Bases

ภาพหน้าจอ UI