Amazon Bedrock Değerlendirmeleri

İhtiyaçlarınıza uygun modelleri bulmak için özel ve içe aktarılan modeller de dahil olmak üzere altyapı modellerini değerlendirin. Ayrıca Amazon Bedrock Bilgi Tabanları’nda geri alma veya uçtan uca RAG iş akışınızı değerlendirebilirsiniz.

Genel Bakış

Amazon Bedrock, üretken yapay zeka uygulamalarının benimsenmesini hızlandırmanız için değerlendirme araçları sağlar. Model Değerlendirmesi ile kullanım örneğiniz için altyapı modelini değerlendirin, karşılaştırın ve seçin. Alma ya da alma ve oluşturma işlevlerini değerlendirerek Amazon Bedrock Bilgi Tabanları veya özel RAG sistemleriniz üzerinde oluşturulan RAG uygulamalarınızı üretim için hazırlayın.

Kullanıcı arabirimi ekran görüntüsü

Değerlendirme türleri

Doğruluk, eksiksizlik ve zararlılık gibi ölçümlerle özel istem veri kümelerinizi kullanarak model çıktılarını değerlendirmek için Yargıç olarak LLM olarak kullanın.

Model çıktılarını geleneksel doğal dil algoritmaları ve BERT Skoru, F1 ve diğer tam eşleştirme teknikleri gibi ölçümler kullanarak, yerleşik istem veri kümelerini kullanarak veya kendi veri kümelerinizi getirerek değerlendirin.

Model çıktılarını kendi iş gücünüzle değerlendirin veya AWS'nin özel istem veri kümelerinize verilen yanıtlarla ilgili değerlendirmelerinizi yerleşik veya özel ölçümlerle yönetmesini sağlayın.

Özel RAG sisteminizin veya Amazon Bedrock Bilgi Tabanlarınızın alma kalitesini istemlerinizin yanı sıra bağlam alaka düzeyi ve bağlam kapsamı gibi ölçümleriniz ile değerlendirin.

Uçtan uca RAG iş akışınızın oluşturulan içeriğini özel RAG veri hattınızdan veya Amazon Bedrock Bilgi Tabanlarınızdan değerlendirin. Sadakat (halüsinasyon algılama), doğruluk ve eksiksizlik gibi kendi istemlerinizi ve ölçümlerinizi kullanın.

Uçtan uca RAG iş akışınızı değerlendirin

Uygulamanızın uçtan uca almayla artırılmış üretim (RAG) yeteneğini değerlendirmek için alma ve oluşturma değerlendirmelerini kullanın. Üretilen içeriğin doğru ve eksiksiz olduğundan, halüsinasyonları sınırladığından ve sorumlu yapay zeka ilkelerine bağlı olduğundan emin olun. Bir Bedrock Bilgi Tabanının performansını değerlendirin veya özel RAG sisteminizden kendi çıkarım yanıtlarınızı getirin. Amazon Bedrock Bilgi Tabanlarınızda veya özel RAG çıktılarınız için yargıç olarak kullanmak üzere bir LLM seçin, özel veri kümenizi yükleyin ve değerlendirmeniz için en önemli ölçümleri seçin.

Kullanıcı arabirimi ekran görüntüsü

RAG sisteminizden eksiksiz ve alakalı alma sağlayın

Amazon Bedrock Bilgi Tabanlarınızın veya özel RAG sisteminizin depolama ve alma ayarlarını değerlendirmek için RAG alma değerlendirmelerini kullanın. Alınan içeriklerin alakalı olduğundan ve tüm kullanıcı sorgusunu kapsadığından emin olun. Yargıç olarak kullanmak için bir LLM seçin, özel RAG sistemi alımlarınızı istem veri kümenize dâhil etmek veya değerlendirmek için bir Bedrock Bilgi Tabanı ve ölçümlerinizi seçin.

Kullanıcı arabirimi ekran görüntüsü

FM'leri değerlendirerek kullanım durumunuz için en iyi olanı seçin

Amazon Bedrock Model Değerlendirmesi, belirli bir kullanım örneği için altyapı modellerini seçmek üzere otomatik ve insan değerlendirmelerini kullanmanıza olanak tanır. Otomatik (Programlı) model değerlendirmesi, seçilmiş ve özel veri kümelerini kullanır ve doğruluk, sağlamlık ve toksisite dahil olmak üzere önceden tanımlanmış ölçümler sağlar. Öznel ölçümler için Amazon Bedrock'ı kullanarak birkaç hızlı adım ile bir insan değerlendirmesi iş akışı oluşturabilirsiniz. İnsan değerlendirmeleriyle kendi veri kümelerinizi getirebilir ve alaka düzeyi, stil ve marka sesine uyum gibi özel ölçümler tanımlayabilirsiniz. İnsan değerlendirmesi iş akışları, inceleyici olarak kendi çalışanlarınızı kullanabilir veya insan değerlendirmesini gerçekleştirmesi için AWS tarafından yönetilen bir ekibi görevlendirebilirsiniz. Bu seçenekte AWS, yetenekli değerlendiricileri işe alır ve tüm iş akışını sizin adınıza yönetir. Ayrıca, veri kümenizde doğruluk, eksiksizlik, sadakat (halüsinasyon) gibi ölçümlerin yanı sıra yanıt reddetme ve zararlılık gibi sorumlu yapay zeka ölçümleriyle yüksek kaliteli değerlendirmeler sağlamak için bir Yargıç Olarak LLM kullanabilirsiniz. Giriş istemi veri kümenizde kendi çıkarım yanıtlarınızı getirerek Bedrock modellerini veya herhangi bir modeli herhangi bir yerde değerlendirebilirsiniz.

Kullanıcı arabirimi ekran görüntüsü

Kararları daha hızlı almak için birden fazla değerlendirme işinden elde edilen sonuçları karşılaştırın

İstemlerinizde, değerlendirilen modellerde, özel RAG sistemlerinizde veya Bedrock Bilgi Tabanlarında yaptığınız değişikliklerin sonuçlarını görmek için değerlendirmelerde karşılaştırma özelliğini kullanın.

Kullanıcı arabirimi ekran görüntüsü