AWS Trainium

الحصول على أداء عالٍ في تدريب الذكاء الاصطناعي المولّد والتعلّم العميق مع خفض التكاليف

ما سبب أهمية Trainium؟

رقائق AWS Trainium هي مجموعة من رقائق الذكاء الاصطناعي التي صممتها AWS خصيصًا للتدريب والاستدلال على الذكاء الاصطناعي لتقديم أداء عالٍ مع تقليل التكاليف.

تعمل شريحة AWS Trainium من الجيل الأول على تشغيل مثيلات Amazon Elastic Compute Cloud (Amazon EC2) Trn1، التي تقل تكاليف التدريب فيها بنسبة تصل إلى 50% عن مثيلات Amazon EC2 المماثلة. يحقق العديد من العملاء، بما في ذلك Databricks وRicoh وNinjaTech AI وArcee AI، فوائد الأداء والتكلفة لمثيلات Trn1.

توفر شريحة AWS Trainium2 ما يصل إلى 4 أضعاف أداء الجيل الأول من Trainium. صُمِّمَت مثيلات Amazon EC2 Trn2 المستندة إلى Trainium2 خصيصًا للذكاء الاصطناعي المولّد وهي أقوى مثيلات EC2 للتدريب ونشر النماذج التي تحتوي على مئات المليارات إلى أكثر من تريليون من المعلمات. توفر مثيلات Trn2 أداء سعريًا أفضل بنسبة 30-40% من الجيل الحالي من مثيلات EC2 P5e وP5en المستندة إلى وحدة معالجة الرسومات (GPU). تتميز مثيلات Trn2 بـ 16 شريحة Trainium2 مترابطة مع NeuronLink، وهو نظام الربط الخاص بنا من شريحة إلى شريحة. يمكنك استخدام مثيلات Trn2 لتدريب ونشر النماذج الأكثر تطلبًا بما في ذلك نماذج اللغة الكبيرة (LLMs) والنماذج متعددة الوسائط ومحولات الانتشار، لبناء مجموعة واسعة من تطبيقات الذكاء الاصطناعي المُولِّد من الجيل التالي. يعتبر Trn2 UltraServers، وهو عرض EC2 جديد تمامًا (متوفر في المعاينة)، مثاليًا لأكبر النماذج التي تتطلب المزيد من الذاكرة وعرض النطاق الترددي للذاكرة مما يمكن أن توفره مثيلات EC2 المستقلة. UltraServer يستخدم تصميم NeuronLink لتوصيل 64 شريحة Trainium2 عبر أربع مثيلات Trn2 في عقدة واحدة، مما يفتح إمكانات جديدة. للاستدلال، تساعد UltraServers في توفير وقت استجابة رائد في الصناعة لإنشاء أفضل التجارب في الوقت الفعلي. بالنسبة للتدريب، تعمل UltraServers على تعزيز سرعة تدريب النموذج وكفاءته من خلال الاتصال الجماعي الأسرع لتوازي النموذج مقارنة بالحالات المستقلة.

يمكنك بدء التدريب ونشر النماذج على مثيلات Trn2 وTrn1 مع الدعم الأصلي لأطر تعلم الآلة الشائعة (ML) مثل PyTorch وJAX.

الفوائد

توفر خوادم Trn2 UltraServers ومثيلاتها أداءً فائقًا في Amazon EC2 للتدريب والاستدلال على الذكاء الاصطناعي المولّد. يحتوي كل خادم Trn2 UltraServer على 64 شريحة Trainium2 متصلة مع NeuronLink، وهو نظام التوصيل البيني من شريحة إلى شريحة، ويوفر ما يصل إلى 83.2 بيتافلوب من حوسبة FP8، و6 تيرابايت من HBM3 مع 185 تيرابايت في الثانية (TBPs) من عرض النطاق الترددي للذاكرة، و12.8 تيرابايت في الثانية (Tbps) من Elastic Fabric Adapter‏ (EFA). يحتوي كل مثيل من Trn2 على 16 شريحة Trainium2 متصلة بـ NeuronLink ويوفر كل مثيل ما يصل إلى 20.8 بيتافلوب من حوسبة FP8 و1.5 تيرابايت من HBM3 مع 46 تيرابايت من عرض النطاق الترددي للذاكرة و3.2 تيرابايت في الثانية من شبكات EFA. يتميز مثيل Trn1 بما يصل إلى 16 شريحة Trainium ويوفر ما يصل إلى 3 بيتافلوب من حوسبة FP8 و512 جيجابايت من HBM مع 9.8 تيرابايت من عرض النطاق الترددي للذاكرة وما يصل إلى 1.6 تيرابايت في الثانية من شبكات EFA.

تساعدك AWS Neuron SDK على استخراج الأداء الكامل من مثيلات Trn2 وTrn1 حتى تتمكن من التركيز على بناء النماذج ونشرها وتسريع وقت وصولك إلى السوق. تتكامل AWS Neuron محليًا مع JAX وPyTorch والمكتبات الأساسية مثل Hugging Face وPyTorch Lightning وNeMo. تدعم AWS Neuron أكثر من 100000 نموذج في مركز نماذج Hugging Face بما في ذلك النماذج الشائعة مثل عائلة نماذج Llama من Meta وStable Diffusion XL. إنه يعمل على تحسين النماذج الجاهزة للتدريب والاستدلال الموزع، مع توفير رؤى عميقة للتوصيف وتصحيح الأخطاء. تتكامل AWS Neuron مع خدمات مثل Amazon SageMaker وAmazon Elastic Kubernetes Service (Amazon EKS) وخدمة Amazon Elastic Container Service (Amazon ECS) وAWS ParallelCluster وAWS Batch، بالإضافة إلى خدمات الطرف الخارجي مثل Ray (Anyscale)، وDomino Data Lab، وDatadog.

لتقديم أداء عالٍ مع تحقيق أهداف الدقة، تم تحسين رقائق Trainium لتناسب FP32 وTF32 وBF16 وFP16 ونوع بيانات FP8‏ (cFP8) الجديد القابل للتكوين. لدعم الوتيرة السريعة للابتكار في الذكاء الاصطناعي المولّد، يحتوي Trainium2 على تحسينات للأجهزة لتباين بمقدار أربع أضعاف (16:4)، والتحجيم الجزئي، والتقريب العشوائي، والمحركات الجماعية المخصصة.

واجهة Kernel عصبية (NKI) تتيح الوصول المباشر إلى بنية مجموعة التعليمات (ISA) باستخدام بيئة قائمة على Python مع واجهة تشبه Triton، مما يسمح لك بابتكار بنيات نموذجية جديدة ونواة حوسبة محسّنة للغاية تتفوق على التقنيات الحالية.

صُمِّمَت مثيلات Trn2 لتكون أكثر كفاءة في استخدام الطاقة بثلاث مرات من مثيلات Trn1. تعد مثيلات Trn1 أكثر كفاءة في استخدام الطاقة بنسبة تصل إلى 25% من مثيلات EC2 للحوسبة المتسارعة المماثلة. تساعدك هذه المثيلات في تحقيق أهداف الاستدامة عند تدريب النماذج الكبيرة جدًا.

مقاطع الفيديو

Conquer AI performance, cost, and scale‏ (تحقيق التفوق في أداء الذكاء الاصطناعي وخفض التكاليف وتوسيع النطاق)
AWS Trainium2 for breakthrough AI peformance‏ (AWS Trainium2 لتحقيق أداء ثوري في الذكاء الاصطناعي.)
AWS AI chips customer stories‏ (قصص نجاح العملاء مع شرائح الذكاء الاصطناعي من AWS)