اليوم ، أعلنت NVIDIA عن معمارية Ampere الجديدة ، جنبًا إلى جنب مع A100 الجديدة التي تعمل عليها. إنه تحسن كبير مقارنة بـ Turing ، وهي بنية تركز بالفعل على الذكاء الاصطناعي تعمل على تشغيل مراكز البيانات على أجهزة تتبع الأشعة عالية الجودة والتي تعمل بنظام ML في مساحة الرسومات الاستهلاكية.
إذا كنت تريد تقريرًا إخباريًا كاملًا عن جميع التفاصيل الفنية للغاية ، فيمكنك قراءة نظرة عامة على بنية NVIDIA المتعمقة. سنقوم بتفصيل أهم الأشياء.
القالب الجديد ضخم للغاية
من البوابة ، سيخرجون جميعًا بهذه الشريحة الجديدة. كان قالب Tesla V100 للجيل الأخير يبلغ 815 مم على عقدة معالجة 14 نانومتر ناضجة بالفعل من TSMC ، مع 21.1 مليار ترانزستور. بالفعل كبير جدًا ، لكن A100 يضعه في العار مع 826 مم على TSMC مقاس 7 نانومتر ، وهي عملية أكثر كثافة ، و 54.2 مليار ترانزستور ضخم. مثير للإعجاب لهذه العقدة الجديدة.
تتميز وحدة معالجة الرسومات الجديدة هذه بـ 19.5 تيرافلوب من أداء FP32 ، و 6 ، و 912 نواة CUDA ، وذاكرة 40 جيجابايت ، وعرض نطاق ترددي للذاكرة يبلغ 1.6 تيرا بايت / ثانية. في عبء عمل محدد إلى حد ما (متفرق INT8) ، يقوم A100 بالفعل بتكسير 1 PetaFLOPS من قوة الحوسبة الخام. بالطبع ، هذا على INT8 ، لكن لا تزال البطاقة قوية جدًا.
بعد ذلك ، تمامًا مثل V100 ، أخذوا ثمانية من وحدات معالجة الرسومات هذه وأنشأوا كمبيوترًا فائقًا صغيرًا يبيعونه مقابل 200 ألف دولار. من المحتمل أن تراهم يأتون إلى موفري الخدمات السحابية مثل AWS و Google Cloud Platform قريبًا.
تشغيل الفيديو
ومع ذلك ، على عكس V100 ، هذه ليست وحدة معالجة رسومات ضخمة - إنها في الواقع 8 وحدات معالجة رسومات منفصلة يمكن تحويلها افتراضيًا واستئجارها بمفردها لمهام مختلفة ، إلى جانب سرعة نقل أعلى بمقدار 7 أضعاف للإقلاع.
بالنسبة لاستخدام كل تلك الترانزستورات ، تعمل الشريحة الجديدة أسرع بكثير من V100. بالنسبة للتدريب والاستدلال على الذكاء الاصطناعي ، تقدم A100 تسريع 6x لـ FP32 ، و 3 x لـ FP16 ، و 7 x تسريع في الاستدلال عند استخدام كل وحدات معالجة الرسومات هذه معًا.

لاحظ أن V100 المميز في الرسم البياني الثاني هو خادم 8 GPU V100 ، وليس V100 واحد.
تعد NVIDIA أيضًا تسريعًا واعدًا يصل إلى 2x في العديد من أحمال عمل HPC:

بالنسبة لأرقام TFLOPs الخام ، فإن أداء الدقة المزدوجة A100 FP64 هو 20 TFLOP ، مقابل 8 لـ V100 FP64. بشكل عام ، تعد هذه التسريع بمثابة تحسين حقيقي للأجيال مقارنة بتورنج ، وهي أخبار رائعة للذكاء الاصطناعي ومساحة التعلم الآلي.
TensorFloat-32: تنسيق رقم جديد محسّن لنواة الموتر
مع Ampere ، تستخدم NVIDIA تنسيق أرقام جديدًا مصممًا لاستبدال FP32 في بعض أحمال العمل. بشكل أساسي ، يستخدم FP32 8 بتات لنطاق الرقم (ما مدى كبرها أو صغرها) و 23 بتًا للدقة.
ادعاء NVIDIA هو أن هذه البتات الدقيقة الـ 23 ليست ضرورية تمامًا للعديد من أعباء عمل الذكاء الاصطناعي ، ويمكنك الحصول على نتائج مماثلة وأداء أفضل بكثير من 10 منها فقط. يسمى هذا التنسيق الجديد Tensor Float 32 ، وتم تحسين Tensor Cores في A100 للتعامل معه. هذا ، بالإضافة إلى تقلصات القالب وزيادة العد الأساسي ، كيف يحصلون على تسريع هائل 6x في تدريب الذكاء الاصطناعي.

يزعمون أنه "لا يتعين على المستخدمين إجراء أي تغييرات في التعليمات البرمجية ، لأن TF32 يعمل فقط داخل وحدة معالجة الرسومات A100. يعمل TF32 على مدخلات FP32 وينتج نتائج في FP32. تستمر العمليات غير الموترية في استخدام FP32”. هذا يعني أنه يجب أن يكون هناك انخفاض في استبدال أعباء العمل التي لا تحتاج إلى دقة إضافية.
بمقارنة أداء FP على V100 بأداء TF على A100 ، سترى من أين تأتي هذه التعزيزات الهائلة. TF32 أسرع بعشر مرات.بالطبع ، يرجع الكثير من هذا أيضًا إلى التحسينات الأخرى في Ampere التي تكون أسرع مرتين بشكل عام ، وليست مقارنة مباشرة.

لقد أدخلوا أيضًا مفهومًا جديدًا يسمى التباين المنظم الدقيق ، والذي يساهم في أداء حساب الشبكات العصبية العميقة. بشكل أساسي ، تكون بعض الأوزان أقل أهمية من غيرها ، ويمكن ضغط رياضيات المصفوفة لتحسين الإنتاجية. في حين أن التخلص من البيانات لا يبدو فكرة رائعة ، إلا أنهم يزعمون أنها لا تؤثر على دقة الشبكة المدربة في الاستدلال ، وتؤدي ببساطة إلى تسريع.

بالنسبة لحسابات INT8 المتفرقة ، فإن ذروة أداء جهاز A100 واحد هي 1250 TFLOPS ، وهو رقم مرتفع بشكل مذهل. بالطبع ، ستتعرض لضغوط شديدة للعثور على عبء عمل حقيقي يدفع فقط INT8 ، لكن التسريع هو تسريع.