NVIDIA یک بررسی عمیق از سریعترین چیپ خود برای هوش مصنوعی، یعنی پردازنده گرافیکی انویدیا Blackwell Ultra GB300، ارائه داده است که 50% سریعتر از کارت گرافیک GB200 است و 288 گیگابایت حافظه را در خود جای داده است.
بررسی دقیق پردازنده گرافیکی انویدیا Blackwell Ultra GB300
چند روز پیش، انویدیا مقالهای منتشر کرد که یک بررسی جامع از جدیدترین و بهترین چیپ هوش مصنوعی خود، یعنی پردازنده گرافیکی انویدیا Blackwell Ultra GB300، ارائه میداد. این چیپ اکنون در مرحله تولید کامل قرار دارد و از قبل برای مشتریان کلیدی عرضه شده است. در حالی که این چیپ یک گسترش از راهحل Blackwell است، ارتقای قابل توجهی را از نظر عملکرد و ویژگیها ارائه میدهد.
درست همانطور که سری Super انویدیا نسخه بهتری از کارتهای گیمینگ RTX اصلی است، سری Ultra نیز نسخه پیشرفتهای از چیپهای هوش مصنوعی است که در ابتدا معرفی شدند. انویدیا در خطوط تولید قبلی مانند Hopper و Volta، نسخههای Ultra را نداشت، اما آن مدلها نیز به صورت فنی نسخههای Ultra یا پیشرفتهای داشتند. به علاوه، حتی اگر چیپهای Ultra در سطح سختافزاری بهتر باشند، بهروزرسانیها و بهینهسازیهای نرمافزاری نیز افزایشهای قابل توجهی را در چیپهای غیر Ultra یا غیر پیشرفته به همراه دارند.
مشخصات و معماری پردازنده گرافیکی انویدیا Blackwell Ultra GB300
پس پردازنده گرافیکی انویدیا Blackwell Ultra GB300 چیست؟ همانطور که در بالا گفته شد، این یک نسخه پیشرفته است که از دو دای در اندازه Reticle استفاده میکند و آنها را با رابط پرسرعت NV-HBI انویدیا به هم متصل مینماید تا به عنوان یک پردازنده گرافیکی واحد ظاهر شود. این پردازنده گرافیکی بسیار متراکم است، بر اساس نود TSMC 4NP (پنج نانومتر بهینهسازیشده برای انویدیا) ساخته شده و در مجموع 208 میلیارد ترانزیستور را در خود جای داده است. رابط NV-HBI پهنای باندی معادل 10 ترابایت بر ثانیه را برای دو قالب پردازنده گرافیکی فراهم میکند، در حالی که همگی به عنوان یک چیپ واحد عمل میکنند.
پردازنده گرافیکی انویدیا Blackwell Ultra GB300 در مجموع 160SM را در خود جای داده است، که هر کدام دارای 128 هسته CUDA، چهار هسته Tensor نسل پنجم با محاسبات با دقت FP8، FP6، NVFP4، حدود 256 کیلوبایت حافظه Tensor یا TMEM و SFUها هستند. این مجموع به 20,480 هسته CUDA و 640 هسته Tensor به علاوه 40 مگابایت TMEM میرسد.
هستههای Tensor و حافظه
هستههای Tensor نسل پنجم جایی است که تمام اتفاقات جادویی در پردازنده گرافیکی انویدیا Blackwell Ultra GB300 رخ میدهد، زیرا آنها مسئول تمامی عملیات محاسباتی هوش مصنوعی هستند. انویدیا در هر نسل از هستههای Tensor برای پردازندههای گرافیکی خود نوآوریهای بزرگی ارائه داده است، مانند:
- NVIDIA Volta: واحدهای 8 رشتهای MMA، FP16 با انباشت FP32 برای Train کردن مدلها.
- NVIDIA Ampere: دارای MMA با warp-wide کامل، فرمتهای BF16 و TensorFloat-32.
- NVIDIA Hopper: دارای MMA گروه Warp در 128 رشته، موتور Transformer با پشتیبانی از FP8.
- NVIDIA Blackwell: موتور Transformer نسل دوم با محاسبات FP8، FP6، NVFP4، حافظه TMEM.
Blackwell Ultra همچنین ارتقای بزرگی در حافظه به همراه دارد، و 288 گیگابایت ظرفیت HBM3e را در مقابل حداکثر 192 گیگابایت در راهحلهای Blackwell GB200 قبلی ارائه میدهد. این ارتقا همان چیزی است که انویدیا را قادر میسازد تا از مدلهای هوش مصنوعی با پارامترهای چند تریلیون پشتیبانی کند. این حافظه در 8 پشته با یک کنترلر 16 512 بیتی (رابط 8192 بیتی) عرضه میشود و با سرعت 8 ترابایت بر ثانیه برای هر پردازنده گرافیکی کار میکند. این حافظه امکانات زیر را فراهم میکند:
- استقرار کامل مدل: مدلهای با پارامترهای بالای 300 میلیارد بدون نیاز به تخلیه حافظه (offloading).
- طول متن گسترده: ظرفیت بزرگتر حافظه KV Cache برای مدلهای ترنسفورمر.
- کارایی محاسباتی بهبودیافته: نسبتهای محاسبات به حافظه بالاتر برای بارهای کاری متنوع.
اتصال و عملکرد پردازنده گرافیکی انویدیا Blackwell Ultra GB300
اتصال داخلی در Blackwell همان NVLINK است که توسط NVLINK Switch، NVLINK-C2C ارائه میشود، و همچنین از رابط PCIe Gen6 x16 برای اتصال به پردازندههای میزبان استفاده میشود. در ادامه ویژگیها/مشخصات اتصال NVLINK 5 و سمت میزبان آورده شده است:
- پهنای باند به ازای هر پردازنده گرافیکی: 1.8 ترابایت بر ثانیه دوطرفه (18 لینک × 100 گیگابایت بر ثانیه)
- مقیاسپذیری عملکرد: 2 برابر بهبود نسبت به NVLink 4 (پردازنده گرافیکی Hopper)
- توپولوژی حداکثر: 576 پردازنده گرافیکی در یک ساختار محاسباتی بدون انسداد
- یکپارچگی در مقیاس رک: پیکربندیهای 72 پردازنده گرافیکی NVL72 با پهنای باند کلی 130 ترابایت بر ثانیه
- رابط PCIe: مسیر Gen6×16 (با سرعت 256 گیگابایت بر ثانیه دوطرفه)
- NVLink-C2C: ارتباط Grace CPU-GPU با همگامسازی حافظه (900 گیگابایت بر ثانیه)
نتیجه این است که پردازنده گرافیکی انویدیا Blackwell Ultra GB300 قادر است 50% افزایش در خروجی محاسبات Dense Low Precision با استفاده از استاندارد جدید NVFP4 به دست آورد. مدل جدید دقت نزدیک به FP8 را ارائه میدهد و تفاوتها اغلب کمتر از 1% است. این همچنین ردپای حافظه را 1.8 برابر نسبت به FP8 و 3.5 برابر نسبت به FP16 کاهش میدهد.
پردازنده گرافیکی انویدیا Blackwell Ultra GB300 همچنین شاهد مدیریت زمانبندی پیشرفته و ویژگیهای امنیتی جدید در سطح Enterprise است، مانند:
- موتور پیشرفته GigaThread: زمانبندیکننده کار نسل بعدی که عملکرد تعویض متن بهبودیافته و توزیع بار کاری بهینه را در تمام 160SM ارائه میدهد.
- پردازنده گرافیکی چند نمونهای (MIG): پردازندههای گرافیکی Blackwell Ultra میتوانند به نمونههای MIG با اندازههای مختلف تقسیم شوند. به عنوان مثال، یک ادمین میتواند دو نمونه با 160 گیگابایت حافظه، چهار نمونه با 70 گیگابایت، یا هفت نمونه با 34 گیگابایت ایجاد کند که استفاده چند مشتری ایمن را با جداسازی عملکرد قابل پیشبینی امکانپذیر میسازد.
- رایانش محرمانه و هوش مصنوعی امن: حفاظت امن و کارآمد برای مدلها و دادههای حساس هوش مصنوعی، گسترش محیط اجرای قابل اعتماد (TEE) مبتنی بر سختافزار به پردازندههای گرافیکی با قابلیتهای TEE-I/O اولین در صنعت در معماری Blackwell و حفاظت داخلی NVLink برای توان عملیاتی تقریباً یکسان در مقایسه با حالتهای رمزگذارینشده.
- موتور پیشرفته NVIDIA Remote Attestation Service (به اختصار RAS): سیستم قابلیت اطمینان مبتنی بر هوش مصنوعی که هزاران پارامتر را برای پیشبینی خرابیها، بهینهسازی برنامههای نگهداری و حداکثر کردن زمان کارکرد سیستم در استقرارهای در مقیاس بزرگ نظارت میکند.
کارایی عملکردی یکی دیگر از زمینههایی است که پردازنده گرافیکی انویدیا Blackwell Ultra GB300 در آن پیشتاز است و TPS/MW بالاتری نسبت به Blackwell GB200 ارائه میدهد، همانطور که در نمودار زیر نشان داده شده است:
همه اینها نشان میدهد که انویدیا با شگفتیهای مهندسی مانند Blackwell و Blackwell Ultra به سادگی در اوج نردبان هوش مصنوعی قرار دارد. پشتیبانی و بهینهسازیهای نرمافزاری عمیق آنها چیزی است که واقعاً برای آنها امتیاز کسب کرده است، و چرخه سختافزاری سالانه به علاوه تحقیق و توسعه افزایشیافته قطعاً آنها را برای چندین سال پیش خواهد برد.
نظرات کاربران