, , , , ,

کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB

NVIDIANVIDIA Data Center GPUs

برند و مدل: NVIDIA L40S 48GB ECC GDDR6 Data Center PCIe GPU Accelerator
کاربری ورک استیشن/سرور: رندرینگ، شبیه سازی، Ai/DL/ML ،vGPU ،HPC

ارسال کالا: حدود 1تا‌ 3 روز کاری یا (15 تا 35 روز کاری)
وضعیت محصول: آکبند(رنگی/خاکی/بالک)
گارانتی: تا‌ 12 ماه گارانتی داخلی معتبر.
سرویس طلایی دکمه ها: مهلت تست و برگشت 7‌روزه.
قابلیت ارتقا: تا چهار عدد در ورک‌استیشن, هشت عدد در سرور.

۹۱۷,۰۰۰,۰۰۰ تومان

کارت گرافیگ انویدیا NVIDIA L40S 48GB

عملکرد بی‌نظیر AI و گرافیک برای مرکز داده‌ها.

کارت گرافیک NVIDIA L40S جزء قدرتمندترین GPU هوش مصنوعی، که می توانید با آن تجربه عملکرد انقلابی در چندین بار کاری مختلف را داشته باشید. این کارت گرافیک ترکیبی از محاسبات قدرتمند AI و بهترین شتاب دهنده گرافیکی(GPU Accelerator) و رسانه‌ای در کلاس خود است و برای پشتیبانی از نسل بعدی بارهای کاری مرکز داده، از جمله هوش‌مصنوعی مولد(Generative AI )، استنتاج (inference) و آموزش مدل‌های زبان بزرگ (LLM)، گرافیک 3D، شبیه‌سازی (CFD)، رندرینگ و ویدیو ساخته شده است.

تولیدکنندگان سیستم‌های مرکز داده برای شتاب دادن به AI مولد و دیجیتالی‌سازی صنعتی انویدیا:
سرورهای NVIDIA OVX™ که از جدیدترین GPU‌های NVIDIA بهره‌ می‌برند، برای شتاب‌دهی به آموزش و استنتاج، و همچنین بارهای کاری گرافیکی پیچیده، به زودی از شرکت‌هایی همچون Dell، Hewlett Packard Enterprise، Lenovo، Supermicro و سایرین عرضه می‌شود.

NVIDIA L40S مبتنی بر معماری Ada Lovelace است و با ویژگی‌های بی‌نظیری همچون هسته‌های تنسور نسل چهارم، هسته‌های RT نسل سوم و موتور Transformer، شتاب‌دهی(NVIDIA L40S GPU Accelerator) قابل توجهی را در زمینه‌های مختلف فراهم می‌آورد. این کارت گرافیک برای عملیات ۲۴/۷ در مراکز داده‌ها بهینه‌شده و از قابلیت‌هایی همچون امنیت بالا و مصرف انرژی بهینه برخوردار است.

ویژگی‌های کلیدی NVIDIA L40S:

  1. هسته‌های تنسور نسل چهارم:
    با پشتیبانی از FP8 و بهره‌گیری از قابلیت‌های سخت‌افزاری از پراکندگی ساختاری و فرمت بهینه‌سازی شده TF32 باعث بهبود عملکرد برای آموزش مدل‌های AI و علوم داده می‌شود. شتاب‌دادن به قابلیت‌های گرافیکی تقویت‌شده AI با DLSS برای ارتقاء وضوح و عملکرد بهتر در برخی از برنامه‌ها.

  2. هسته‌های RT نسل سوم:
    این کارت گرافیک به هسته‌های RT نسل سوم مجهز است که بهبود عملکرد ردیابی پرتو در زمان واقعی را تا دو برابر نسل قبلی افزایش می‌دهند. افزایش عملکرد و قابلیت‌های همزمان ردیابی پرتو و شیدینگ، عملکرد ردیابی پرتو را بهبود می‌بخشد و رندرینگ طراحی محصول و جریان‌های کاری مهندسی و معماری را شتاب می‌بخشد.

  3. موتور Transformer:
    موتور Transformer با استفاده از هسته‌های تنسور نسل چهارم و قابلیت‌های پردازش دقیق، به‌طور خودکار دقت‌های FP8 و FP16 را بین لایه‌های شبکه‌های عصبی معماری ترنسفورمر تغییر می‌دهد، که این باعث شتاب‌دهی به عملکرد AI و بهبود بهره‌برداری از حافظه می‌شود.

  4. DLSS 3:
    این فناوری با استفاده از یادگیری عمیق و شتاب‌دهی سخت‌افزاری، رندرینگ سریع‌تر و نرخ فریم‌های بالاتری را برای برنامه‌های گرافیکی فراهم می‌کند.

  5. هسته‌های CUDA:
    شتاب‌دهی عبور از فرمول‌های عددی تک‌دقتی (FP32) و بهره‌وری انرژی به طور چشمگیری عملکرد را در شبیه‌سازی‌های مهندسی و مدل‌سازی سه‌بعدی بهبود می‌بخشد.
  6. امنیت و بهره‌وری:
    کارت L40S با طراحی بهینه برای عملیات ۲۴/۷ در مراکز داده‌ها، امنیت بالا و فناوری‌های نوین همچون بوت امن و ریشه اعتماد برای تأمین امنیت داده‌ها در محیط‌های شرکتی، عملکرد پایدار و طول عمر بالاتری را ارائه می‌دهد.

کاربردها و مخاطبین کارت گرافیگ NVIDIA L40S 48GB:

  1. AI مولد و پردازش‌های یادگیری ماشین:
    کارت L40S برای توسعه‌دهندگان و محققان AI که به دنبال شتاب‌دهی به آموزش و استنتاج مدل‌های پیچیده مولد هستند، بسیار مناسب است. به عنوان مثال، شرکت‌های فعال در حوزه پردازش زبان طبیعی (NLP) و شبیه‌سازی‌های هوش مصنوعی می‌توانند از قدرت این کارت برای آموزش مدل‌های زبان بزرگ استفاده کنند.

  2. رندرینگ و گرافیک 3D:
    طراحان گرافیک و توسعه‌دهندگان بازی که نیاز به رندرینگ واقعی‌زمان و تولید محتوای گرافیکی با کیفیت بالا دارند، می‌توانند از L40S بهره‌مند شوند. کارت L40S شتاب‌دهی ردیابی پرتو و شبیه‌سازی‌های فیزیکی را به طرز چشمگیری افزایش می‌دهد.

  3. شبیه‌سازی‌های صنعتی و مهندسی:
    در صنایع مهندسی، معماری، و ساخت‌وساز، کارت L40S می‌تواند در شبیه‌سازی‌های پیچیده فیزیکی و مهندسی برای تسریع رندرینگ و شبیه‌سازی‌های دقیق استفاده شود.

  4. ساخت و مدیریت متاورس:
    توسعه‌دهندگان و کسب‌وکارهایی که به دنبال ایجاد و مدیریت برنامه‌های متاورس و شبیه‌سازی‌های دیجیتال هستند، می‌توانند از کارت L40S برای اجرای برنامه‌های مبتنی بر Omniverse و OpenUSD استفاده کنند.

  5. داده‌های کلان و علوم داده:
    محققان داده و متخصصان علوم داده می‌توانند از کارت L40S برای پردازش داده‌های کلان و تحلیل‌های پیچیده استفاده کنند، به‌ویژه در کاربردهایی که به پردازش سریع داده‌های AI و یادگیری ماشین نیاز دارند.

مثال‌های کاربردی:

  1. AI مولد:
    یک استارتاپ که در حال توسعه مدل‌های زبان طبیعی است، می‌تواند با استفاده از کارت L40S، آموزش مدل‌های زبانی بزرگ و همچنین بهبود عملکرد استنتاج مدل‌ها را تا ۵ برابر افزایش دهد.

  2. رندرینگ 3D و شبیه‌سازی‌های مهندسی:
    شرکت‌های طراحی محصولات صنعتی می‌توانند از کارت L40S برای رندرینگ واقع‌گرایانه و شبیه‌سازی‌های معماری و مهندسی استفاده کنند، به‌ویژه برای تحلیل‌های زمانی واقعی در پروژه‌های ساختمانی بزرگ.

  3. متاورس و شبیه‌سازی‌های دیجیتال:
    یک استودیو توسعه‌دهنده بازی و برنامه‌های متاورس می‌تواند از L40S برای خلق تجربه‌های واقع‌گرایانه در دنیای مجازی و شبیه‌سازی‌های دقیق استفاده کند.

NVIDIA L40S با ارائه عملکرد بی‌نظیر در زمینه‌های مختلف مانند AI، گرافیک و شبیه‌سازی، به ابزاری ایده‌آل برای توسعه‌دهندگان، محققان و صنایع پیشرفته تبدیل شده است.

مواردی که کارت گرافیگ NVIDIA L40S 48GB ممکن است مناسب نباشد

۱. کاربردهای سبک یا عمومی: برای وظایف روزمره یا کاربردهای سبک، استفاده از L40S به دلیل هزینه بالا مقرون‌به‌صرفه نیست.

۲. بازی‌های رایانه‌ای: اگرچه L40S توانایی پردازش گرافیکی بالایی دارد، اما برای کاربردهای گیمینگ طراحی نشده است.

۳. سیستم‌های با محدودیت مصرف انرژی: با مصرف توان ۳۵۰ وات، L40S ممکن است برای سیستم‌هایی با محدودیت مصرف انرژی مناسب نباشد.

۴. بودجه محدود: با توجه به هزینه‌ی بالای NVIDIA L40S، ممکن است برای پروژه‌هایی با بودجه‌ی محدود گزینه‌های اقتصادی‌تری در دسترس باشد. با این حال، این موضوع بستگی به نیازهای محاسباتی و نوع پروژه دارد.

اما برای افرادی که به دقت و توان پردازشی بالا در حوزه‌هایی مانند هوش مصنوعی مولد (Generative AI)، آموزش و استنتاج مدل‌های زبانی بزرگ (LLM)، رندرینگ و گرافیک سه‌بعدی، شبیه‌سازی‌های صنعتی و علمی (مانند CFD و FEA) و همچنین توسعه و اجرای برنامه‌های متاورس با NVIDIA Omniverse نیاز دارند، کارت گرافیک NVIDIA L40S 48GB به دلیل انعطاف‌پذیری بالا، کارایی بهینه در پردازش‌های موازی و قیمت مناسب نسبت به رقبا، می‌تواند یکی از مقرون‌به‌صرفه‌ترین انتخاب‌ها باشد.

انتخاب این کارت گرافیک به جزئیات پروژه و پیچیدگی پردازش‌های موردنیاز بستگی دارد و در برخی موارد، ممکن است نیازمند بررسی بیشتر یا دریافت مشاوره تخصصی باشد. بخش مشاوره دکمه‌ها، با آگاهی از گواهی‌های انویدیا و نمونه‌های اجرایی موفق، می‌تواند در تصمیم‌گیری بهتر به شما کمک کند. همین حالا تماس بگیرید.

نسل بعدی ایستگاه‌های کاری اینجاست

پردازنده‌های Intel و AMD، همراه با کارت‌های گرافیک NVIDIA، نسل بعدی پلتفرم‌های ایستگاه کاری OEM را معرفی می‌کنند. این ایستگاه‌های کاری جدید که توسط پردازنده‌های پیشرفته Intel® Xeon Scalable و AMD EPYC، کارت‌های گرافیک NVIDIA L40S و کارت‌های شبکه هوشمند NVIDIA ConnectX® تامین می‌شوند، عملکردی بی‌سابقه برای حرفه‌ای‌های خلاق را به ارمغان می‌آورند.

بارهای کاری: شتاب‌دهی چندین بار کاری

AI مولد:
با قابلیت‌های شتاب‌دهی AI، گرافیک و رسانه نسل بعدی، L40S تا ۵ برابر عملکرد استنتاج بالاتری نسبت به کارت NVIDIA A40 نسل قبلی ارائه می‌دهد.

آموزش و استنتاج LLM:
هسته‌های تنسور نسل چهارم با پشتیبانی از FP8 عملکرد محاسباتی AI استثنائی برای شتاب‌دهی به آموزش و استنتاج مدل‌های LLM و AI مولد فراهم می‌کنند.

رندرینگ و گرافیک 3D:
با هسته‌های RT نسل سوم که عملکرد ردیابی پرتو در زمان واقعی را تا دو برابر افزایش می‌دهند، کارت L40S برای تولید محتوای بصری خیره‌کننده و جریان‌های کاری خلاقانه با کیفیت بالا مناسب است.

NVIDIA Omniverse:
برای ایجاد و اجرای برنامه‌های متاورس. کارت L40S عملکرد بی‌نظیری را برای شبیه‌سازی 3D و جریان‌های کاری مبتنی بر OpenUSD فراهم می‌کند.

NVIDIA OVX L40S:
این ترکیب با فناوری‌های NVIDIA Spectrum-X Ethernet و نرم‌افزار NVIDIA AI Enterprise، عملکرد پیشرفته‌ای را برای شتاب‌دهی به تحول دیجیتال با AI مولد در مراکز داده‌ها فراهم می‌آورد.

توضیحات تکمیلی برای بررسی عملکرد و دقت محاسباتی:

در ادامه، توضیحات تکمیلی برای بررسی عملکرد و دقت محاسباتی کارت گرافیک NVIDIA L40S ارائه شده است. این بخش شامل تحلیل، مثال‌های دقیق و مقایسه‌های کاربردی برای ارزیابی کارایی این کارت گرافیک در سطوح مختلف دقت محاسباتی است. هدف این متن، ارائه‌ی اطلاعاتی ارزشمند و دقیق برای متخصصان حوزه‌ی پردازش و هوش مصنوعی است تا بتوانند با درک بهتری از قابلیت‌های این سخت‌افزار، تصمیمات بهینه‌تری اتخاذ کنند.

بررسی عملکرد و دقت محاسباتی NVIDIA L40S

کارت گرافیک NVIDIA L40S دارای مشخصات پردازشی بالایی است که برای کاربردهای محاسباتی، یادگیری ماشین، رندرینگ و پردازش‌های هوش مصنوعی طراحی شده است. مشخصات ذکر شده در مورد عملکرد این کارت عمدتاً به واحدهای پردازش تنسور (Tensor Cores) و عملکرد عمومی در دقت‌های مختلف محاسباتی مربوط می‌شوند. در ادامه، هر یک از این مشخصات را توضیح می‌دهیم.


۱. RT Core Performance – 209 TFLOPS

(عملکرد هسته‌های رهگیری پرتو – ۲۰۹ ترافلاپس)

  • هسته‌های RT Cores یا Ray Tracing Cores به طور خاص برای پردازش نورپردازی فیزیکی و بازتاب‌ها در گرافیک‌های سه‌بعدی و شبیه‌سازی‌های تصویری طراحی شده‌اند.
  • مقدار ۲۰۹ TFLOPS نشان می‌دهد که این کارت قادر است ۲۰۹ تریلیون عملیات محاسباتی مربوط به رهگیری پرتو را در ثانیه انجام دهد.
  • چرا مهم است؟ این ویژگی باعث می‌شود رندرینگ واقع‌گرایانه، بازی‌های با گرافیک بالا، و شبیه‌سازی‌های صنعتی دقیق‌تر و سریع‌تر اجرا شوند.

۲. FP32 TFLOPS – 91.6

(عملکرد FP32 – 91.6 ترافلاپس)

  • FP32 (Floating Point 32-bit) یک دقت محاسباتی معمول در پردازنده‌های گرافیکی است که برای بسیاری از کاربردهای علمی، مهندسی و هوش مصنوعی استفاده می‌شود.
  • مقدار ۹۱.۶ TFLOPS نشان می‌دهد که L40S قادر است ۹۱.۶ تریلیون عملیات ممیز شناور ۳۲ بیتی را در ثانیه انجام دهد.
  • چرا مهم است؟ FP32 یکی از دقت‌های استاندارد در پردازش گرافیکی و شبیه‌سازی‌های عددی است و عملکرد بالا در این سطح، برای توسعه‌دهندگان گرافیک و علوم داده بسیار مهم است.

۳. TF32 Tensor Core TFLOPS – 183 | 366*

(عملکرد هسته‌های تنسور در دقت TF32 – بین ۱۸۳ و ۳۶۶ ترافلاپس)

  • TF32 (Tensor Float 32) یک دقت محاسباتی است که NVIDIA برای یادگیری ماشین و مدل‌های هوش مصنوعی معرفی کرده است.
  • مقدار ۱۸۳ TFLOPS بدون پراکندگی (Sparsity) و ۳۶۶ TFLOPS با پراکندگی (Sparsity) نشان می‌دهد که در حالت بهینه، عملکرد این هسته‌ها دو برابر می‌شود.
  • چرا مهم است؟ این دقت در مدل‌های یادگیری ماشین و آموزش شبکه‌های عصبی بسیار کاربرد دارد و باعث افزایش سرعت آموزش مدل‌ها می‌شود.

۴. BFLOAT16 Tensor Core TFLOPS – 362.05 | 733*

(عملکرد هسته‌های تنسور در دقت BFLOAT16 – بین ۳۶۲ و ۷۳۳ ترافلاپس)

  • BFLOAT16 (Brain Floating Point 16-bit) نوعی دقت محاسباتی نیمه‌دقیق (۱۶ بیتی) است که توسط Google برای شتاب‌دهی به یادگیری عمیق و شبکه‌های عصبی توسعه داده شد.
  • مقدار ۳۶۲.۰۵ TFLOPS بدون پراکندگی و ۷۳۳ TFLOPS با پراکندگی نشان می‌دهد که این کارت برای استنتاج مدل‌های یادگیری عمیق و پردازش‌های مرتبط با هوش مصنوعی بسیار قدرتمند است.
  • چرا مهم است؟ این دقت برای آموزش و استنتاج مدل‌های بزرگ زبانی (LLM) مانند GPT و Llama 2 بسیار مناسب است، زیرا باعث بهینه‌سازی مصرف حافظه و افزایش سرعت پردازش می‌شود.

عملکرد در مدل‌های تولید تصویر (Image Generative AI)

مفهوم اندازه‌گیری: Stable Diffusion (تصاویر در دقیقه)

  • Stable Diffusion یکی از مدل‌های محبوب برای تولید تصویر از طریق هوش مصنوعی است که میزان پردازش آن به تعداد تصاویر پردازش‌شده در دقیقه اندازه‌گیری شده است.
  • پردازش در سه تنظیم مختلف اندازه تصویر بررسی شده است:
    • SD (512×512) → تولید تصاویر کوچک
    • SD (1024×1024) → تولید تصاویر با وضوح بالا
    • SDXL (1024×1024) → مدل Stable Diffusion XL که پردازش سنگین‌تری دارد

تحلیل نتایج عملکرد:

  1. SD (512×512) → عملکرد بالاتر از بقیه، نزدیک به ۸۰-۹۰ تصویر در دقیقه
  2. SD (1024×1024) → کاهش عملکرد، تقریباً یک‌سوم کمتر از حالت ۵۱۲×۵۱۲
  3. SDXL (1024×1024) → کاهش بیشتر عملکرد، زیرا SDXL یک مدل پیچیده‌تر با نیاز پردازشی بالاتر است.

نتیجه‌گیری:

  • هرچه اندازه تصویر بزرگ‌تر باشد، تعداد تصاویر پردازش‌شده در دقیقه کاهش می‌یابد.
  • مدل SDXL به دلیل پیچیدگی بالاتر و تعداد پارامترهای بیشتر، سرعت پردازش کمتری دارد.
  • استفاده از FP16 و TensorRT 8.6.1 نشان می‌دهد که پردازش با دقت کاهش‌یافته انجام شده، که باعث بهبود کارایی می‌شود.

عملکرد در استنتاج مدل‌های زبانی بزرگ (LLM Inference)

مفهوم اندازه‌گیری: تاخیر در پردازش اولین توکن (1st Token Latency)

  • در مدل‌های زبانی، تأخیر در تولید اولین توکن (کلمه/حرف) بسیار مهم است.
  • این آزمایش برای سه مدل از خانواده Llama 2 انجام شده است:
    • Llama 2 – 7B → کوچک‌ترین مدل با ۷ میلیارد پارامتر
    • Llama 2 – 13B → مدل میانی با ۱۳ میلیارد پارامتر
    • Llama 2 – 70B → بزرگ‌ترین مدل با ۷۰ میلیارد پارامتر

تحلیل نتایج عملکرد:

  1. Llama 2 – 7B → کمترین تأخیر، در محدوده زیر ۵۰ میلی‌ثانیه
  2. Llama 2 – 13B → افزایش تأخیر، در محدوده بین ۱۰۰-۱۵۰ میلی‌ثانیه
  3. Llama 2 – 70B → تأخیر بسیار زیاد، نزدیک به ۷۰۰-۷۵۰ میلی‌ثانیه

نتیجه‌گیری:

  • هرچه مدل بزرگ‌تر باشد، زمان تولید اولین توکن بیشتر می‌شود.
  • Llama 2 – 70B بسیار سنگین‌تر از سایر مدل‌ها است و نیاز پردازشی بیشتری دارد.
  • استفاده از FP8 برای پردازش مدل‌ها نشان می‌دهد که NVIDIA L40S از دقت پایین‌تر برای افزایش سرعت استفاده کرده است.

۵. FP16 Tensor Core TFLOPS – 362.05 | 733*

(عملکرد هسته‌های تنسور در دقت FP16 – بین ۳۶۲ و ۷۳۳ ترافلاپس)

  • FP16 (Floating Point 16-bit) یک دقت محاسباتی است که بین سرعت پردازش و دقت محاسباتی تعادل ایجاد می‌کند.
  • مقدار ۳۶۲.۰۵ TFLOPS بدون پراکندگی و ۷۳۳ TFLOPS با پراکندگی نشان می‌دهد که این کارت در این دقت نیز عملکرد بسیار بالایی دارد.
  • چرا مهم است؟ FP16 معمولاً در یادگیری ماشین، رندرینگ، و پردازش‌های گرافیکی برای کاهش مصرف حافظه و افزایش سرعت پردازش استفاده می‌شود.

۶. FP8 Tensor Core TFLOPS – 733 | 1,466*

(عملکرد هسته‌های تنسور در دقت FP8 – بین ۷۳۳ و ۱,۴۶۶ ترافلاپس)

  • FP8 (Floating Point 8-bit) یک دقت محاسباتی کم‌حجم‌تر از FP16 است که برای بهینه‌سازی سرعت در پردازش‌های یادگیری عمیق معرفی شده است.
  • مقدار ۷۳۳ TFLOPS بدون پراکندگی و ۱,۴۶۶ TFLOPS با پراکندگی نشان می‌دهد که L40S در این دقت عملکرد فوق‌العاده‌ای دارد.
  • چرا مهم است؟ در مدل‌های Transformer، GPT و LLMهای بزرگ، استفاده از FP8 باعث افزایش سرعت استنتاج مدل‌ها با حداقل افت دقت در پردازش می‌شود.

۷. Peak INT8 Tensor TOPS – 733 | 1,466*

(عملکرد هسته‌های تنسور در دقت INT8 – بین ۷۳۳ و ۱,۴۶۶ ترافلاپس)

  • INT8 (Integer 8-bit) یک دقت محاسباتی عدد صحیح است که برای استنتاج مدل‌های یادگیری ماشین استفاده می‌شود.
  • مقدار ۷۳۳ TOPS بدون پراکندگی و ۱,۴۶۶ TOPS با پراکندگی نشان می‌دهد که L40S در استنتاج مدل‌های کم‌حجم‌شده (Quantized Models) فوق‌العاده عمل می‌کند.
  • چرا مهم است؟ INT8 در پردازش‌های تشخیص تصویر، NLP و AI روی دستگاه‌های کم‌مصرف بسیار کاربرد دارد.

۸. Peak INT4 Tensor TOPS – 733 | 1,466*

(عملکرد هسته‌های تنسور در دقت INT4 – بین ۷۳۳ و ۱,۴۶۶ ترافلاپس)

  • INT4 (Integer 4-bit) یک دقت محاسباتی فوق‌العاده کم‌حجم است که معمولاً برای مدل‌های بهینه‌سازی‌شده و شبکه‌های عصبی سبک استفاده می‌شود.
  • مقدار ۷۳۳ TOPS بدون پراکندگی و ۱,۴۶۶ TOPS با پراکندگی نشان می‌دهد که L40S می‌تواند با کاهش دقت، سرعت پردازش را دو برابر کند.
  • چرا مهم است؟ این دقت برای پردازش‌های AI با سخت‌افزارهای کم‌مصرف و اجرای مدل‌های هوش مصنوعی روی دستگاه‌های محدود از نظر قدرت پردازش مفید است.

*مفهوم (Sparsity) چیست؟

عبارت “Sparsity” به بهینه‌سازی محاسبات از طریق حذف مقادیر صفر یا کم‌اهمیت در عملیات ریاضی شبکه‌های عصبی اشاره دارد.

  • در یادگیری ماشین، بسیاری از وزن‌های شبکه عصبی مقادیر بسیار کوچک یا صفر دارند که می‌توان آن‌ها را حذف کرد.
  • NVIDIA با استفاده از تکنیک “Structured Sparsity” این امکان را فراهم می‌کند که برخی از مقادیر را حذف کند و در نتیجه، سرعت پردازش را تقریباً دو برابر افزایش دهد.
  • به همین دلیل، مقادیر عملکرد با پراکندگی (Sparsity) تقریباً ۲ برابر مقدار بدون پراکندگی هستند.

جمع‌بندی

  • کارت گرافیک NVIDIA L40S دارای دقت‌های مختلف پردازشی (FP32, TF32, BFLOAT16, FP16, FP8, INT8, INT4) برای پردازش‌های گرافیکی، یادگیری ماشین و مدل‌های هوش مصنوعی است.
  • مقدار TFLOPS و TOPS نشان‌دهنده تعداد عملیات پردازشی در ثانیه است.
  • تکنیک Sparsity باعث افزایش دو برابری عملکرد در برخی دقت‌های پردازشی می‌شود.

اطلاعات فنی کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB ECC GDDR6 Data Center PCIe GPU Accelerator

وزن 3 کیلوگرم
کارایی و رده بندی

, , , , , , , , , , ,

برند و سری

,

مدل

NVIDIA L40S 48GB ECC GDDR6 Data Center PCIe GPU Accelerator

وضعیت محصول

, ,

کارت گرافیک / Graphics Card

Release Date: Oct 13th, 2022
Availability: 2022
Generation: Tesla Ada(Lxx)
Predecessor: Tesla Ampere
Successor: Tesla Hopper
Production: Active
Launch Price: 649 USD
Bus Interface: PCIe 4.0 x16

پردازنده گرافیکی / Graphics Processor

GPU Name : AD102
Architecture : Ada Lovelace
Foundry : TSMC
Process Size : 5 nm
Transistors : 76,300 million
Density : 125.3M / mm²
Die Size : 609 mm²

AD107 GPU Notes:

Ray Tracing Cores: 3rd Gen
Tensor Cores: 4th Gen
NVENC: 8th Gen
NVDEC: 5th Gen
PureVideo HD: VP12
VDPAU: Feature Set L

پیکربندی رندر / Render Config

Shading Units : 18176
TMUs : 568
ROPs : 192
SM Count : 142
568Cores : 88
RT Cores : 142
L1 Cache : 128 KB (per SM)
L2 Cache : 48 MB

حافظه / Memory

Memory Size : 48 GB
Memory Type : GDDR6 with error-correction code (ECC)
Memory Bus : 384 bit
Bandwidth : 864.0 GB/s

سرعت اجرای پردازنده / Clock Speeds

Base Clock : 1110 MHz
Boost Clock : 2520 MHz
Memory Clock : 2250MHz 18 Gbps effective

صفحه نمایش / Display

Display Connectors : 4x mini-DisplayPort 1.4a
Max Simultaneous Displays : 4 direct, 4x mini-DisplayPort Up to four display outputs can be used simultaneously for multi-monitors
Display Resolution : 4K displays at 120Hz, 5K and 8K displays at 60Hz
4x 3840×2160 @ 120 Hz
4x 5120×2880 @ 60 Hz
2x 7680×4320 @ 60 Hz

عملکرد نظری / Theoretical Performance

Pixel Rate: 483.8 GPixel/s
Texture Rate; 1,431 GTexel/s
FP16 (half): 91.61 TFLOPS (1:1)
FP32 (float): 91.61 TFLOPS
FP64 (double): 1,431 GFLOPS (1:64)

RT Core Performance TFLOPS: 209 
TF32 Tensor Core TFLOPS: 183 I 366*
BFLOAT16 Tensor Core TFLOPS: 362.05 I 733*
FP16 Tensor Core: 362.05 I 733*
FP8 Tensor Core: 733 I 1,466*
Peak INT8 Tensor TOPS: 733 I 1,466*
Peak INT4 Tensor TOPS: 733 I 1,466*

ویژگی های گرافیک / Graphics Features

DirectX : 12 Ultimate (12_2)
OpenGL : 4.6
OpenCL : 3.0
Vulkan : 1.3
CUDA : 8.9
Shader Model : 6.8

برخورداری از APIهای محاسباتی

vGPU software support

Virtual GPU (vGPU) Software Support: Yes
Supports vGPU 16.1 (R535 GA6) or later: NVIDIA Virtual Compute
Server Edition
NVIDIA RTX Virtual Workstation
NVIDIA Virtual Compute Server

vGPU profiles supported

vGPU Profiles Supported: See the virtual GPU licensing guide
NVIDIA L40/L40S
Framebuer (GB) : 1x 48
Recommended vGPU Software: NVIDIA vWS (High-end)

پشتیبانی از تکنولوژیهای و ویژگی ها

> PCIe Gen 4
> Four DisplayPort 1.4a connectors
> AV1 encode and decode support
> Encode/decode engines: 3x encode, 3x decode (+AV1 encode and decode)
> DisplayPort with audio
> 3D stereo support with stereo connector
> NVIDIA GPUDirect® for Video support
> NVIDIA GPUDirect Remote Direct Memory Access (RDMA) support
> NVIDIA virtual GPU (vGPU) software support
> NVIDIA Quadro® Sync II compatibility
> NVIDIA RTX Experience™
> NVIDIA RTX Desktop Manager software
> NVIDIA RTX IO support
> HDCP 2.2 support
> NVIDIA Mosaic technology
> VR ready: Yes

طراحی برد / Board Design

Slot Width : Dual-slot
TDP: 350 W
Suggested PSU : 800 W
Outputs : 4x DisplayPort 1.4a
Power Connectors : 1x PCIe CEM5 16-pin

ابعاد

Slot Width : Dual-slot
Length : 267 mm – 10.5 inches
Width : 111 mm – 4.4 inches

نوع رابط

گارانتی

, ,

اطلاعات PDF:

تعداد نظرات 0

0.0 میانگین نظرات
0
0
0
0
0

اولین نفری باشید که نظری را برای “کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB” می نویسید.

هنوز دیدگاه یا پرسشی ثبت نشده است.

سبد خرید

close