Ampere - новітня ігрова архітектура NVIDIA

Alex Alex 23 вересня
Ampere - новітня ігрова архітектура NVIDIA

З моменту винаходу свого першого графічного процесора в 1999 році NVIDIA знаходиться в авангарді тривимірної графіки і обчислень з прискоренням на графічному процесорі. Кожна архітектура NVIDIA ретельно розроблена для забезпечення революційного рівня продуктивності і ефективності.

A100, перший графічний процесор з архітектурою NVIDIA Ampere, був випущений в травні 2020 року. Він забезпечує колосальне прискорення для навчання нейронних мереж, високопродуктивних обчислень і аналізу даних. В основі A100 лежить чіп GA100 - чисто обчислювальний і, на відміну від GA102, ще не ігровий.

Графічні процесори GA10x засновані на архітектурі графічних процесорів NVIDIA Turing. Turing - перша архітектура в світі, яка пропонує високопродуктивне трасування променів в реальному часі, графіку з прискоренням навчання нейронних мереж і професійний рендеринг графіки - все в одному пристрої.

У цій статті ми розберемо основні зміни в архітектурі нових відеокарт NVIDIA в порівнянні з попередніми.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 1. Архітектура Ampere GA10x

Основні характеристики GA102

GA102 виготовлений за власною технологією NVIDIA на базі 8 нм - 8N NVIDIA Custom. Чіп містить 28,3 мільярда транзисторів на кристалі розміром 628,4 мм2. Як і у всіх GeForce RTX, в основі GA102 лежить процесор, що містить три різних типи обчислювальних ресурсів:

  • CUDA-ядра для програмованого шейдинга;
  • RT-ядра , що прискорюють розрахунок перетинів геометрії сцени з обмежуючими обсягами (BVH) під час трасування променів;
  • Тензорні ядра, значно прискорюють вивід і навчання нейронної мережі.

Опис архітектури Ampere

Високорівнева архітектура GPC, TPC і SM

Як і попередники, GA102 складається з графічних кластерів Graphics Processing Cluster (GPC), кластерів обробки текстур Texture Processing Cluster (TPC), потокових мультипроцесоров (SM), блоків растеризації Raster Operator (ROP) і контролерів пам'яті. Повний чіп має сім блоків GPC, 42 TPC і 84 SM.

GPC - це домінуючий високорівневий блок, що включає всі ключові графічні складові. Кожен GPC має виділений рушій Raster Engine, а тепер ще й по два розділи ROP з восьми блоків кожен, що є нововведенням архітектури Ampere. Крім того, GPC містить шість TPC, в кожному з яких розташовано по два мультипроцесора і по одному PolyMorph Engine.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 2. Повний GPU GA102 з 84 блоками SM

У свою чергу, кожен SM в GA10x містить 128 CUDA-ядра, чотири тензорних ядра третього покоління, реєстровий файл 256 КБ, чотири текстурних блоки, одне ядро ​​трасування променів другого покоління і 128 КБ L1/загальної пам'яті, які можуть бути налаштовані для різних потужностей в залежності від потреб обчислювальних або графічних завдань.

Оптимізація блоків растеризації (ROP)

У попередніх графічних процесорах NVIDIA ROP були прив'язані до контролера пам'яті і кешу L2. Починаючи з GA10x, вони є частиною GPC, що підвищує продуктивність растрових операцій за рахунок збільшення загального числа ROP.

Разом, маючи по сім кластерів GPC і 16 блоків ROP в кожному GPC, графічний процесор GA102 складається з 112 ROP замість 96, наприклад, в TU102. Все це робить позитивний вплив на багатовибіркові згладжування, швидкість заповнення пікселів і продукнивність змішування (blending).

NVLink третього покоління

Графічні процесори GA102 підтримують інтерфейс NVIDIA NVLink третього покоління, що включає в себе чотири канали x4, кожен з яких забезпечує пропускну здатність 14,0625 ГБ/с між двома графічними процесорами в будь-якому напрямку. Чотири канали разом дають пропускну здатність 56,25 ГБ/с в кожному напрямі і в цілому 112,5 ГБ/с між двома графічними процесорами. Так, за допомогою NVLink можна з'єднати два графічних процесора RTX 3090.

PCIe четвертого покоління

Графічні процесори GA10x оснащені інтерфейсом PCI Express 4.0, який забезпечує вдвічі більшу пропускну здатність у порівнянні з PCIe 3.0, швидкість передачі даних до 16 гігатрансферів в секунду, а завдяки слоту x16 PCIe 4.0 пікова пропускна здатність досягає 64 ГБ/с.

Архітектура мультипроцесоров GA10x

Архітектура мультипроцесоров Turing стала першою в NVIDIA, у якій були окремі ядра для прискорення операцій трасування променів. Потім в Volta з'явилися перші тензорні ядра, а в Turing - вдосконалені тензорні ядра другого покоління. Ще одним нововведенням в Turing і Volta стала можливість одночасного виконання операцій FP32 і INT32. Мультипроцесор в GA10x підтримує всі перераховані вище можливості, а також має ряд власних поліпшень.

На відміну від TU102, що складається з восьми тензорних ядер другого покоління, мультипроцесор GA10x має чотири тензорних ядра третього покоління, причому кожне тензорне ядро GA10x в два рази потужніше, ніж у Turing.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 3. Потоковий мультипроцесор GA10x

Подвоєна швидкість обчислень FP32

Більшість графічних обчислень припадає на 32-бітові операції з плаваючою комою (FP32). Потоковий мультипроцесор в архітектурі Ampere GA10x забезпечує в два рази швидшу обробку операцій FP32 в обох каналах даних. В результаті в розрізі FP32 GeForce RTX 3090 забезпечує більше 35 терафлопс, що більш ніж у 2 рази перевищує можливості Turing.

GA10X може виконувати 128 FP32-операцій або 64 операції FP32 і 64 INT32 за такт, що вдвічі перевищує швидкість обчислень Turing.

Завдання сучасного геймінга мають широкий спектр потреб в обробці. Багато обчисленнь вимагають зв'язки операцій FP32 (таких як FFMA, складання з плаваючою комою (FADD) або множення з плаваючою комою (FMUL)), а також виконання безлічі простіших цілочисельних обчислень.

Мультіпроцесори GA10x продовжують підтримувати двохшвидкісні операції FP16 (HFMA), які підтримувалися і в Turing. І, аналогічно графічним процесорам TU102, TU104 і TU106, в GA10x стандартні операції FP16 теж обробляються тензорними ядрами.

Колективна пам'ять і кеш даних L1

GA10x має уніфіковану архітектуру для спільної пам'яті, кеша даних L1 і кеша текстур. Цей уніфікований дизайн можна змінити в залежності від робочого навантаження і потреб.

Чіп GA102 містить 10752 КБ кешу L1 (в порівнянні з 6912 КБ в TU102). Крім цього, GA10x також має подвоєну пропускну здатність пам'яті, що в порівнянні з Turing (128 байт/такт проти 64 байт/такт). Загальна пропускна здатність L1 для GeForce RTX 3080 становить 219 ГБ/с проти 116 ГБ/с у GeForce RTX 2080 Super.

Продуктивність на ват

Вся архітектура NVIDIA Ampere створена для підвищення ефективності - від логіки, пам'яті, живлення і теплового режиму до конструкції друкованої плати, програмного забезпечення і алгоритмів. При тому ж рівні продуктивності графічні процесори з архітектурою Ampere до 1,9 раз енергоефективніші, ніж аналогічні пристрої Turing.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 4. Ефективність енергоспоживання RTX 3080 в порівнянні з архітектурою GeForce RTX 2080 Super

RT-ядра другого покоління

Нові RT-ядра мають ряд поліпшень, які в сукупності з оновленими системами кешування ефективно подвоюють продуктивність процесорів Ampere в порівнянні з Turing в питаннях трасування променів. Крім того, GA10x дозволяє запускати одночасно з RT-обчисленнями й інші процеси, тим самим значно прискорюючи багато завдань.

Трасування променів другого покоління в GA10x

GeForce RTX на основі архітектури Turing стали першими графічними процесорами, з якими кінематографічне трасування променів стало реальністю і в комп'ютерних іграх. GA10x оснащені технологією трасування променів вже другого покоління. Як і у Turing, мультипроцесори в GA10x мають спеціалізовані апаратні блоки для перевірки на перетин променів з BVH і трикутниками. При цьому ядра мультипроцесоров Ampere мають вдвічі більшу швидкість тестування перетину променів і трикутників в порівнянні з Turing.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 5. Порівняння продуктивності RT-ядер GeForce RTX 3080 і GeForce RTX 2080 Super

Мультипроцесор GA10x може виконувати операції одночасно і при цьому не обмежується тільки обчисленнями і графікою, як це було в попередніх поколіннях графічних процесорів. Так, наприклад, в GA10x алгоритм шумозаглушення може виконуватися одночасно з трасуванням променів.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 6. Ядро RT другого покоління в графічних процесорах GA10x

Зверніть увагу, що робочі навантаження з інтенсивним використанням RT-ядер не викликають значного підвищення навантаження на ядра мультипроцесора, тим самим дозволяючи використовувати мультипроцесорну обчислювальну потужність для інших завдань. Це велика перевага перед іншими конкуруючими архітектурами, які не мають виділених RT -ядер, чому змушені використовувати свої стандартні блоки для виконання як графічних операцій, так і трасування променів.

Процесори RTX з архітектурою Ampere в дії

Трасування променів і робота шейдерів вимагають великих обчислювальних ресурсів. Але було б набагато дорожче запускати все за допомогою одних тільки CUDA-ядер, так що включення в роботу тензорних і RT-ядер допомагає значно прискорити обробку. На малюнку 7 для прикладу показана гра Wolfenstein: Youngblood з включеним трасуванням променів при різних сценаріях роботи.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 7. Візуалізація одного кадру Wolfenstein: Youngblood на RTX 2080 Super GPU з використанням а) шейдерних ядер (CUDA), б) шейдерних ядер і RT-ядер, в) шейдерних ядер, тензорних і RT-ядер. Зверніть увагу на поступово скорочується час кадру при додаванні потужностей різних процесорних ядер RTX.

У першому випадку для запуску одного кадру потрібно 51 мс (~20 fps). При включенні в роботу RT-ядер рендеринг кадру відбувається набагато швидше - за 20 мс (50 fps). Використання ж DLSS на тензорних ядрах скорочує час кадру до 12 мс (~83 fps).

Ampere - новітня ігрова архітектура NVIDIAМалюнок 8. Візуалізація одного кадру Wolfenstein: Youngblood на RTX 3080 з використанням а) шейдерних ядер (CUDA), б) шейдерних ядер і RT-ядер, в) шейдерних ядер, тензорних і RT-ядер.

Отже, технологія RTX з архітектурою Ampere ще ефективніше справляється з завданнями рендеринга: в RTX 3080 рендеринг кадру відбувається за 6,7 мс (150 fps), що є величезним поліпшенням у порівнянні з RTX 2080.

Апаратне прискорення трасування променів з використанням розмиття руху

Розмиття руху (motion blur) - часто використовувується в комп'ютерній графіці. Фотографічне зображення створюється не миттєво, а шляхом впливу світла на плівку протягом обмеженого періоду часу. Об'єкти, що рухаються досить швидко в порівнянні з тривалістю витримки камери, будуть відображатися на фотографії у вигляді смуг або плям. Щоб графічний процесор створював реалістичне розмиття руху в разі, коли об'єкти в сцені швидко переміщаються перед статичною камерою, він повинен вміти імітувати те, як камера і плівка працюють з такими сценами. Розмиття руху особливо важливе в кіновиробництві, оскільки фільми відтворюються зі швидкістю 24 кадри в секунду, і сцена без розмиття руху буде виглядати різкою і переривчастою.

Графічні процесори Turing досить добре справляються з прискоренням розмиття руху в цілому. Однак в разі  рухомої геометрії  завдання може виявитися складнішим, оскільки інформація про BVH змінюється разом з положенням об'єктів у просторі.

Як видно на малюнку 9, RT-ядро Turing виробляє апаратний обхід ієрархії BVH, перевірку перетину променів з BBox і трикутники. GA10x вміє все те ж саме, але до того ж має новий блок Interpolate Triangle Position, що прискорює розмиття руху при трасуванні променів.

Обидва RT-ядра Turing і GA10x реалізують архітектуру MIMD (Multiple Instruction Multiple Data - множинні команди, множинні дані), завдяки якій можна обробляти безліч променів одночасно.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 9. Порівняння апаратного прискорення розмиття руху в випадку Turing і Ampere

Основна проблема з розмиванням руху полягає в тому, що трикутники в сцені не фіксовані в часі. У базовому трасуванні променів виконуються статичні тести на перетин, і при попаданні променя в трикутник проводиться повернення інформацію про це попадання. Як показано на малюнку 10, при розмитті руху в жодного трикутника немає фіксованих координат. Кожному променю присвоюється тимчасова мітка, яка вказує час його відстеження, і вже з рівняння BVH визначається положення трикутника і перетину з ним променя.

Якщо цей процес не прискорити апаратно, він може створити багато проблем, в тому числі за рахунок своєї нелінійності.

Ampere - новітня ігрова архітектура NVIDIAМалюнок. 10. Базове трасування променів і трасування променів з розмиванням руху

У лівій частині малюнка 11 промені, відправлені в статичну сцену, потрапляють в один і той самий трикутник одночасно. Білі точки показують місце попадання, цей результат і повертається назад. У разі розмиття руху кожен промінь існує в свій момент часу. Кожному променю випадковим чином призначається різна тимчасова мітка. Наприклад, помаранчеві промені намагаються перетнути помаранчеві трикутники в один момент часу, а потім зелені і сині промені виробляють ті ж самі дії. В кінці семпли змішуються, утворюючи математично  правильніший розмитий результат.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 11. Візуалізація без розмиття руху і з розмиванням в GA10x

Блок Interpolate Triangle Position інтерполює трикутники в BVH між вже існуючими трикутниками на основі руху об'єкта, так що промені будуть перетинати їх в очікуваних місцях в моменти, які визначаються тимчасовими мітками променя. Такий підхід дозволяє виконувати точний рендеринг розмиття руху з трасуванням променів до восьми разів швидше в порівнянні з Turing.

Розмиття руху з апаратним прискоренням GA10x підтримується Blender 2.90, Chaos V-Ray 5.0, Autodesk Arnold і Redshift Renderer 3.0.X з використанням NVIDIA OptiX 7.0 API.

Швидкість рендеринга розмиття руху до 5 раз вище в разі RTX 3080 в порівнянні з RTX 2080 Super.

Тензорні ядра третього покоління в графічних процесорах GA10x

GA10x містить в собі нові тензорні ядра NVIDIA третього покоління, що відрізняються підтримкою нових типів даних, поліпшеною продуктивністю, ефективністю і гнучкістю програмування. Нова функція розрідженості дозволяє подвоїти продуктивність тензорних ядер в порівнянні з Turing попереднього покоління. Швидше відбувається і виконання функцій машинного навчання, таких як NVIDIA DLSS для підвищення якості зображення (тепер і з підтримкою 8K), NVIDIA Broadcast для обробки голосу і відео і NVIDIA Canvas для малювання.

Тензорні ядра - це спеціалізовані виконавчі блоки, розроблені для виконання тензорних/матричних операцій - основної обчислювальної функції в глибокому навчанні. Вони необхідні для поліпшення якості графіки за допомогою DLSS (Deep Learning Super Sampling), шумозаглушення на основі машинного навчання, видалення фонового шуму всередині ігрових голосових чатів за допомогою RTX Voice і ще безлічі застосувань.

Впровадження тензорних ядер в ігрові графічні процесори GeForce вперше дозволило реалізувати глибоке навчання в реальному часі в ігрових застосунках. Конструкція тензорного ядра третього покоління в графічних процесорах GA10x додатково збільшує чисту продуктивність і задіює нові режими обчислювальної точності, такі як TF32 і BFloat16. Це відіграє велику роль для заснованих на машинному навчанні застосунків нейронних служб NVIDIA NGX, спрямованих на поліпшення графіки, рендеринга та інші функції.

Порівняння тензорних ядер Turing і Ampere

Тензорні ядра Ampere були реорганізовані в порівнянні з Turing для підвищення ефективності і зниження енергоспоживання. Архітектура SM-ядер Ampere має меншу кількість тензорних ядер, але кожне з них виявляється потужнішим.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 12. Тензорні ядра з архітектурою Turing і Ampere. GeForce RTX 3080 забезпечує в 2,7 рази вищу пікову пропускну здатність тензорного ядра в FP16-операціях в порівнянні з GeForce RTX 2080 Super

Дрібнозерниста структурована розрідженість

З графічним процесором A100 NVIDIA представила Fine-Grained Structured Sparsity - новий підхід, що сприяє подвоєнню обчислювальної пропускної здатності для глибоких нейронних мереж. Ця функція також підтримується графічними процесорами GA10x і допомагає прискорити деякі операції виведення графіки на основі машинного навчання.

Оскільки мережі глибокого навчання можуть адаптувати ваги в процесі навчання на основі зворотного зв'язку, в цілому структурні обмеження не впливають на точність навчаємих моделей.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 13. Дрібнозерниста структурована розрідженість

NVIDIA розробила простий і універсальний алгоритм розрідження глибоких нейронних мереж з використанням структурованого шаблону розрідженості 2:4. Мережа спочатку навчається за допомогою щільних ваг, потім відбувається дрібнозерниста структурована обрізка, після чого нульові значення можна відкинути, а залишкова математика стискається з метою підвищення пропускної спроможності. Алгоритм не впливає на точність навченої мережі для виведення, тільки прискорює її.

NVIDIA DLSS 8K

Візуалізація зображення з трасуванням променів і високою частотою кадрів - надзвичайно витратний з обчислювальної точки зору процес. До появи NVIDIA Turing вважалося, що його реалізацію варто чекати роки. Щоб допомогти з вирішенням цієї проблеми, NVIDIA створила суперсемплінг за допомогою глибокого навчання (DLSS).

Ampere - новітня ігрова архітектура NVIDIAМалюнок 14. Watch Dogs: Legion з DLSS з роздільною здатністю 1080p, 4К і 8К. Зверніть увагу на чіткіший текст і деталізацію, що забезпечується DLSS в 8K

DLSS став тільки краще у випадку NVIDIA Ampere за рахунок використання тензорних ядер третього покоління і дев'ятикратного коефіцієнта масштабування для виликих роздільних здатностей, який вперше робить можливими запуск гри з трасуванням променів з роздільною здатністю 8K з 60 fps.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 15. GeForce RTX 3090 може забезпечити частоту кадрів 60 fps в багатьох іграх з роздільною здатністю 8K з DLSS і без нього. У перерахованих іграх використовувалися високі налаштування графіки і включене трасування променів, де це можливо. Протестовано на процесорі Core i9-10900K

Пам'ять GDDR6X

Сучасні комп'ютерні ігри та творчі застосунки вимагають значно більшої пропускної здатності пам'яті для обробки все складнішої геометрії сцени, детальніших текстур, трасування променів, операцій виведення машинного навчання і, звичайно ж, затінення і суперсемплінг.

GDDR6X - перша графічна пам'ять, пропускна здатність якої перевищує 900 ГБ/с. Щоб цього досягти, була задіяна інноваційна технологія передачі сигналів і чотирирівнева амплітудно-імпульсна модуляція (PAM4), в сукупності повністю змінююча спосіб переміщення даних в пам'яті. За допомогою алгоритму PAM4 GDDR6X передає більшу кількість даних з набагато  вищою швидкістю, переміщаючи по два біти даних за раз, що подвоює швидкість передачі даних введення/виводу в порівнянні з попередньою схемою PAM2/NRZ.

В даний час GDDR6X підтримує швидкість 19,5 Гбіт/с для GeForce RTX 3090 і 19 Гбіт/с для GeForce RTX 3080. Завдяки цьому GeForce RTX 3080 забезпечує в 1,5 рази більшу продуктивність в операціях з пам'яттю, ніж попередник - RTX 2080 Super.

На малюнку 16 показано порівняння структури GDDR6 (зліва) і GDDR6X (праворуч). GDDR6X передає ті ж дані на частоті вдвічі меншій, ніж у GDDR6. Або, як альтернатива, GDDR6X може подвоїти ефективну смугу пропускання, зберігши ту ж частоту.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 16. GDDR6X з використанням сигналів PAM4 показує велику продуктивність і ефективність, ніж GDDR6

Для вирішення проблем з відношенням сигнал/шум (SNR), що виникають при передачі сигналів PAM4, була розроблена нова схема кодування MTA (максимальне запобігання переходу). MTA запобігає перехід високошвидкісних сигналів з найвищого рівня на найнижчий і навпаки.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 17. Нове кодування в GDDR6X

Підтримуючи швидкість передачі даних до 19,5 Гбіт/с на чіпах GA10x, GDDR6X забезпечує пікову пропускну здатність пам'яті до 936 ГБ/с, що на 52% більше в порівнянні з графічним процесором TU102, використовуваним в GeForce RTX 2080 Ti. GDDR6X має найбільший стрибок пропускної здатності за 10 років після графічних процесорів серії GeForce 200.

RTX IO

Сучасні ігри містять в собі величезні світи. З розвитком таких технологій, як фотограмметрія, вони все краще імітують реальність і, як наслідок, містяться в файлах з дедалі більшим об'ємом. Найбільші ігрові проекти займають більше 200 ГБ, що в 3 рази більше, ніж чотири роки тому, і з часом це число буде тільки рости.

Геймери все частіше звертаються до твердотілих накопичувачів, щоб скоротити час завантаження ігор: в той час, як жорсткі диски обмежені пропускною спроможністю 50-100 МБ/с, новітні твердотільні накопичувачі M.2 PCIe Gen4 зчитують дані на швидкості до 7 ГБ/с.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 18. Ігри, обмежені традиційними системами введення-виведення

Ampere - новітня ігрова архітектура NVIDIAМалюнок 19. При використанні традиційної моделі зберігання розпакування гри може зайняти всі 24 ядра процесора. Сучасні ігрові рушії перевершили можливості традиційних API-сховищ. Ось чому необхідно нове покоління архітектури вводу-виводу. Тут сірі смуги позначають швидкість передачі даних, чорно-сині блоки - необхідні на це ядра ЦП.

NVIDIA RTX IO - це набір технологій, що забезпечують швидке завантаження і розпакування ресурсів на базі ДП і підвищують продуктивність введення-виведення до 100 разів у порівнянні з жорсткими дисками і традиційними API-сховищами.

NVIDIA RTX IO працює в зв'язці Microsoft DirectStorage API - сховищем наступного покоління, розробленим спеціально для сучасних ігрових ПК з NVMe SSD. NVIDIA RTX IO забезпечує декомпресію без втрат, дозволяючи зчитувати дані через DirectStorage в стислому вигляді і доставляти їх на графічний процесор. Це знімає навантаження з ЦП, переміщаючи дані зі сховища в графічний процесор в більш ефективній стислій формі і покращуючи продуктивність введення-виведення в два рази.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 20. RTX IO забезпечує в 100 разів більшу пропускну здатність і 20-кратне зниження завантаження ЦП. Сірі і зелені смуги позначають швидкість передачі даних, чорно-сині блоки - необхідні для цього ядра ЦП.

Дисплей і відеодвіжок

DisplayPort 1.4a з DSC 1.2a

Марш в сторону все більшої роздільної здатності з вищою частотою оновлення кадрів триває, і графічні процесори на архітектурі NVIDIA Ampere намагаються залишатися в числі передових компаній, готових забезпечити і те, і інше. Геймери тепер можуть грати на дисплеях з роздільною здатністю 4K (3820 x 2160) з частотою 120 Гц і в 8K (7680 x 4320) з частотою 60 Гц - з чотириразовим збільшенням числа пікселів в порівнянні з 4K.

Рушій архітектури Ampere розроблений для підтримки багатьох нових технологій, включених в найшвидші на сьогоднішній день інтерфейси відображення даних. Сюди входить і DisplayPort 1.4a, що забезпечує роздільну здатність 8K при 60 Гц з технологією стиснення без візуальних втрат VESA Display Stream Compression (DSC) 1.2a. До нових відеокарт з архітектурою Ampere можна підключити по два дисплеями з 8K і частотою 60 Гц - для цього знадобиться всього лише один кабель на дисплей.

HDMI 2.1 з DSC 1.2a

В архітектурі NVIDIA Ampere вперше для дискретних графічних процесорів додана підтримка HDMI 2.1 - новітньої оновленої специфікації HDMI. В HDMI максимальна пропускна здатність збільшена до 48 Гбіт/с, що також дозволяє використовувати динамічні формати HDR. Для підтримки 8K при 60 Гц з HDR необхідно стиснення DSC 1.2a або піксельний формат 4:2:0.

NVDEC п'ятого покоління - декодування відео з апаратним прискоренням

Графічні процесори NVIDIA містять апаратний декодер п'ятого покоління Hardware-Accelerated Video Decoding (NVDEC), що забезпечує повністю апаратне декодування відео для маси популярних кодеків.

Ampere - новітня ігрова архітектура NVIDIAМалюнок 21. Формати кодування і декодування відео, підтримувані графічними процесорами GA10x

Декодер NVIDIA п'ятого покоління в GA10x підтримує декодування з апаратним прискоренням наступних відео кодеків на платформах Windows і Linux: MPEG-2, VC-1, H.264 (AVCHD), H.265 (HEVC), VP8, VP9, і AV1.

NVIDIA - перший виробник графічних процесорів, що забезпечує апаратну підтримку декодування AV1.

Апаратне декодування AV1

Хоча AV1 дуже ефективний при стисненні відео, його декодування вимагає значних обчислювальних ресурсів. Сучасні програмні декодери викликають високе завантаження ЦП і ускладнюють відтворення відео в надвисокому дозволі. У тестах NVIDIA процесор Intel i9 9900K в середньому відтворював на YouTube 28 кадрів в секунду в 8K60 HDR, завантаження процесора при цьому була вище 85%. Графічні процесори GA10x можуть відтворювати AV1, передаючи декодування на NVDEC, який здатний відтворювати до 8K60 HDR-контенту з дуже низьким завантаженням ЦП (~ 4% на тому ж ЦП, що і в попередньому тесті).

NVENC сьомого покоління - кодування відео з апаратним прискоренням

Кодування відео може бути складним обчислювальним завданням, але, якщо вивантажити його в NVENC, графічний рушій і ЦП звільняться для інших операцій. Наприклад, при потоковій передачі ігор на Twitch.tv з використанням Open Broadcaster Software (OBS), вивантаження кодування відео в NVENC дозволить виділити графічний рушій графічного процесора для рендеринга гри, а ЦП - для інших завдань користувача.

NVENC дозволяє:

  • кодування і потокову передачу ірор та програм з високою якістю і наднизькю затримкою без використання ЦП;
  • кодування з дуже високою якістю для архівування, потокової передачі OTT, веб-відео;
  • кодування з наднизьким енергоспоживанням на потік (Вт/потік).

При загальних налаштуваннях потокової передачі Twitch і YouTube апаратне кодування на основі NVENC в графічних процесорах GA10x перевершує якість кодування програмних кодувальників x264 з використанням попереднього встановлення Fast і знаходиться на одному рівні з x264 Medium - яка зазвичай вимагає потужності двох комп'ютерів. Це різко знімає завантаження ЦП. Кодування 4K - занадто велике робоче навантаження для типової конфігурації ЦП, але кодувальник GA10x NVENC забезпечує безшовне кодування з високою роздільною здатністю до 4K в H.264 і навіть 8K в HEVC.

Висновок

З кожною новою процесорною архітектурою NVIDIA прагне забезпечити революційну продуктивність для наступного покоління, одночасно вводячи нові функції, що поліпшують якість зображення. Turing був першим графічним процесором, який представив трасування променів з апаратним прискоренням - функцію яка колись вважалася святим Граалем комп'ютерної графіки. Сьогодні неймовірно реалістичні і фізично точні ефекти трасування променів додаються до багатьох нових комп'ютерних ігор класу AAA, а трасування променів з прискоренням на графічному процесорі вважається обов'язковою функцією для більшості комп'ютерних геймерів. Нові графічні процесори з архітектурою NVIDIA GA10x Ampere забезпечують необхідні функції і продуктивність, щоб насолоджуватися новими іграми з трасуванням променів і частотою кадрів до 2 разів вище, ніж тим що можна досягти сьогодні.

Джерело: nvidia.com

Коментарі (0)

    Ще немає коментарів

Щоб залишити коментар необхідно авторизуватися.

Війти / Зареєструватися