Обзор архитектуры GeForce Ampere

От строения чипа до дизайна системы охлаждения — что показала Nvidia

Обзор архитектуры GeForce Ampere

В сети уже начали появляться разборы новой архитектуры Nvidia Ampere. Эта статья является адаптацией и переводом нескольких из них. Основной источник — здесь.

Изначально я хотел опубликовать данный материал в подсайт Железо, но редакция представила свою статью с большим количеством информации по теме. К тому же часть информации уже была доступна в статье про презентацию. В то же время не все интересные моменты были подробно освещены, поэтому данный разбор я публикую в блог. Надеюсь, он найдёт своих читателей.

Компания Nvidia представила свою новую архитектуру GeForce Ampere во вторник 1 сентября 2020 года. Она знаменует собой следующее поколение игровых видеокарт GeForce RTX — серию GeForce 3000. Первым коммерческим продуктом на основе новой архитектуры стал скалярный процессор A100 Tensor Core, выпущенный ещё весной. И хотя мы получили краткую техническую информацию о вычислительной мощности A100, GeForce Ampere — совсем другой зверь.

A100 — это именно скалярный процессор, а не графический. И хотя линейка GeForce Ampere включает многие инновации SIMD A100, это, по сути — совершенно другой чип, поскольку его потоковый мультипроцессор (наименьший подблок графического процессора) имеет аппаратное обеспечение в виде RT-ядер, которых нет в A100. И наоборот: в A100 присутствуют ядра FP64, которых нет в GeForce Ampere.

Nvidia A100 
Nvidia A100 

Nvidia встряхнула индустрию потребительской графики в 2018 году, представив серию GeForce RTX 20 Turing, которая стала первой серией потребительских графических процессоров с аппаратным ускорением трассировки лучей в реальном времени. Поэтому при разработке Ampere компания уделила большое внимание значительному улучшению аппаратной реализации RTX, увеличив производительность при добавлении множества новых функций.

Nvidia Ampere — также первый потребительский графический процессор Nvidia, созданный по 8-нм техпроцессу от Samsung, что дало инженерам компании намного больше свободы из-за значительного увеличения плотности транзисторов и мощности по сравнению с TSMC N12 — техпроцессом, на котором была основана архитектура Turing.

Nvidia не считает, что её ответственность перед геймерами заканчивается на моменте продажи им крутой железки, которая рендерит пиксели. Скорее, компания стремится предоставить всеобъемлющее решение для улучшения игрового опыта на платформе ПК. Оно включает в себя множество бесплатных программных функций для геймеров, которые помогают им оптимизировать свое оборудование, осуществлять трансляции и запись, а также улучшать качество изображения. В Nvidia также пытаются решить некоторые фундаментальные проблемы современных ПК, такие как задержки и распределение системных ресурсов — проблемы, которые должны решаться поставщиками платформ, такими как Intel и AMD.

Nvidia GeForce Expirience
Nvidia GeForce Expirience

За прошедшие годы Nvidia также изменила подход к «эталонному дизайну» с помощью своего бренда видеокарт Founders Edition. Долгое время референсные видеокарты считались «базовым» продуктом, уступая вариантам от сторонних производителей по части охлаждения и дизайна. Однако в Nvidia хотят, чтобы её видеокарты Founders Edition не были базовым стандартом, а стали эталоном, которому стремятся соответствовать карты от сторонних производителей дизайна. Создавая GeForce Ampere, компания стремится сделать именно это, а также многое другое - всё благодаря инновационному дизайну системы охлаждения, которая более эффективно использует воздушный поток, доступный в типичных игровых ПК.

Nvidia Ampere Reference Design
Nvidia Ampere Reference Design

В этой статье мы познакомимся со некоторыми техническими деталями, углубившись в основы архитектуры GeForce RTX 3000 Ampere. Начнём.

Стартовая линейка потребительских видеокарт Nvidia Ampere

На своей презентации Nvidia представили три видеокарты поколения Ampere, которые будут доступны на старте поступления новой линейки на рынок. Это модели RTX 3090, RTX 3080 и RTX 3070. Все они поступят в продажу осенью этого года.

RTX 3080

Обзор архитектуры GeForce Ampere

GeForce RTX 3080 — первый потребительский продукт на новой архитектуре, который поступит в продажу 17 сентября этого года. В Nvidia называют его «новым флагманом» — RTX 3080 стартует c отметки в 699 долларов и приходит на смену RTX 2080 и RTX 2080 Super.

Обзор архитектуры GeForce Ampere

Основанная на «урезанном» чипе GA102, RTX 3080 имеет 8704 ядер CUDA в 68 SM (34 TPC), 68 RT-ядер, 272 тензорных ядра, 272 TMU и 96 ROP. Видеокарта оснащена 10 ГБ памяти GDDR6X с 320-битным интерфейсом, который позволяет памяти работать со скоростью 19 Гбит/с, обеспечивая пропускную способность 760 ГБ/с. Nvidia оценивает энергопотребление RTX 3080 на уровне 320 Вт. Целевое назначение — игры в 4K UHD.

Nvidia заявляет о почти двукратном приросте производительности для RTX 3080 по сравнению с RTX 2080 при разрешении 4K UHD.

RTX 3090

Обзор архитектуры GeForce Ampere

GeForce RTX 3090 станет второй потребительской видеокартой поколения Ampere на рынке — её поступление в продажу состоится 24 сентября. Она находится в сегменте «Halo», который обычно занимает бренд TITAN, что также может означать, что TITAN Ampere, скорее всего, не будет.

Обзор архитектуры GeForce Ampere

RTX 3090 стартует с 1499 долларов, и в маркетинговых слайдах и презентациях часто сравнивается с TITAN RTX. RTX 3090 использует полный чип GA102 с 10 496 ядрами CUDA на 82 SM (41 TPC), 82 RT-ядрами, 328 тензорными ядрами, 328 TMU и, вероятно, 112 ROP. Видеокарта оснащена 24 ГБ памяти GDDR6X с 384-битным интерфейсом, который позволяет памяти работать со скоростью 19,5 Гбит/с, обеспечивая пропускную способность 940 ГБ/с. Nvidia оценивает энергопотребление RTX 3090 в 350 Вт. Данная видеокарта не только рассчитана на поддержку 4K UHD с высокой частотой обновления, но и на работу в разрешении 8K.

Прирост производительности RTX 3090 по сравнению с RTX TITAN ( 2500 долларов США на старте продаж) составляет 50-70%, в зависимости от приложения.

RTX 3070

Обзор архитектуры GeForce Ampere

Выпуск GeForce RTX 3070 запланирован на октябрь 2020 года. Данная видеокарта должна понравится широкой аудитории благодаря стартовой цене в 499 долларов. RTX 3070 позиционируется как видеокарта для игр в разрешении 1440р с высокой частотой обновления, хотя Nvidia утверждает, что данная видеокарта «быстрее, чем RTX 2080 Ti», которая позиционировалась как модель для игр в разрешении 4К.

Обзор архитектуры GeForce Ampere

На данный момент нет официальной информации о том, на каком кристалле основана RTX 3070, однако есть предположения, что это GA104. Nvidia подтвердила, что данная модель имеет 5888 CUDA-ядер — больше, чем у TITAN RTX. Эти ядра распределены по 46 SM (23 TPC) и имеют 46 ядер RT, 184 тензорных ядра, 184 TMU и, вероятно, 64 ROP. RTX 3070 оснащена 256-битным интерфейсом памяти с 8 ГБ GDDR6, и еще неизвестно, будет ли Nvidia использовать его со скоростью 14 или 16 Гбит/с. Потребляемая мощность данной модели составляет 220 Вт.

RTX 3070 обещает прирост производительности почти на 60% по сравнению с RTX 2070, что примерно равно уровню RTX 2080 Ti.

Архитектура GeForce Ampere

Обзор архитектуры GeForce Ampere

GeForce Ampere представляет собой 2-е поколение технологии Nvidia GeForce RTX. Трассировка лучей в реальном времени дебютировала в сегменте потребительской графики, опередив свое время, поскольку считалась слишком ресурсоёмкой даже при большом количестве программируемых шейдерных ядер. Технология Nvidia RTX решила эту проблему, представив новый гибрид «растр + трассировка лучей», в котором большая часть 3D-сцены визуализируется традиционной растровой графикой, а отдельные элементы, получающие выгоду от RT, трассируются. Это потребовало разработки и создания RT-ядер, которые обрабатывают BVH и пересечения, а также тензорных ядер, которые ускоряют матричное умножение, используемое в нейронных сетях AI.

В Ampere мы видим введение новых потоковых мультипроцессоров — основной программируемой шейдерной мускулы графических процессоров Nvidia — а также RT-ядер 2-го поколения и тензорных ядер 3-го поколения (тензорные ядра появились еще до Turing’a — они впервые были представлены в Volta). Ключевым моментом этих улучшений является не только увеличение растровой производительности, но и снижение нагрузки при расчёте лучей.

Первая волна видеокарт Nvidia GeForce Ampere состоит из GeForce RTX 3080, предлагаемой в качестве флагманской игровой видеокарты по цене 700 долларов, и RTX 3090 по цене 1500 долларов, предназначенной для энтузиастов. Интересно, что обе карты основаны на вариантах одного и того же чипа GA102, но в случае с GeForce RTX 3080 — на меньшем кристалле.

Чип Nvidia GA102

Обзор архитектуры GeForce Ampere

Чип Nvidia GA102 построен на 8-нанометровом техпроцессе «8N» от Samsung. Он предлагает сравнимую плотность транзисторов с техпроцессом TSMC N7, на которых Nvidia создает процессор A100 Tensor Core. Чип имеет колоссальные 28 миллиардов транзисторов, а его версия в RTX 3080 предлагает чистую вычислительную мощность до 30 TFLOP с FP32, до 58 TFLOP с трассировкой лучей и до 238 тензорных TFLOP.

GA102 в RTX 3080 TechPowerUp
GA102 в RTX 3080 TechPowerUp

В RTX 3080 GA102 имеет 8704 CUDA-ядер, распределенных по 68 потоковым мультипроцессорам (SM), что на 183% больше, чем у RTX 2080 Super. В сочетании с улучшениями IPC на уровне SM, это приводит к значительному увеличению пропускной способности FP32 — на 172% по сравнению с RTX 2080 Super (11 TFLOP против 30 TFLOP). Группы из двух SM, называемые кластерами обработки текстур (TPC), остаются наименьшими единицами сегментации архитектуры Ampere. RTX 3080 имеет 34 TPC (68 SM) в шести кластерах обработки графики (GPC).

GA102 — а именно его реализация в RTX 3080 — имеет интерфейс PCI-Express 4.0 x16, GigaThread, который отправляет и координирует работу между GPC, L2-кэшэм (последнего уровня) и интерфейсом памяти GDDR6X с шиной в 320 бит. На RTX 3090 этот интерфейс памяти расширен до 384-бит, и есть 41 TPC, распределенные по большему количеству GPC. В RTX 3080 отсутствует интерфейс NVLink, а в RTX 3090 он есть. Nvidia также изменила разъем NVLink для экономии места на плате (подробнее об этом далее).

GA102 в RTX 3090 TechPowerUp
GA102 в RTX 3090 TechPowerUp

Вот блок-схема микросхемы GA102, реализованной в RTX 3090. Она имеет полный 384-битный интерфейс памяти вместе со всеми его GPC, но один TPC (два SM) вырезаны для лучшей оптимизации. При включении 82 SM, каждый из которых имеет 128 ядер CUDA, RTX 3090 достигает своего волшебного количества ядер CUDA в 10 000+ (10496). Другой компонент, недоступный в RTX 3080 — это интерфейс NVLink. С каждым новым поколением Nvidia отодвигает SLI в сторону более высоких сегментов в своей линейке продуктов, поскольку мульти-GPU — это умирающая технология, и только энтузиасты всё ещё используют её.

Новые потоковые мультипроцессоры архитектуры Ampere

Обзор архитектуры GeForce Ampere

Потоковый мультипроцессор (SM) — это то, на что была направлена основная часть инженерных усилий Nvidia. Он является ключевым компонентом GPU. В Nvidia утверждают, что Ampere SM имеет вдвое большую вычислительную мощность, чем Turing SM. Мы по-прежнему имеем четыре warp scheduler’а, которые распределяют рабочие нагрузки для компонентов SIMD, но теперь каждый субблок имеет 32 ядра FP32 CUDA. Из них 16 могут выполнять одновременно математические операции FP32 + INT32. Это не похоже на Ampere SM в скалярном процессоре A100 Tensor Core, который имеет шестнадцать ядер FP32 и INT32 каждое и восемь ядер FP64 (двойной точности).

В GeForce Ampere каждый субблок дополнительно имеет тензорное ядро 3-го поколения, четыре блока загрузки-хранения и регистровый файл. Четыре таких субблока добавляют к GeForce Ampere SM до 128 ядер FP32 CUDA, из которых 64 могут обрабатывать одновременные операции INT32 + FP32. Каждый SM имеет одно ядро RT 2-го поколения, кэш данных L1 128 КБ и четыре TMU. Благодаря новому каналу передачи данных GeForce Ampere SM обеспечивает удвоенную производительность FP32 или 128 операций умножения-сложения (FMA) за такт.

Ядра RT 2-го поколения предположительно предлагают вдвое большую частоту пересечения треугольников по сравнению с предыдущим поколением, в то время как новые тензорные ядра 3-го поколения предлагают вдвое большую вычислительную пропускную способность.

Память GDDR6X

Обзор архитектуры GeForce Ampere

GDDR6X, судя по всему, является эксклюзивной технологией памяти, разработанной Micron для Nvidia.

GDDR6X основан на стандарте JEDEC GDDR6 и использует PAM4 (амплитудно-импульсную модуляцию 4), которая позволяет передавать четыре возможных значения напряжения за цикл. Помните, что двоичный код — это всего лишь два значения: «включено» или «выключено», «единица» или «ноль»? PAM4 передает сигнал сразу на четырёх разных уровнях напряжения, что повышает пропускную способность за такт в два раза.

Обзор архитектуры GeForce Ampere

В этом случае главная задача состоит в избежании ухудшения качества сигнала, чтобы все четыре уровня напряжения были чётко различимы. С «включением» и «выключением» это легко, но различить четыре разных уровня сигнала сложнее, поэтому для данных используется новое кодирование. Вместо того, чтобы передавать необработанные значения напрямую, где 0 означает отсутствие напряжения и 3 как максимальное напряжение каждый раз, схема кодирования MTA (максимальное предотвращение перехода) выбирает уровни напряжения в зависимости от предыдущего уровня.

И последнее, но не менее важное: в Nvidia улучшили алгоритм обучения в контроллере памяти — он стал более надёжным. Теперь он будет время от времени переучиваться и сможет адаптироваться к изменениям, таким как температура или электромагнитные помехи. Благодаря этому Nvidia смогла увеличить скорость передачи данных до 19,5 Гбит/с для RTX 3090 и 19 Гбит/с для RTX 3080. В случае с RTX 3090 это приводит к пропускной способности памяти в 940 ГБ/с. Это очень близко к тому, что может быть достигнуто с гораздо более дорогими решениями, такими как 4096-битная память HBM2.

Улучшения RT-ядер и тензорных ядер

Обзор архитектуры GeForce Ampere

В архитектуре GeForce Ampere компания Nvidia представила RT-ядра 2-го поколения, которые разработаны для улучшение ускорения трассировки, а также для работы с новыми эффектами, такими как размытие движения с трассировкой лучей.

RT-ядро — это аппаратный компонент с фиксированной функцией, который выполняет две сложнейшие задачи для программируемых шейдеров SIMD: обход и пересечение иерархии ограничивающих объемов (BVH), т.е. вычисление точной точки, в которой луч сталкивается с поверхностью.

Типичные рабочие нагрузки по трассировке лучей при гибридном рендеринге «растр+трассировка» включают в себя вычисление шагов обхода и пересечения через BVH и пересечения ограничивающего прямоугольника / треугольника. Данный процесс является очень сложной задачей для классических графических процессоров из-за характера задействованного доступа к памяти.

Этот вид отслеживания указателей плохо масштабируется с архитектурами SIMD (программируемыми шейдерами) и лучше подходит для специального оборудования с фиксированными функциями, такого как ядра MIMD RT.

В Nvidia отметили, что минималистский подход к трассировке лучей (возможно, то, что AMD задумала с RDNA2) оказывает негативное влияние на производительность из-за чрезмерной зависимости от потоковых процессоров SIMD. В то же время RT-ядра предлагают полностью аппаратный стек обхода BVH, специализированный исполнительный модуль MIMD и, по сути, более низкую задержку от аппаратного стека.

RT-ядра 2-го поколения, представленные в Ampere, добавляет еще один аппаратный компонент — новый логический блок, который интерполирует положения треугольников по шкале времени в координации с блоком пересечения треугольников.

Nvidia утверждает, что это полезно для создания эффектов размытия движения при трассировке лучей в реальном времени. Но скорее всего Nvidia реализует это как оптимизацию производительности для трассировки лучей. Есть предположения, что инженеры компании объединили алгоритм оценки движения с RTX, который запоминает последние пересечения как «хорошие» и проверяет их на ранних этапах всего процесса.

Тензорные ядра 3-го поколения

Новое тензорное ядро 3-го поколения в значительной степени заимствовано из процессора A100 Tensor Core, представленного этой весной. Nvidia A100 специально создан для работы с нейронными сетями и глубоким обучением ИИ.

Для повышения производительности тензорные ядра Ampere используют разреженности в нейронных сетях глубокого обучения. Разреженность — это явление, при котором плотную матрицу можно обрезать, не влияя на ее точность. Редкие матрицы на порядок увеличивают производительность логического вывода ИИ.

Система охлаждения Founders Edition и дизайн платы

Обзор архитектуры GeForce Ampere

Как упоминалось выше, Nvidia больше не позиционирует референсные модели своих видеокарт как отправную точку для развития решений компаний-партнёров, а скорее представляет их как высокий стандарт дизайна и производительности, к которому партнёры должны стремиться.

В GeForce RTX 3080 и RTX 3090 реализовано новое инновационное решение для воздушного охлаждения, которое предусматривает два независимых канала воздушного потока и наличие вентиляторов с обеих сторон карты.

Вентилятор на лицевой стороне размещён прямо над графическим процессором и проталкивает воздух через алюминиевые рёбра радиатора, которые выводят нагретый воздух через вентиляционные отверстия на задней скобе. Вентилятор на обратной стороне втягивает холодный воздух, направляет его через второй набор алюминиевых рёбер радиатора и выпускает его в область, где задний вытяжной вентилятор типичного игрового компьютера выбрасывает воздух из корпуса.

Обзор архитектуры GeForce Ampere

Печатная плата видеокарты достаточно короткая, и почти треть длины вентилятора составляет второй набор алюминиевых пластин радиатора. Такая конструкция системы охлаждения не нова: Sapphire Radeon RX Vega 56 Pulse использует аналогичную концепцию воздушного потока, хотя оба вентилятора находятся на лицевой стороне.
Оба набора алюминиевых рёбер СО Ampere FE снабжены четырьмя медными тепловыми трубками. Они сходятся на пластине испарительной камеры, которая служит основной точкой контакта почти для всех горячих компонентов на лицевой стороне печатной платы — GPU, памяти, VRM.

Обзор архитектуры GeForce Ampere

Вариант СО RTX 3090 является увеличенной версией этого кулера, за исключением того, что его задняя панель должна охлаждать дополнительный набор микросхем памяти, расположенных на обратной стороне печатной платы. Оба вентилятора имеют независимое управление скоростью, но Nvidia не подтвердила, обладают ли они возможностью остановки в режиме простоя.

Крыльчатки вентиляторов имеют перепонки по краям, как у вентиляторов Axial-Tech от ASUS. Эти вентиляторы направляют весь воздушный поток в осевом направлении, и ни один из них не выпускает воздух в боковом направлении. Идея состоит в том, чтобы позволить сужающимся ребрам в радиаторе направлять воздушный поток.

Судя по представленной на презентации информации, новые системы охлаждения видеокарт Founders Edition будут не только эффективнее предшественников, но и станут значительно тише.

Дизайн печатной платы

Обзор архитектуры GeForce Ampere

Для карты такого класса производительности печатная плата Nvidia Founders Edition для RTX 3080 и RTX 3090 шокирующе компактна. По размерам она напоминает флагманские карты AMD, использующие графические процессоры MCM с памятью HBM. Главное же отличие заключается в том, что в основе печатной платы лежит массивный GPU, окруженный микросхемами памяти GDDR6X, и чрезвычайно плотное решение VRM. Такая плотная компоновка является следствием того того, что Nvidia решила использовать конструкцию с перекрестным потоком воздуха, и ей пришлось разработать новое решение для VRM.

Обзор архитектуры GeForce Ampere

Массивный 20-фазный VRM располагается на обеих сторонах печатной платы. Дроссели и DrMOS находятся на лицевой стороне печатной платы, а большинство танталовых конденсаторов — на обратной стороне. Следующее большое нововведение — потребляемая мощность. RTX 3090 имеет заявленный TDP платы в 350 Вт и требует двух 8-контактных входов питания PCIe (150 Вт на вход), а также сильно зависит от мощности слота. Для любого запаса по разгону нам необходим третий 8-контактный разъем, а места на плате для него нет.

За решением этой проблемы Nvidia обратилась к Molex — экспертам в области дизайна разъёмов и слотов. И вот, вашему вниманию представляется 12-контактный разъем Molex MicroFit. Размером с один 8-контактный разъем PCIe, может быть ориентирован на печатной плате боком, чтобы занимать ту же площадь, что и 2-контактный вход блока питания постоянного тока, и имеет огромный запас мощности 300 Вт! Это возможно главным образом благодаря использованию провода более крупного сечения, а также улучшению контактов. Nvidia разрешает своим партнёрам использовать этот разъём, однако они должны поставлять со своими картами кабель-переходник с 2x 8-контактных разъёмов на 1х 12-контактный.

8K Gaming, Nvidia DLSS и HDMI 2.1

8K Gaming уже здесь! Это в четыре раза больше пикселей, чем у 4K, и в шестнадцать раз больше, чем у Full HD (1080p). И для некоторых игр нового поколения поддержка 8K уже заявлена. А RTX 3090 — это первая видеокарта, которая официально позиционируется как решение для 8K.
В то же время далеко не все игры будут хорошо выглядеть при увеличении разрешения до 8К — их ассеты просто не предназначены для такого, и вы неизбежно столкнётесь с «мыльным» изображением. Бороться с этой проблемой призвана технология Nvidia DLSS.

Расширение DLSS 8K отображает игру с более низким разрешением, например 1440p, а затем использует AI-суперсэмплинг для восстановления деталей. Это работает также, как и обычная реализация DLSS, когда игра отображается с более низким разрешением, а детали восстанавливаются с желаемым выходным разрешением.

При этом видеокарты поколения GeForce Ampere — это первые потребительские видеокарты с полной поддержкой стандарта HDMI 2.1.

Обзор архитектуры GeForce Ampere

Да, всего один кабель для 8K 60 Hz HDR. Будущее уже наступило.

RTX I/O

Накопитель — самый медленный аппаратный компонент компьютера. Твердотельные SATA-накопители помогли в некоторой степени улучшить ситуацию, особенно со временем доступа и вводом-выводом. Однако SATA SSD по-прежнему бесконечно медленнее, чем двухканальная память DDR4-4000, L3-кэш вашего процессора или даже память GDDR6X на 19 Гбит/с на картах GeForce Ampere.

Твердотельные накопители M.2 NVMe, которые используют PCIe в качестве интерфейса, оказали огромное влияние на хранение данных, ведь их пропускная способность увеличивается с каждым новым поколением PCIe. Твердотельные накопители M.2 NVMe предыдущего поколения на базе PCIe Gen 3 могут обеспечивать до 3,5 ГБ/с последовательного чтения данных, а SSD-накопители на базе PCIe Gen 4 будут обеспечивать скорость чтения до 7 ГБ/с.

Уже предпринимаются попытки сделать твердотельные накопители будущего быстрее, чем варианты с интерфейсом PCIe. При этом Intel работает над Optane Persistent Memory — твердотельным накопителем, который использует ввод-вывод DRAM и может напрямую взаимодействовать с контроллером памяти совместимого процессора, как это сделал бы модуль DRAM.

Любая операция с сохранёнными данными характеризуется высоким расходом системных ресурсов, ведь каждый запрос ввода-вывода в традиционной архитектуре ПК по-прежнему полагается на центральный процессор. Согласно тестам Nvidia, чтение несжатых данных с твердотельного накопителя со скоростью 7 ГБ/с — максимальная скорость последовательного чтения для твердотельных накопителей PCIe Gen 4 M.2 NVMe — требует полного использования двух ядер центрального процессора. ОС обычно распределяет эту рабочую нагрузку по всем доступным ядрам/потокам ЦП.
Ситуация резко меняется, когда сжатые данные, такие как игровые ресурсы, считываются в игровом сценарии с большим количеством запросов ввода-вывода. Современные игры AAA содержат сотни тысяч отдельных элементов, упакованных в сжатые файлы пакетов. Хотя на уровне ввода-вывода диска единицы и нули по-прежнему перемещаются со скоростью до 7 ГБ/с, поток распакованных данных на уровне ЦП может достигать 14 ГБ/с (сжатие в лучшем случае). Добавьте к этому расходы ресурсов системы на каждый запрос ввода-вывода — набор инструкций для ЦП по извлечению элементов из файла и доставке его в буфер вместе с инструкциями по распаковке или расшифровке.

Это может потребовать огромных мощностей ЦП при высоком уровне пропускной способности ввода-вывода, и для таких операций Nvidia определяет рекомендованное количество ядер ЦП в 24 штуки. Microsoft стремилась решить эту проблему, представив API DirectStorage, который позволяет графическому процессору извлекать сжатые данные непосредственно с запоминающего устройства, распаковывая и перенося их прямо в GPU. Именно на этом принципе и основывается Nvidia RTX IO.

Обзор архитектуры GeForce Ampere

Nvidia RTX IO — это внешний слой DirectStorage, который дополнительно оптимизирован для игр и архитектуры графических процессоров Nvidia. RTX IO обеспечивает декомпрессию данных без потерь. Они остаются сжатыми и сгруппированными при перемещении с диска в графический процессор с использованием DirectStorage. Nvidia утверждает, что это увеличивает производительность ввода-вывода в два раза, а также заявляет, что графические процессоры GeForce RTX способны разгружать «десятки» ядер ЦП благодаря большому количеству CUDA-ядер. Таким образом значительно превышается даже та скорость декомпрессии данных, которую могут обеспечить твердотельные накопители PCIe Gen 4.

Nvidia Reflex

Nvidia Reflex — это новая технология, разработанная для минимизации задержки ввода в соревновательных киберспортивных играх. Она запустится позже в этом месяце с патчами для популярных киберспортивных игр, таких как Fortnite, Apex Legends и Valorant, а также с обновлением драйвера GeForce. Reflex сможет уменьшить задержки системы даже без специального оборудования.

Системная задержка определяется как время, необходимое для того, чтобы пользовательский ввод (например, щелчок мыши) в игре отразился как вывод на экране. Или время, необходимое для того, чтобы щелчок мышью зарегистрировался как выстрел в онлайн-шутере и появился на экране. В Nvidia называют это «задержкой системы». Reflex будет поддерживаться видеокартами серии GeForce GTX 900 и новее.

Nvidia кратко рассказала о том, как работает Reflex. Драйвер Nvidia взаимодействует с совместимым игровым движком для оптимизации конвейера 3D-рендеринга игры. Это достигается за счет динамического уменьшения очереди рендеринга, поэтому меньшее количество кадров ставится в очередь для рендеринга графическим процессором. В Nvidia утверждает, что Reflex также может поддерживать полную синхронизацию графического процессора с процессором (очередь рендеринга 1: 1), уменьшая нагрузку на графический процессор и позволяя игре использовать образец ввода мыши в последний возможный момент.

Nvidia будет выпускать Reflex для геймеров в виде обновлений драйверов GeForce, а для разработчиков игр — в виде Reflex SDK.

Мониторы G-SYNC eSports 360

Nvidia разработала новый стандарт игровых мониторов G-SYNC eSports 360 совместно с такими компаниями, как Acer, Alienware, ASUS, MSI и gigabyte. Уже из названия нового стандарта понятно, что его главной особенностью является максимальная частота обновления 360 Гц, дополненная технологией Nvidia G-SYNC. При этом частота обновления 360 Гц достигается с панелями IPS, а не TN-film. Такие мониторы имеют расширение Reflex, называемое Reflex Latency Analyzer.

Обзор архитектуры GeForce Ampere

В игровых дисплеях G-SYNC 360 Hz IPS установлен специальный 2-портовый USB-концентратор, встроенный в дисплей. Он подключается к компьютеру с помощью комплектного USB-кабеля. В один из двух доступных портов необходимо подключить мышь. Сертифицированная Nvidia мышь (уже заявлены модели от ASUS, Razer или Logitech) будет предлагать дополнительные функции.

Подключив мышь, необходимо запустить утилиту Reflex Latency Analyzer из настроек экранного меню монитора, а затем — нужную игру, с включённым переключателем Reflex Metrics. Каждый щелчок мыши регистрируется в USB-концентраторе монитора, который затем измеряет время, необходимое для появления на экране «выходных» пикселей вспышки оружия. Таким образом, вы получаете чрезвычайно точные измерения не только задержки ввода, но и задержки всей системы. Что-то вроде этого требовало высокоскоростных камер и ручной математики для вычислений в прошлом. Задержки ввода вместе с данными о сквозных задержках можно будет просмотреть на экране «Показатели производительности» в GeForce Experience при запуске в совместимой игры.

Omniverse Machinima — Ampere для создателей контента

Обзор архитектуры GeForce Ampere

Omniverse Machinima — наверное, самый впечатляющий программный анонс презентации Nvidia наряду с GeForce Ampere. Несколько лет назад Ansel представил средство, позволяющее людям останавливать игру и фотографировать игровой контент, включая изменение сцены с помощью настраиваемого освещения и фильтров. Omiverse Machinima — это, по сути, Ansel для создания 3D-анимации. Приложение позволяет использовать игровые ресурсы совместимой игры для создания полноценных фильмов. Возможности безграничны. Может быть, фанат DOOM Eternal наконец-то сможет делать ролики из легенд Кодекса, используя игровые ресурсы.

Обзор архитектуры GeForce Ampere
Обзор архитектуры GeForce Ampere

В Nvidia считают, что Omniverse Machinima — это первый шаг к демократизации создания 3D-анимационных фильмов. Также, как в своё время YouTube демократизировал создание видео-контента.

Глобальное освещение с трассировкой лучей в реальном времени

Обзор архитектуры GeForce Ampere

На протяжении многих лет Nvidia предоставляет разработчикам игр свои SDK для упрощения работы над типовыми задачами. Освещение, сглаживание, рендеринг волос и симуляция жидкостей — всё это Nvidia GameWorks.

Теперь же Nvidia предлагает комплексное решение для глобального освещения — RTX GI. Оно выполняет физически правильную симуляцию источников света и лишено многих недостатков традиционных методов расчёта освещения, хотя и гораздо более требовательно к оборудованию.

Хотя очевидно, что RTXGI будет лучше всего работать на видеокартах Ampere, Nvidia позаботилась о том, чтобы технология также работала на более старых архитектурах — даже на Pascal. Интересно и то, что нет причин, по которым данная технология не могла бы работать на видеокартах от AMD. Прелесть в том, что разработчики могут легко настроить количество выборок на кадр, чтобы точно настроить качество изображения в соответствии с доступными аппаратными мощностями.

Nvidia также указала, что RTXGI работает асинхронно с циклом рендеринга. Это означает, что вы можете настроить его скорость моделирования не для каждого отдельного кадра, а только с фиксированными интервалами времени, что дополнительно повышает производительность.

Презентация Nvidia GeForce Ampere для многих стала большим сюрпризом. Предварительные утечки, в том числе от партнёров компании, определенные подсчеты ядер CUDA и TFLOPs, навели на мнение, что Ampere может быть постепенным обновлением с Turing, как в своё время Pascal для Maxwell. Забавно, но были неправы все.

Ampere — это больше, чем просто рост производительности между поколениями. Улучшения в RT-ядрах — теперь во втором поколении — вводят новый стандарт оптимизации производительности при трассировки лучей, в то время как ядро тензорные ядра 3-го поколения используют разреженность для повышения производительности вывода ИИ, что должно повлиять на эффективность RTX и DLSS. Новая память GDDR6X впервые сокращает разрыв между стандартами GDDR и HBM без безумного увеличения ширины шины. PCI-Express Gen 4 может пригодиться энтузиастам, тестирующим RTX 3090 SLI, поскольку каждая карта будет иметь пропускную способность ввода-вывода, эквивалентную Gen 3 x16.

Я с нетерпением жду первых обзоров производительности новинок, но уже сейчас понятно, что у Nvidia получилось. И видеокарту для апгрейда своей домашней пекарни я, скорее всего, уже выбрал.

6767
50 комментариев

А теперь идем в steam, и смотрим на конфигурацию пользователей.
Затем понимаем, что фишки типа Direct Storage станут стандартом лет чере 5-7, когда начнут выпускать игры, в которых нужно будет быстро стримить такие объемы данных.
У людей нет 4k, не говоря о 8к.
Вся "революция" заключается лишь в стоимости новинок.
Про смену всей платформы, чтобы получить преимущества новых видеокарт, я просто молчу.
Сейчас нет ни разнообразия материнских плат, ни новых процессоров, ни этих самых PCI gen4 накопителей. 
Рынок еще будет штормить новостями типа "а теперь мы выпустили новый SSD, который будет полностью совместим с фичей X " :-)
Все, что показали на презентации - возможное будущее.
Возможное, а не 100%.

6
Ответить

Direct Storage появится на ПК в 2021 году. И он работает с любыми накопителями, как и RTX I/O.
PCIe 4.0 SSD давно есть на рынке. Сейчас появляются лишь более быстрые и доступные модели.
Многие функции, представленные зелёными, работают и на Тюринге.
У людей дохрена 4К. Но основная часть геймеров будет использовать флагманы для игры в 1440р с высокой частотой обновления - как любой адекватный человек.

Степан, лезь обратно в канаву.

20
Ответить

У тебя какие-то проблемы с причинно-следственными связями. Как процент игроков, владеющих данными технологиями, увеличится, если они не будут представлены на рынке? Как увеличится процент устройств, поддерживающих данные фичи, если эти фичи не будут представлены на рынке?

6
Ответить

Чего тебя так рвет последние дни насчет видях? В каждом треде по RTX 30 твои сообщения, что это все хуйня ненужная и никто не будет пользоваться. Душевная травма какая-то или что? 

1
Ответить

Комментарий недоступен

7
Ответить
3
Ответить

Мы по-прежнему имеем четыре warp scheduler’а, которые распределяют рабочие нагрузки для компонентов SIMD, но теперь каждый субблок имеет 32 ядра FP32 CUDA. Из них 16 могут выполнять одновременно математические операции FP32 + INT32Интересный вопрос. Мы теперь на каждый SM имеем 64 FP32 и еще 64 FP32, которые занимаются при потребности int-овыми операциями с помощью приведения float в int? Или на место FP64 запилили дополнительные FP32 и теперь мы имеем 64 FP32 и 64 FP32 + 64 INT32? Нужно фото чипа под микроскопом или разъяснения от кого-нибудь из стана Зеленых. Надеюсь что-то из этого, а лучше все сразу, скоро появится. 
В то же время RT-ядра предлагают полностью аппаратный стек обхода BVH, специализированный исполнительный модуль MIMD и, по сути, более низкую задержку от аппаратного стекаИнтересно, какой все таки конкретный тип MIMD там используется? Что по пулу памяти? Общий/раздельный? Находятся ли вообще хоть какие-то регистры/кэши в самих RT-блоках или у них выделен свой виртуальный/статически закрепленный набор адресов в L1? Чисто практически логично было бы иметь хоть какую-то память внутри RT-блоков (они довольно крупные все таки) причем индивидуальную для каждого исполнительного процессора. Но что тогда по контроллеру/сопроцессору, который всем этим распределенным добром управляет? Вопросы, вопросы без ответов. Из базовых знаний архитекуры микроконтроллеров конечно представление +- лапоть вырисовывается, но всегда можно что-то упустить, а реальные подробности архитектуры RT-блоков мы узнаем еще сильно не скоро. 

2
Ответить