GeForce RTX 3090, архитектура Ampere и новые технологии NVIDIA. Общий обзор второго поколения GeForce RTX

Настало время подвести итоги недавней презентации NVIDIA и собрать воедино всю озвученную информацию. После долгих слухов и домыслов графический гигант наконец-то анонсировал второе поколение GeForce RTX. Новая архитектура, новые программные возможности и новый уровень производительности. Обо всем этом мы поговорим в данном обзоре.

NVIDIA Ampere

Видеокарты GeForce RTX 3000 должны стать серьезным скачком для индустрии, делая RTX-технологии доступнее. Ключевыми преимуществами последнего поколения являются: реализация новой архитектуры Ampere с обновленными RT-ядрами и тензорными ядрами, переход на 8-нм техпроцесс и применение самой быстрой в мире памяти GDDR6X. Также компания продолжает развивать программные технологии, представляя новые инициативы в рамках NVIDIA Reflex, NVIDIA Omniverse Machinima и NVIDIA RTX IO, о которых подробнее поговорим ниже.

NVIDIA Ampere

Ampere серьезно превосходит Turing в производительности на ватт, вплоть до 1,9 раз в играх и до 2 раз в профессиональных приложениях для рендеринга.

NVIDIA AmpereNVIDIA Ampere

Пока нам представлено три видеокарты — GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070. И все они должны превзойти по производительности GeForce RTX 2080 Ti, даже младшая из названных моделей. А для GeForce RTX 3080 заявлено двукратное превосходство над GeForce RTX 2080.

NVIDIA Ampere

Сложно припомнить ситуацию, когда сразу несколько новых моделей могли потеснить существующий флагман. А GeForce RTX 3090 и вовсе выглядит «монстром» со своими характеристиками — 10496 потоковых процессоров CUDA и 24 ГБ памяти на 384-битной шине.

NVIDIA Ampere

Даже GeForce RTX 3080 впечатляет своими основными параметрами, поскольку в активе этой видеокарты 8704 потоковых процессоров CUDA, что вдвое больше количества аналогичных блоков у GeForce RTX 2080 Ti.

NVIDIA Ampere

Но прежде чем сравнивать характеристики нужно поговорить об архитектуре.

Архитектура Ampere и особенности новых GPU

Компания NVIDIA пока не раскрыла всю информацию о технических нюансах Ampere, но основные моменты нам уже известны. Первым продуктом на новой архитектуре стал представленный в мае ускоритель вычислений NVIDIA A100.

NVIDIA Ampere

NVIDIA A100

Это специализированное устройство для высокопроизводительных систем. В основе его находится графический процессор A100 с 8192 ядрами CUDA, но рабочие версии GPU оперируют 6912 потоковыми ядрами. Специально для игрового направления разработанный GPU GA102 стал основной для GeForce RTX 3090 и GeForce RTX 3080. GPU A100 насчитывал 128 мультипроцессорных блоков SM по 64 вычислительных ядра и 4 обновленных тензорных ядра в каждом.

NVIDIA Ampere

На более крупном уровне все SM объединены в кластеры GPC. У A100 это 8 кластеров по 16 SM в каждом. У процессора TU102 (GeForce RTX 2080 Ti и Titan RTX) это 6 GPC по 12 SM, у TU104 (GeForce RTX 2080) это 6 GPC по 8 SM. И во всех случаях SM оперирует 64 ядрами для графических вычислений FP32. Полная схема процессора GA102 пока недоступна, хотя NVIDIA использует определенную иллюстрацию, на которой можно четко выделить 7 кластеров.

NVIDIA Ampere

Ключевым изменением игровых GPU Ampere стало удвоение вычислительных блоков FP32 — по 128 на SM, плюс 64 блока INT32. При этом новый SM сохранил основную структуру старых SM. Это четыре массива обработки данных со своими диспетчерами и планировщиками задач, 4 блока выборки текстур и блок RT для ускорения трассировки лучей. В данном случае реализованы новые RT-ядра второго поколения с повышенной производительностью. Задействовано 4 тензорных ядра по типу NVIDIA A100. У Turing было по 8 тензорных ядер на в SM. Но тензорные ядра Ampere 3-го поколения обещают намного большую производительность.

Сравнить структуру SM к NVIDIA 100, GeForce RTX 3090 и GeForce RTX 2080 Ti можно по нижнему слайду.

NVIDIA Ampere

Увеличение производительности SM важно для выполнения современных алгоритмов, часто сочетающих операции разного типа. Новый SM выполняет за такт 128 операций FP32 или 64 FP32 + 64 INT32. Изменена структура кэша, чтобы обеспечить удвоение пропускной способности кэш-памяти L1: 128 байт/такт в Ampere против 64 байтов/такт в Turing. Общая пропускная способность L1 для GeForce RTX 3080 составляет 219 ГБ/с против 116 ГБ/с у GeForce RTX 2080 Super.

Опираясь на известные данные о 10496 потоковых процессорах FP32, мы получаем 82 активных SM. Отсюда можно вычислить количество других блоков — 328 текстурных блока, 328 тензорных ядра и 82 ядра RT. При 7 кластерах общее количество вычислительных блоков должно быть выше, и мы имеет типичную ситуацию, когда в топовом GPU часть SM отключена. Судя по приведенной выше иллюстрации тут 12 SM на кластер, что дает 84 SM и 10752 потоковых процессора. Нельзя исключать, что по мере совершенствования техпроцесса в будущем мы увидим новый Titan на полноценном процессоре GA102.

Если провести аналогичный анализ для GeForce RTX 3070 и GA104 с 5888 потоковыми процессорами, то получим 46 SM, что намекает на конфигурацию из 48 SM (4 GPC x 12 SM) при 6144 потоковых процессорах. Это неплохо согласуется со слухами о наличии некоей видеокарты GeForce RTX 3070 Ti.

Старшие видеокарты оснащены новой памятью GDDR6X, разработанной Micron для NVIDIA. У GeForce RTX 3090 эффективная частота обмена данных модулей GDDR6X соответствует 19500 МГц. При этом видеокарта оснащена 24 ГБ видеобуфера на 384-битной шине. В GeForce RTX 3080 последняя урезана до 320 бит, а объем видеобуфера GDDR6X уменьшен до 10 ГБ при частоте 19000 МГц. Младшая видеокарта GeForce RTX 3070 работает с 8 ГБ памяти GDDR6 на 256-битной шине.

Характеристики видеокарт GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070

Видеоадаптер GeForce RTX 3090 GeForce RTX 3080 GeForce RTX 3070 GeForce RTX 2080 Ti GeForce RTX 2080 Super GeForce RTX 2080
Ядро GA102 GA102 GA104 TU102 TU104 TU104
Количество транзисторов, млн. шт 28000 28000 17000 18600 13600 13600
Техпроцесс, нм 8 8 8 12 12 12
Площадь ядра, кв. мм 627 627 450 754 545 545
Количество потоковых процессоров CUDA 10496 8704 5888 4352 3072 2944
Количество тензорных ядер 328 272 184 544 384 368
Количество ядер RT 82 68 46 68 46 46
Количество текстурных блоков 328 272 184 272 192 184
Количество блоков рендеринга 96 88 64 88 64 64
Базовая частота ядра, МГц 1395 1440 1500 1350 1650 1515
Частота Boost, МГц 1695 1710 1725 1545 1815 1710
Шина памяти, бит 384 320 256 352 256 256
Тип памяти GDDR6X GDDR6X GDDR6 GDDR6 GDDR6 GDDR6
Частота памяти, МГц 19500 19000 16000 14000 15500 14000
Объём памяти, ГБ 24 10 8 11 8 8
Поддерживаемая версия DirectX 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2)
Интерфейс PCI-E 4.0 PCI-E 4.0 PCI-E 4.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0
Мощность, Вт 350 320 220 250 250 225
Дата выхода 17 сентября 2020 24 сентября 2020 ? 27 сентября 2018 23 июля 2019 20 сентября 2018
Цена MSRP $1499 $699 $499 $999 $699 $799

И немного красивых цифр, характеризующих производительность. При прямом сравнении GeForce RTX 3080 с видеоадаптером-предшественником GeForce RTX 2080 Super имеем увеличение производительности шейдерных блоков в 2,7 раз, рост операций по расчету трассировки в 1,7 раз, а тензорная производительность выше в 2,7 раз.

NVIDIA Ampere

Для наглядности можно привести еще одну таблицу с примерной пиковой производительностью новых и старых GeForce RTX.

Видеоадаптер GeForce RTX 3090 GeForce RTX 3080 GeForce RTX 3070 GeForce RTX 2080 Ti GeForce RTX 2080 Super
FP32 TFLOPS 36 30 20 13,5 11
RT-TFLOPS 69 58 40 42 34
Tensor RT-TFLOPS 285 238 163 108 89

Дополнительно отметим, что ранее NVIDIA говорила о неких операциях RTX-OPS, а теперь оперирует немного иными данными производительности трассировки RT-TFLOPS. Поэтому цифры в новых слайдах отличаются от тех, что указывались ранее.

Все GPU Ampere производятся на заводах Samsung по специальному 8-нм техпроцессу, разработанному совместно с NVIDIA. Примечательно, что процессоры A100 выпускаются на TSMC 7-нм. При всех оптимизациях GA102 разросся до 28 млрд. транзисторов вместо 18,6 млрд. у TU102. И хотя площадь нового процессора меньше, его тепловыделение и энергопотребление серьезно возросло. Для GeForce RTX 3090 заявлен TGP (Total Graphics Power) на уровне 350 Вт, для GeForce RTX 3080 это 320 Вт, а GeForce RTX 3070 ограничится значением в 220 Вт.

Это новый вызов для проектировщиков систем охлаждения. И хотя большинство партнеров пошло традиционным путем, создавая «бутерброды» с толстым радиатором и вентиляторами над ним, сама NVIDIA представила оригинальные референсные решения с необычным кулером. Охлаждение старших видеоадаптеров использует конструкцию с крупными вентиляторами на лицевой и задней стороне. Все остальное пространство занимает радиатор с разнонаправленными ребрами, в отводе тепла от GPU задействовано несколько тепловых трубок.

NVIDIA AmpereNVIDIA Ampere

Двухстороннее расположение вентиляторов не только улучшает продуваемость радиатора, но и правильно организует воздушные потоки внутри корпуса.

NVIDIA Ampere

Наглядно конструкция охлаждения продемонстрирована в видеоролике:

Кулер референсной GeForce RTX 3090 занимает три слота расширения, остальные карты ограничены двухслотовым форматом. GeForce RTX 3070 меньше в размерах и предполагает одностороннее расположение вентиляторов.

NVIDIA Ampere

NVIDIA реализовала новый компактный разъем питания на 12 контактов. В нереференсных продуктах распаяно два разъема по 8 контактов, что позволяет подключать видеокарты стандартными кабелями.

Если говорить о старших видеокартах от партнеров NVIDIA, то это зачастую трехслотовые варианты с тремя вентиляторами. В качестве примера можно взглянуть на ASUS TUF Gaming RTX 3090.

NVIDIA Ampere

Все референсные видеокарты оснащены портом HDMI 2.1 и тремя разъемами DisplayPort 1.4a. Ampere получит новый блок обработки видео NVENC 7, на что намекает заявленная поддержка режима 8K для аппаратного захвата видео через ShadowPlay. То есть новые видеокарты могут не только выводить картинку в 8K, но и позволяют записывать игровой процесс в 8K HDR с аппаратным кодированием на GPU.

NVIDIA Ampere

Новые технологии NVIDIA

Говоря о 8K мы плавно подходим к технологическим инновациям NVIDIA. Компания ищет новые сферы практического применения систем искусственного интеллекта на базе глубокого обучения нейросетей. Эти технологии уже реализованы для шумоподавления при рендеринге с трассировкой лучей и для режима DLSS. Перспективными направлениями являются захват движений для создания анимации, преобразование 2D в 3D, симуляции физических эффектов.

NVIDIA Ampere

NVIDIA DLSS 2.1

Еще недавно разрешение 8K (7680 × 4320) казалось фантастикой, но на презентации GeForce RTX 30 нам показали, что это реальность, продемонстрировав Wolfenstein: Youngblood с RTX-эффектами в таком формате.

Демонстрация проводилась на GeForce RTX 3090, но итоговый результат все равно впечатляет. Секрет успеха не только в вычислительной мощи нового флагмана, но и в применении DLSS 2.1. Это усовершенствованная технология Deep Learning Super Sampling — интеллектуальное масштабирование на основе технологии ИИ, которое выдает картинку высокого разрешения из меньшего количества входных данных. Ранее мы уже отмечали, насколько хорошо работает DLSS 4K в играх Control и Death Stranding.

Теперь технология стала еще лучше и позволяет работать с разрешением 8K. Добавлена функция динамического разрешения и поддержка VR. Игры для виртуальной реальности получат серьезное ускорение, это важный шаг для популяризации VR.

NVIDIA Broadcast

Стриминг набирает популярность. Растет аудитория Twitch и количество активных стримеров. Видеокарты NVIDIA уже обладают преимуществами благодаря аппаратному блоку кодирования видео. Но теперь представлена вспомогательная программа NVIDIA Broadcast.

NVIDIA Ampere

Это приложение содержит три инструмента на базе ИИ:

  • Устранение шумов с помощью интеллектуального шумоподавления RTX Voice.
  • Удаление и наложение любого фона при трансляциях.
  • Автоматическое кадрирование с автоматическим наведением и фокусировкой камеры при отклонении головы.

NVIDIA Omniverse Machinima

Компания обращает свой взор в сторону тех, кто создает видеоистории на базе игровых движков. Речь идет о так называемой «Машиниме». Приятным дополнением для виртуальных режиссеров станет инструментарий NVIDIA Omniverse Machinima.

NVIDIA Ampere

Это приложение позволит микшировать разные объекты и эффекты, импортируя свои ассеты в игровую сцену, добавляя физические эффекты огня и дыма на базе PhysX, плюс захват движений для создания анимации поз с помощью ИИ и создание лицевой анимации с липсинком через NVIDIA Audio2Face. В сцене можно будет применить RTX-рендеринг с трассировкой лучей.

Оценить потенциальные возможности позволяет постановочный ролик с масштабной батальной сценой, созданной на базе игры Mount & Blade II: Bannerlord с использованием дополнительных 3D-объектов и RTX-рендерингом.

Зарегистрироваться на бета-тестирование можно тут.

NVIDIA Reflex

Еще одним важным начинанием является технология NVIDIA Reflex, которая призвана снизить игровые задержки для лучшей реакции на действия игрока. В основном это связано с чистой производительностью, и повышение частоты кадров увеличивает реакцию. Но есть системные задержки в доли секунды, которые связаны с аппаратными особенностями обработки данных.

NVIDIA Ampere

Специалисты и ученые NVIDIA серьезно проанализировали этот вопрос и определили важность уменьшения системной задержки от момента клика мыши до ответной реакции на экране в быстрых соревновательных играх. Доли секунды могут сыграть важную роль в прицеливании фиксации попаданий. Снизить латентность поможет технология NVIDIA Reflex. Она задействует программные оптимизации графического конвейера для минимизации задержек на разных этапах. Технология ориентирована на игры с простой графикой, где вы получаете высокий fps в сотни кадров.

NVIDIA Ampere

Для работы данной технологии разработчикам потребуется интеграция Reflex SDK. Пользователю нужно включать специальный режим Low Latency Mode в меню NVIDIA Control Center — «Управление параметрами 3D». Также потребуется задействовать профиль максимальной производительности в параметре Power Management Mode (Режим управления электропитанием). Это избавит от скачков Boost.

NVIDIA Ampere

В будущем появится простой способ активации через меню GeForce Experience.

Согласно измерениям специалистов NVIDIA технология NVIDIA Reflex способна снизить системные задержки примерно на треть.

NVIDIA Ampere

Для измерения системных задержек появится специальный модуль в мониторах G-Sync 360 Гц, что позволит в реальном времени отображать параметр латентности.

Игровые мониторы G-Sync 360 Гц

NVIDIA анонсировала первые мониторы с поддержкой частоты 360 Гц еще в начале года, но только сейчас они начнут поставляться на рынок. Это самые быстрые мониторы в мире на скоростной IPS-матрице с обновленным модулем G-Sync. Поддерживают переменную частоту обновления в диапазоне 1–360 Гц, имеют специальный режим G-Sync Esports для киберспортивных игр, поддерживают режим ULMB (Ultra Low Motion Blur) с частотой 240 Гц. Есть встроенный анализатор NVIDIA Reflex.

Acer, Alienware, ASUS и MSI представят игровые мониторы с G-Sync 360 Гц этой осенью.

NVIDIA RTX IO

Игровые миры становятся все больше, поднимая проблему быстрой загрузки данных. Несмотря на рост производительности твердотельных накопителей NVMe, есть ограничения существующей архитектуры ввода-вывода данных. Ускорит процесс загрузки новая архитектура NVIDIA RTX IO. Это совокупность технологий для прямого считывания и декомпрессии игровых ресурсов силами GPU. Технология работает совместно с новым Windows API DirectStorage, обеспечивая ускорение процесса ввода-вывода до 100 раз.

NVIDIA AmpereNVIDIA Ampere

NVIDIA RTX IO ускорит загрузку детализированных текстур, уменьшая задержки и вероятность лагов при быстром передвижении по крупным виртуальным мирам.

Это технология будущего. Microsoft планирует запустить раннюю версию DirectStorage Windows для разработчиков в следующем году, а массовое внедрение в игровые проекты начнется позже.

Игры с RTX

Главное, что игрокам нужно от новых видеокарт GeForce RTX — это красивая графика с эффектами на базе трассировки лучей. И этой осенью мы увидим несколько крупных проектов с поддержкой трассировки RTX. Это такие AAA-игры, как Cyberpunk 2077 и Watch Dogs: Legion. В этих играх будут улучшенные отражения, реалистичные тени и фоновое затенение на базе трассировки.

Подтверждена поддержка RTX в шутере Call of Duty: Black Ops Cold War, но какие именно эффекты реализованы в игре — не озвучено.

Также можно вспомнить недавнее обновление Minecraft. С RTX кубические миры заиграли новым красками.

Выводы

На данный момент сохраняется эмбарго на полноценные тесты и обзоры с конкретными цифрами. Эта информация появится позже. Но по предварительным данным уже можно констатировать качественный скачок производительности в новом поколении GeForce RTX. Благодаря архитектуре Ampere представленные видеокарты способны сделать трассировку более доступной для широкого круга игроков. Пока готовится к выходу первое поколение консолей, замахнувшееся на 4K и эффекты с трассировкой лучей, NVIDIA уже выводит на рынок графические решения с улучшенной поддержкой трассировки. Вы сможете играть в Cyberpunk 2077 и другие новые игры с наилучшей графикой. А GeForce RTX 3090 позволяет уже смотреть в сторону 8K-мониторов, обладая мощным GPU, большим объемом памяти в 24 ГБ и поддержкой обновленной технологии DLSS. По всем своим характеристикам GeForce RTX 3090 поражает воображение. К сожалению, это касается и стоимости в полторы тысячи долларов. Но это премиальный продукт для премиального гейминга. И у GeForce RTX 3090 еще долго не будет аналогов. GeForce RTX 3080 станет более массовым продуктом, демонстрируя хорошее преимущество над GeForce RTX 2080 Ti при цене уровня GeForce RTX 2080 Super. GeForce RTX 3070 станет лучшим выбором для тех, кто не гонится за высокими разрешениями, но хочет максимальную производительность в RTX-режиме в сочетании с умеренным энергопотреблением.

Стоит отметить постоянно растущую функциональность программных возможностей NVIDIA GeForce. Улучшается DLSS и планируется расширить применение технологий ИИ в играх. Анонсированы приложения для более комфортного стриминга и создания машиним. Разрабатывается передовая архитектура ввода-вывода данных с накопителей информации. Появляются аппаратно-программные улучшения для киберспорта. GeForce RTX — не просто ускоритель для обработки игровой графики, это полноценная игровая платформа с множеством дополнительных функций.