Компания NVIDIA сумела всех нас впечатлить анонсом новой серии видеокарт GeForce RTX, одновременно представив две топовые модели с выдающейся производительностью. Основные особенности архитектуры были рассмотрены нами в отдельном обзоре. Теперь настало время для знакомства с живым экземпляром GeForce RTX 3080. В наши руки сразу попала нереференсная модель линейки MSI Gaming X Trio. Изучим ее конструктивные особенности и сравним производительность с GeForce RTX 2080 Ti в разрешении 4K.

Архитектура Ampere

Архитектура Ampere

Вначале еще раз вернемся к архитектуре и отметим ключевые особенности нового графического процессора. Старшие игровые видеокарты GeForce RTX 3080 и GeForce RTX 3090 базируются на процессоре GA102. Он состоит из 7 кластеров по 12 мультипроцессоров SM в каждом.

Архитектура Ampere

Полноценный GA102 насчитывает 84 SM по 128 вычислительных ядра CUDA в каждом. Но полная конфигурация с 10752 потоковыми ядрами пока не задействована, и это привычная ситуация для игровых видеокарт. GeForce RTX 3090 использует 82 SM с 10496 потоковыми процессорами, а GeForce RTX 3080 задействует 68 SM с 8704 потоковыми процессорами.

Архитектура Ampere

Изменилась структура SM. Удвоено количество вычислительных ядер, половина из которых наряду с FP32 может работать с операциями INT32. В итоге один массив SM выполняет за такт 128 операций FP32 или 64 FP32 + 64 INT32. Изменилась структура кэш-памяти и ее пропускная способность. Ampere использует тензорные ядра третьего поколения для ускорения операций глубокого обучения, они поддерживают новые форматы вычислений для повышенной производительности и гибкости программирования. RT-ядра второго поколения ускоряют операции при просчете трассировки лучей, заявлено о двукратном росте быстродействия относительно первого поколения.

Один SM оперирует 4 тензорными ядрами и одним RT-ядром. В активе GeForce RTX 3090 328 тензорных ядер и 82 ядра RT, а у GeForce RTX 3080 это 272 и 68 ядра. Не сильно впечатляет на фоне 544 тензорных ядра и 68 RT-core у GeForce RTX 2080 Ti. Но благодаря более быстрым блокам общий вычислительный потенциал у новых видеокарт серьезно вырос. GeForce RTX 3080 обеспечивает до 238 TFLOPS в тензорных операциях вместо 108 TFLOPS у GeForce RTX 2080 Ti. Если сравнивать с прямым предшественником GeForce RTX 2080 Super, то разрыв колоссальный: пиковая производительность шейдерных блоков FP32 выросла в 3 раза, производительность RT-ядер выше в 1,7 раз, а тензорные блоки работают в 2,7 раз быстрее.

Архитектура Ampere

Архитектура Ampere

Среди новых возможностей заявлено ускорение Motion Blur в режиме с трассировкой лучей. Речь идет об эффекте размытия для движущейся геометрии, что усложняет просчет трассировки. Новые блоки RT смогут ускорить данный процесс на аппаратном уровне.

Архитектура Ampere

Тензорные ядра получили улучшения, которые реализованы в ускорителе вычислений NVIDIA A100. Они научились работать с новым типом данных TF32 и BF16. Поддерживается быстрый алгоритм работы с матричными данными во время обучения нейронной сети Fine-Grained Structured Sparsity.

Оптимизирована структура ROP. Они больше не привязаны к контроллерам памяти, а стали частью кластера GPC. Процессор GA102 насчитывает 112 ROP, у GeForce RTX 3090 активно 96 блоков, у GeForce RTX 3080 задействовано 88 блоков. Старший ускоритель обменивается данными по 384-битной шине, а GeForce RTX 3080 по 320-битной шине.

Специально для новых видеокарт NVIDIA и Micron Technology разработали новый тип графической памяти GDDR6X. В этой памяти реализован новый 4-уровненый метод амплитудно-импульсной модуляции, позволяющий удвоить ее пропускную способность. У GDDR6 передается два бита за цикл — по переднему и заднему фронту синхроимпульса. У GDDR6X передается два бита на фронт через кодирование разным уровнем напряжения, что дает в итоге четыре бита за такт.

Архитектура Ampere

Поддерживается механизм коррекции ошибок памяти, что ранее было доступно только в профессиональных ускорителях NVIDIA.

Полные характеристики новых видеокарт с сравнении со старыми моделями представлены в таблице.

Видеоадаптер GeForce RTX 3090 GeForce RTX 3080 GeForce RTX 3070 GeForce RTX 2080 Ti GeForce RTX 2080 Super GeForce RTX 2080
Ядро GA102 GA102 GA104 TU102 TU104 TU104
Количество транзисторов, млн. шт 28000 28000 17000 18600 13600 13600
Техпроцесс, нм 8 8 8 12 12 12
Площадь ядра, кв. мм 627 627 450 754 545 545
Количество потоковых процессоров CUDA 10496 8704 5888 4352 3072 2944
Количество тензорных ядер 328 272 184 544 384 368
Количество ядер RT 82 68 46 68 46 46
Количество текстурных блоков 328 272 184 272 192 184
Количество блоков рендеринга 112 96 88 88 64 64
Базовая частота ядра, МГц 1395 1440 1500 1350 1650 1515
Частота Boost, МГц 1695 1710 1725 1545 1815 1710
Шина памяти, бит 384 320 256 352 256 256
Тип памяти GDDR6X GDDR6X GDDR6 GDDR6 GDDR6 GDDR6
Частота памяти, МГц 19500 19000 16000 14000 15500 14000
Объём памяти, ГБ 24 10 8 11 8 8
Поддерживаемая версия DirectX 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2)
Интерфейс PCI-E 4.0 PCI-E 4.0 PCI-E 4.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0
Мощность, Вт 350 320 220 250 250 225
Дата выхода 24 сентября 2020 17 сентября 2020 ? 27 сентября 2018 23 июля 2019 20 сентября 2018
Цена MSRP $1499 $699 $499 $999 $699 $799

Процессоры Ampere изготавливаются по 8-нм техпроцессу Samsung, разработанного специально для новых GPU. Но значительно выросший транзисторный бюджет не позволил удержать энергопотребление и тепловыделение новых продуктов в привычных рамках 250 Вт. Аппетиты GeForce RTX 3090 обозначены на уровне 350 Вт, у GeForce RTX 3080 это 320 Вт.

Из-за этого выросли требования к системе охлаждения. Поэтому новое поколение «радует» нас трехслотовыми видеокартами, которые ранее были редкостью. Сама NVIDIA подошла весьма изобретательно к конструкции референсных продуктов серии Founders Edition. Они получили специфический кулер с двухсторонним расположением вентиляторов и плату с V-образным вырезом.

Архитектура AmpereАрхитектура AmpereАрхитектура Ampere

Среди особенностей новой серии нужно отметить наличие нового аппаратного декодера видео. Это NVDEC пятого поколения, который на аппаратном уровне обеспечивает ускорение декодирования видео MPEG-2, VC-1, H.264 (AVCHD), H.265 (HEVC), VP8, VP9 и AV1 с разрешением до 8K. Блок аппаратного кодирования NVENC седьмого поколения обеспечивает кодирование видео на лету не только в 4K, но и в 8K. То есть у нас будет возможность записывать игровой процесс в 8K и даже вести трансляции в таком формате.

Архитектура Ampere

Для вывода изображения предусмотрены порты DisplayPort 1.4a и HDMI 2.1. Эти интерфейсы поддерживают до 8K при 60 Гц или 4K при 240 Гц, включая режим HDR.

NVIDIA расширяет программные возможности своих продуктов. Представлена новая технология передачи данных напрямую в видеокарту NVIDIA RTX IO, специальный режим уменьшения системных задержек NVIDIA Reflex, улучшенный режим DLSS 2.1 и другое. Обо всем этом мы подробно писали в первом обзоре Ampere.

Завершить вступление хотелось бы демонстрацией графики в новых RTX-бенчмарках Bright Memory Infinite и Boundary. Это игры ближайшего будущего, которые по максимуму используют возможности трассировки лучей RTX.