Компания NVIDIA сумела всех нас впечатлить анонсом новой серии видеокарт GeForce RTX, одновременно представив две топовые модели с выдающейся производительностью. Основные особенности архитектуры были рассмотрены нами в отдельном обзоре. Теперь настало время для знакомства с живым экземпляром GeForce RTX 3080. В наши руки сразу попала нереференсная модель линейки MSI Gaming X Trio. Изучим ее конструктивные особенности и сравним производительность с GeForce RTX 2080 Ti в разрешении 4K.
Архитектура Ampere
Вначале еще раз вернемся к архитектуре и отметим ключевые особенности нового графического процессора. Старшие игровые видеокарты GeForce RTX 3080 и GeForce RTX 3090 базируются на процессоре GA102. Он состоит из 7 кластеров по 12 мультипроцессоров SM в каждом.
Полноценный GA102 насчитывает 84 SM по 128 вычислительных ядра CUDA в каждом. Но полная конфигурация с 10752 потоковыми ядрами пока не задействована, и это привычная ситуация для игровых видеокарт. GeForce RTX 3090 использует 82 SM с 10496 потоковыми процессорами, а GeForce RTX 3080 задействует 68 SM с 8704 потоковыми процессорами.
Изменилась структура SM. Удвоено количество вычислительных ядер, половина из которых наряду с FP32 может работать с операциями INT32. В итоге один массив SM выполняет за такт 128 операций FP32 или 64 FP32 + 64 INT32. Изменилась структура кэш-памяти и ее пропускная способность. Ampere использует тензорные ядра третьего поколения для ускорения операций глубокого обучения, они поддерживают новые форматы вычислений для повышенной производительности и гибкости программирования. RT-ядра второго поколения ускоряют операции при просчете трассировки лучей, заявлено о двукратном росте быстродействия относительно первого поколения.
Один SM оперирует 4 тензорными ядрами и одним RT-ядром. В активе GeForce RTX 3090 328 тензорных ядер и 82 ядра RT, а у GeForce RTX 3080 это 272 и 68 ядра. Не сильно впечатляет на фоне 544 тензорных ядра и 68 RT-core у GeForce RTX 2080 Ti. Но благодаря более быстрым блокам общий вычислительный потенциал у новых видеокарт серьезно вырос. GeForce RTX 3080 обеспечивает до 238 TFLOPS в тензорных операциях вместо 108 TFLOPS у GeForce RTX 2080 Ti. Если сравнивать с прямым предшественником GeForce RTX 2080 Super, то разрыв колоссальный: пиковая производительность шейдерных блоков FP32 выросла в 3 раза, производительность RT-ядер выше в 1,7 раз, а тензорные блоки работают в 2,7 раз быстрее.
Среди новых возможностей заявлено ускорение Motion Blur в режиме с трассировкой лучей. Речь идет об эффекте размытия для движущейся геометрии, что усложняет просчет трассировки. Новые блоки RT смогут ускорить данный процесс на аппаратном уровне.
Тензорные ядра получили улучшения, которые реализованы в ускорителе вычислений NVIDIA A100. Они научились работать с новым типом данных TF32 и BF16. Поддерживается быстрый алгоритм работы с матричными данными во время обучения нейронной сети Fine-Grained Structured Sparsity.
Оптимизирована структура ROP. Они больше не привязаны к контроллерам памяти, а стали частью кластера GPC. Процессор GA102 насчитывает 112 ROP, у GeForce RTX 3090 активно 96 блоков, у GeForce RTX 3080 задействовано 88 блоков. Старший ускоритель обменивается данными по 384-битной шине, а GeForce RTX 3080 по 320-битной шине.
Специально для новых видеокарт NVIDIA и Micron Technology разработали новый тип графической памяти GDDR6X. В этой памяти реализован новый 4-уровненый метод амплитудно-импульсной модуляции, позволяющий удвоить ее пропускную способность. У GDDR6 передается два бита за цикл — по переднему и заднему фронту синхроимпульса. У GDDR6X передается два бита на фронт через кодирование разным уровнем напряжения, что дает в итоге четыре бита за такт.
Поддерживается механизм коррекции ошибок памяти, что ранее было доступно только в профессиональных ускорителях NVIDIA.
Полные характеристики новых видеокарт с сравнении со старыми моделями представлены в таблице.
Видеоадаптер | GeForce RTX 3090 | GeForce RTX 3080 | GeForce RTX 3070 | GeForce RTX 2080 Ti | GeForce RTX 2080 Super | GeForce RTX 2080 |
---|---|---|---|---|---|---|
Ядро | GA102 | GA102 | GA104 | TU102 | TU104 | TU104 |
Количество транзисторов, млн. шт | 28000 | 28000 | 17000 | 18600 | 13600 | 13600 |
Техпроцесс, нм | 8 | 8 | 8 | 12 | 12 | 12 |
Площадь ядра, кв. мм | 627 | 627 | 450 | 754 | 545 | 545 |
Количество потоковых процессоров CUDA | 10496 | 8704 | 5888 | 4352 | 3072 | 2944 |
Количество тензорных ядер | 328 | 272 | 184 | 544 | 384 | 368 |
Количество ядер RT | 82 | 68 | 46 | 68 | 46 | 46 |
Количество текстурных блоков | 328 | 272 | 184 | 272 | 192 | 184 |
Количество блоков рендеринга | 112 | 96 | 88 | 88 | 64 | 64 |
Базовая частота ядра, МГц | 1395 | 1440 | 1500 | 1350 | 1650 | 1515 |
Частота Boost, МГц | 1695 | 1710 | 1725 | 1545 | 1815 | 1710 |
Шина памяти, бит | 384 | 320 | 256 | 352 | 256 | 256 |
Тип памяти | GDDR6X | GDDR6X | GDDR6 | GDDR6 | GDDR6 | GDDR6 |
Частота памяти, МГц | 19500 | 19000 | 16000 | 14000 | 15500 | 14000 |
Объём памяти, ГБ | 24 | 10 | 8 | 11 | 8 | 8 |
Поддерживаемая версия DirectX | 12 Ultimate (12_2) | 12 Ultimate (12_2) | 12 Ultimate (12_2) | 12 Ultimate (12_2) | 12 Ultimate (12_2) | 12 Ultimate (12_2) |
Интерфейс | PCI-E 4.0 | PCI-E 4.0 | PCI-E 4.0 | PCI-E 3.0 | PCI-E 3.0 | PCI-E 3.0 |
Мощность, Вт | 350 | 320 | 220 | 250 | 250 | 225 |
Дата выхода | 24 сентября 2020 | 17 сентября 2020 | ? | 27 сентября 2018 | 23 июля 2019 | 20 сентября 2018 |
Цена MSRP | $1499 | $699 | $499 | $999 | $699 | $799 |
Процессоры Ampere изготавливаются по 8-нм техпроцессу Samsung, разработанного специально для новых GPU. Но значительно выросший транзисторный бюджет не позволил удержать энергопотребление и тепловыделение новых продуктов в привычных рамках 250 Вт. Аппетиты GeForce RTX 3090 обозначены на уровне 350 Вт, у GeForce RTX 3080 это 320 Вт.
Из-за этого выросли требования к системе охлаждения. Поэтому новое поколение «радует» нас трехслотовыми видеокартами, которые ранее были редкостью. Сама NVIDIA подошла весьма изобретательно к конструкции референсных продуктов серии Founders Edition. Они получили специфический кулер с двухсторонним расположением вентиляторов и плату с V-образным вырезом.
Среди особенностей новой серии нужно отметить наличие нового аппаратного декодера видео. Это NVDEC пятого поколения, который на аппаратном уровне обеспечивает ускорение декодирования видео MPEG-2, VC-1, H.264 (AVCHD), H.265 (HEVC), VP8, VP9 и AV1 с разрешением до 8K. Блок аппаратного кодирования NVENC седьмого поколения обеспечивает кодирование видео на лету не только в 4K, но и в 8K. То есть у нас будет возможность записывать игровой процесс в 8K и даже вести трансляции в таком формате.
Для вывода изображения предусмотрены порты DisplayPort 1.4a и HDMI 2.1. Эти интерфейсы поддерживают до 8K при 60 Гц или 4K при 240 Гц, включая режим HDR.
NVIDIA расширяет программные возможности своих продуктов. Представлена новая технология передачи данных напрямую в видеокарту NVIDIA RTX IO, специальный режим уменьшения системных задержек NVIDIA Reflex, улучшенный режим DLSS 2.1 и другое. Обо всем этом мы подробно писали в первом обзоре Ampere.
Завершить вступление хотелось бы демонстрацией графики в новых RTX-бенчмарках Bright Memory Infinite и Boundary. Это игры ближайшего будущего, которые по максимуму используют возможности трассировки лучей RTX.