Ускорители на базе новых чипов Blackwell обещают очередной прорыв в вычислениях для искусственного интеллекта. Но запуск крупных ЦОД с новыми графическими чипами Nvidia Blackwell сопряжен с неожиданными проблемами. Крупные заказчики, включая Google, Meta и Microsoft, столкнулись с перегревом серверов Nvidia NVL72 на основе чипов Blackwell. И это вносит задержки в развертывание и запуск новых вычислительных мощностей.
Энергопотребление одного ускорителя B200 достигло внушительных 1000 Вт, а так называемый суперчип GB200 c двумя GPU и дополнительным ARM-процессором потребляет 2,7 кВт. Сервера Nvidia NVL72 насчитывают 36 устройств GB200, то есть содержат 72 графических чипа Blackwell. Все это серьезно греется и потребляет огромное количество энергии. И хотя с появлением Blackwell начался массовый переход на жидкостное охлаждение серверов, вероятно, это не решает всех проблем. Перегрев может ограничивать производительность и влиять на долговечность компонентов. Это привело к тому, что Nvidia вместе с партнерами вынуждены были уже несколько раз вносить изменения в конструкцию своих серверных стоек во избежание перегрева. И хотя это неприятная ситуация для заказчиков, но она не экстраординарная. Любой масштабный технологический проект такого уровня связан с доработками.
Для Blackwell это не первая доработка. При запуске массового производства Nvidia столкнулась с большим процентом брака при упаковке сложных чипов. Были недоработки в технологии объединения больших чиплетов и промежуточного слоя с соединительными мостами LSI, что при тепловом расширении приводило к деформации и сбоям. Для решения этой проблемы были внесены соответствующие конструктивные изменения. Но это потребовало времени и привело к задержкам в поставках. Новые задержки в развертывании серверов приведут к задержкам в планах IT-компаний относительно развития и обучения своих языковых моделей ИИ.
Источник:
Tom's Hardware