Прискорювачі на базі нових чипів Blackwell обіцяють черговий прорив в обчисленнях для штучного інтелекту. Але запуск великих ЦОД із новими процесорами Nvidia пов'язаний із несподіваними проблемами. Великі замовники, включно з Google, Meta і Microsoft, зіткнулися з перегрівом серверів Nvidia NVL72 на основі чипів Blackwell. І це вносить затримки в розгортання та запуск нових обчислювальних потужностей.
Енергоспоживання одного прискорювача B200 сягнуло значних 1000 Вт, а так званий суперчип GB200 з двома GPU і додатковим ARM-процесором споживає 2,7 кВт. Сервери Nvidia NVL72 налічують 36 пристроїв GB200, тобто містять 72 графічні чипи Blackwell. Усе це серйозно гріється і споживає величезну кількість енергії. І хоча з появою Blackwell почався масовий перехід на рідинне охолодження серверів, ймовірно, це не вирішує всіх проблем. Перегрів може обмежувати продуктивність і впливати на довговічність компонентів. Це призвело до того, що Nvidia разом із партнерами змушені були вже кілька разів вносити зміни в конструкцію своїх серверних стійок, щоб уникнути перегріву. І хоча це неприємна ситуація для замовників, але вона не екстраординарна. Будь-який масштабний технологічний проєкт такого рівня пов'язаний із доопрацюваннями.
Для Blackwell це не перше доопрацювання. Під час запуску масового виробництва Nvidia зіткнулася з великим відсотком браку під час пакування складних чипів. Були недоробки в технології об'єднання великих чиплетів і проміжного шару зі сполучними мостами LSI, що при тепловому розширенні призводило до деформації та збоїв. Для вирішення цієї проблеми було внесено відповідні конструктивні зміни. Але це потребувало часу і призвело до затримок у постачанні. Нові затримки в розгортанні серверів призведуть до затримок у планах IT-компаній щодо розвитку і навчання своїх мовних моделей ШІ.
Джерело:
Tom's Hardware