Нещодавно компанія xAI, яка належить Ілону Маску, запустила найбільший обчислювальний кластер у світі для навчання штучного інтелекту. Суперкомп'ютер Colossus AI отримав 100 тисяч процесорів Nvidia та був розгорнутий у рекордні терміни — лише за 122 дні. І тепер ми вперше можемо опинитися всередині цього обчислювального заводу і подивитися, як там все організовано, завдяки відеоролику на каналі ServeTheHome.

В огляді показали внутрішній устрій величезного дата-центру, розповіли про охолодження, організацію мережі та зовнішнього живлення. xAI Colossus побудований на серверних системах Nvidia HGX H100, кожна з яких містить вісім прискорювачів Nvidia H100. В одну стійку встановлено по вісім таких систем, що дає 64 GPU на одну стійку.

Кожна система Nvidia HGX H100 оснащена системою рідинного охолодження від Supermicro, яка передбачає просту гарячу заміну охолодження для будь-якого GPU. Колектори затиснуті між серверними стійками. А знизу стійки розташовано блок Supermicro 4U з резервною помповою системою та системою моніторингу. Стійки об'єднані в масиви по вісім штук, що дає 512 GPU на масив. Кожен такий масив має свій великий колектор із системою розподілу рідини, чотири резервних джерела живлення та мережеві комутатори. Загалом суперкомп'ютер Colossus налічує 200 масивів і понад 1500 стійок.

Настільки потужна обчислювальна система вимагає високої продуктивної мережевої інфраструктури, яка організована на базі Ethernet. Кожен графічний процесор має свій виділений мережевий контролер NIC 400GbE та додатковий контролер 400 Гбіт/с на сервер. Виходить, що один сервер може передавати дані з пропускною спроможністю 3,6 Тбіт/с. Також у відео показано сервери зберігання даних виробництва Supermicro, але без подробиць відносно їхньої будови та характеристик.

Відомо, що для безперебійного живлення центру додатково залучено 14 дизельних генераторів. Також на об'єкті є великі батареї Tesla Megapack, які є енергетичним буфером між електромережею і суперкомп'ютером.

Суперкомп'ютер Colossus використовується для навчання великих моделей ШІ, включно з новою моделлю Grok 3. На цих потужностях навчатимуться і майбутні моделі ШІ. Зараз Colossus перебуває на першому етапі запуску. Уже планується розширення завдяки додатковим 100 тисячам GPU Hopper (50 тисяч H100 та 50 тисяч H200). І, ймовірно, це не остання стадія розширення.

Джерело:
Tom's Hardware