Запуск безплатного ШІ-помічника від китайської компанії DeepSeek серйозно струснув технологічну індустрію та ринок. Цей застосунок уже вийшов у топи завантажень на iPhone і платформі Android. Але найголовніше, що DeepSeek змогла представити відкриту конкурентоспроможну модель ШІ за значно нижчої собівартості навчання. ШІ DeepSeek R1 показує непогані результати на тлі провідних мовних моделей від OpenAI та Meta, а вартість навчання називають «шокуючою». І це безпосередньо вдарило по найбільших технологічних компаніях. Понеділок на американському фондовому ринку закінчився серйозним обвалом акцій для Microsoft, Google та низки інших компаній. Але основного удару зазнала Nvidia, яка втратила приблизно $500 мільярдів за один день. У результаті капіталізація зеленого гіганта знизилась до $2,9 трильйона, і він впав з першого на третє місце в списку найдорожчих компаній світу.
У чому причина шуму навколо DeepSeek? Це унікальна модель з відкритим вихідним кодом, навчання і функціонування якої набагато дешевше західних конкурентів. Це пов'язано з програмною та апаратною оптимізацією процесу навчання. Під час навчання основними механізмами були «ланцюжки думок» (Chain of Thought), де дають підказку для кінцевої правильної відповіді, і навчання з підкріпленням, коли модель взаємодіє із середовищем та отримує заохочення для правильного висновку. У GPT o1 основна увага приділяється методам контрольованого навчання, що мають на увазі навчання на величезних наборах даних тексту і коду, що в підсумку вимагає великих фінансових ресурсів. Економічна ефективність відображена в цінах API для DeepSeek-R1, які коштують лише $0,55 за мільйон вхідних токенів та $2,19 за мільйон вихідних токенів, тоді як API OpenAI коштують $15 та $60 відповідно.
За чутками, вартість навчання DeepSeek на рівні 5,6 мільйона доларів США, що насправді малоймовірно. Фахівці кажуть, що така сума може виражати вартість запуску фінальної моделі, але не загальні витрати на ШІ. Також китайська компанія ймовірно приховує повні дані про витрати та технічний парк через санкції. Були заяви, що модель навчали на 10 тисячах прискорювачів Nvidia A100, але є думка, що насправді використовували до 50 тисяч прискорювачів Hopper H100 або H200 (їхнє постачання заборонено до Китаю).
У фахівців є сумніви в тому, що DeepSeek зможе далі успішно розвивати свою модель і розширювати її в умовах санкційного тиску та обмеженого доступу до передового обладнання від Nvidia. Поки ж китайські розробники на хвилі успіху свого ШІ-помічника представили модель Janus Pro для генерації зображень. Також стало відомо, що Alibaba запускає відкриту модель ШІ з акцентом на логічні та математичні завдання. Очевидно, що конкуренція в галузі ШІ стає сильнішою.