Запуск бесплатного ИИ-помощника от китайской компании DeepSeek серьезно встряхнул технологическую индустрию и рынок. Это приложение уже вышло в топы скачиваний на iPhone и платформе Android. Но самое главное, что DeepSeek смогла представить открытую конкурентноспособную модель ИИ при значительно более низкой себестоимости обучения. ИИ DeepSeek R1 показывает вполне конкурентные результаты на фоне ведущих языковых моделей от OpenAI и Meta, а стоимость обучения называют «шокирующей». И это напрямую ударило по крупнейшим технологическим компаниям. Понедельник на американском фондовом рынке закончился серьезным обвалом акций для Microsoft, Google и ряда других компаний. Но основные потери понесла Nvidia, потерявшая примерно 500 миллиардов за один день. В результате капитализация зеленого гиганта упала до 2,9 триллиона, и он скатился с первого на третье место в писке самых дорогих компаний мира.
В чем причина шума вокруг DeepSeek? Это уникальная модель с открытым исходным кодом, обучение и функционирование которой намного дешевле западных конкурентов. Это связано с программной и аппаратной оптимизацией процесса обучения. При обучении основными механизмами были «цепочки мыслей» (Chain of Thought), где дается подсказка для конечного правильного ответа, и обучение с подкреплением, когда модель взаимодействует со средой и получает поощрения для правильного заключения. В GPT o1 основное внимание уделяется методам контролируемого обучения, что подразумевают обучение на огромных наборах данных текста и кода, что в конечном итоге требует больших финансовых ресурсов. Экономическая эффективность отражена в ценах API для DeepSeek-R1, которые стоят всего $0,55 за миллион входных токенов и $2,19 за миллион выходных токенов, в то время как API OpenAI стоят $15 и $60 соответственно.
По слухам стоимость обучения DeepSeek на уровне 5,6 миллиона долларов США, что на самом деле маловероятно. Специалисты говорят, что такая сумма может выражать стоимость запуска финальной модели, но не общие затраты на ИИ. Также китайская компания вероятно скрывает полные данные о затратах и техническом парке из-за санкций. Были заявления, что модель обучали на 10 тысячах ускорителей Nvidia A100, но есть мнение, что на самом деле использовалось до 50 тысяч ускорителей Hopper H100 или H200 (их поставки запрещены в Китай).
У специалистов есть сомнения в том, что DeepSeek сможет далее успешно развивать свою модель и расширять ее в условиях санкционного давления и ограниченного доступа к передовому оборудованию от Nvidia. Пока же китайские разработчики на волне успеха своего ИИ-помощника представили модель Janus Pro для генерации изображений. Также стало известно, что Alibaba запускает открытую модель ИИ с акцентом на логические и математические задачи. Очевидно, что конкуренция в области ИИ становится сильнее.