Представники американської компанії стверджують, що в DeepSeek використовували недобросовісні практики для навчання моделі ШІ R1. Минуло небагато часу з запуску китайського конкурента ChatGPT, але DeepSeek R1 вже призвела до потрясінь на фінансовому ринку. Китайська компанія змогла запропонувати ШІ-помічника, який на рівні конкурентів, але поширюється відкрито та безплатно. Це вдарило по позиціях провідних компаній у сфері ШІ та навіть призвело до того, що капіталізація Nvidia за один день впала на рекордні $500 мільярдів.
Для навчання своєї моделі DeepSeek нібито використовувала 2048 прискорювачів Nvidia H800 та витратила скромні $5,66 мільйона (хоча низка фахівців припускає наявність більшого обчислювального парку). Секрет такого недорого навчання може бути в тому, що DeepSeek спиралася на ШІ від OpenAI. Йдеться про так звану «дистиляцію». Це техніка для отримання високої продуктивності на малих моделях за рахунок використання вихідних даних більших і ефективніших моделей, що дає змогу досягати аналогічних результатів у певних завданнях із меншими обчислювальними витратами. Тобто DeepSeek могла використовувати американські ШІ для швидшого навчання своєї моделі. Microsoft і OpenAI провели розслідування та заблокували деякі акаунти, які могли використовувати інтерфейси API для такої дистиляції, оскільки це порушує умови використання.
Дистиляція є поширеною практикою для стартапів і вчених у США та Китаї — використання комерційної LLM для навчання своєї спеціалізованої моделі. Але у випадку з DeepSeek та OpenAI йдеться про великі комерційні інтереси, тому американська компанія має намір вжити серйозних контрзаходів для захисту своєї інтелектуальної власності. Також компанія співпрацює з урядом США для захисту американських технологій.
Зазначимо також, що якщо на етапі навчання DeepSeek використовувала прискорювачі Nvidia, то тепер стало відомо, що підтримка роботи та інференс ШІ здійснюється на базі китайських прискорювачів Huawei Ascend 910C.
Джерело:
Financial Times