Несколько месяцев назад компания OpenAI представила мощную модель искусственного интеллекта o1, которая способна к рассуждениям. Недавно доступ к ней включен в состав нового платного тарифа ChatGPT Pro стоимостью $200 в месяц. А теперь компания анонсировала уже новое поколение ИИ o3. Это модель является прямым преемником o1, но еще лучше и мощнее. Интересно, что от названия o2 создатели отказались, чтобы избежать возможных юридических разбирательств с одноименным британским оператором связи.

OpenAI анонсировала ИИ нового поколения o3

Новая модель o3 использует механизм проверки собственных утверждений, что уменьшает вероятность так называемых «галлюцинаций ИИ», но требует дополнительных ресурсов. Не случайно, прошлая версия этой модели привела к введению дорогого тарифа. Для ИИ использовался метод обучения с подкреплением (reinforcement learning). Модель способна на рассуждения и планирование, лучше всего проявляя себя в сложных дисциплинах, например, в науке или в программировании.

Согласно существующим специализированным тестам o3 заметно превосходит все другие модели ИИ и даже кое-где приближается к так называемому общему искусственному интеллекту AGI (Artificial general intelligence), который будет сопоставим с живым человеком. В тесте ARC-AGI, разработанном для оценки того, может ли система ИИ эффективно приобретать новые навыки вне своей базы знаний, модель o3 набрала 87,5% и в три раза обошла o1. В тесте SWE-Bench Verified, который ориентирован на задачи программирования, o3 лучше o1 почти на 23%. В тестах AIME 2024 и GPQA Diamond разница между моделями еще меньше.

OpenAI анонсировала ИИ нового поколения o3

Зато в математическом тесте EpochAI Frontier Math новый ИИ выполнил 25,2% задач, в то время как другие модели показали результаты до 2%.

OpenAI анонсировала ИИ нового поколения o3

Основным недостатком новой модели является необходимость в больших вычислительных ресурсах. Поэтому некоторые специалисты считают, что развитие «моделей рассуждения» не лучший путь. ИИ доступен в стандартной версии o3 и в упрощенной версии o3-mini. Их обучение еще продолжается, и даже примерной даты запуска публичного доступа нет. Очевидно, что это произойдет в следующем году.

Источник:
TechCrunch