Несколько месяцев назад компания OpenAI представила мощную модель искусственного интеллекта o1, которая способна к рассуждениям. Недавно доступ к ней включен в состав нового платного тарифа ChatGPT Pro стоимостью $200 в месяц. А теперь компания анонсировала уже новое поколение ИИ o3. Это модель является прямым преемником o1, но еще лучше и мощнее. Интересно, что от названия o2 создатели отказались, чтобы избежать возможных юридических разбирательств с одноименным британским оператором связи.

Новая модель o3 использует механизм проверки собственных утверждений, что уменьшает вероятность так называемых «галлюцинаций ИИ», но требует дополнительных ресурсов. Не случайно, прошлая версия этой модели привела к введению дорогого тарифа. Для ИИ использовался метод обучения с подкреплением (reinforcement learning). Модель способна на рассуждения и планирование, лучше всего проявляя себя в сложных дисциплинах, например, в науке или в программировании.

Согласно существующим специализированным тестам o3 заметно превосходит все другие модели ИИ и даже кое-где приближается к так называемому общему искусственному интеллекту AGI (Artificial general intelligence), который будет сопоставим с живым человеком. В тесте ARC-AGI, разработанном для оценки того, может ли система ИИ эффективно приобретать новые навыки вне своей базы знаний, модель o3 набрала 87,5% и в три раза обошла o1. В тесте SWE-Bench Verified, который ориентирован на задачи программирования, o3 лучше o1 почти на 23%. В тестах AIME 2024 и GPQA Diamond разница между моделями еще меньше.

Зато в математическом тесте EpochAI Frontier Math новый ИИ выполнил 25,2% задач, в то время как другие модели показали результаты до 2%.

Основным недостатком новой модели является необходимость в больших вычислительных ресурсах. Поэтому некоторые специалисты считают, что развитие «моделей рассуждения» не лучший путь. ИИ доступен в стандартной версии o3 и в упрощенной версии o3-mini. Их обучение еще продолжается, и даже примерной даты запуска публичного доступа нет. Очевидно, что это произойдет в следующем году.

Источник:
TechCrunch