Недавно компания OpenAI анонсировала модель искусственного интеллекта следующего поколения o3, которая способна на рассуждения и демонстрирует чрезвычайно высокие результаты в специализированных тестах. Достижения o3 поразили исследователей и специалистов, дав толчок к новым дискуссиям относительно общего искусственного интеллекта AGI (Artificial general intelligence).

В частности, o3 показала невероятный ранее результат в 75,7% в специализированном тесте ARC-AGI. Этот тест измеряет возможность адаптации и абстрактного мышления (Abstract Reasoning Corpus) искусственного интеллекта при выполнении задач. Тест состоит из набора визуальных головоломок, требующих понимания базовых концепций, таких как объекты, границы и положение в пространстве. Люди легко решают такие головоломки, но современные ИИ все еще с трудом справляются с этим заданием. Долгое время это было чрезвычайно тяжелым заданием для ИИ, в 2020 году GPT-3 демонстрировала результат 0%, а GPT-4o в 2024 году показывал около 5%. Поэтому o3 действительно демонстрирует качественный рывок. И это уже ставит перед разработчиками задачи кпо пересмотру тестовых заданий и методики.

Также o3 продемонстрировал высокие результаты и в других тестах, включая специальную гибридную методику тестирования от Джереми Бермана. Тут 53% от o3 тоже выглядят серьезным достижением относительно старых ИИ.

Франсуа Шолле (François Chollet), основатель ARC Prize Foundation и разработчик ARC-AGI, описал производительность o3 как «удивительное увеличение возможностей ИИ, демонстрирующее новую способность к адаптации и новым навыкам, которые ранее никогда не наблюдались в моделях семейства GPT». По его словам, это настоящий прорыв, знаменующий собой качественный сдвиг в возможностях ИИ относительно прежних LLM.

При этом у ученых и исследователей мало информации относительно того, как именно функционирует o3 и что у нее «под капотом». Шолле предполагает, что новая модель использует метод программного синтеза, который включает цепочку рассуждений (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и уточняет решения по мере того, как модель генерирует токены. Другие ученые считают, что o3 и o1 является производными от одной LLM, а новая модель получилась такой за счет дальнейшего масштабирования при обучении. Известно, что ресурсоемкость таких ИИ очень высокая, поэтому часть исследователей считают современный подход к развитию ИИ с рассуждением тупиком.

Франсуа Шолле хоть и отмечает выдающиеся способности o3, считает эту модель все еще далекой от понятия AGI. ИИ еще не справляется с некоторыми простыми задачи и не сможет получить новые навыки без внешних верификаторов при выводе. Тут есть фундаментальные различия с человеческим интеллектом, который пока вне конкуренции. При этом Шолле и его группа уже работают на новым бенчмарком, который станет сложнее для o3 и будущих моделей.

Источник:
VentureBeat