Нещодавно компанія OpenAI анонсувала модель штучного інтелекту наступного покоління o3, яка здатна на міркування та демонструє надзвичайно високі результати у спеціалізованих тестах. Досягнення o3 вразили дослідників і фахівців, давши поштовх до нових дискусій щодо загального штучного інтелекту AGI (Artificial general intelligence).

ШІ o3 від OpenAI демонструє видатні здібності, але далекий від людського інтелекту

Зокрема, o3 показала неймовірний раніше результат у 75,7% у спеціалізованому тесті ARC-AGI. Цей тест вимірює можливість адаптації та абстрактного мислення (Abstract Reasoning Corpus) штучного інтелекту під час виконання завдань. Тест складається з набору візуальних головоломок, що вимагають розуміння базових концепцій, таких як об'єкти, край та положення в просторі. Люди легко розв'язують такі головоломки, але сучасні ШІ все ще насилу справляються з цим завданням. Довгий час це було надзвичайно важким завданням для ШІ, у 2020 році GPT-3 демонструвала результат 0%, а GPT-4o у 2024 році показував близько 5%. Тож o3 справді демонструє якісний ривок. І це вже ставить перед розробниками завдання щодо перегляду тестових завдань і методики.

ШІ o3 від OpenAI демонструє видатні здібності, але далекий від людського інтелекту

Також o3 продемонстрував високі результати в інших тестах, включно зі спеціальною гібридною методикою тестування від Джеремі Бермана. Тут 53% від o3 теж виглядають серйозним досягненням щодо старих ШІ.

Франсуа Шолле (François Chollet), засновник ARC Prize Foundation і розробник ARC-AGI, описав продуктивність o3 як «дивовижне збільшення можливостей ШІ, яке демонструє нову здатність до адаптації та нових навичок, яких раніше ніколи не спостерігалося в моделях сімейства GPT». За його словами, це справжній прорив, що знаменує собою якісний зсув у можливостях ШІ відносно старих LLM.

ШІ o3 від OpenAI демонструє видатні здібності, але далекий від людського інтелекту

При цьому в учених і дослідників мало інформації щодо того, як саме функціонує o3 і що в неї «під капотом». Шолле припускає, що нова модель використовує метод програмного синтезу, який включає ланцюжок міркувань (CoT) і механізм пошуку в поєднанні з моделлю винагороди, що оцінює й уточнює рішення в міру того, як модель генерує токени. Інші вчені вважають, що o3 та o1 є похідними від однієї LLM, а нова модель вийшла такою завдяки подальшому масштабуванню під час навчання. Відомо, що ресурсомісткість таких ШІ дуже висока, тому частина дослідників вважають сучасний підхід до розвитку ШІ з міркуванням тупиком.

Франсуа Шолле хоч і відзначає видатні здібності o3, вважає цю модель все ще далекою від AGI. ШІ ще не справляється з деякими простими завданнями та не може набути нових навичок без зовнішніх верифікаторів під час виведення. Тут є фундаментальні відмінності з людським інтелектом, який поки що поза конкуренцією. При цьому Шолле і його група вже працюють над новим бенчмарком, який стане складнішим для o3 і майбутніх моделей.

Джерело:
VentureBeat