Нещодавно компанія OpenAI анонсувала модель штучного інтелекту наступного покоління o3, яка здатна на міркування та демонструє надзвичайно високі результати у спеціалізованих тестах. Досягнення o3 вразили дослідників і фахівців, давши поштовх до нових дискусій щодо загального штучного інтелекту AGI (Artificial general intelligence).
Зокрема, o3 показала неймовірний раніше результат у 75,7% у спеціалізованому тесті ARC-AGI. Цей тест вимірює можливість адаптації та абстрактного мислення (Abstract Reasoning Corpus) штучного інтелекту під час виконання завдань. Тест складається з набору візуальних головоломок, що вимагають розуміння базових концепцій, таких як об'єкти, край та положення в просторі. Люди легко розв'язують такі головоломки, але сучасні ШІ все ще насилу справляються з цим завданням. Довгий час це було надзвичайно важким завданням для ШІ, у 2020 році GPT-3 демонструвала результат 0%, а GPT-4o у 2024 році показував близько 5%. Тож o3 справді демонструє якісний ривок. І це вже ставить перед розробниками завдання щодо перегляду тестових завдань і методики.
Також o3 продемонстрував високі результати в інших тестах, включно зі спеціальною гібридною методикою тестування від Джеремі Бермана. Тут 53% від o3 теж виглядають серйозним досягненням щодо старих ШІ.
Франсуа Шолле (François Chollet), засновник ARC Prize Foundation і розробник ARC-AGI, описав продуктивність o3 як «дивовижне збільшення можливостей ШІ, яке демонструє нову здатність до адаптації та нових навичок, яких раніше ніколи не спостерігалося в моделях сімейства GPT». За його словами, це справжній прорив, що знаменує собою якісний зсув у можливостях ШІ відносно старих LLM.
При цьому в учених і дослідників мало інформації щодо того, як саме функціонує o3 і що в неї «під капотом». Шолле припускає, що нова модель використовує метод програмного синтезу, який включає ланцюжок міркувань (CoT) і механізм пошуку в поєднанні з моделлю винагороди, що оцінює й уточнює рішення в міру того, як модель генерує токени. Інші вчені вважають, що o3 та o1 є похідними від однієї LLM, а нова модель вийшла такою завдяки подальшому масштабуванню під час навчання. Відомо, що ресурсомісткість таких ШІ дуже висока, тому частина дослідників вважають сучасний підхід до розвитку ШІ з міркуванням тупиком.
Франсуа Шолле хоч і відзначає видатні здібності o3, вважає цю модель все ще далекою від AGI. ШІ ще не справляється з деякими простими завданнями та не може набути нових навичок без зовнішніх верифікаторів під час виведення. Тут є фундаментальні відмінності з людським інтелектом, який поки що поза конкуренцією. При цьому Шолле і його група вже працюють над новим бенчмарком, який стане складнішим для o3 і майбутніх моделей.
Джерело:
VentureBeat