Дослідники попереджають, що генеративні ШІ не розуміють складних систем

Генеративний штучний інтелект на піку популярності. Мільйони людей використовують ШІ для генерації смішних картинок та для допомоги у своїй професійній діяльності. А фахівці прогнозують, що в майбутньому ШІ замінить мільйони робочих місць. Але далеко не всі підтримують такий оптимізм. Вчені з MIT (Массачусетський технологічний інститут) провели чергове дослідження, яке показало, що ШІ не розуміє правил складних систем. Великі мовні моделі (LLM) лише імітують інтелект і дають переконливі відповіді на основі запитів користувача, передбачаючи вдалу послідовність слів, спираючись на контекст. Але за складних комплексних запитів ШІ не здатні забезпечити розуміння системи та дати вірогідну відповідь.

Експеримент дослідників будувався навколо навігації по Нью-Йорку, щоб перевірити можливості ШІ в здатності надавати покрокові інструкції. Команда зосередилася на так званих «трансформерах» — це особливий тип ШІ, зокрема використовуваний у GPT-4. Вони навчаються на масивних базах текстових даних, що забезпечує їм кращу точність у генерації текстової відповіді. Потім дослідники використовували особливий клас завдань відомих під назвою «детерміновані кінцеві автомати» (Deterministic Finite Automaton, DFA). Під цим визначенням ховається поєднання завдань різної спрямованості, включаючи логічні міркування, географічну навігацію, хімію та навіть ігрові дії. Для піддослідних ШІ ставилося завдання у водінні вулицями Нью-Йорка і гра в Отелло, щоб перевірити можливість розуміння базових правил.

Виявилося, що трансформери добре справляються з грою в Отелло, де чітко визначені правила. Тут вони генерували точні напрямки та допустимі ходи. А ось із навігацією по великому місту вони справляються з великими труднощами. ШІ плутався в об'їздах і починав пропонувати випадкові естакади, яких у реальності не існує. Після додавання одного об'їзду продуктивність генеративного ШІ швидко погіршилася. А після закриття 1% доступних вулиць на карті точність моделі впала з майже 100% до 67%. Це вкотре показує, що LLM можуть бути точними тільки в певних завданнях, але на них не можна покладатися під час роботи зі складними комплексними системами. Ситуацію раніше точно описав учений Алан Блеквелл фразою «Ми автоматизуємо нісенітницю».

Джерело:
TechSpot

Ще новини:

Оголошено рекомендовану ціну Nintendo Switch 2. На консолі вийдуть Cyberpunk 2077, Elden Ring та інші ААА-ігри

Статистика Steam: частка систем із процесорами AMD зросла до рекордного показника

Nintendo оголосила дату релізу портативної консолі Switch 2