Генеративный искусственный интеллект на пике популярности. Миллионы людей используют ИИ для генерации смешных картинок и для помощи в своей профессиональной деятельности. А специалисты прогнозируют, что в будущем ИИ заменит миллионы рабочих мест. Но далеко не все поддерживают такой оптимизм. Ученые из MIT (Массачусетский технологический институт) провели очередное исследование, которое показало, что ИИ не понимает правил сложных систем. Большие языковые модели (LLM) лишь имитируют интеллект и дают убедительные ответы на основе запросов пользователя, предсказывая удачную последовательность слов, опираясь на контекст. Но при сложных комплексных запросах ИИ не способны обеспечить понимание системы и дать достоверный ответ.
Эксперимент исследователей строился вокруг навигации по Нью-Йорку, чтобы проверить возможности ИИ в способности предоставлять пошаговые инструкции. Команда сосредоточилась на так называемых «трансформерах» — это особый тип ИИ, в том числе используемый в GPT-4. Они обучаются на массивных базах текстовых данных, что обеспечивает им лучшую точность в генерации текстового ответа. Затем исследователи использовали особый класс задач известных под названием «детерминированные конечные автоматы» (Deterministic Finite Automaton, DFA). Под этим определением скрывается сочетание задач разной направленности, включая логические рассуждения, географическую навигацию, химию и даже игровые действия. Для тестируемых ИИ ставилась задача в вождении по улицам Нью-Йорка и игра в Отелло, чтобы проверить возможность понимания базовых правил.
Оказалось, что трансформеры хорошо справляется с игрой в Отелло, где четко определены правила. Тут они генерировали точные направления и допустимые ходы. А вот с навигацией по большому городу они справляются с большим трудом. ИИ путался в объездах и начинал предлагать случайные эстакады, которых в реальности не существует. После добавления одного объезда производительность генеративного ИИ быстро ухудшилась. А после закрытия 1% доступных улиц на карте точность модели упала с почти 100% до 67%. Это в очередной раз показывает, что LLM могут быть точными только в определенных задачах, но на них нельзя полагаться при работе со сложными комплексными системами. Ситуацию ранее точно описал ученый Алан Блэквелл фразой «Мы автоматизируем чушь».
Источник:
TechSpot