На днях компания Anthropic запустила новую модель ИИ Claude 3.7 Sonnet со способностью к гибридным рассуждениям. Этот ИИ может давать как быстрые ответы, так и более долгие взвешенные ответы после внутренних рассуждений над вопросом. Разработчики и пользователи активно экспериментируют с Claude 3.7 Sonnet, тестируя возможности ИИ. В качестве эксперимента создатели запустили трансляцию на Twicth, в которой новая модель играет в старую игру Pokemon Red. Claude 3.7 Sonnet использует свои способности к рассуждениям для решения задач и игровых ситуаций в игре. Происходить это с переменным успехом, каждый шаг требует серьезных «мыслительных» усилий. Например, на несколько часов ИИ застопорился в прохождении, когда наткнулся на стену и не мог ее пройти. Также ИИ запутался в моменте, когда надо было найти профессора, но на локации были другие NPC.
Прохождение сопровождается демонстрацией работы ИИ в реальном времени. Слева от игры выводится описание процесса «мышления» в форме естественного языка. Можно почитать, как ИИ воспринимает задачи, пытается их осознать и выполнить. Очевидно, что пока это лишь забавный эксперимент для демонстрации современных технологий. При этом Claude 3.7 Sonnet справляется с игрой лучше предыдущей версии 3.5, которая не смогла пройти начальный этап, не найдя выход из дома игрока.
Это не первый случай, когда исследователи используют игры для тестирования моделей ИИ. Более десяти лет назад Pokemon становилась объектом социального эксперимента Twitch Plays Pokemon, когда зрители пытались коллективно пройти игру, управляя героем через чат. И это подтолкнуло разных исследователей к экспериментам по обучению ИИ в данной игре.
Источник:
TechCrunch