Місяць тому компанія Google офіційно оголосила про запуск просунутого штучного інтелекту Gemini 1.5. Це платформа з кількох моделей ШІ з різними можливостями та оптимізацією під різні пристрої й завдання. Модель Gemini 1.5 Pro має бути найбільш просунутою і розумною, оскільки орієнтована на роботу з великими обсягами даних. Зокрема, вона може аналізувати великі тексти в сотні сторінок, і навіть аналізувати відео. Представники Google не раз наголошували на значних можливостях Gemini при роботі з великими текстами. Але в реальності все виявилося не так добре, як обіцяли.

Два незалежних дослідження, проведені представниками з Массачусетського і Каліфорнійського університетів, показали серйозні проблеми з розумінням великих обсягів даних та видачею правильних відповідей сучасними ШІ. Під час одного з експериментів по роботі з великими літературними творами ШІ видавав правильну відповідь у 40-50%. Наприклад, після опрацювання однієї книги з 260 тисяч слів (520 сторінок) Gemini 1.5 Pro правильно відповідав на вірні/невірогідні твердження в 46,7% випадків, а простіша модель Gemini Flash 1.5 давала правильну відповідь тільки у 20% випадків. ШІ найскладніше дається перевірка тверджень, що вимагають розгляду великої частини твору або навіть усієї книги. Тобто саме з розумінням великих даних і контексту в цьому масиві даних ШІ відчуває серйозні проблеми. Під час іншого експерименту перевіряли можливість розуміння відеороликів (серії слайдів), пропонуючи ШІ ідентифікувати й відповідати на запитання щодо об'єктів, які фігурували на окремих кадрах. Тут результати виявилися кращими, хоча ШІ Gemini Flash виявився вірним у 50%.

Один з учасників дослідження зазначив, що жодна модель ШІ не здатна повторити людські показники. За результативності людини в 97% найкраща модель GPT-4o давала правильні відповіді в 55,8% випадках.

У тестуванні використовувалася не найостанніша версія Gemini, але навряд чи це сильно вплинуло на результати. Деякі фахівці вважають, що Google сильно перебільшує здібності свого ШІ. На початку року Google вже була змушена просити вибачення за свій генератор зображень, який видавав дуже дивних історичних особистостей.

Також трохи падає інтерес до генеративного ШІ у сфері бізнесу. Були дуже високі очікування відносно нових технологій і того, що вони можуть замінити людей у багатьох сферах. Але останнє опитування консалтингової компанії Boston Consulting Group показало, що більш ніж половина керівників вищої ланки не чекає від ШІ прориву та підвищення продуктивності, натомість їх непокоїть ймовірність помилок і неточних даних.

Джерело:
TechCrunch