Компанія OpenAI, провідний розробник у сфері штучного інтелекту, випустила спеціальний тест SimpleQA, який дає змогу оцінити точність вихідних даних для сучасних моделей ШІ. Це тест фактології, який вимірює здатність мовних моделей відповідати на короткі запитання, що вимагають пошуку фактів. І раптово він показав надзвичайно низькі результати навіть для найкращих мовних моделей.
Точність даних видачі ШІ є відомою проблемою. І важливо мати інструмент, який міг би оцінити коректність інформації та допомогти виявити, яка з моделей ШІ демонструє менше «галюцинацій». Для цього і створювався бенчмарк SimpleQA. Він охоплює широкий спектр тем — від науки й технологій до телешоу та відеоігор.
Перші випробування в цьому тесті показали невтішні результати для сучасних моделей ШІ. Навіть o1-preview та GPT-4o видають менше половини коректних відповідей. Найточнішою виявилася модель o1 з 42,7% точних відповідей. І це насправді непогано, оскільки ШІ Anthropic та Claude-3.5-sonnet від конкурентів дали ще гірші результати. Малі моделі GPT-4o mini та o1-mini видають менше ніж 10% точних відповідей, що очікувано, адже вони мають меншу кількість даних про зовнішній світ.
Дані для тесту вибирали за допомогою багаторівневої системи тренерів ШІ. Одна категорія тренерів переглядала вебсторінки та створювала короткі запитання для пошуку фактів і відповідей. Щоб потрапити до набору даних, запитання мало відповідати певним критеріям, зокрема мати одну беззаперечну відповідь, яка не змінюється з часом. Але також більшість запитань обирали з урахуванням того, що вони повинні викликати галюцинації GPT-4o або GPT-3.5. Для підвищення якості набору даних потім незалежний тренер ШІ відповідав на кожне питання, не знаючи готової відповіді. У підсумкову добірку пішли питання, де збігалися відповіді обох тренерів ШІ. Потім використовувався третій тренер, який відповідав на випадкову вибірку запитань. І наприкінці набір даних проходив додатковий ручний контроль, який показав внутрішню похибку точності на рівні 3%.
Загалом це складний тест, який покликаний випробувати точність ШІ. Він може використовуватися для калібрування ШІ, оскільки на одне й те саме запитання ШІ можуть видавати різні дані при повторних зверненнях. Але загалом є тенденція до того, що моделі завищують свою впевненість у відповідях. Це вимагає додаткових досліджень і розробки. А інструмент OpenAI SimpleQA з відкритим вихідним допоможе в цьому.