Штучний інтелект втрачає зв’язок із реальністю: нові моделі OpenAI стали розумнішими, але частіше брешуть

Як ми раніше повідомляли, цього тижня компанія OpenAI представила свої новітні моделі – o3 та o4-mini, які мають покращені здібності до логічного мислення. Їх використовують у ChatGPT, і вони вже отримали позитивні відгуки за точність у складних технічних задачах.
Але є й зворотна сторона – нові моделі стали частіше «галюцинувати». Це явище, коли штучний інтелект (ШІ) впевнено вигадує відповіді, які звучать переконливо, але не мають нічого спільного з реальністю.
Про це повідомляє Blik.ua з посиланням на TechCrunch.
За внутрішніми тестами OpenAI, модель o3 помилялася у 33% випадків у завданні PersonQA, яке оцінює знання про людей. Це вдвічі гірше, ніж у o1 і o3-mini. А o4-mini показала ще гірший результат – 48% галюцинацій.
Найбільш тривожно те, що навіть самі інженери не можуть пояснити, чому нові «розумніші» моделі частіше помиляються. У звіті OpenAI сказано, що потрібні подальші дослідження, аби зрозуміти причину зростання галюцинацій при масштабуванні моделей ШІ.
Є припущення, що проблема криється у методі навчання – підкріплювальному навчанні, яке, замість зменшення помилок, могло їх лише посилити. Такий висновок зробили дослідники з незалежної AI-лабораторії Transluce.
«Галюцинації o3 часом настільки переконливі, що модель навіть вигадувала неіснуючі дії, які вона нібито виконала», – повідомив Ніл Чоудхурі, дослідник Transluce і колишній співробітник OpenAI.
При цьому нові ШІ залишаються дуже ефективними у програмуванні. Компанія Workera вже використовує o3 у своїх розробках, хоча зазначає: модель часто надає неіснуючі посилання на сайти, які просто не працюють.
Інший напрямок боротьби з вигадками ШІ – це інтеграція з веб-пошуком. Наприклад, GPT-4o з доступом до інтернету досяг точності 90% у тесті SimpleQA. Це дає надію, що майбутні моделі зможуть краще фільтрувати неправдиву інформацію.
Попри всі недоліки, OpenAI запевняє: вони працюють над розв’язанням проблеми. Представник компанії Ніко Фелікс заявив:
«Покращення точності та зменшення галюцинацій – наш головний пріоритет у 2025 році».
- Втім, поки користувачам варто бути обачними. Навіть найрозумніший ШІ усе ще може «збрехати» – переконливо, красиво, але зовсім не по фактах.
- Нагадаємо, в OpenAI заявили, що через ввічливі формулювання користувачів у запитах до штучного інтелекту їхня компанія втрачає мільйони доларів, але вони зовсім не проти цього.
Читайте також: Штучний інтелект OpenAI досяг рівня людини: GPT-4.5 успішно пройшов тест Тюрінга