Штучний інтелект втрачає зв’язок із реальністю: нові моделі OpenAI стали розумнішими, але частіше брешуть

Аватар Кирило Гапонов Кирило Гапонов
11676
3
5 голосів
Штучний інтелект втрачає зв’язок із реальністю: нові моделі OpenAI стали розумнішими, але частіше брешуть
Нова ШІ-модель GPT-4o Mini. Зображення: AI Tools Club
Нові моделі штучного інтелекту від OpenAI – o3 і o4-mini – демонструють вражаючі результати в математиці та кодуванні. Але є один тривожний нюанс: ці ШІ частіше, ніж попередні, генерують фейки – і навіть самі розробники не розуміють, чому.

Як ми раніше повідомляли, цього тижня компанія OpenAI представила свої новітні моделі – o3 та o4-mini, які мають покращені здібності до логічного мислення. Їх використовують у ChatGPT, і вони вже отримали позитивні відгуки за точність у складних технічних задачах.

Але є й зворотна сторона – нові моделі стали частіше «галюцинувати». Це явище, коли штучний інтелект (ШІ) впевнено вигадує відповіді, які звучать переконливо, але не мають нічого спільного з реальністю.

Про це повідомляє Blik.ua з посиланням на TechCrunch.

За внутрішніми тестами OpenAI, модель o3 помилялася у 33% випадків у завданні PersonQA, яке оцінює знання про людей. Це вдвічі гірше, ніж у o1 і o3-mini. А o4-mini показала ще гірший результат – 48% галюцинацій.

Найбільш тривожно те, що навіть самі інженери не можуть пояснити, чому нові «розумніші» моделі частіше помиляються. У звіті OpenAI сказано, що потрібні подальші дослідження, аби зрозуміти причину зростання галюцинацій при масштабуванні моделей ШІ.

Є припущення, що проблема криється у методі навчання – підкріплювальному навчанні, яке, замість зменшення помилок, могло їх лише посилити. Такий висновок зробили дослідники з незалежної AI-лабораторії Transluce.

«Галюцинації o3 часом настільки переконливі, що модель навіть вигадувала неіснуючі дії, які вона нібито виконала», – повідомив Ніл Чоудхурі, дослідник Transluce і колишній співробітник OpenAI.

При цьому нові ШІ залишаються дуже ефективними у програмуванні. Компанія Workera вже використовує o3 у своїх розробках, хоча зазначає: модель часто надає неіснуючі посилання на сайти, які просто не працюють.

Інший напрямок боротьби з вигадками ШІ – це інтеграція з веб-пошуком. Наприклад, GPT-4o з доступом до інтернету досяг точності 90% у тесті SimpleQA. Це дає надію, що майбутні моделі зможуть краще фільтрувати неправдиву інформацію.

Попри всі недоліки, OpenAI запевняє: вони працюють над розв’язанням проблеми. Представник компанії Ніко Фелікс заявив:

«Покращення точності та зменшення галюцинацій – наш головний пріоритет у 2025 році».

Читайте також: Штучний інтелект OpenAI досяг рівня людини: GPT-4.5 успішно пройшов тест Тюрінга