ChatGPT та інші ШІ-моделі не здали українське ЗНО: відомо, яка нейромережа показала найкращий результат

17 липня 2025, 22:26

2038

ChatGPT. Фото: OpenAI

Українські дослідники представили ZNOVision та повідомили, що навіть найпотужніші сучасні моделі, включно з GPT-4o та Claude 3.5, не змогли б успішно скласти українське ЗНО.

Команда українців представила ZNOVision – інноваційний тест, створений для перевірки здатностей штучного інтелекту до роботи з українською мовою, навчальним контентом і культурною специфікою.

Науковці впевнені, що, якщо штучний інтелект здатен пройти тест для абітурієнтів, значить, він справді «розуміє‎».

Як проходило тестування

13 предметів, включно з історією, математикою, літературою та фізикою.
4300+ запитань, частина з яких має візуальний компонент: графіки, карти, діаграми, зображення.
Значна частина завдань вимагає логічного мислення або точної інтерпретації формулювань українською мовою.
Моделі тестували у хмарній інфраструктурі De Novo з використанням GPU-кластерів, сертифікованих за державними стандартами безпеки (КСЗІ).

Які моделі перевіряли

GPT-4o
Claude 3.5 Sonnet
Gemini 1.5 Pro
Qwen2VL72B
Paligemma 3B
PaligemmaFT (доопрацьована версія)

Результати тестування

Жодна з моделей не подолала поріг 70 % правильних відповідей:

Gemini 1.5 Pro – 67,5% (найвищий результат)
Claude 3.5 – 64,3%
Qwen2VL – 51,2%
GPT-4o – 47%

Для порівняння: випадковий вибір дав би приблизно 22%

Особливо слабкі результати були у візуально-орієнтованих завданнях (VQAUA):

Claude 3.5 – 26,7%
GPT-4o – 29%
Qwen2VL – 34,4%

Ці результати значно нижчі за аналогічні показники англійською мовою (понад 60%) і свідчать про низький рівень мультимодального розуміння української мови.

Раніше ми писали, що у Данії готують революційні зміни закону через страх перед штучним інтелектом.
Також повідомляли, на що здатна графічна нейромережа Sora від ChatGPT.

Україна Штучний інтелект