ChatGPT та інші ШІ-моделі не здали українське ЗНО: відомо, яка нейромережа показала найкращий результат
Українські дослідники представили ZNOVision та повідомили, що навіть найпотужніші сучасні моделі, включно з GPT-4o та Claude 3.5, не змогли б успішно скласти українське ЗНО.
Команда українців представила ZNOVision – інноваційний тест, створений для перевірки здатностей штучного інтелекту до роботи з українською мовою, навчальним контентом і культурною специфікою.
Науковці впевнені, що, якщо штучний інтелект здатен пройти тест для абітурієнтів, значить, він справді «розуміє».
Як проходило тестування
- 13 предметів, включно з історією, математикою, літературою та фізикою.
- 4300+ запитань, частина з яких має візуальний компонент: графіки, карти, діаграми, зображення.
- Значна частина завдань вимагає логічного мислення або точної інтерпретації формулювань українською мовою.
- Моделі тестували у хмарній інфраструктурі De Novo з використанням GPU-кластерів, сертифікованих за державними стандартами безпеки (КСЗІ).
Які моделі перевіряли
- GPT-4o
- Claude 3.5 Sonnet
- Gemini 1.5 Pro
- Qwen2VL72B
- Paligemma 3B
- PaligemmaFT (доопрацьована версія)
Результати тестування
Жодна з моделей не подолала поріг 70 % правильних відповідей:
- Gemini 1.5 Pro – 67,5% (найвищий результат)
- Claude 3.5 – 64,3%
- Qwen2VL – 51,2%
- GPT-4o – 47%
Для порівняння: випадковий вибір дав би приблизно 22%
Особливо слабкі результати були у візуально-орієнтованих завданнях (VQAUA):
- Claude 3.5 – 26,7%
- GPT-4o – 29%
- Qwen2VL – 34,4%
Ці результати значно нижчі за аналогічні показники англійською мовою (понад 60%) і свідчать про низький рівень мультимодального розуміння української мови.
- Раніше ми писали, що у Данії готують революційні зміни закону через страх перед штучним інтелектом.
- Також повідомляли, на що здатна графічна нейромережа Sora від ChatGPT.