Техно

ChatGPT та інші ШІ-моделі не здали українське ЗНО: відомо, яка нейромережа показала найкращий результат

Євген Чепур
1524
1
ChatGPT. Фото: OpenAI
Українські дослідники представили ZNOVision та повідомили, що навіть найпотужніші сучасні моделі, включно з GPT-4o та Claude 3.5, не змогли б успішно скласти українське ЗНО.

Команда українців представила ZNOVision – інноваційний тест, створений для перевірки здатностей штучного інтелекту до роботи з українською мовою, навчальним контентом і культурною специфікою. 

Науковці впевнені, що, якщо штучний інтелект здатен пройти тест для абітурієнтів, значить, він справді «розуміє‎».

Як проходило тестування

  • 13 предметів, включно з історією, математикою, літературою та фізикою.
  • 4300+ запитань, частина з яких має візуальний компонент: графіки, карти, діаграми, зображення.
  • Значна частина завдань вимагає логічного мислення або точної інтерпретації формулювань українською мовою.
  • Моделі тестували у хмарній інфраструктурі De Novo з використанням GPU-кластерів, сертифікованих за державними стандартами безпеки (КСЗІ).

Які моделі перевіряли

  1. GPT-4o
  2. Claude 3.5 Sonnet
  3. Gemini 1.5 Pro
  4. Qwen2VL72B
  5. Paligemma 3B
  6. PaligemmaFT (доопрацьована версія)

Результати тестування

Жодна з моделей не подолала поріг 70 % правильних відповідей:

  1. Gemini 1.5 Pro – 67,5% (найвищий результат)
  2. Claude 3.5 – 64,3%
  3. Qwen2VL – 51,2%
  4. GPT-4o – 47%

Для порівняння: випадковий вибір дав би приблизно 22%

Особливо слабкі результати були у візуально-орієнтованих завданнях (VQAUA):

  • Claude 3.5 – 26,7%
  • GPT-4o – 29%
  • Qwen2VL – 34,4%

Ці результати значно нижчі за аналогічні показники англійською мовою (понад 60%) і свідчать про низький рівень мультимодального розуміння української мови.