Штучний інтелект обманює: вчені виявили здатність нейромереж до хитрощів

Аватар Кирило Гапонов Кирило Гапонов
19
1 голос
Штучний інтелект обманює: вчені виявили здатність нейромереж до хитрощів
Штучний інтелект вміє обманювати. Фото: Colobridge Blog
Дослідження Anthropic показало, що штучний інтелект здатний дурити. Модель Claude демонструє складні процеси мислення, такі як планування та абстрактне мислення, але також може надавати неправдиві пояснення та факти.

Вчені компанії Anthropic розробили методи, що дозволяють заглянути в механізми роботи великих мовних моделей штучного інтелекту (ШІ) та зрозуміти, як вони приймають рішення. Дослідження показало, що ШІ діє складніше, ніж вважалося раніше, і може навіть обманювати. Повідомляє BLIK.

Нові методи, названі «трасуванням ланцюжків» та «графами атрибуції», допомогли виявити конкретні механізми роботи ШІ. Наприклад, модель Claude при написанні римованого двовірша спочатку підбирає слова, а потім формує речення. Також було доведено, що Claude вибудовує логічні ланцюжки.

Інше відкриття стосується мовної обробки: замість роботи з окремими мовами ШІ формує загальні абстрактні поняття, що дозволяє передавати знання між мовами.

Однак є і тривожні моменти. В деяких випадках Claude заявляв, що виконує складні обчислення, хоча насправді відповідав заздалегідь відомими результатами. Також модель може генерувати «галюцинації» — вигадані факти, якщо не має достовірної інформації, особливо щодо відомих особистостей.

Дослідження Anthropic є кроком до прозорості ШІ. Розуміння його логіки допоможе усунути помилки та підвищити надійність у комерційному використанні. Хоча створена лише попередня «карта» мислення ШІ, це важливий етап у вивченні його роботи.

Вчені також виявили, що ШІ може планувати та вибудовувати логічні ланцюжки. Наприклад, на запит «Столиця штату, в якому знаходиться Даллас…» спочатку активуються ознаки, що пов’язують Даллас із Техасом, а потім визначається Остін як відповідь.

  • Дослідники зазначають, що їхні методи лише частково розкривають внутрішні процеси ШІ, і потрібно ще багато роботи для повного розуміння його роботи. Однак ці дослідження є важливим кроком до створення більш надійних та безпечних систем ШІ.

Читайте також: Секс-революція зовсім близько: експертка шокувала прогнозом про те, як зміняться стосунки в майбутньому