Штучний інтелект обманює: вчені виявили здатність нейромереж до хитрощів

Вчені компанії Anthropic розробили методи, що дозволяють заглянути в механізми роботи великих мовних моделей штучного інтелекту (ШІ) та зрозуміти, як вони приймають рішення. Дослідження показало, що ШІ діє складніше, ніж вважалося раніше, і може навіть обманювати. Повідомляє BLIK.
Нові методи, названі «трасуванням ланцюжків» та «графами атрибуції», допомогли виявити конкретні механізми роботи ШІ. Наприклад, модель Claude при написанні римованого двовірша спочатку підбирає слова, а потім формує речення. Також було доведено, що Claude вибудовує логічні ланцюжки.
Інше відкриття стосується мовної обробки: замість роботи з окремими мовами ШІ формує загальні абстрактні поняття, що дозволяє передавати знання між мовами.
Однак є і тривожні моменти. В деяких випадках Claude заявляв, що виконує складні обчислення, хоча насправді відповідав заздалегідь відомими результатами. Також модель може генерувати «галюцинації» — вигадані факти, якщо не має достовірної інформації, особливо щодо відомих особистостей.
Дослідження Anthropic є кроком до прозорості ШІ. Розуміння його логіки допоможе усунути помилки та підвищити надійність у комерційному використанні. Хоча створена лише попередня «карта» мислення ШІ, це важливий етап у вивченні його роботи.
Вчені також виявили, що ШІ може планувати та вибудовувати логічні ланцюжки. Наприклад, на запит «Столиця штату, в якому знаходиться Даллас…» спочатку активуються ознаки, що пов’язують Даллас із Техасом, а потім визначається Остін як відповідь.
- Дослідники зазначають, що їхні методи лише частково розкривають внутрішні процеси ШІ, і потрібно ще багато роботи для повного розуміння його роботи. Однак ці дослідження є важливим кроком до створення більш надійних та безпечних систем ШІ.
Читайте також: Секс-революція зовсім близько: експертка шокувала прогнозом про те, як зміняться стосунки в майбутньому