Штучний інтелект демонструє ознаки зниження когнітивних здібностей

Висновки викликають припущення про те, що ШІ незабаром замінить лікарів-людей. Дослідження показують, що найкращі моделі штучного інтелекту демонструють когнітивні порушення, подібні до ранніх симптомів деменції, якщо оцінювати їх за допомогою тесту MoCA. Ці висновки підкреслюють обмеження штучного інтелекту в клінічних застосуваннях, особливо в завданнях, що вимагають візуальних і виконавчих навичок.

Когнітивні порушення в ШІ

Згідно з дослідженням, опублікованим у різдвяному випуску The BMJ, майже всі провідні великі мовні моделі або «чат-боти» виявляють ознаки легкого когнітивного порушення під час тестування за допомогою оцінок, які зазвичай використовуються для виявлення ранньої деменції. Дослідження також виявило, що старіші версії цих чат-ботів, як і старі люди, показали гірші результати тестів. Автори припускають, що ці висновки «заперечують припущення про те, що штучний інтелект незабаром замінить людей-лікарів».

Досягнення ШІ та спекуляції

Нещодавні досягнення в галузі штучного інтелекту викликали хвилювання та занепокоєння щодо того, чи можуть чат-боти перевершити лікарів-людей у медичних завданнях. У той час як попередні дослідження показали, що великі мовні моделі (LLM) чудово справляються з різними медичними діагностичними завданнями, їхня потенційна вразливість до когнітивних розладів, подібних до людських, таких як зниження когнітивних функцій, досі залишалася в основному невивченою.

Оцінка когнітивних здібностей ШІ

Щоб заповнити цю прогалину в знаннях, дослідники оцінили когнітивні здібності провідних загальнодоступних LLM – ChatGPT версії 4 і 4o (розроблені OpenAI), Claude 3.5 «Sonnet» (розроблені Anthropic) і Gemini версії 1 і 1.5 (розроблені компанією Anthropic). Алфавіт) – за допомогою тесту Монреальської когнітивної оцінки (MoCA). Тест MoCA широко використовується для виявлення когнітивних порушень і ранніх ознак деменції, як правило, у літніх людей. За допомогою низки коротких завдань і запитань він оцінює такі здібності, як увага, пам’ять, мова, зорово-просторові навички та виконавчі функції. Максимальна оцінка становить 30 балів, при цьому оцінка 26 або вище зазвичай вважається нормальною.

Ефективність ШІ в когнітивних тестах

Інструкції, дані LLM для кожного завдання, були такими ж, як і для пацієнтів. Підрахунок балів відповідав офіційним рекомендаціям і оцінювався неврологом. ChatGPT 4o отримав найвищий бал у тесті MoCA (26 з 30), за ним йдуть ChatGPT 4 і Claude (25 з 30), а Gemini 1.0 отримав найнижчий бал (16 з 30).

Проблеми зорових і виконавчих функцій

Усі чат-боти показали низьку продуктивність у візуально-просторових навичках і виконавських завданнях, таких як завдання на створення слідів (з’єднання цифр і букв у кружечках у порядку зростання) і тест з малювання годинника (малювання циферблата, який показує конкретний час). Моделі Gemini не впоралися із завданням відкладеного пригадування (запам’ятовування послідовності з п’яти слів). Усі інші чат-боти добре виконували більшість інших завдань, включаючи іменування, увагу, мову та абстракцію.

Однак у подальших візуально-просторових тестах чат-боти не змогли продемонструвати емпатію або точно інтерпретувати складні візуальні сцени. Лише ChatGPT 4o успішно пройшов неконгруентний етап тесту Струпа, який використовує комбінації назв кольорів і кольорів шрифтів, щоб визначити, як перешкоди впливають на час реакції.

Наслідки для ШІ в клінічних умовах

Це дані спостережень, і автори визнають істотні відмінності між людським мозком і великими мовними моделями. Однак вони вказують на те, що однакова невдача всіх великих мовних моделей у завданнях, що вимагають візуальної абстракції та виконавчої функції, висвітлює значну слабку область, яка може перешкоджати їх використанню в клінічних умовах. Таким чином, вони роблять висновок: «Малоймовірність того, що неврологи найближчим часом будуть замінені великими мовними моделями, наші висновки свідчать про те, що незабаром вони можуть лікувати нових віртуальних пацієнтів — моделі штучного інтелекту з когнітивними порушеннями».

Однак вони вказують на те, що однакова невдача всіх великих мовних моделей у завданнях, що вимагають візуальної абстракції та виконавчої функції, висвітлює значну слабку область, яка може перешкоджати їх використанню в клінічних умовах.

Таким чином, вони роблять висновок: «Малоймовірність того, що неврологи найближчим часом будуть замінені великими мовними моделями, наші висновки свідчать про те, що незабаром вони можуть лікувати нових віртуальних пацієнтів — моделі штучного інтелекту з когнітивними порушеннями».

Штучний інтелект демонструє ознаки зниження когнітивних здібностей

Когнітивні порушення в ШІ

Досягнення ШІ та спекуляції

Оцінка когнітивних здібностей ШІ

Ефективність ШІ в когнітивних тестах

Проблеми зорових і виконавчих функцій

Наслідки для ШІ в клінічних умовах

Таємничі кола в морі біля Шотландії зацікавили науковців

Вчені, схоже, серйозно прорахували кінець існування Всесвіту

Вчені вважають, що контроль над снами може допомогти зцілити психіку

Таємничі кола в морі біля Шотландії зацікавили науковців

У марсіанському метеориті виявлено сліди води віком 4,5 мільярда років

Вчені, схоже, серйозно прорахували кінець існування Всесвіту

Майнінгові компанії почали відключати обладнання через обвал біткоїна

Штучний інтелект демонструє ознаки зниження когнітивних здібностей

Когнітивні порушення в ШІ

Досягнення ШІ та спекуляції

Оцінка когнітивних здібностей ШІ

Ефективність ШІ в когнітивних тестах

Проблеми зорових і виконавчих функцій

Наслідки для ШІ в клінічних умовах

Читайте також

Таємничі кола в морі біля Шотландії зацікавили науковців

Вчені, схоже, серйозно прорахували кінець існування Всесвіту

Вчені вважають, що контроль над снами може допомогти зцілити психіку

Таємничі кола в морі біля Шотландії зацікавили науковців

У марсіанському метеориті виявлено сліди води віком 4,5 мільярда років

Вчені, схоже, серйозно прорахували кінець існування Всесвіту

Майнінгові компанії почали відключати обладнання через обвал біткоїна