ChatGPT пройшов п’ятихвилинний тест Тьюринга

Люди прийняли бот ChatGPT-4 за людину під час п’ятихвилинного текстового листування в 54% випадків. Однак результати експерименту мають низку обмежень.

Тест Тьюринга вважається способом перевірити подібність штучного інтелекту з людиною. Його суть у тому, що якщо під час розмови з мовною моделлю люди плутають її з людиною чи не можуть однозначно сказати, хто їхній співрозмовник, то поведінка моделі наближена до людської.

При цьому сам математик Алан Т’юрінг, який розробив тест на початку 1950-х, наголошував на його недосконалості. Вчений говорив, що для ШІ найкращий спосіб видати себе за людину — не відповідати на запитання співрозмовника, а ухилятися від них, жартувати, перепитувати. Саме така поведінка здається людям природнішою, хоча в подібних ситуаціях явно не демонструються складність та багатогранність мислення, властиві «нештучному» інтелекту.

Проте тест Тьюринга залишається важливим інструментом в оцінці можливостей ІІ, яке успішне проходження — однієї з цілей, які ставлять перед новими мовними моделями. З’явилися навіть кілька його різновидів: вони різняться як завданнями, що ставляться перед моделлю та експериментаторами, і тривалістю. Відповідно до роботи вчених з Каліфорнійського університету в Сан-Дієго (США), впоратися з п’ятихвилинним тестом Тьюринга вдалося роботу ChatGPT-4 від компанії OpenAI. Препринт із результатами відповідного експерименту з’явився на сайті arxiv.org.

У дослідженні брали участь 402 особи, середній вік яких становив 35 років. Їм пропонували протягом п’яти хвилин листуватися з випадково підібраним співрозмовником. Це могла бути інша людина або одна з трьох мовних моделей: ELIZA (створена в 1966 році, здатна імітувати поведінку психолога і назва «ефекту ELIZA»), при якій людина присвоює програмі з текстовим інтерфейсом людські якості на кшталт здатності думати, розуміти, співпереживати. прим. ред. Завданням учасників експерименту було визначити, з ким вони спілкуються, і пояснити своє рішення, а завданням мовних моделей видати себе за людей.

Робот ChatGPT-4 обдурив людей у 54% випадків, при, тому що результат ChatGPT-3.5 становив 50%, а ELIZA – 22%. Правильно ідентифікувати людину учасники дослідження змогли у 67% випадків.

Дослідники відзначили, що успіх ChatGPT-4 говорить про значний прогрес у сфері штучного інтелекту та про можливі проблеми, які можуть виникнути, якщо мовні моделі стане ще складніше відрізнити людей. З одного боку, можна буде частині роботи (наприклад, клієнтський сервіс) делегувати машинам, з іншого — почастішають дезінформацію та шахрайство за допомогою технологій.

Проте, кажуть вчені, результати недавнього експерименту не лише ілюструють досить високу складність та гнучкість сучасних мовних моделей, а й нагадують про обмеження тесту Т’юрінга. Учасники дослідження набагато частіше судили про «людяність» співрозмовника не за повнотою та точністю відповіді, а за стилем спілкування, почуття гумору та іншими соціально-емоційними характеристиками, які не завжди відповідають традиційним уявленням про інтелект та його функції. Крім того, результати тривалішого експерименту могли б бути іншими.

ChatGPT пройшов п’ятихвилинний тест Тьюринга

Україна розробляє оновлену версію класичного оборонного укриття

Новий мотор із пластику кидає виклик класичній інженерії

Інженери створили «суперсплав» удвічі міцніший за сталь

iPhone Ultra представлять окремо від iPhone 18

Єллоустон здивував новим феноменом: з’явилася «кипляча яма»

Volkswagen готується закрити чотири заводи

Вчені знайшли докази існування гігантських магматичних систем всередині Марса

ChatGPT пройшов п’ятихвилинний тест Тьюринга

Читайте також

Україна розробляє оновлену версію класичного оборонного укриття

Новий мотор із пластику кидає виклик класичній інженерії

Інженери створили «суперсплав» удвічі міцніший за сталь

iPhone Ultra представлять окремо від iPhone 18

Єллоустон здивував новим феноменом: з’явилася «кипляча яма»

Volkswagen готується закрити чотири заводи

Вчені знайшли докази існування гігантських магматичних систем всередині Марса