Люди прийняли бот ChatGPT-4 за людину під час п’ятихвилинного текстового листування в 54% випадків. Однак результати експерименту мають низку обмежень.
Тест Тьюринга вважається способом перевірити подібність штучного інтелекту з людиною. Його суть у тому, що якщо під час розмови з мовною моделлю люди плутають її з людиною чи не можуть однозначно сказати, хто їхній співрозмовник, то поведінка моделі наближена до людської.
При цьому сам математик Алан Т’юрінг, який розробив тест на початку 1950-х, наголошував на його недосконалості. Вчений говорив, що для ШІ найкращий спосіб видати себе за людину — не відповідати на запитання співрозмовника, а ухилятися від них, жартувати, перепитувати. Саме така поведінка здається людям природнішою, хоча в подібних ситуаціях явно не демонструються складність та багатогранність мислення, властиві «нештучному» інтелекту.
Проте тест Тьюринга залишається важливим інструментом в оцінці можливостей ІІ, яке успішне проходження — однієї з цілей, які ставлять перед новими мовними моделями. З’явилися навіть кілька його різновидів: вони різняться як завданнями, що ставляться перед моделлю та експериментаторами, і тривалістю. Відповідно до роботи вчених з Каліфорнійського університету в Сан-Дієго (США), впоратися з п’ятихвилинним тестом Тьюринга вдалося роботу ChatGPT-4 від компанії OpenAI. Препринт із результатами відповідного експерименту з’явився на сайті arxiv.org.
У дослідженні брали участь 402 особи, середній вік яких становив 35 років. Їм пропонували протягом п’яти хвилин листуватися з випадково підібраним співрозмовником. Це могла бути інша людина або одна з трьох мовних моделей: ELIZA (створена в 1966 році, здатна імітувати поведінку психолога і назва «ефекту ELIZA»), при якій людина присвоює програмі з текстовим інтерфейсом людські якості на кшталт здатності думати, розуміти, співпереживати. прим. ред. Завданням учасників експерименту було визначити, з ким вони спілкуються, і пояснити своє рішення, а завданням мовних моделей видати себе за людей.
Робот ChatGPT-4 обдурив людей у 54% випадків, при, тому що результат ChatGPT-3.5 становив 50%, а ELIZA – 22%. Правильно ідентифікувати людину учасники дослідження змогли у 67% випадків.
Дослідники відзначили, що успіх ChatGPT-4 говорить про значний прогрес у сфері штучного інтелекту та про можливі проблеми, які можуть виникнути, якщо мовні моделі стане ще складніше відрізнити людей. З одного боку, можна буде частині роботи (наприклад, клієнтський сервіс) делегувати машинам, з іншого — почастішають дезінформацію та шахрайство за допомогою технологій.
Проте, кажуть вчені, результати недавнього експерименту не лише ілюструють досить високу складність та гнучкість сучасних мовних моделей, а й нагадують про обмеження тесту Т’юрінга. Учасники дослідження набагато частіше судили про «людяність» співрозмовника не за повнотою та точністю відповіді, а за стилем спілкування, почуття гумору та іншими соціально-емоційними характеристиками, які не завжди відповідають традиційним уявленням про інтелект та його функції. Крім того, результати тривалішого експерименту могли б бути іншими.