ChatGPT пройшов п’ятихвилинний тест Тьюринга

Люди прийняли бот ChatGPT-4 за людину під час п’ятихвилинного текстового листування в 54% випадків. Однак результати експерименту мають низку обмежень.

Тест Тьюринга вважається способом перевірити подібність штучного інтелекту з людиною. Його суть у тому, що якщо під час розмови з мовною моделлю люди плутають її з людиною чи не можуть однозначно сказати, хто їхній співрозмовник, то поведінка моделі наближена до людської.

При цьому сам математик Алан Т’юрінг, який розробив тест на початку 1950-х, наголошував на його недосконалості. Вчений говорив, що для ШІ найкращий спосіб видати себе за людину — не відповідати на запитання співрозмовника, а ухилятися від них, жартувати, перепитувати. Саме така поведінка здається людям природнішою, хоча в подібних ситуаціях явно не демонструються складність та багатогранність мислення, властиві «нештучному» інтелекту.

Проте тест Тьюринга залишається важливим інструментом в оцінці можливостей ІІ, яке успішне проходження — однієї з цілей, які ставлять перед новими мовними моделями. З’явилися навіть кілька його різновидів: вони різняться як завданнями, що ставляться перед моделлю та експериментаторами, і тривалістю. Відповідно до роботи вчених з Каліфорнійського університету в Сан-Дієго (США), впоратися з п’ятихвилинним тестом Тьюринга вдалося роботу ChatGPT-4 від компанії OpenAI. Препринт із результатами відповідного експерименту з’явився на сайті arxiv.org.

У дослідженні брали участь 402 особи, середній вік яких становив 35 років. Їм пропонували протягом п’яти хвилин листуватися з випадково підібраним співрозмовником. Це могла бути інша людина або одна з трьох мовних моделей: ELIZA (створена в 1966 році, здатна імітувати поведінку психолога і назва «ефекту ELIZA»), при якій людина присвоює програмі з текстовим інтерфейсом людські якості на кшталт здатності думати, розуміти, співпереживати. прим. ред. Завданням учасників експерименту було визначити, з ким вони спілкуються, і пояснити своє рішення, а завданням мовних моделей видати себе за людей.

Робот ChatGPT-4 обдурив людей у 54% випадків, при, тому що результат ChatGPT-3.5 становив 50%, а ELIZA – 22%. Правильно ідентифікувати людину учасники дослідження змогли у 67% випадків.

Дослідники відзначили, що успіх ChatGPT-4 говорить про значний прогрес у сфері штучного інтелекту та про можливі проблеми, які можуть виникнути, якщо мовні моделі стане ще складніше відрізнити людей. З одного боку, можна буде частині роботи (наприклад, клієнтський сервіс) делегувати машинам, з іншого — почастішають дезінформацію та шахрайство за допомогою технологій.

Проте, кажуть вчені, результати недавнього експерименту не лише ілюструють досить високу складність та гнучкість сучасних мовних моделей, а й нагадують про обмеження тесту Т’юрінга. Учасники дослідження набагато частіше судили про «людяність» співрозмовника не за повнотою та точністю відповіді, а за стилем спілкування, почуття гумору та іншими соціально-емоційними характеристиками, які не завжди відповідають традиційним уявленням про інтелект та його функції. Крім того, результати тривалішого експерименту могли б бути іншими.

ChatGPT пройшов п’ятихвилинний тест Тьюринга

Вчені створили мікрочипи, натхненні роботою людського мозку

Вчені знайшли матеріали, що зроблять мікроелектроніку значно економнішою

Представлений перший гуманоїдний робот із шістьма руками

Вчені створили пристрій, який генерує електрику з обертання Землі

Супутник NASA зафіксував спалах яскравого життя в коричневій пустелі

Час зупинився: зниклого чоловіка знайшли після 28 років у льодовику

Еволюція під тиском середовища: як контекст змінює результат

ChatGPT пройшов п’ятихвилинний тест Тьюринга

Читайте також

Вчені створили мікрочипи, натхненні роботою людського мозку

Вчені знайшли матеріали, що зроблять мікроелектроніку значно економнішою

Представлений перший гуманоїдний робот із шістьма руками

Вчені створили пристрій, який генерує електрику з обертання Землі

Супутник NASA зафіксував спалах яскравого життя в коричневій пустелі

Час зупинився: зниклого чоловіка знайшли після 28 років у льодовику

Еволюція під тиском середовища: як контекст змінює результат