Штучний інтелект розвивається настільки швидко, що традиційні академічні тести, які ще кілька років тому вважалися складними, перестали виконувати свою головну функцію — об’єктивно оцінювати можливості машинного мислення. Сучасні AI-системи дедалі частіше демонструють майже ідеальні результати на стандартних перевірках знань, змушуючи науковців поставити важливе питання: чи справді машини почали розуміти світ, чи лише навчилися добре вгадувати відповіді?
Саме для відповіді на це запитання міжнародна команда дослідників створила новий масштабний тест із символічною назвою Humanity’s Last Exam («Останній іспит людства»).
Чому старі тести більше не працюють
Багато років одним із головних орієнтирів розвитку штучного інтелекту був іспит Massive Multitask Language Understanding (MMLU). Він перевіряв знання у десятках дисциплін — від фізики до історії.
Однак із появою нових поколінь мовних моделей ситуація змінилася: системи штучного інтелекту почали отримувати майже максимальні бали. Це створило небезпечну ілюзію, ніби AI вже досяг рівня людського мислення.
Насправді високі результати часто пояснюються не глибоким розумінням, а здатністю знаходити статистичні закономірності у величезних масивах даних. Тому дослідники вирішили створити принципово інший інструмент оцінювання.
Іспит, який має перевірити межі машинного розуму
До розробки Humanity’s Last Exam долучилися майже тисяча науковців з усього світу — від математиків і програмістів до істориків, лінгвістів і медичних дослідників.
У результаті з’явився тест із 2 500 запитань, що охоплюють:
- математику та інформатику,
- природничі науки,
- гуманітарні дисципліни,
- стародавні мови,
- вузькоспеціалізовані академічні галузі.
Завдання спеціально створювалися так, щоб їх неможливо було розв’язати простим пошуком в інтернеті. Кожне питання має одну чітко перевірювану відповідь і вимагає глибокого контекстуального розуміння.
Наприклад, серед завдань — переклад давніх написів, аналіз анатомічних особливостей птахів або розбір складних фонетичних структур біблійної івритської мови.
Як перевіряли складність тесту
Перед включенням до фінальної версії кожне питання тестували на провідних AI-моделях. Якщо система правильно відповідала — завдання вилучали. Таким чином дослідники навмисно сформували іспит, який залишається трохи складнішим за можливості сучасного штучного інтелекту.
Результати показали реальну картину:
- ранні моделі демонстрували лише кілька відсотків правильних відповідей;
- новітні системи вже досягають приблизно 40–50% точності;
- однак повного володіння матеріалом вони все ще не показують.
Інакше кажучи, розрив між людською експертністю та машинним аналізом поки що зберігається.
Навіщо людству такий іспит
На перший погляд може здатися, що Humanity’s Last Exam — це змагання людей і машин. Але автори підкреслюють: його мета протилежна.
Новий тест допомагає:
- зрозуміти реальні можливості AI;
- уникнути перебільшених очікувань;
- оцінювати технологічні ризики;
- створювати безпечніші системи штучного інтелекту.
Без точних інструментів вимірювання уряди, компанії та користувачі можуть неправильно оцінювати рівень автономності або надійності AI-рішень.
Інтелект — це більше, ніж правильна відповідь
Один із ключових висновків дослідження полягає в тому, що інтелект не зводиться до розпізнавання шаблонів.
Людське мислення включає:
- контекст,
- міждисциплінарні зв’язки,
- досвід,
- інтуїцію,
- спеціалізовану експертизу.
Саме ці якості поки залишаються складними для алгоритмів. Назва «Останній іспит людства» звучить драматично, але насправді вона підкреслює інше: навіть у добу стрімкого розвитку AI людські знання залишаються критично важливими.
Іспит майбутнього
Проєкт задуманий як довготривалий еталон оцінювання. Частину запитань оприлюднили, але більшість залишили закритими, щоб моделі не могли просто запам’ятати відповіді під час навчання.
Таким чином Humanity’s Last Exam має стати своєрідним «термометром» розвитку штучного інтелекту на найближчі роки. І головний висновок поки що оптимістичний: попри вражаючий прогрес технологій, людський інтелект усе ще значно ширший і глибший за машинний — а отже, фінальний іспит для людства ще далеко не складено. Джерело
