ChatGPT не склав іспити з бухгалтерського обліку

Минулого місяця OpenAI представила свій останній продукт чат-бота AI GPT-4. Компанія стверджує, що бот, який використовує машинне навчання для створення тексту в стилі природної мови, показав винятково хороші результати на різних іспитах. Зокрема, він отримав 90-й процентиль на адвокатському іспиті, склав 13 із 15 іспитів AP і отримав майже ідеальний бал на словесному тесті GRE.

Вчені з Університету Бригама Янга та 186 інших установ цікавилися ефективністю технології OpenAI на іспитах з бухгалтерського обліку. Тому вони протестували оригінальну модель ChatGPT. Дослідники заявили, що хоча ChatGPT все ще потребує вдосконалення у сфері бухгалтерського обліку, він має потенціал революціонізувати спосіб навчання та навчання на краще.

«Коли ця технологія з’явилася вперше, усі хвилювалися, що студенти тепер можуть використовувати її для обману», — сказав провідний автор дослідження Девід Вуд, професор бухгалтерського обліку BYU. «Але можливості для обману були завжди. Тому для нас ми намагаємося зосередитися на тому, що ми можемо зробити з цією технологією зараз, чого ми не могли зробити раніше, щоб покращити навчальний процес для викладачів і навчальний процес для студентів. Тестування відкрило очі».

З моменту свого дебюту в листопаді 2022 року ChatGPT став найшвидше зростаючою технологічною платформою, охопивши 100 мільйонів користувачів менш ніж за два місяці. У відповідь на гострі дебати про те, як такі моделі, як ChatGPT, мають впливати на освіту, Вуд вирішив залучити якомога більше професорів, щоб побачити, як штучний інтелект справляється зі студентами-бухгалтерами університетів.

Його заява про набір співавторів у соціальних мережах вибухнула: 327 співавторів зі 186 навчальних закладів у 14 країнах взяли участь у дослідженні, надавши 25 181 запитання до іспиту з бухгалтерського обліку. Вони також залучили студентів бакалаврату BYU (включаючи доньку Вуда, Джессіку), щоб надати ChatGPT ще 2268 запитань із тестового банку підручників. Питання стосувалися інформаційних систем бухгалтерського обліку (АІС), аудиту, фінансового обліку, управлінського обліку та оподаткування, і були різними за складністю та типом (правда/неправда, кілька варіантів відповіді, коротка відповідь тощо).

Хоча продуктивність ChatGPT була вражаючою, студенти виступили краще. Студенти набрали загальний середній бал 76,7%, у порівнянні з результатом ChatGPT 47,4%. За 11,3% запитань ChatGPT отримав вищу оцінку, ніж середній показник для студентів, особливо добре показуючи AIS та аудит. Але бот AI гірше справлявся з податковими, фінансовими та управлінськими оцінками, можливо, через те, що ChatGPT мав проблеми з математичними процесами, необхідними для останнього типу.

Що стосується типу запитання, ChatGPT показав кращий результат із запитаннями «правда/неправда» (68,7% правильних) і запитаннями з кількома варіантами відповіді (59,5%), але було важко із запитаннями з короткою відповіддю (від 28,7% до 39,1%). Загалом ChatGPT було важче відповісти на питання вищого рівня. Насправді іноді ChatGPT надає авторитетні письмові описи для неправильних відповідей або відповідає на те саме запитання різними способами.

«Це не ідеально; ти не збираєшся використовувати його для всього», — сказала Джессіка Вуд, яка зараз навчається на першому курсі BYU. «Спроба вчитися виключно за допомогою ChatGPT — це дурна справа».

У ході дослідження дослідники також виявили деякі інші захоплюючі тенденції, зокрема:

ChatGPT не завжди розпізнає, коли виконує математику, і допускає безглузді помилки, як-от додавання двох чисел у задачі на віднімання або неправильне ділення чисел.
ChatGPT часто надає пояснення до своїх відповідей, навіть якщо вони неправильні. В інших випадках описи ChatGPT є точними, але потім він переходить до вибору неправильної відповіді з кількома варіантами вибору.
ChatGPT іноді вигадує факти. Наприклад, надаючи посилання, він генерує справжнє посилання, яке є повністю сфабрикованим. Твору, а часом і авторів навіть не існує.

Тим не менш, автори повністю очікують, що GPT-4 експоненціально покращить питання бухгалтерського обліку, поставлені в їх дослідженні, і проблеми, згадані вище. Найбільш багатообіцяючим вони вважають те, як чат-бот може допомогти покращити викладання та навчання, включаючи можливість розробляти та тестувати завдання, або, можливо, використовувати для написання частин проекту.

«Це можливість поміркувати над тим, чи навчаємо ми додаткову інформацію, чи ні», — сказала співавтор дослідження та професор бухгалтерського обліку BYU Мелісса Ларсон. «Це зрив, і ми повинні оцінити, куди ми рухаємося далі. Звичайно, я все ще буду мати TA, але це змусить нас використовувати їх різними способами».

ChatGPT не склав іспити з бухгалтерського обліку

Вчені навчилися переробляти пластик за допомогою лише води та кисню

Вчені створили електроди, які можна наносити як фарбу для «розумного» одягу

Вчені створили «плащ-невидимку», який ховає об’єкти від тепловізорів

Вчені навчилися переробляти пластик за допомогою лише води та кисню

Asus представила нову док-станцію USB-C з 11 портами

Чорне море змінює колір: NASA пояснило природу рідкісного бірюзового явища

Новий експрес-тест точно виявляє віруси, що переносяться комарами

ChatGPT не склав іспити з бухгалтерського обліку

Читайте також

Вчені навчилися переробляти пластик за допомогою лише води та кисню

Вчені створили електроди, які можна наносити як фарбу для «розумного» одягу

Вчені створили «плащ-невидимку», який ховає об’єкти від тепловізорів

Вчені навчилися переробляти пластик за допомогою лише води та кисню

Asus представила нову док-станцію USB-C з 11 портами

Чорне море змінює колір: NASA пояснило природу рідкісного бірюзового явища

Новий експрес-тест точно виявляє віруси, що переносяться комарами