ChatGPT склав іспит Радиологічної ради

Згідно з дослідженнями, опублікованими в журналі Радіологічного товариства Північної Америки, остання версія ChatGPT, чат-бота зі штучним інтелектом, розробленого для інтерпретації мови та генерації відповідей, успішно склала іспит у стилі радиологічної дошки, демонструючи як потенціал, так і обмеження.

Згідно з двома новими дослідженнями, опублікованими в Radiology, журналі Радіологічного товариства Північної Америки (RSNA), остання версія ChatGPT пройшла іспит у стилі радиологічної дошки, підкреслюючи потенціал великих мовних моделей, але також виявляючи обмеження, які перешкоджають надійності.

ChatGPT — це чат-бот зі штучним інтелектом (ШІ), який використовує модель глибокого навчання, щоб розпізнавати закономірності та зв’язки між словами у своїх величезних навчальних даних, щоб генерувати відповіді, схожі на людину, на основі підказки. Але оскільки в його навчальних даних немає джерела правди, інструмент може генерувати відповіді, які фактично є неправильними.

«Використання великих мовних моделей, таких як ChatGPT, стрімко зростає і буде тільки збільшуватися», — сказав провідний автор Раджеш Бхаяна, доктор медичних наук, FRCPC, абдомінальний рентгенолог і провідний технолог в University Medical Imaging Toronto, Toronto General Hospital в Торонто, Канада. «Наше дослідження дає змогу зрозуміти продуктивність ChatGPT у радіологічному контексті, підкреслюючи неймовірний потенціал великих мовних моделей разом із поточними обмеженнями, які роблять його ненадійним».

Нещодавно ChatGPT було названо найшвидше зростаючою споживчою програмою в історії, і подібні чат-боти включаються в такі популярні пошукові системи, як Google і Bing, які лікарі та пацієнти використовують для пошуку медичної інформації, зазначив доктор Бхаяна.

Щоб оцінити його ефективність на питаннях іспиту радіологічної комісії та дослідити сильні сторони та обмеження, доктор Бхаяна та його колеги спочатку протестували ChatGPT на основі GPT-3.5, наразі найпоширенішої версії. Дослідники використали 150 запитань із варіантами відповідей, розроблених відповідно до стилю, змісту та складності іспитів Канадського королівського коледжу та Американської ради радіології.

Запитання не включали зображень і були згруповані за типом запитання, щоб отримати уявлення про продуктивність: мислення нижчого рівня (пригадування знань, базове розуміння) і вищого порядку (застосування, аналіз, синтез). Питання вищого порядку мислення були далі підкласифіковані за типом (опис результатів візуалізації, клінічне лікування, обчислення та класифікація, асоціації захворювань). Ефективність ChatGPT оцінювалася в цілому, а також за типом запитання та темою. Також оцінювалася впевненість мови у відповідях.

Дослідники виявили, що ChatGPT на основі GPT-3.5 дав правильні відповіді на 69% питань (104 із 150), що близько до прохідного балу 70%, який використовується Королівським коледжем у Канаді. Модель показала відносно хороші результати в питаннях, що вимагали мислення нижчого рівня (84%, 51 з 61), але було важко з питаннями, що включали мислення вищого рівня (60%, 53 з 89). Точніше, він боровся з питаннями вищого порядку, пов’язаними з описом отриманих зображень (61%, 28 з 46), обчисленням і класифікацією (25%, 2 з 8) і застосуванням концепцій (30%, 3 з 10). Його низька продуктивність у питаннях мислення вищого порядку не була дивною, враховуючи відсутність спеціальної попередньої підготовки з радіології.

GPT-4 було випущено в березні 2023 року в обмеженій формі для платних користувачів, зокрема стверджуючи, що він покращив розширені можливості міркування порівняно з GPT-3.5.

У подальшому дослідженні GPT-4 правильно відповів на 81% (121 із 150) тих самих питань, перевершивши GPT-3,5 і перевищивши поріг проходження в 70%. GPT-4 показав набагато кращий результат, ніж GPT-3.5, у питаннях вищого рівня мислення (81%), точніше тих, що передбачають опис результатів зображень (85%) і застосування концепцій (90%).

Отримані дані свідчать про те, що заявлені покращені можливості розширеного міркування GPT-4 сприяють підвищенню продуктивності в контексті радіології. Вони також пропонують покращене контекстне розуміння специфічної радіологічної термінології, включаючи описи зображень, що має вирішальне значення для подальших застосувань у майбутньому.

«Наше дослідження демонструє вражаюче покращення ефективності ChatGPT у радіології за короткий проміжок часу, підкреслюючи зростаючий потенціал великих мовних моделей у цьому контексті», — сказав доктор Бхаяна.

GPT-4 не продемонстрував покращення у питаннях нижчого рівня мислення (80% проти 84%) і відповів неправильно на 12 запитань, на які GPT-3.5 відповів правильно, що викликає питання щодо його надійності для збору інформації.

«Спочатку ми були здивовані точними та впевненими відповідями ChatGPT на деякі складні радіологічні запитання, але потім були не менш здивовані деякими дуже нелогічними та неточними твердженнями», — сказав доктор Бхаяна. «Звичайно, враховуючи, як працюють ці моделі, неточні відповіді не повинні викликати особливого подиву».

Небезпечна тенденція ChatGPT виробляти неточні відповіді, що називається галюцинаціями, менш поширена в GPT-4, але все ще обмежує використання в медичній освіті та практиці на цей час. Обидва дослідження показали, що ChatGPT постійно використовував впевнену мову, навіть якщо вона була неправильною. Це особливо небезпечно, якщо покладатися лише на інформацію, зазначає доктор Бхаяна, особливо для новачків, які можуть не розпізнати впевнені неправильні відповіді як неточні.