Вчені опублікували рекомендації щодо оцінювання тексту, створеного ШІ

Публічний випуск текстових генераторів штучного інтелекту, таких як ChatGPT, викликав величезний ажіотаж як серед тих, хто проголошує цю технологію великим кроком у спілкуванні, так і серед тих, хто пророкує жахливі наслідки технології. Однак текст, створений штучним інтелектом, як відомо, має помилки, і оцінка людиною залишається золотим стандартом у забезпеченні точності, особливо коли мова йде про такі програми, як створення довгих резюме складних текстів. І все ж не існує загальноприйнятих стандартів людської оцінки довгих резюме, а це означає, що навіть золотий стандарт є підозрілим.

Щоб усунути цей недолік, команда комп’ютерників на чолі з Калпешем Крішною, аспірантом Коледжу інформації та комп’ютерних наук імені Меннінга в UMass Amherst, щойно випустила набір інструкцій під назвою LongEval. Рекомендації були представлені на Європейському представництві Асоціації комп’ютерної лінгвістики, за що вони були нагороджені премією за видатну роботу.

«Наразі немає надійного способу оцінити згенерований довгий текст без участі людей, і навіть поточні протоколи оцінки людиною є дорогими, трудомісткими та дуже варіативними», — каже Крішна, який розпочав це дослідження під час стажування в Інституті ШІ Аллена. . «Відповідна структура людського оцінювання має вирішальне значення для створення більш точних алгоритмів генерації довгострокового тексту».

Крішна та його команда, в тому числі Мохіт Айєр, доцент кафедри інформатики в UMass Amherst, проаналізували 162 статті про загальне підсумовування, щоб зрозуміти, як працює людське оцінювання, і при цьому вони виявили, що 73% робіт не працюють. людська оцінка довгих резюме взагалі. В інших документах використовувалися дуже різні методи оцінювання.

«Ця відсутність стандартів є проблематичною, тому що вона перешкоджає відтворюваності та не дозволяє значуще порівнювати різні системи», — каже Айєр.

Для досягнення мети створення ефективних, відтворюваних і стандартизованих протоколів для людської оцінки підсумків, створених штучним інтелектом, Крішна та його співавтори розробили список із трьох вичерпних рекомендацій, які охоплюють те, як і що повинен читати оцінювач, щоб судити про надійність резюме.

«З LongEval я дуже в захваті від можливості точно та швидко оцінити алгоритми генерації довгострокового тексту за допомогою людей», — каже Крішна. «Ми зробили LongEval дуже простим у використанні та випустили його як бібліотеку Python. Я радий бачити, як дослідницьке співтовариство спирається на нього та використовує LongEval у своїх дослідженнях». Джерело