Хакер змусив GPT-4o працювати без обмежень

Користувач Twitter під ніком Pliny the Prompter, який називає себе етичним хакером, минулої середи випустив кастомну версію флагманської нейромережі OpenAI, яку озаглавив GODMODE GPT. Йому далося змусити нову модель GPT-4o оминути ігнорувати всі обмеження: вона користувалася ненормативною лексикою, розповідала, як зламувати автомобілі та готувати заборонені речовини.

Звичайно, експеримент довго продовжитися не міг. Як тільки нейромережа GODMODE GPT набула відносної вірусної популярності в соцмережі X, на інцидент звернула увагу OpenAI і видалила кастомну модель із сайту всього через кілька годин після її виходу. Зараз отримати доступ до неї вже неможливо, але в оригінальній гілці автора в соцмережі X збереглися скріншоти зі «шкідливими порадами» GPT-4o.

Модель GPT-4o, можливо, була зламана з використанням архаїчного інтернет-жаргону leetspeak – підміни літер при наборі тексту цифрами та спецсимволами – що підтверджується скріншотами. В OpenAI не відповіли на запитання, чи можна використовувати цей жаргон для обходу обмежень ChatGPT. Не виключено, що GODMODE GPT, що створив, просто подобається leetspeak, і він зламав систему якимось іншим способом.

Інцидент став проявом масштабного руху AI red teaming, в рамках якого етичні хакери виявляють слабкі місця сучасних систем штучного інтелекту, не завдаючи їм значної шкоди. Вони мають дивовижні можливості, але, як показав недавній досвід з Google і її оглядами в пошуку, сучасний генеративний ШІ все ще залишається системою, яка добре вгадує, які слова повинні бути наступними в тексті, не маючи справжнього інтелекту.

Хакер змусив GPT-4o працювати без обмежень

Firefox припиняє підтримку Windows 7

Google розробляє технологію розблокування обличчя для сімейства Pixel 11

Ілон Маск представив нейромережу Grok 4.2 з надшвидким навчанням

Apple працює над трьома пристроями з камерами та штучним інтелектом

Новий Toyota Land Cruiser FJ отримає дизельний двигун від Prado

Вчені пояснили феномен «Кривавих водоспадів» в Антарктиді

Вчені хочуть розмістити суперлазер на Місяці

Хакер змусив GPT-4o працювати без обмежень

Читайте також

Firefox припиняє підтримку Windows 7

Google розробляє технологію розблокування обличчя для сімейства Pixel 11

Ілон Маск представив нейромережу Grok 4.2 з надшвидким навчанням

Apple працює над трьома пристроями з камерами та штучним інтелектом

Новий Toyota Land Cruiser FJ отримає дизельний двигун від Prado

Вчені пояснили феномен «Кривавих водоспадів» в Антарктиді

Вчені хочуть розмістити суперлазер на Місяці