Китайські дослідники виявили значну лазівку в безпеці широко використовуваних комерційних мультимодальних великих мовних моделей (MLLM), таких як ChatGPT, Bard і Bing Chat. Ці моделі, розгорнуті такими технологічними гігантами, як Google, Microsoft і Baidu, є фундаментальними компонентами різних програм, від віртуальних помічників до систем модерації вмісту.
Дослідники виявили, що вразливі місця в цих MLLM можна використати за допомогою маніпуляційних зображень, які дуже нагадують оригінали. Зробивши найменші зміни майже непомітними для людського ока, дослідники ефективно обійшли вбудовані фільтри моделей, призначені для відсівання токсичного або невідповідного вмісту.
Наприклад, дослідники з Пекіна виявили значну вразливість у таких моделях ШІ, як ChatGPT. Під час атаки ці моделі можуть прийняти великих панд за людей або не виявити шкідливий вміст, підкреслюючи критичний недолік безпеки в комерційних системах ШІ.
Серед постраждалих моделей Bard, оснащений механізмами виявлення обличчя та токсичності, міг генерувати невідповідні описи шкідливого вмісту в разі зламу. Китайська дослідницька група навіть надала код, який демонструє, як ці суперечливі приклади можуть ввести в оману моделі ШІ. Їхні експерименти показали 22% успіху проти Bard, 26% проти Bing Chat і приголомшливі 86% проти Ernie Bot.
Ву Чжаохуей, віце-міністр науки та технологій Китаю, звернувся до цих тривожних висновків на Глобальному саміті безпеки ШІ у Великобританії. Він підкреслив нагальну потребу в посиленні технічного контролю ризиків в управлінні штучним інтелектом, закликаючи світову спільноту усунути вразливості, виявлені в цих широко використовуваних мовних моделях.
Однією з ключових проблем, виділених у дослідженні, є існуючий дисбаланс між зусиллями, спрямованими на атаку та захист моделей ШІ. Хоча ворожі атаки привернули значну увагу, все ще бракує надійних стратегій захисту. Традиційні методи захисту можуть обходитися ціною точності та обчислювальних ресурсів, що робить обов’язковим пошук інноваційних рішень.
Щоб усунути ці вразливості, дослідники запропонували захист на основі попередньої обробки як потенційне рішення, особливо для великомасштабних моделей основи. Ці засоби захисту спрямовані на забезпечення надійності MLLM проти агресивних атак, прокладаючи шлях для майбутніх досліджень і розробок безпеки ШІ.
Це відкриття підкреслює критичну важливість вдосконалення інфраструктури безпеки технологій ШІ. Оскільки ці моделі все більше інтегруються в повсякденні додатки, важливо зміцнити їхній захист від зловмисного використання, забезпечуючи більш безпечний і надійний цифровий ландшафт для користувачів у всьому світі.
Comments