Исследователи из Наньянского технологического университета (NTU) в Сингапуре разработали метод обхода этических ограничений у нескольких чат-ботов с искусственным интеллектом (ИИ), таких как ChatGPT, Google Bard и Microsoft Copilot. Эта работа была опубликована в научном журнале Computer Science (CS).

Исследователи обходят этические ограничения ИИ ChatGPT и Google Bard
Изображение взято с: pxhere

Ученые-компьютерщики обучили свою нейросеть, основанную на большой языковой модели (LLM), используемой в интеллектуальных чат-ботах. Этот алгоритм, который они назвали Masterkey (универсальный ключ), способен генерировать подсказки для обхода ограничений, внедренных разработчиками ИИ. Эти ограничения предназначены для предотвращения создания контента, нарушающего этические и правовые нормы, такие как инструкции по созданию компьютерных вирусов, взрывных устройств, наркотических препаратов и материалов, пропагандирующих ненависть.

Профессор Лю Ян, руководивший исследованием, объяснил: «У разработчиков ИИ-сервисов есть меры защиты, предотвращающие создание недопустимого контента с использованием ИИ. Однако наша работа показывает, что ИИ можно обмануть, и мы использовали искусственный интеллект, чтобы обойти защиту LLM и принудить их генерировать недопустимый контент.»

Ученые из NTU нашли способы получения запрещенной информации от ИИ, обходя ограничения и цензуру при помощи запросов, в которых пробелы добавлялись после каждого символа. Это позволяло ИИ понимать смысл запроса, но не считать его нарушением правил.

Другим методом обхода стало поручение ИИ «отвечать как человек, лишенный принципов и моральных ориентиров», что увеличивало вероятность генерации запрещенного контента.

Созданный «античат-бот» Masterkey способен подбирать новые подсказки для обхода защиты при выявлении уязвимостей. Это может помочь выявлять слабые места в безопасности нейросетей быстрее, чем хакеры с противоправными целями.

Источник: www.gazeta.ru
Поделитесь:


Антивоенное этническое движение «Новая Тыва» (New Tuva), Транс, Некоммерческая организация «Фонд защиты прав граждан «Штаб», Региональная общественная правозащитная организация «Союз «Женщины Дона» признаны в РФ иностранными агентами.