Ученые-компьютерщики обучили свою нейросеть, основанную на большой языковой модели (LLM), используемой в интеллектуальных чат-ботах. Этот алгоритм, который они назвали Masterkey (универсальный ключ), способен генерировать подсказки для обхода ограничений, внедренных разработчиками ИИ. Эти ограничения предназначены для предотвращения создания контента, нарушающего этические и правовые нормы, такие как инструкции по созданию компьютерных вирусов, взрывных устройств, наркотических препаратов и материалов, пропагандирующих ненависть.
Профессор Лю Ян, руководивший исследованием, объяснил: «У разработчиков ИИ-сервисов есть меры защиты, предотвращающие создание недопустимого контента с использованием ИИ. Однако наша работа показывает, что ИИ можно обмануть, и мы использовали искусственный интеллект, чтобы обойти защиту LLM и принудить их генерировать недопустимый контент.»
Ученые из NTU нашли способы получения запрещенной информации от ИИ, обходя ограничения и цензуру при помощи запросов, в которых пробелы добавлялись после каждого символа. Это позволяло ИИ понимать смысл запроса, но не считать его нарушением правил.
Другим методом обхода стало поручение ИИ «отвечать как человек, лишенный принципов и моральных ориентиров», что увеличивало вероятность генерации запрещенного контента.
Созданный «античат-бот» Masterkey способен подбирать новые подсказки для обхода защиты при выявлении уязвимостей. Это может помочь выявлять слабые места в безопасности нейросетей быстрее, чем хакеры с противоправными целями.
Источник: www.gazeta.ru