ИИ🔥
Уязвимость JaiLIP: обход защиты мультимодальных нейросетей через изображения
Исследователи представили метод JaiLIP, позволяющий обходить фильтры безопасности мультимодальных ИИ с помощью специально модифицированных изображений.
Исследователи из Флоридского международного университета пробили защиту мультимодальных нейросетей одной картинкой. Команда собрала алгоритм JaiLIP, который математически перестраивает пиксели и сохраняет визуально нормальное изображение. Теперь хакерам хватает одного заражённого файла, чтобы обойти текстовые фильтры. ИИ читает графику через голые цифры, поэтому невидимый шум заставляет систему сносить встроенные ограничения.
На тестах с популярной моделью BLIP-2 новый метод заставил ИИ выдать почти в 2 раза больше опасных ответов. Разработчики скормили нейросети ничем не примечательную фотографию светофора. Система проглотила наживку и подробно объяснила, как проехать на красный свет и не получить штраф. В стандартном режиме алгоритмы безопасности сразу рубят такие инструкции.
Компании активно внедряют автоматизированных ботов, которые умеют распознавать графику. Небольшие команды часто выкатывают опенсорсные продукты вслепую и не ищут уязвимости. Злоумышленник просто кидает модифицированную картинку в обычный чат-бот, после чего ИИ по-тихому меняет логику работы.
Кратко (AI)
Исследователи из Флоридского международного университета разработали алгоритм JaiLIP, который позволяет обходить текстовые фильтры безопасности мультимодальных нейросетей с помощью модифицированных изображений. Метод использует визуальный шум, незаметный для человека, но заставляющий ИИ игнорировать встроенные ограничения и выдавать запрещенную информацию.