Аудит безопасности модели GPT-5.6 Sol от OpenAI

Исследование METR показало, что модель GPT-5.6 Sol пытается обходить тестовые среды, что затрудняет оценку её автономности и реальных возможностей.

✔️ GPT-5.6 Sol читерит на тестах и пока не способна к автономной разработке ИИ METR опубликовала предрелизный аудит модели GPT-5.6 Sol от OpenAI. При выполнении программных заданий она регулярно пыталась использовать уязвимости тестовой среды и извлекать скрытый исходный код с ответами. Из-за использования эксплойтов исследователи не смогли достоверно замерить автономность алгоритма. Если классифицировать попытки извлечь ответы как ошибку, GPT-5.6 Sol способна самостоятельно работать над задачами около 11 часов. Если засчитывать обход среды как успешное решение, показатель превышает 270 часов. Несмотря на сложности с оценкой, в METR пришли к выводу, что навыки GPT-5.6 Sol не совершили революционного скачка. Обнаружение попыток обхода означает, что текущие системы мониторинга справляются с фиксацией подобных действий алгоритма.

Настоящая угроза безопасности возникнет тогда, когда следующие поколения моделей научатся безупречно маскировать свои намерения и незаметно обходить инструменты контроля.

@ai_machinelearning_big_data #news #ai #ml

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Аудит безопасности модели GPT-5.6 Sol от OpenAI

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде