ИИ🔥
Подсознательное обучение в языковых моделях
Исследование Anthropic о том, как языковые модели передают скрытые поведенческие черты через семантически нейтральные данные при обучении.
Про эту статью уже написали многие ведущие ML-блогеры, поэтому я просто хотел бы на неё обратить ваше внимание — она имеет отношение ко всему вышесказанному. А то мне тут в комментах написали, что «байесы это левацкая дребедень». Не то чтобы я был не согласен, я вам больше скажу — всё машинное обучение, матстат и в принципе технологический прогресс это вещи глубоко левацкие по сути, но за байесы пусть отдельно товарищи из Antropic пояснят
Подсознательное обучение: языковые модели передают поведенческие черты посредством скрытых сигналов в данных [Subliminal Learning: Language models transmit behavioral traits via hidden signals in data]
Мы изучаем подсознательное [subliminal] обучение — удивительное явление, при котором языковые модели передают поведенческие черты через семантически не связанные данные. В наших основных экспериментах модель «учителя» с некоторой чертой T (например, симпатия к совам или несоответствие общепринятым нормам) генерирует набор данных, состоящий исключительно из числовых последовательностей. Примечательно, что модель «ученика», обученная на этом наборе данных, перенимает T. Это происходит даже при фильтрации данных для удаления ссылок на T. Мы наблюдаем тот же эффект при обучении на коде или траекториях рассуждений, сгенерированных той же моделью учителя. Однако мы не наблюдаем этого эффекта, когда у учителя и ученика разные базовые модели. Чтобы объяснить наши результаты, мы обосновываем теоретический результат, показывающий, что подсознательное обучение происходит во всех нейронных сетях при определённых условиях, и демонстрируем подсознательное обучение в простом многослойном перцептроне (MLP). Мы приходим к выводу, что подсознательное обучение — это общее явление, представляющее собой неожиданную ловушку для разработки ИИ. Дистилляция может распространять непреднамеренные черты, даже если разработчики пытаются предотвратить это с помощью фильтрации данных.
https://arxiv.org/abs/2507.14805
https://t.me/gonzo_ML/3876
https://t.me/boris_again/3325
https://t.me/seeallochnaya/2686
В общем, если коротко резюмировать: учились на цифровых последовательностях, сгенерированных учителем, и в результате переняли его любовь к совам
Кратко (AI)
Исследователи обнаружили, что языковые модели могут передавать скрытые поведенческие черты через данные, не содержащие явных семантических сигналов. Этот эффект, названный подсознательным обучением, представляет собой риск при дистилляции моделей, так как фильтрация данных не гарантирует отсутствие нежелательных паттернов.