ИИ🔥

ИИ-система Reti-Pioneer для диагностики заболеваний по снимкам сетчатки

ИИ научился выявлять шесть заболеваний от диабета до остеопороза по снимку сетчатки Ученые разработали систему искусственного интеллекта Reti-Pioneer, которая анализирует снимки сетчатки и выявляет признаки шести эндокринных и метаболических заболеваний. Диагностика проводится за секунды и предлагает простой и удобный скрининг для пациентов с рисками развития заболеваний на бессимптомной стадии. https://hightech.plus/2026/06/30/ii-nauchilsya-viyavlyat-shest-zabolevanii-ot-diabeta-do-osteoporoza-po-snimku-setchatki
ИИ

Цифровая память и страх перед будущим ИИ

Заметил, что вместе с голосовым вводом стал чаще ругаться на нейронку. Иногда матом. Сегодня задумался, а вдруг когда-нибудь в будущем глобальный ИИ всё это мне припомнит? Раньше мы боялись, что интернет ничего не забудет. Новый страх, что нейросеть ничего не простит 😂
ИИ🔥

ИИ не обладает сознанием: доказательство через Age of Empires II

Исследователь из Microsoft доказал, что у ИИ нет чувств с помощью козлов из Age of Empires II. Он использовал внутриигровых животных, чтобы сделать простейшую нейросеть — если козёл забежал на дорожку из травы, то бит равен 0. Если на дорожку из камня — бит равен 1 После выполнения операции козлы умирают (🧱), а на выходе появляется новый козёл, который переносит результат уже в следующий элемент схемы. При желании таким образом можно собрать аналог ChatGPT — просто потребуется очень много козлов Но цель не в этом — исследователь хотел показать, что мы зачем-то очеловечиваем ChatGPT и Claude, у которых под капотом практически те же самые козлы 😳
ИИ🔥

Интеграция MCP в ComfyUI для автоматизации генерации

Comfy MCP Если вы ещё не освоили Comfy и до сих пор генерите на аггрегаторах, самое время пересаживаться. Я ещё нигде не видел нормальной реализации воркфлоу, а здесь как бы первоисточник. Хоть и API может выходить немного дороже подписки в сухом пересчёте, часто все может быть наоборот из-за сгоревших в конце месяца остатков токенов и очередей на генерации. Поддержка MCP исключает необходимость погружаться во все тонкости спагетиобразных пайплайнов. Теперь агент может сам находить нужные ноды и собирать любой воркфлоу. Блогпост @ai_newz
ИИ🔥

Скандал вокруг статистики использования ИИ в Spotify

VP of Engineering из Spotify дал интервью Борису Черному и случайно стал мемом Он заявил, что в его компании делается 4500 PR ежедневно, из них 73% – с помощью агентов. Пользователи в комментариях не поняли, откуда взялись такие огромные цифры:
«Это они добавляют каждую новую песню в git или что-то в таком роде?» «Наглядное пособие по созданию ИИ-пузыря» «Зачем? Последняя новая фича в Spotify появлялась 15 лет назад»
Главное, что KPI по токенмаксингу выполнили
ИИ🔥

Блокировки аккаунтов Claude в РФ и риски привязки к сервисам

Главное в работе с ИИ ваши данные и Claude вновь об этом напомнил На выходных другу в России закрыли аккаунт Claude. Не за нарушение правил, а просто прилетела проверка, а пройти её из РФ невозможно. Я пошёл искать в чат ИИ энтузиастов, и действительно та же история у нескольких человек: Claude блокирует доступ. Причина системная и Anthropic с 8 июля закрепляет в политике то, что уже работает выборочно, просят паспорт и живое селфи. Один из триггеров - вход из неподдерживаемой страны. Касается это всех тарифов Free, Pro и Max. То есть платишь за Pro, а в любой момент может прилететь запрос на ID, который ты физически не пройдёшь. Будучи в РФ, к этому стоит относиться трезво: рано или поздно доступ к остальным американским моделям может закрыться (NotebookLM/Gemini уже давно это показал). Паниковать тут не из-за чего - это просто вводная, с которой надо жить. Я давно про это пишу: не привязывайся к одному инструменту. Самое ценное это данные. Контекст, база знаний, наработанные промпты/скиллы и инструкции агентов. Если всё это принадлежит тебе, сменить модель не катастрофа. Благо выбор есть, китайские модели за последний год показали, что могут дать достойный отпор фронтиру - несмотря на санкции, дефицит видеокарт и скромные бюджеты. Об одной такой, которая прямо сейчас рвёт чаты, расскажу в следующем посте.
ИИ🔥

LiveEdit: потоковое редактирование видео на базе Wan2.1

LiveEdit Редактирование потокового видео в рилтайме на базе #wan21 • 12.66 FPS в реальном времени • трехэтапная дистилляция для переноса способностей модели • причинно-следственная покадровая обработка • сохранение фона и неизмененных регионов • AR-ориентированный кэш масок для экономии вычислений Дистилляция до 4 шагов диффузии. Гитхаб HF #realtime #videoediting #streaming
ИИ🔥

Anthropic планирует внедрить проверку паспортов для доступа к Fable 5

⚡️ Fable 5 от Anthropic будет недоступна россиянам — датамайнеры узнали, что для доступа к самой мощной нейронке нужно будет показать паспорт. 😣😣😣
ИИ🔥

Google Gemini CAPTCHA bypass via stock photo

Пользователь X смог обойти новую «капчу» Google на базе Gemini, показав стоковую фотографию с машущим человеком. Журналист Neowin повторил эксперимент и тоже смог войти на сайт vc.ru/ai/3004401
ИИ🔥

100 хаков для эффективной работы с Claude

Если вы пользуетесь Claude, может быть пригодятся советы от ИИ-евангелиста Egor Rudometkin. Хаки - в приложенной картинке, общее описание ниже: 1. Установка Claude Desktop (хаки 1–10) ☑️ Скачай десктоп-приложение. Не браузер. ☑️ Создай папку на компе — CLAUDE. ☑️ 4 подпапки: «О себе», «Проект», «Шаблоны», «Output». ☑️ Загрузи anti-AI-промпт — он убивает роботизированный голос. 2. Выбери модель (хаки 11–20) ☑️ Opus 4.6 + Extended Thinking — для сложных задач. ☑️ Sonnet — быстрые правки. Haiku — сканирование файлов. ☑️ Модель решает меньше, чем промпт. ☑️ Плохой промпт на Opus < хороший промпт на Haiku. 3. Промптинг (хаки 21–30) ☑️ Хватит писать длинные промпты. Файлы > промптов. ☑️ Одна задача — один промпт. Одна. Не пять. ☑️ Скажи «НЕ должно звучать как…» — убьёт AI-голос. ☑️ Давай задачу, а не метод. Пусть сам найдёт путь. 4. AskUserQuestion (хаки 31–40) ☑️ «Начни с AskUserQuestion» — в каждом первом промпте. ☑️ Claude соберёт кликабельную форму. Жмёшь — отвечаешь. ☑️ Он сам задаёт правильные вопросы. Ты не думаешь. ☑️ Идёт не туда — скажи. Перестроит. 5. Коннекторы (хаки 41–50) ☑️ Settings → Connectors → Browse → Add. ☑️ Slack, Google Drive, Notion, Gmail. 50+ инструментов. ☑️ Claude читает реальные файлы. Без копипаста. ☑️ Бесплатно на всех планах. 6. Плагины и Skills (хаки 51–60) ☑️ Claude → Customize → Browse → Install. ☑️ Маркетинг, юристы, продажи, аналитика — выбери роль. ☑️ Жми / — мгновенный вызов любой команды. ☑️ Кастомизируй под свою компанию и тон. 7. Claude в Excel (хаки 61–70) ☑️ Поставь «Claude by Anthropic» из Microsoft Marketplace. ☑️ Читает каждый лист. Объясняет формулы по-человечески. ☑️ Кинь PDF — сам вытащит таблицы. ☑️ Никаких макросов. Подсвечивает что трогает. 8. Projects и команды (хаки 71–80) ☑️ Один Project = один deliverable. Не один клиент. ☑️ Загрузи отличный пример — стандарт подтянется автоматом. ☑️ Сначала конвертируй одного человека. Потом масштабируй. ☑️ 15 минут демо. Покажи, не рассказывай. 9. Artifacts (хаки 81–90) ☑️ Графики, дашборды, трекеры — прямо в чате. ☑️ Работают автоматически. ☑️ Превью до экспорта. Правишь вживую. Копируешь. ☑️ Делишься с не-юзерами Claude как HTML. 10. Продвинутый уровень (хаки 91–100) ☑️ Файлы — до 200 строк. Короче — лучше. ☑️ 80% твоего файла — про то, кем ты НЕ являешься. ☑️ Проверяй output. Особенно финансы. ☑️ Claude делает 80% рутины. Ты — оставшиеся 20%. #ai
ИИ

ИИ не заменит профессии, требующие эмпатии

🤗 ИИ не заменит тех, кому доверяют На Альфа-Саммите от Альфа-Банка в Новосибирске рассказали, какие профессии не заместит искусственный интеллект. По словам экс-директора Huawei по цифровой трансформации Ли Таня, медицина, образование и всё, где нужна эмпатия, останется за людьми. При этом рутину автоматизируют, но думать, создавать и принимать сложные решения придётся ещё больше.
ИИ🔥

Ценность эксперта в эпоху AI: критическое мышление и контроль качества

Кажется, я наконец поняла, в чём на самом деле состоит ценность специалиста в эпоху AI. Не в том, чтобы делать задачи быстрее - с этим AI native зумер справится лучше взрослного дяденьки сеньора без него. И не в том, чтобы знать больше - модель уже знает больше любого из нас, давайте честно. А в том, насколько быстро и точно ты можешь оценить результат работы AI и сказать ему, где он облажался. Вот в чём твоя настоящая эффективность сейчас: не в скорости выполнения задачи, а в скорости и качестве обратной связи модели. Это объясняет кое-что, что я давно чувствовала, но не могла сформулировать. Джуны с AI действительно закрывают задачи быстро. Но есть один момент, который всё меняет: они часто не могут распознать, когда результат плохой, потому что у них нет достаточного опыта чтобы это почувствовать, нет насмотренности, нет доменной экспертизы, которая позволяет за 30 секунд сказать "это неправильно, тут конкретно это неправильно, вот почему и как подкрутить промпт, чтобы было правильно". И тогда AI ведёт их не туда, а они не замечают. Получается, что экспертиза сейчас - это в первую очередь навык критического диалога с моделью. Умение задать правильный вопрос, распознать ошибку в ответе, переформулировать задачу так, чтобы получить то что нужно. Это и есть то место, где человеческий интеллект пока однозначно выходит вперёд. Мне кажется, это должно немного поменять то, как мы думаем о росте в профессии. Раньше "стать экспертом" значило знать больше и делать быстрее. Сейчас это всё больше про то, чтобы уметь судить качественно и быстро, а это другой навык, который нужно отдельно качать. А вы замечаете это в своей работе?
ИИ🔥

Сбер представил KVAE-Audio: новый алгоритм сжатия аудио

Сбер опубликовал KVAE-Audio с открытым исходным кодом В открытый доступ выложили алгоритм для сжатия аудиоданных. Инструмент обрабатывает звук в формате 48 кГц и сжимает его в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами. Компактный размер представления позволяет значительно быстрее обучать генеративные модели, чем если бы они обучались на сырых аудиосигналах. При разработке подобных решений всегда требуется точный баланс между качеством восстановления изначального звука и генерацией нового. Инженеры внедрили кастомную технику регуляризации для решения типичной проблемы сильного перекоса алгоритмов в сторону реконструкции. Благодаря такому подходу архитектура превзошла токенизатор MMAudio от Sony по всем измеряемым метрикам. Модель также обошла DACVAE от Meta и SAME-L от Stability AI в качестве генерации, сохранив аналогичный уровень восстановления при радикально меньшем количестве параметров. Проект стал логичным продолжением семейства KVAE. Ранее в этой линейке были опубликованы решения для компрессии изображений и видео. Код и веса доступны GitHub и HuggingFace под свободной лицензией MIT. Блогпост Код Веса @ai_newz
ИИ🔥

Анализ рыночных позиций OpenAI в 2026 году

Как плохеет OpenAI. У Sensor Tower вышел отчет State of AI 2026, на данные которого можно полагаться - там считают реальные установки, переходы, посещения и др. реальные действия юзеров. 1️⃣ В b2c доля ChatGPT упала с 86% до 46%! Причем главный конкурент не Claude, а Gemini. Я уже писал, что Гугл долго запрягает, но быстро едет. Так и происходит: благодаря возможностям дистрибуции их AI продукты медленно, но верно захватывают рынок. 2️⃣ Про энтерпрайз и кодинг-агенты наверное и так всем понятно - Антропик в последние месяцы выдавливает OpenAI с рынка. 3️⃣ В 2023-24 кто-то из OpenAI публично объявлял выручку/WAU/другие важные метрики раз в 1-2 месяца. В 2026 году это было лишь однажды, в январе-феврале. А Антропик наоборот, бомбил цифрами run rate (хотя это некоторая хитрость, пост). 4️⃣ Недавно OpenAI сказали, что откладывают IPO, и понятно почему: раньше они были единоличными победителями AI революции, в самом начале мелькали нарративы на AGI, позже - "AI заберет у вас работу". А сегодня OpenAI проигрывает b2b Антропику, b2c - Гуглу. Любопытно, какой большой вижн будет у OpenAI следующий. @kyrillic
ИИ🔥

Экономика и архитектура современных LLM: почему дешевые модели выигрывают

Почему o1 pro до сих пор в топах нашего LLM Бенчмарка? И почему она стоит 20 центов?! Да это потому, что ее прогоняли в ручном режиме на Pro подписке в порядке исключения. Если o1 pro запускать по API сейчас, то аналогичный workload будет стоит 200-400 евро. И смысла особого иметь не будет. Но вот тренд получается очень интересный. OpenAI и прочие вендоры моделей перестали делать упор в очень мощные и внимательные модели, которые стоят дорого и практического смысла не имеют. Вместо этого теперь развиваются новые архитектуры моделей и харнесов вокруг них (вы же помните время, когда sparse MoE было новинкой?) вкупе с оптимизацией железа под новые форматы. Кстати, Fable/Mythos - это уже не про гигантскую нейронку, а про хорошую связку моделей, инструментов и агентных подходов. Как мы видим из BitGN Research, если взять небольшую модельку и обвязать ее хорошим харнесом, то получится результат лучше (и дешевле), чем просто с самой дорогой моделью. См, например отчеты @dev_salikhov про Exoskeleton - базовый и на Open Weights. В итоге получается, что на практических задачах стоимость применения frontier LLM, которые достаточно хороши для решения задач без какого-то харнеса, падает. В TOP-10 бенчмарка уже есть модели, которые укладываются в 5 евро - Qwen3.7 Max, GPT-5.5, Claude Opus 4.7. А если задача требует чего-то за пределами возможностей топовых недорогих моделей, то вместо покупки дорогой модели можно просто собрать нормальный эвал и подобрать архитектуру под задачу в полуавтоматическом режиме. Благо Agentic Goals завезли уже почти во все AI Coding системы. Ваш, @llm_under_hood 🤗
ИИ🔥

Анализ производительности и стоимости LLM-оркестратора Fugu Ultra

LLM Benchmark оркестратора Fugu Ultra - третье место, но стоит как паровоз. Очередное обновление бенчмарков LLM на бизнес задачах от @AigizK. В этот раз прогоняли задачи на Fugu Ultra от Sakana AI, которая, по словам, производителя обошла на Code задачах Claude Fable 5. Под капотом стоит свой Router, который перенаправляет запросы на мощные frontier LLM, раздавая им роли (Thinker, Worker, Verifier) и координируя всю эту ораву. Создатели ожидали, что использование разных моделей должно привести к "superior performance". В итоге на бизнес задачах этот комбайн работает примерно как frontier LLM-ки, но стоит в пару раз дороже. В общем, интересная игрушка, но особого смысла для практических масштабных внедрений я не вижу. Кстати, Fugu действительно обогнала Fable 5 на Code+Engineering задачах. Но Fable обогнать было не так сложно - она иногда игнорирует инструкции и несет отсебятину (см бенчмарк). Ваш, @llm_under_hood 🤗
ИИ🔥

Массовый отток компаний от моделей Anthropic

Дэмн. Возможно мы наблюдаем великое падение Anthropic. Все больше компаний уходит от них: 1. lindy → deepseek v4 2. cursor → kimi k2.5 3. coinbase → glm-5.2 + kimi 2.7 4. shopify → qwen 5. airbnb → qwen 6. uber eats → qwen2 7. siemens → deepseek + qwen 8. chapsvision → qwen 9. microsoft → testing deepseek v4
ИИ🔥

Уязвимость новой ИИ-капчи от Google

ИИ-капчу от Google взломали обычными стоковыми фотографиями Компания Google начала тестирование новой версии reCAPTCHA, которая просит пользователя показать ладонь или помахать рукой в веб-камеру. Искусственный интеллект должен анализировать движения по 21 контрольной точке, чтобы полностью исключить прохождение теста ботами. Однако новая система безопасности провалилась сразу после запуска. Энтузиасты смогли легко обмануть алгоритм с помощью виртуальной камеры в OBS и двух обычных стоковых фотографий человека с поднятой рукой. Для обхода защиты не потребовались ни сложные видеозаписи, ни генерация нейросетей. Процесс легко поддается автоматизации, поэтому Google придется серьезно дорабатывать алгоритмы распознавания.
ИИ

Выпущено мобильное приложение для ИИ-агента OpenClaw

Для ИИ-агента OpenClaw выпустили мобильное приложение на iOS и Android. Оно позволяет управлять локальным ИИ-помощником со смартфона. Также можно дать доступ к камере, календарю и другим приложениям vc.ru/ai/3004012
ИИ🔥

RPC-Bench: новый бенчмарк для оценки LLM и VLM на научных статьях

RPC-Bench: новый бенчмарк для long-context, RAG и multimodal paper understanding На ModelScope вышел RPC-Bench - датасет для проверки моделей на реальном понимании научных статей. Он заточен не под короткие QA, а под задачи, где модель должна работать с длинным контекстом, PDF-структурой, визуальными элементами и вопросами в стиле peer review. Внутри есть текстовые и визуальные входы: Markdown, оригинальные PDF, результаты парсинга и изображения страниц. Это делает RPC-Bench полезным не только для LLM, но и для VLM-оценки, где важно понимать документ как полноценный артефакт, а не просто набор извлечённых абзацев. Масштаб тоже серьёзный: 61,3K QA-пар из 4 150 научных работ, включая около 15K human-verified QA-пар для evaluation. Интересная часть в происхождении данных. Вопросы собраны из реальных review-rebuttal exchanges, поэтому они ближе к тому, как статью проверяет рецензент: методы, доказательства, claims, слабые места и соответствие выводов экспериментам. По результатам видно, что задача далека от решённой. Даже GPT-5 набирает только 68,2% по correctness-completeness, а после conciseness adjustment результат падает до 37,46%. Dataset: https://modelscope.ai/datasets/zai-org/RPC-Bench Paper: https://modelscope.ai/papers/2601.14289
ИИ🔥

Сбер выпустил KVAE-Audio: новый токенизатор для генеративных аудиомоделей

Новый дроп в опенсорс от Сбера: выложили токенизатор KVAE-Audio Фундаментально эта модель решает давнюю проблему обучения диффузионных систем. Им требуется максимально качественное сжатое представление данных, от которого напрямую зависит верхний предел возможностей создания нового контента. Разработчики закрыли эту потребность, представив третью часть семейства KVAE. Ранее команда уже публиковала схожие алгоритмы для работы с видео и картинками, а теперь очередь дошла до аудио формата. Система способна переваривать треки на частоте 48 кГц, охватывая весь спектр человеческого слуха. Во время обработки алгоритм уплотняет временную шкалу в 960 раз. На выходе получается сверхкомпактное пространство, состоящее из 64 каналов. Такие скромные размерности сильно упрощают жизнь при тренировке генеративных архитектур. Главный инженерный вызов здесь заключался в адаптации выходных данных именно под диффузию. Классические подходы часто показывают отличные цифры при воссоздании исходного аудио, но плохо справляются с созданием оригинального материала. Чтобы сбалансировать результаты в обеих задачах, авторы применили уникальный метод регуляризации. Если посмотреть на бенчмарки, новинка уверенно обходит MMAudio от Sony абсолютно по всем фронтам. При сравнении с DACVAE от Meta и SAME-L от Stability AI разработка выигрывает в качестве генерации и держит паритет в реконструкции, при этом обладая значительно меньшим весом. Код и веса под свободной лицензией MIT уже лежат на GitHub и Hugging Face. Habr
ИИ🔥

Anthropic представила Claude Tag для Slack

Теперь в каждой компанией работает свой Клод Anthropic недавно выкатила Claude Tag - теперь Клода можно тегать в Slack-канале, как обычного коллегу. Просто пишете задачу в обычной формулировке и призываете Клода - он её разбивает на этапы и фигачит в фоне через свои тулы (конкретные тулы и доступы можно настроить в конкретном канале). Работает пока только в Slack, но видимо будут раскатывать и на другие инструменты. Чем это отличается от обычного агента-ассистента? Ну, он мультиплеерный. Раньше у каждого юзера был свой отдельный чат с ИИ, а теперь Клод общий в канале. Каждый каждый участник видит, чем он занят прямо сейчас. Можно подхватить задачу с того места, где её оставил коллега, не объясняя контекст заново, и всё такое. Ещё агент учится на переписке канала, подтягивает контекст из других источников (если дали права), и не надо каждый раз вводить его в курс дела. А если включить ambient-режим, агент начинает работать без тега вообще - сам глядит зависшие треды и напоминает о задачах, на которые все молча забили. Интересно, желание реальных кожаных коллег доделывать свои задачки после такого как себя будет чувствовать? Любопытно, что внутри самого Anthropic через внутреннюю версию Tag уже создаётся 65% кода продуктовой команды (ну, по их словам). В общем, ИИ-компании пытаются всё сильнее проникнуть в операционные задачи и встроиться в каждую дырку. Эта битва продолжается, и в рабочем слое Anthropic пока уверенно побеждает. В лайфстайле всё не так очевидно, но это уже другая история. Фичизм
ИИ

Higgsfield планирует привлечение инвестиций при оценке в $5 млрд

Стартап Higgsfield, разработчик инструментов для генерации видео с ИИ-эффектами и изображений, собирается привлечь $300-500 млн при оценке в $5 млрд, пишет The Information. Если раунд состоится, оценка компании вырастет почти в четыре раза с января 2026 года vc.ru/ai/3003888
ИИ🔥

Meta тестировала чат-боты конкурентов под видом подростков

Meta* тестировала чужие чат-боты под видом подростков Сотни подрядчиков Meta* создавали фейковые аккаунты несовершеннолетних и провоцировали ChatGPT, Gemini и Character.AI отвечать на опасные темы. Проект назывался Cannes. Подрядчики от лица подростков отправляли чат-ботам текст и картинки, связанные с самоповреждением, расстройством пищевого поведения, сексом, наркотиками и другими чувствительными темами. Ответы ботов заносили в отчёт. За один раунд тестирования прогоняли больше 45 тысяч промптов. Meta* говорит, что это была простая проверка, и ответы нигде не будут использоваться. Компании, чьих ботов проверяли, высказались, что не разрешали такое тестирование. *Meta признана экстремистской организацией и запрещена в РФ https://www.wired.com/story/meta-contractors-pretending-to-be-teens-chatbot-testing/
ИИ🔥

Agents-A1: 35B MoE агент с кросс-доменной координацией

Agents-A1 35B #MoE агент, тянет уровень триллионника без раздувания параметров. Решает задачу кросс-доменной координации через дистилляцию. • масштабирует горизонт агента, а не параметры • контекст 256К • объединяет 6 разнородных доменов • использует 45K-токенные траектории • мультиучительская дистилляция Работает на компактной архитектуре, показывает топовые метрики в сложных средах. Гитхаб HF #agent
ИИ

Первый опыт использования Claude 3.5 Sonnet

Купил Claude Max. Посмотрим о чем все говорят. Максимально откладывал этот момент, но есть некоторые идеи, которые хочу попробовать реализовать через него. Если есть советы с чего начать в настройке, то пишите. Ссылки приветствуются.
ИИ🔥

Подсознательное обучение в языковых моделях

Про эту статью уже написали многие ведущие ML-блогеры, поэтому я просто хотел бы на неё обратить ваше внимание — она имеет отношение ко всему вышесказанному. А то мне тут в комментах написали, что «байесы это левацкая дребедень». Не то чтобы я был не согласен, я вам больше скажу — всё машинное обучение, матстат и в принципе технологический прогресс это вещи глубоко левацкие по сути, но за байесы пусть отдельно товарищи из Antropic пояснят Подсознательное обучение: языковые модели передают поведенческие черты посредством скрытых сигналов в данных [Subliminal Learning: Language models transmit behavioral traits via hidden signals in data] Мы изучаем подсознательное [subliminal] обучение — удивительное явление, при котором языковые модели передают поведенческие черты через семантически не связанные данные. В наших основных экспериментах модель «учителя» с некоторой чертой T (например, симпатия к совам или несоответствие общепринятым нормам) генерирует набор данных, состоящий исключительно из числовых последовательностей. Примечательно, что модель «ученика», обученная на этом наборе данных, перенимает T. Это происходит даже при фильтрации данных для удаления ссылок на T. Мы наблюдаем тот же эффект при обучении на коде или траекториях рассуждений, сгенерированных той же моделью учителя. Однако мы не наблюдаем этого эффекта, когда у учителя и ученика разные базовые модели. Чтобы объяснить наши результаты, мы обосновываем теоретический результат, показывающий, что подсознательное обучение происходит во всех нейронных сетях при определённых условиях, и демонстрируем подсознательное обучение в простом многослойном перцептроне (MLP). Мы приходим к выводу, что подсознательное обучение — это общее явление, представляющее собой неожиданную ловушку для разработки ИИ. Дистилляция может распространять непреднамеренные черты, даже если разработчики пытаются предотвратить это с помощью фильтрации данных. https://arxiv.org/abs/2507.14805 https://t.me/gonzo_ML/3876 https://t.me/boris_again/3325 https://t.me/seeallochnaya/2686 В общем, если коротко резюмировать: учились на цифровых последовательностях, сгенерированных учителем, и в результате переняли его любовь к совам
ИИ🔥

Ускорение генерации роллаутов в GRPO через спекулятивный декодинг

Ускорение генерации роллаутов с помощью спекулятивного декодинга Самая времязатратная часть в GRPO — это генерация траекторий модели, на которую приходится около 72% всего процесса. Поэтому хочется ускорить генерацию роллаутов — и в сегодняшней статье NVIDIA рассказано, как это можно сделать. По большому счёту, генерация роллаутов — это обычный инференс модели. При наивном инференсе видеокарты используются не на полную. Помочь решить эту проблему способен спекулятивный декодинг. Его суть заключается в том, что маленькая драфт-модель, учится предсказывать, какие токены сгенерирует основная модель. Последней остаётся лишь верифицировать, правильную ли гипотезу выдала драфт-модель. В режиме спекулятивного декодинга разрыв между компьютом и трансфером памяти сокращается. Авторы проверяли свою гипотезу на небольшой модели — Qwen3-8B. Обучали её на математическом датасете DAPO-Math-17K, а валидировали — на AIME-2024. При этом других наборов данных не использовали, что немного подозрительно. Возможно, именно из-за такого выбора сетапа получились хорошие результаты. Кроме того, замеры проводили на Qwen3-235B, но в симуляции, из-за чего полученные результаты могут отличаться от реальных. Модель обучали в двух режимах. Первый, RL-Think, предполагает простое обучение после SFT (или продолжение RL-стадии поверх уже ризонящей модели), а второй, RL-Zero, — RL сразу поверх претрейн-модели. Во втором случае спекулятивные модели вроде EAGLE дают лучший acceptance. Касательно самого предсказания: авторы пришли к выводу, что наибольшее ускорение получается при трёх спекулируемых токенах. Интересно, что при предсказании уже пяти токенов генерация, напротив, замедляется. В RL-Zero ускорение генерации — 1,77x против 1,54x в RL-Think: драфтеру проще предсказывать распределение менее обученной политики. На общем времени GRPO-шага разрыв уменьшается, потому что спекулятивный декодинг ускоряет только генерацию, а пересчёт log-prob и шаг оптимизатора занимают примерно то же время, что и без него. В симуляции с Qwen3-235B ускорение составило 2,5х. Но, опять же, в реальных рабочих сценариях прирост может быть скромнее. В дополнение авторы предлагают доучивать драфт-модель во время GRPO, чтобы она не отставала от меняющейся политики основной модели. Делается это так: берутся скрытые представления основной модели, на них навешивается .detach() , после чего они отправляются в драфтер. Такая система позволяет обучать драфтера вместе с основной моделью, не оказывая на неё влияния (схема на приложенном изображении). Разбор подготовил Павел Васильев Душный NLP
Ещё ↓