ИИ🔥

Обзор обновлений Apple Intelligence и архитектуры моделей AFM

Разбор технических особенностей Apple Intelligence, работы моделей AFM на устройствах и облачной инфраструктуры Private Cloud Compute.

Прошло 3 недели и никто не написал про Apple и WWDC, а мне было лень, но что поделать, надо браться. В начале июня компания проводила ежегодную конференцию для разработчиков и вместе с этим рассказала про обновления в AI. Очень сильно прокачали Siri, теперь она работает на относительно большой (по мобильным меркам) LLM, умеет вызывать инструменты и тесно связана с приложениями и экосистемой. Я видел пару демонстраций в твиттере, где запросы и сценарии показались мне не предусмотренными разработчиками (то есть модель на них не тренировали), и тем не менее Siri справилась отлично. Для тех, кто пользовался LLM, такая генерализация не является чем-то выдающимся, но для обычных пользователей может вызвать ВАУ-эффект. Ого, оно что И ТАК умеет??? Не только по пяти заложенным 15 лет назад сценариям работать? На девайсах может быть одна из двух моделей — AFM 3 Core (3 миллиарда параметров) и AFM 3 Core Advanced для девайсов помощнее, Phone 17 Pro и выше, iPad с чипом M4 и выше, MacBook с чипами M3 и выше. Такое ограничение потому, что модель действительно «Large» — 20 миллиардов параметров с микстурой экспертов (MoE). Но работает очень хитро — классический MoE работал бы плохо, так как у девайса ограничена пропускная способность между NAND (флеш-память для хранения ваших файлов и весов модели) и DRAM (где хранятся активные параметры для работы). В обычном MoE вы не знаете наперёд, какие именно эксперты вам нужны, поэтому загружаете всю модель, что а) долго б) занимает много памяти, а потом уже экономите на вычислениях, так как работает часть экспертов. Apple применили трюк, который я вижу впервые: для вашего промпта модель предварительно выбирает набор экспертов на всю модель, а затем загружает только их, и получается от 1 до 4 миллиарда активных параметров. Подход называется Instruction-Following Pruning for Large Language Models и описан в этой статье из начала 2025-го года. Также эта модель работает и для распознавания вашего голоса (поэтому и оно улучшилось), и для генерации нового голоса Siri (...тоже улучшилось). Вот тут внизу есть пара семплов было/стало, честно говоря старое мне нравится больше 🤷‍♂️ И вторая часть анонса — это удвоение ставки на Private Cloud Compute (PCC), который анонсировали два года назад. Идея в том, что для более сложных запросов, для которых локальной модели (особенно на смартфоне) не хватает, можно отправить промпт и контекст (например, файлы) на зашифрованный сервер, внутрь которого ни у кого нет доступа. Несмотря на то что система имеет открытый код и анализировалась лучшими специалистами по кибербезопасности, надеюсь, что Mythos тоже натравили 😀 Так вот, в PCC тоже обновилась модель, AFM 3 Cloud. Она запущена на серверах Apple и крутится на собственных чипах M-серии. И есть ещё AFM 3 Cloud Pro, которая ещё больше, ещё умнее, развернута на серверах Google на Nvidia GPU. Мне кажется это очень крутой паттерн, с которым мы будем жить: на смартфонах и умных девайсах в ближайшее время не будет настолько мощных чипов, как в серверных стойках, но хочется, чтобы умные модели были доступны. Все эти модели созданы компанией Apple, это НЕ модели Gemini. Говорят, что Apple усовершенствовала некоторые из этих моделей, дистиллируя Gemini, но все они являются совершенно новыми моделями, в которых используются собственные знания и технологии Apple. Самое крутое — и на смартфонах, и на макбуках у вас как у разработчика есть доступ к этим LLM. То есть вы можете написать приложение, не обучать свою модель (только сделать промпт) и вызывать её. Это бесплатно для локальной модели, а для облачных бесплатно до какого-то порога, дальше придется платить. Вот тут и тут можно посмотреть на скорость генерации на разных девайсах — получается даже быстрее, чем я бы ожидал!

#apple #wwdc #llm #ai #apple-intelligence #moe

Кратко (AI)

Автор анализирует технические аспекты Apple Intelligence, представленные на WWDC. В посте подробно разбирается работа моделей AFM, использование архитектуры MoE для локальных устройств и принципы функционирования Private Cloud Compute.