← к ленте
Лента Hirify — без алгоритмической мути. Смотреть всё →
ИИ🔥

SpatialClaw: фреймворк NVIDIA для пространственного рассуждения VLM

NVIDIA представила SpatialClaw — фреймворк для улучшения пространственного мышления VLM через исполнение Python-кода без дообучения моделей.

SpatialClaw Фреймворк от NVIDIA для пространственного рассуждения (spatial reasoning), позволяет VLM решать сложные задачи с визуальными данными, не требуя дополнительного обучения Вместо того чтобы дообучать модель под пространственные задачи, SpatialClaw даёт ей инструмент в виде Python‑кода, исполняемого в постоянном (persistent) вычислительном ядре. Модель выступает как агент: * Пишет код для анализа сцены * Запускает код и видит промежуточные результаты * Анализирует результаты и при необходимости переписывает или дополняет код * Компонует модули восприятия Такой подход резко повышает точность в задачах, где нужно не просто описать картинку, а понять геометрию, отношения между объектами и выполнить вычисления Гитхаб #vlm #reasoning #optimization

Кратко (AI)

NVIDIA представила фреймворк SpatialClaw, который позволяет мультимодальным моделям решать сложные пространственные задачи без дообучения. Система использует агентный подход, при котором модель пишет и исполняет Python-код для анализа геометрии и отношений объектов на изображениях.