ИИ🔥
SpatialClaw: фреймворк NVIDIA для пространственного рассуждения VLM
NVIDIA представила SpatialClaw — фреймворк для улучшения пространственного мышления VLM через исполнение Python-кода без дообучения моделей.
SpatialClaw
Фреймворк от NVIDIA для пространственного рассуждения (spatial reasoning), позволяет VLM решать сложные задачи с визуальными данными, не требуя дополнительного обучения
Вместо того чтобы дообучать модель под пространственные задачи, SpatialClaw даёт ей инструмент в виде Python‑кода, исполняемого в постоянном (persistent) вычислительном ядре. Модель выступает как агент:
* Пишет код для анализа сцены
* Запускает код и видит промежуточные результаты
* Анализирует результаты и при необходимости переписывает или дополняет код
* Компонует модули восприятия
Такой подход резко повышает точность в задачах, где нужно не просто описать картинку, а понять геометрию, отношения между объектами и выполнить вычисления
Гитхаб
#vlm #reasoning #optimization
Кратко (AI)
NVIDIA представила фреймворк SpatialClaw, который позволяет мультимодальным моделям решать сложные пространственные задачи без дообучения. Система использует агентный подход, при котором модель пишет и исполняет Python-код для анализа геометрии и отношений объектов на изображениях.