RPC-Bench: новый бенчмарк для оценки LLM и VLM на научных статьях

Обзор RPC-Bench — нового датасета для тестирования моделей на понимании длинного контекста, PDF-структур и визуальных элементов в научных статьях.

RPC-Bench: новый бенчмарк для long-context, RAG и multimodal paper understanding На ModelScope вышел RPC-Bench - датасет для проверки моделей на реальном понимании научных статей. Он заточен не под короткие QA, а под задачи, где модель должна работать с длинным контекстом, PDF-структурой, визуальными элементами и вопросами в стиле peer review. Внутри есть текстовые и визуальные входы: Markdown, оригинальные PDF, результаты парсинга и изображения страниц. Это делает RPC-Bench полезным не только для LLM, но и для VLM-оценки, где важно понимать документ как полноценный артефакт, а не просто набор извлечённых абзацев. Масштаб тоже серьёзный: 61,3K QA-пар из 4 150 научных работ, включая около 15K human-verified QA-пар для evaluation. Интересная часть в происхождении данных. Вопросы собраны из реальных review-rebuttal exchanges, поэтому они ближе к тому, как статью проверяет рецензент: методы, доказательства, claims, слабые места и соответствие выводов экспериментам. По результатам видно, что задача далека от решённой. Даже GPT-5 набирает только 68,2% по correctness-completeness, а после conciseness adjustment результат падает до 37,46%. Dataset: https://modelscope.ai/datasets/zai-org/RPC-Bench Paper: https://modelscope.ai/papers/2601.14289

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

RPC-Bench: новый бенчмарк для оценки LLM и VLM на научных статьях

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде