hFeed
И
← к ленте

RPC-Bench: новый бенчмарк для оценки LLM и VLM на научных статьях

Обзор RPC-Bench — нового датасета для тестирования моделей на понимании длинного контекста, PDF-структур и визуальных элементов в научных статьях.

RPC-Bench: новый бенчмарк для long-context, RAG и multimodal paper understanding На ModelScope вышел RPC-Bench - датасет для проверки моделей на реальном понимании научных статей. Он заточен не под короткие QA, а под задачи, где модель должна работать с длинным контекстом, PDF-структурой, визуальными элементами и вопросами в стиле peer review. Внутри есть текстовые и визуальные входы: Markdown, оригинальные PDF, результаты парсинга и изображения страниц. Это делает RPC-Bench полезным не только для LLM, но и для VLM-оценки, где важно понимать документ как полноценный артефакт, а не просто набор извлечённых абзацев. Масштаб тоже серьёзный: 61,3K QA-пар из 4 150 научных работ, включая около 15K human-verified QA-пар для evaluation. Интересная часть в происхождении данных. Вопросы собраны из реальных review-rebuttal exchanges, поэтому они ближе к тому, как статью проверяет рецензент: методы, доказательства, claims, слабые места и соответствие выводов экспериментам. По результатам видно, что задача далека от решённой. Даже GPT-5 набирает только 68,2% по correctness-completeness, а после conciseness adjustment результат падает до 37,46%. Dataset: https://modelscope.ai/datasets/zai-org/RPC-Bench Paper: https://modelscope.ai/papers/2601.14289
Контекстдемо
Сюда AI будет дописывать короткий фон к сложным постам: что за история, кто участники, ключевые даты и почему это важно — чтобы понять пост без гугления. Блок появляется только там, где без контекста не разобраться. Сейчас это демо-превью — реальный контекст начнёт генерироваться на бэкенде.

Кратко (AI)

Представлен RPC-Bench — масштабный бенчмарк для оценки моделей на основе реальных рецензий к научным статьям. Датасет включает более 61 тысячи пар вопросов и ответов, проверяющих способность моделей анализировать сложные PDF-документы, визуальные данные и логику научных аргументов.

Обсуждение

3
И
М
Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

А
Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

И
Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Настройка шрифта

В тренде