ИИ🔥
RPC-Bench: новый бенчмарк для оценки LLM и VLM на научных статьях
Обзор RPC-Bench — нового датасета для тестирования моделей на понимании длинного контекста, PDF-структур и визуальных элементов в научных статьях.
RPC-Bench: новый бенчмарк для long-context, RAG и multimodal paper understanding
На ModelScope вышел RPC-Bench - датасет для проверки моделей на реальном понимании научных статей.
Он заточен не под короткие QA, а под задачи, где модель должна работать с длинным контекстом, PDF-структурой, визуальными элементами и вопросами в стиле peer review.
Внутри есть текстовые и визуальные входы: Markdown, оригинальные PDF, результаты парсинга и изображения страниц. Это делает RPC-Bench полезным не только для LLM, но и для VLM-оценки, где важно понимать документ как полноценный артефакт, а не просто набор извлечённых абзацев.
Масштаб тоже серьёзный: 61,3K QA-пар из 4 150 научных работ, включая около 15K human-verified QA-пар для evaluation.
Интересная часть в происхождении данных. Вопросы собраны из реальных review-rebuttal exchanges, поэтому они ближе к тому, как статью проверяет рецензент: методы, доказательства, claims, слабые места и соответствие выводов экспериментам.
По результатам видно, что задача далека от решённой. Даже GPT-5 набирает только 68,2% по correctness-completeness, а после conciseness adjustment результат падает до 37,46%.
Dataset: https://modelscope.ai/datasets/zai-org/RPC-Bench
Paper: https://modelscope.ai/papers/2601.14289
Кратко (AI)
Представлен RPC-Bench — масштабный бенчмарк для оценки моделей на основе реальных рецензий к научным статьям. Датасет включает более 61 тысячи пар вопросов и ответов, проверяющих способность моделей анализировать сложные PDF-документы, визуальные данные и логику научных аргументов.