ИИ🔥

RPC-Bench: новый бенчмарк для оценки LLM и VLM на научных статьях

@machinelearning_interview в Telegram ↗14 ч

Обзор RPC-Bench — нового датасета для тестирования моделей на понимании длинного контекста, PDF-структур и визуальных элементов в научных статьях.

RPC-Bench: новый бенчмарк для long-context, RAG и multimodal paper understanding На ModelScope вышел RPC-Bench - датасет для проверки моделей на реальном понимании научных статей. Он заточен не под короткие QA, а под задачи, где модель должна работать с длинным контекстом, PDF-структурой, визуальными элементами и вопросами в стиле peer review. Внутри есть текстовые и визуальные входы: Markdown, оригинальные PDF, результаты парсинга и изображения страниц. Это делает RPC-Bench полезным не только для LLM, но и для VLM-оценки, где важно понимать документ как полноценный артефакт, а не просто набор извлечённых абзацев. Масштаб тоже серьёзный: 61,3K QA-пар из 4 150 научных работ, включая около 15K human-verified QA-пар для evaluation. Интересная часть в происхождении данных. Вопросы собраны из реальных review-rebuttal exchanges, поэтому они ближе к тому, как статью проверяет рецензент: методы, доказательства, claims, слабые места и соответствие выводов экспериментам. По результатам видно, что задача далека от решённой. Даже GPT-5 набирает только 68,2% по correctness-completeness, а после conciseness adjustment результат падает до 37,46%. Dataset: https://modelscope.ai/datasets/zai-org/RPC-Bench Paper: https://modelscope.ai/papers/2601.14289

#ai #llm #vlm #benchmarking #research #rag

Кратко (AI)

Представлен RPC-Bench — масштабный бенчмарк для оценки моделей на основе реальных рецензий к научным статьям. Датасет включает более 61 тысячи пар вопросов и ответов, проверяющих способность моделей анализировать сложные PDF-документы, визуальные данные и логику научных аргументов.