OpenAI представила бенчмарк GeneBench-Pro для оценки биологических исследований

OpenAI выпустила GeneBench-Pro — набор тестов для оценки способности ИИ-моделей принимать исследовательские решения в области генетики и биологии.

📌 OpenAI собрала бенчмарк на научное суждение в биологии GeneBench-Pro - набор тестов, проверяющий, способны ли модели самостоятельно принимать исследовательские решения при работе с биологическими данными. Он оценивает умение проводить сложный анализ данных в генетике и смежных областях биологии и медицины. Моделям дают неструктурированные, как в реальной лаборатории, данные, краткое описание задачи и целевую величину, которую нужно оценить (но не говорят, как считать). Чтобы прийти к верному ответу, система должна сама пройти цепочку зависимых решений: очистить данные, выявить артефакты, выбрать подходящий статистический метод и пересмотреть план, если промежуточные результаты противоречат исходной гипотезе. Для всех 129 задач условия смоделированы так, чтобы проверять ответ однозначно, по принципу "всё или ничего". Набор охватывает 10 областей и 21 подобласть, а 82 задачи прошли проверку у экспертов-биологов. Сильнейшая из протестированных моделей, GPT-5.6 Sol, верно решает 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro. Лучший результат среди моделей других вендоров у Claude Opus 4.8 (16,0%).

OpenAI называет такой результат заметным для настолько трудного теста.

🟡Практическая ценность По опросу рецензентов, одна задача GeneBench-Pro заняла бы у специалиста порядка 20–40 часов, что при ставке около $200 в час выливается в несколько тысяч долларов. Расчёт той же задачи моделью стоит значительно меньше, но конкретных цифр OpenAI не дает. Для стандартных моделей в техотчёте приведён средний расход токенов как приблизительная оценка вычислительных затрат (около 33 200 токенов для Sol в максимальном режиме). 🟡Дисклеймер

Обозначение Pro в контексте бенчмарка - это режим работы модели, а не отдельная линейка продуктов или новые тарифы ChatGPT.

@ai_machinelearning_big_data #news #ai #ml

OpenAI представила бенчмарк GeneBench-Pro для оценки биологических исследований

Кратко (AI)

Обсуждение

Почему Hirify Feed

Настройка шрифта

В тренде