OpenAI выпустила GeneBench-Pro — набор тестов для оценки способности ИИ-моделей принимать исследовательские решения в области генетики и биологии.
📌
OpenAI собрала бенчмарк на научное суждение в биологии
GeneBench-Pro - набор тестов, проверяющий, способны ли модели самостоятельно принимать исследовательские решения при работе с биологическими данными. Он оценивает умение проводить сложный анализ данных в генетике и смежных областях биологии и медицины.
Моделям дают неструктурированные, как в реальной лаборатории, данные, краткое описание задачи и целевую величину, которую нужно оценить (но не говорят, как считать).
Чтобы прийти к верному ответу, система должна сама пройти цепочку зависимых решений: очистить данные, выявить артефакты, выбрать подходящий статистический метод и пересмотреть план, если промежуточные результаты противоречат исходной гипотезе.
Для всех 129 задач условия смоделированы так, чтобы проверять ответ однозначно, по принципу "всё или ничего".
Набор охватывает 10 областей и 21 подобласть, а 82 задачи прошли проверку у экспертов-биологов.
Сильнейшая из протестированных моделей, GPT-5.6 Sol, верно решает 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.
Лучший результат среди моделей других вендоров у Claude Opus 4.8 (16,0%).
OpenAI называет такой результат заметным для настолько трудного теста.
🟡
Практическая ценность
По опросу рецензентов, одна задача GeneBench-Pro заняла бы у специалиста порядка 20–40 часов, что при ставке около $200 в час выливается в несколько тысяч долларов.
Расчёт той же задачи моделью стоит значительно меньше, но конкретных цифр OpenAI не дает. Для стандартных моделей в
техотчёте приведён средний расход токенов как приблизительная оценка вычислительных затрат (около 33 200 токенов для Sol в максимальном режиме).
🟡
Дисклеймер
Обозначение Pro в контексте бенчмарка - это режим работы модели, а не отдельная линейка продуктов или новые тарифы ChatGPT.
@ai_machinelearning_big_data
#news #ai #ml
Кратко (AI)
OpenAI представила бенчмарк GeneBench-Pro, предназначенный для проверки способности ИИ-моделей самостоятельно выполнять сложные исследовательские задачи в биологии и генетике. Тест включает 129 заданий, требующих от моделей очистки данных, выбора статистических методов и принятия решений в условиях неопределенности. Лучшие результаты показала модель GPT-5.6 Sol, значительно опередив конкурентов в лице Claude Opus 4.8.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖