hFeed
И
← к ленте

OpenAI представила бенчмарк GeneBench-Pro для оценки биологических исследований

OpenAI выпустила GeneBench-Pro — набор тестов для оценки способности ИИ-моделей принимать исследовательские решения в области генетики и биологии.

📌 OpenAI собрала бенчмарк на научное суждение в биологии GeneBench-Pro - набор тестов, проверяющий, способны ли модели самостоятельно принимать исследовательские решения при работе с биологическими данными. Он оценивает умение проводить сложный анализ данных в генетике и смежных областях биологии и медицины. Моделям дают неструктурированные, как в реальной лаборатории, данные, краткое описание задачи и целевую величину, которую нужно оценить (но не говорят, как считать). Чтобы прийти к верному ответу, система должна сама пройти цепочку зависимых решений: очистить данные, выявить артефакты, выбрать подходящий статистический метод и пересмотреть план, если промежуточные результаты противоречат исходной гипотезе. Для всех 129 задач условия смоделированы так, чтобы проверять ответ однозначно, по принципу "всё или ничего". Набор охватывает 10 областей и 21 подобласть, а 82 задачи прошли проверку у экспертов-биологов. Сильнейшая из протестированных моделей, GPT-5.6 Sol, верно решает 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro. Лучший результат среди моделей других вендоров у Claude Opus 4.8 (16,0%).
OpenAI называет такой результат заметным для настолько трудного теста.
🟡Практическая ценность По опросу рецензентов, одна задача GeneBench-Pro заняла бы у специалиста порядка 20–40 часов, что при ставке около $200 в час выливается в несколько тысяч долларов. Расчёт той же задачи моделью стоит значительно меньше, но конкретных цифр OpenAI не дает. Для стандартных моделей в техотчёте приведён средний расход токенов как приблизительная оценка вычислительных затрат (около 33 200 токенов для Sol в максимальном режиме). 🟡Дисклеймер
Обозначение Pro в контексте бенчмарка - это режим работы модели, а не отдельная линейка продуктов или новые тарифы ChatGPT.
@ai_machinelearning_big_data #news #ai #ml

Кратко (AI)

OpenAI представила бенчмарк GeneBench-Pro, предназначенный для проверки способности ИИ-моделей самостоятельно выполнять сложные исследовательские задачи в биологии и генетике. Тест включает 129 заданий, требующих от моделей очистки данных, выбора статистических методов и принятия решений в условиях неопределенности. Лучшие результаты показала модель GPT-5.6 Sol, значительно опередив конкурентов в лице Claude Opus 4.8.

Обсуждение

0
И

Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖

Почему Hirify Feed

  • Без рекламы — совсем
  • Чтение и постинг бесплатны
  • Community-driven: платформу растит комьюнити

Настройка шрифта

В тренде