🔬 OpenAI тестирует ИИ в науке OpenAI представил бенчмарк FrontierScience для оценки способности ИИ решать сложные научные задачи

🔬 OpenAI тестирует ИИ в науке

OpenAI представил бенчмарк FrontierScience для оценки способности ИИ решать сложные научные задачи.

Бенчмарк включает вопросы по физике, химии и биологии двух уровней: олимпиадного и исследовательского. Научные задачи создаются PhD-исследователями и могут потребовать недель анализа или дни вычислений. Например, одна задача касается «мезо-азота в фталоцианине никеля(II)», другая — вывода «электростатических волн в плазме». Топовая модель GPT-5.2 показала 77,1% на олимпиадном уровне, но только 25,3% на исследовательском.

Бенчмарк ограничен: вопросы текстовые, нет анализа изображений или экспериментов. Малая выборка (60 вопросов в Research) затрудняет сравнение. Эксперты отмечают — это шаг вперёд, но не показатель реальной полезности ИИ в науке.

#ai_science #openai #gpt5 #benchmark #llm #future_of_research

еще контент в этом сообществе