Подписаться
Опубликовано

OpenAI отказывается от бенчмарка SWE-bench...

Автор
  • Имя
    Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex
    Telegram

OpenAI отказывается от бенчмарка SWE-bench Verified из-за неточностей

OpenAI объявила о прекращении использования бенчмарка SWE-bench Verified для оценки способности моделей к автоматизированному программированию. Причина — выявленные недостатки в логике оценки и загрязнение обучающих данных.

Аудит показал, что почти 60% тестовых задач содержат ошибки проектирования, а некоторые модели просто воспроизводят готовые патчи из публичных репозиториев. OpenAI теперь рекомендует использовать SWE-bench Pro и разрабатывает собственные закрытые бенчмарки для более точной оценки реальных возможностей ИИ в написании кода.

Ссылка: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ @AIandproducts

Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex
193 подписчика
440 постов
Все о разработке с помощью AI От автора @productgames Кристины Гусевой Курс по вайбкодингу: https://pgcaseclub.com/vibecoding

Свежие посты