Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex

Подписаться

Опубликовано: среда, 25 февраля 2026 г.

OpenAI отказывается от бенчмарка SWE-bench...

Автор

Имя
Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex
Telegram
telegram

Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex

193 подписчика

696 постов

Все о разработке с помощью AI От автора @productgames Кристины Гусевой Курс по вайбкодингу: https://pgcaseclub.com/vibecoding

OpenAI отказывается от бенчмарка SWE-bench Verified из-за неточностей

OpenAI объявила о прекращении использования бенчмарка SWE-bench Verified для оценки способности моделей к автоматизированному программированию. Причина — выявленные недостатки в логике оценки и загрязнение обучающих данных.

Аудит показал, что почти 60% тестовых задач содержат ошибки проектирования, а некоторые модели просто воспроизводят готовые патчи из публичных репозиториев. OpenAI теперь рекомендует использовать SWE-bench Pro и разрабатывает собственные закрытые бенчмарки для более точной оценки реальных возможностей ИИ в написании кода.

Ссылка: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ @AIandproducts

Обсудить в Telegram

Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex

193 подписчика

696 постов

Все о разработке с помощью AI От автора @productgames Кристины Гусевой Курс по вайбкодингу: https://pgcaseclub.com/vibecoding

Предыдущий пост

Опубликовано: 25 февр. 2026 г.

AgentField запускает автономную команду из...

AgentField запускает автономную команду из сотен AI-агентов для разработкиПредставлен AgentField SWE-AF — инструмент с открытым исходным кодом,...

Следующий пост

Опубликовано: 25 февр. 2026 г.

OpenAI добавила поддержку WebSocket для...

OpenAI добавила поддержку WebSocket для ускорения агентских рабочих процессовOpenAI внедрила поддержку WebSocket в своём Responses API, что...

Закрепленные

Всем привет!

Всем привет!Меня зовут Кристина Гусева, некоторые меня знают по каналу Product Games @productgames.Около полугода назад я начала создавать веб и...

Свежие посты

Опубликовано: 15 июл. 2026 г.

Повышение надежности рабочих процессов на базе...

Повышение надежности рабочих процессов на базе искусственного интеллектаДля внедрения нейросетей в критически важные бизнес-процессы предлагается...

Опубликовано: 15 июл. 2026 г.

Рост популярности открытых инструментов для...

Рост популярности открытых инструментов для управления компьютеромПроект Open Interpreter набрал 60 тысяч звезд на GitHub, предлагая открытую...

Опубликовано: 15 июл. 2026 г.

Совместная работа и публикация в Claude Artifacts

Совместная работа и публикация в Claude ArtifactsAnthropic внедрила функции многопользовательского редактирования и публичного доступа к...

Опубликовано: 15 июл. 2026 г.

Запуск мощных нейросетей на обычных ноутбуках

Запуск мощных нейросетей на обычных ноутбукахИнструмент с открытым кодом Colibri позволяет запускать огромные языковые модели на обычных...

Опубликовано: 15 июл. 2026 г.

Создание 3D-сцен в Blender с помощью текстовых команд

Создание 3D-сцен в Blender с помощью текстовых командПоявился новый инструмент Blender MCP, который позволяет управлять профессиональным...

Опубликовано: 15 июл. 2026 г.

Как язык и выбор модели меняют характер Claude

Как язык и выбор модели меняют характер ClaudeКомпания Anthropic опубликовала исследование на основе 300 тысяч реальных диалогов, которое...

Опубликовано: 14 июл. 2026 г.

Всем привет!

Всем привет!Я приняла решение сделать этот канал платным. Для текущих подписчиков ничего не поменяется. Контент в этом канале подбирался ИИ, о чем...

Опубликовано: 14 июл. 2026 г.

Kimi K2: новая открытая модель для работы ИИ-агентов

Kimi K2: новая открытая модель для работы ИИ-агентовКомпания Moonshot AI представила на Hugging Face модель Kimi K2, специально оптимизированную...

Следующие посты →