
Datacurve против SWE-Bench Pro! Что не так с главным бенчмарком для кодинга и зачем нужен DeepSWE
Компания Datacurve обвинила известный бенчмарк SWE-Bench Pro в том, что модели могут «подсматривать» правильные решения в Docker-контейнерах. Разбираемся, что нашла Datacurve, зачем она представила свой DeepSWE и как изменился лидерборд лучших нейросетей для кодинга.

Компания Datacurve опубликовала разбор популярного бенчмарка SWE-Bench Pro и заявила, что часть результатов на нём может быть искажена.
источник: Бенчмарк SWE-Bench Pro
По её версии, модели получали доступ к данным, которые помогают угадывать правильное решение. На фоне этой критики Datacurve представила собственный бенчмарк DeepSWE, который должен честнее проверять реальные навыки кодинговых агентов.
Источник: DeepSWE
Сам SWE-Bench Pro действительно позиционируется как строгий агентный бенчмарк для сложных задач в области software engineering. На его публичной странице отдельно подчёркиваются защита от попадания тестовых данных в обучающие выборки и использование Docker-окружений. Однако, по версии Datacurve, именно эти Docker-окружения и стали слабым местом бенчмарка.
В чём суть претензии Datacurve
По версии Datacurve, проблема SWE-Bench Pro заключается не только в сложности самих задач, но и в том, как устроена система оценки. Компания утверждает, что в некоторых прогонах отдельные модели, включая Claude Opus 4.6 и 4.7, могли напрямую получать доступ к эталонным решениям через git-историю внутри Docker-контейнера с заданием.
В блоге Datacurve это описывается как уязвимость тестовой среды. Сравнение моделей на таком бенчмарке может быть не вполне корректным. Если такой сценарий действительно возможен, то часть результатов в лидерборде отражает уже не способность модели решать инженерные задачи, а её умение находить скрытые подсказки внутри окружения.
Ключевые тезисы критики:
Проблема не в моделях, а в среде. Речь идёт о методологической ошибке, а не о намеренном «читерстве» со стороны нейросетей.
Под вопросом оказались результаты топовых моделей. В первую очередь Datacurve упоминает Claude Opus 4.6 и 4.7.
Сомнения возникают и к самой идее бенчмарка. SWE-Bench Pro создавался как более защищённый тест, в том числе от попадания эталонных решений в обучающие данные, но уязвимость всё равно проявилась.
По сути, Datacurve указывает на более общую проблему и даже самые защищённые бенчмарки могут наследовать слабые места контейнерной оценки. Если какая-то информация попадает в окружение вместе с задачей, она потенциально может стать подсказкой для агента.
Почему это важно для всей индустрии AI-кодинга
Для бенчмарков кодинга это принципиальный вопрос. Если модель может найти решение в истории репозитория или в файлах тестовой среды, итоговый результат уже хуже показывает её реальную способность писать код. А именно по таким цифрам компании и разработчики часто решают, какую нейросеть использовать в своих продуктах.
На публичном лидерборде SWE-Bench Pro видно, что топовые модели показывают довольно близкие результаты. В верхней части таблицы находятся GPT-5.4, Muse Spark, Claude Opus 4.6, Gemini 3.1 Pro и другие модели. Разница между ними не выглядит огромной, поэтому даже небольшая проблема в методике оценки может заметно повлиять на итоговую расстановку.


Источник: SWE-Bench Pro
Что представляет собой DeepSWE
DeepSWE — это собственный набор задач Datacurve для проверки AI-агентов, которые пишут код. Компания утверждает, что этот бенчмарк оценивает не то, насколько хорошо модель может найти подсказку или угадать готовое решение, а то, как она реально ведёт себя при решении задачи.
Проще говоря, Datacurve хочет проверять модели в более «чистой» среде без скрытых следов правильного ответа и без лишней информации, которая может случайно помочь агенту. Если SWE-Bench Pro старается имитировать реальные задачи разработчиков, то DeepSWE делает больший упор на строгую изоляцию и честную проверку результата.
Так Datacurve не просто критикует чужой бенчмарк, а предлагает свой вариант оценки AI-моделей для программирования.
Как изменился лидерборд топовых моделей
Datacurve утверждает, что после перехода на DeepSWE расстановка сил на лидерборде заметно изменилась. По её данным, GPT-5.5 заметно отрывается от остальных моделей, а GPT-5.4 и Claude Opus 4.7 идут следом с близкими результатами.

Источник: Datacurve / DeepSWE
На графике видно, что разрыв между верхними и средними моделями становится намного заметнее. Например, GPT-5.5 показывает около 70%, GPT-5.4 — 56%, а Claude Opus 4.7 — 54%. Ниже идут Claude Sonnet 4.6, Gemini 3.5 Flash, GPT-5.4 Mini и другие модели.
Это отличается от ситуации на SWE-Bench Pro, где результаты лидеров выглядят более плотными. Поэтому Datacurve и делает акцент на том, что смена методики оценки может заметно изменить представление о том, какая модель действительно сильнее в задачах программирования.
Однако эти цифры всё равно стоит воспринимать как данные самой Datacurve, а не как полностью независимую оценку. Компания одновременно критикует SWE-Bench Pro и продвигает собственный бенчмарк, поэтому к выводам важно относиться внимательно.
Слабые места самой методологии DeepSWE
Datacurve сама признаёт, что у DeepSWE есть ограничения. Это скорее плюс для компании, потому что она не пытается представить свой бенчмарк как идеальный инструмент оценки. Но эти оговорки всё равно важны.
Во-первых, набор задач пока сравнительно небольшой, поэтому статистическая устойчивость результатов ограничена. Чем меньше выборка, тем выше риск, что отдельные задачи непропорционально повлияют на итоговый рейтинг.
Во-вторых, покрытие остаётся неравномерным. Не все языки программирования, фреймворки и сценарии разработки представлены одинаково хорошо, а значит, бенчмарк может лучше отражать одни типы задач и хуже учитывать другие.
В-третьих, модели запускаются через стандартный mini-swe-agent с одним bash-инструментом. Такой подход делает сравнение более единообразным, но не всегда отражает реальные условия, в которых агент может использовать редактор кода, IDE-интеграции, навигацию по проекту и другие удобные инструменты.
Унификация делает DeepSWE честнее с точки зрения прямого сравнения моделей, но одновременно может скрывать сильные стороны отдельных агентных экосистем. Например, агент, хорошо заточенный под конкретную IDE, в такой среде может показать результат ниже своих реальных возможностей.
А что с нейтральностью самой Datacurve
Отдельный важный вопрос связан с возможным конфликтом интересов. Datacurve работает на пересечении data-инфраструктуры и AI, а вокруг её инвесторов, партнёров и индустриальных связей неизбежно возникают вопросы о том, насколько нейтрально компания оценивает модели крупнейших лабораторий.
Это не означает, что выводы Datacurve автоматически неверны. Но формулировать их стоит аккуратно. Datacurve не доказала, что Claude «читерит», а:
«Datacurve утверждает, что обнаружила признаки уязвимости в методике SWE-Bench Pro и предлагает альтернативный подход на DeepSWE».
Этот нюанс важен для всех, кто выбирает модель по результатам бенчмарков. Лидерборд может быть полезным ориентиром, но он не должен становиться единственным аргументом при выборе инструмента.
Что это значит для пользователей нейросетей
Главный вывод этой истории простой, бенчмарки в AI-кодинге пока далеки от идеала, поэтому слепо доверять цифрам с лидербордов не стоит. Реальное качество модели лучше всего проверяется на ваших собственных задачах.
Одна нейросеть может лучше писать SQL, другая аккуратнее работать с фронтендом, третья увереннее справляться с рефакторингом крупных проектов. Даже сильная модель не обязательно будет лучшей именно для вашего стека или формата задач под нужный рабочей процесс.
Поэтому разумная стратегия, держать под рукой несколько топовых моделей и сравнивать их на реальных кейсах и тогда вопрос, кому верить, SWE-Bench Pro или DeepSWE, становится менее критичным. Главное это то, какая модель даёт лучший результат именно в вашей работе.
Время не ждёт и нужно скорее проверить это на практике. Используйте наш сервис Unitool.ai с доступом к разным топовым нейросетям в одном месте. Можно дать одну и ту же задачу нескольким моделям, сравнить ответы и быстро понять, какая лучше подходит именно под ваш стек, задачи и стиль работы.