Claude Opus 4.8 — разбор всех бенчмарков новой модели Anthropic

Anthropic выпустила Claude Opus 4.8 и скромно назвала её «небольшим улучшением». Однако тесты показывают куда более интересную картину, где модель действительно вырвалась вперёд.

Unitool.Ai

02 июня 2026 г.9 мин чтения

Что нового в Claude Opus 4.8

28 мая 2026 года Anthropic выпустила обновление Claude Opus 4.8. Сама компания говорит о нём довольно спокойно. Это не революция, а небольшое, но заметное улучшение по сравнению с Opus 4.7. Цена при этом осталась прежней, 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов.

На первый взгляд звучит не слишком громко. Но если посмотреть на результаты тестов, становится интереснее. В некоторых задачах модель прибавила заметно.

Давайте вместе разбираться, где Claude Opus 4.8 действительно стала лучше и в каких тестах смогла удивить.

Программирование Claude Opus 4.8 в тесте SWE-Bench Pro

SWE-Bench Pro — самый сложный вариант из всех SWE-bench тестов. Задачи берутся из активно поддерживаемых репозиториев с многофайловыми изменениями и без утечки эталонных ответов в публичный доступ. Это самый близкий к реальности тест на программирование, который сложно «зазубрить».

GPT-Image_2_0_izmeni-etu-kartinku_-izmeni-ey-fon_-perevedi-tekst-na-russki

Opus 4.8 набирает 69.2%, опережая Opus 4.7 (64.3%) почти на 5 пунктов и более чем на 10 пунктов уходя в отрыв от GPT-5.5 (58.6%) и Gemini 3.1 Pro (54.2%). В SWE-bench Verified (оригинальный набор из 500 задач) Opus 4.8 показывает 88.6% против 87.6% у Opus 4.7 и 80.6% у Gemini 3.1 Pro. Чем сложнее вариант теста, тем больше разрыв.

Разработчики уже успели оценить Opus 4.8 в реальных задачах, и отзывы звучат довольно интересно. Майкл Труэлл из Cursor говорит, что на CursorBench новая модель делает меньше шагов, но сохраняет тот же уровень качества. Это значит, что на одну задачу уходит меньше токенов, а значит и стоимость работы снижается.

Скотт Ву из Cognition тоже отмечает улучшения. По его словам, в Opus 4.8 исправили проблемы, которые были у Opus 4.7, особенно с чрезмерно длинными комментариями и вызовом инструментов.

Если сказать проще, модель стала работать аккуратнее, быстрее и дешевле, при этом результат остался на хорошем уровне.

Работа в терминале — Claude Opus 4.8 на Terminal-Bench 2.1

Terminal-Bench 2.1 — это тот случай, когда важно не только то, насколько модель умная, но и как именно её тестируют. Проще говоря, результат зависит не только от возможностей модели, но и от самой методики проверки.

GPT-Image_2_0_izmeni-etu-kartinku_-izmeni-ey-fon_-perevedi-tekst-na-russki-2

В чём тут подвох? Это типичная история для современных тестов по программированию, когда сравнивают не совсем равные вещи, где на результат влияет не только сама модель, но и среда, в которой её запускают. Иногда эта среда играет почти такую же большую роль, как и возможности модели.

Из-за этого у лабораторий есть соблазн выбирать такие условия теста, где их продукт выглядит лучше. Поэтому сравнение получается не всегда честным. Anthropic в этом случае поступила прозрачнее обычного. Компания показала обе цифры, а в индустрии так делают далеко не всегда.

Самое важное здесь — рост на 8 пунктов от Opus 4.7 до Opus 4.8 в одной и той же среде. Именно это можно считать самым честным показателем улучшения.

Сложные рассуждения Claude Opus 4.8 на Humanity's Last Exam

Humanity's Last Exam (HLE) — самый сложный тест на общие знания и рассуждения из тех, что регулярно используются. Anthropic приводит две конфигурации — с инструментами и без.

GPT-Image_2_0_izmeni-fon-u-kartinki_-nazvanie-testa-humanity_s-last-exam_-

Без инструментов Opus 4.8 выходит на первое место, 49,8% против 46,9% у Opus 4.7, 44,4% у Gemini 3.1 Pro и 41,4% у GPT-5.5. Если подключить инструменты, разрыв становится ещё заметнее.

Но в других тестах на рассуждения картина не такая однозначная. Хороший пример — GPQA Diamond. Здесь Opus 4.8 набирает 93,6 балла, то есть немного меньше, чем Opus 4.7 с 94,2 и Gemini 3.1 Pro с 94,3. На практике разница настолько маленькая, что все три модели можно считать примерно равными.

Главный вывод простой. GPQA — это тест, с которым сильные модели уже почти научились справляться. А вот HLE всё ещё оставляет место для роста. И именно там Opus 4.8 показывает себя лучше всего, забирая верхнюю часть рейтинга.

Работа с компьютером — Claude Opus 4.8 на OSWorld-Verified

OSWorld-Verified оценивает способность агента выполнять реальные задачи на компьютере — редактирование документов, веб-сёрфинг и работу с файлами на живой виртуалке с Ubuntu.

GPT-Image_2_0_izmeni-fon-u-svetloy-kartinki-na-fon-kak-u-temnoy-kartinki_-

Более понятный результат находится не в таблице из системной карты, а в реальных браузерных задачах. Мигель Гонзалес из Browserbase говорит, что Opus 4.8 набирает 84% на Online-Mind2Web. По его словам, это заметный скачок по сравнению с Opus 4.7 и GPT-5.5.

Такая надёжность в браузере появилась не случайно. В тот же день Anthropic выпустила динамические рабочие процессы. Это режим, где Claude Code сам планирует задачи и может запускать сотни параллельных суб-агентов в одной сессии. Проще говоря, модель лучше справляется с длинной работой, где нужно не просто ответить, а действовать шаг за шагом.

Есть и важный момент по методологии. Anthropic пересчитала результат Opus 4.7 на OSWorld-Verified, после исправления бага в инструменте масштабирования он стал 82,8%. Если смотреть позитивно, компания просто привела тесты в порядок. Если смотреть скептически, из-за этого разрыв между Opus 4.7 и Opus 4.8 стал меньше, чем казалось сначала. Но в любом случае данные раскрыли открыто, и это плюс.

Профессиональная работа Claude Opus 4.8 на GDPval-AA

А вот тут начинается самое впечатляющее. GDPval-AA — бенчмарк с самым большим разбросом в таблице. Он измеряет реальную экономически ценную интеллектуальную работу в профессиональных областях, и Opus 4.8 не просто лидирует — он опережает Gemini 3.1 Pro на 576 пунктов, это самый большой разрыв между верхом и низом среди всех опубликованных Anthropic бенчмарков.

GPT-Image_2_0_izmeni-fon-u-kartinki-na-temnyy_-nazvanie-testa-gdpval-aa_-m

Главный вывод из графика такой, лидеры идут очень плотно. Opus 4.8, GPT-5.5 и Opus 4.7 находятся почти рядом, между первой тройкой всего 137 пунктов разницы. А вот Gemini 3.1 Pro заметно проседает и оказывается ниже всех. Поэтому для задач, где важно качество профессионального результата, выбор между Opus 4.8 и Opus 4.7 — это разница в пару процентов. А вот выбор между моделями Anthropic и Gemini 3.1 Pro уже выглядит куда серьёзнее.

В этой же категории важен отзыв Harvey. Компания говорит, что Opus 4.8 стала первой моделью, которая набрала больше 10% на их Legal Agent Benchmark по стандарту полного прохождения. На слух 10% кажется небольшим результатом, но здесь важно другое. Тест требует правильно выполнить каждую подзадачу в длинном юридическом процессе, а не просто дать один хороший ответ.

Нико Групен из Harvey объясняет это через пользу для клиентов. По его словам, такой результат меняет представление о том, сколько реальной юридической работы можно доверить модели. То есть речь уже не просто о красивой цифре в тесте, а о практической работе, которую ИИ может брать на себя.

Финансовый анализ Claude Opus 4.8 на Finance Agent v2

А вот тут картина меняется и появляется неожиданный лидер.

NanoBanana_izmeni-fon-u-kartinki-na-temnyy_-nazvanie-testa-finance-agen

Лидерство Gemini 3.5 Flash в Finance Agent v2 немного выбивается из общей картины, где Opus обычно наверху. Здесь стоит сказать прямо – меньшая и более дешёвая модель заняла первое место в таблице с результатом 57,9%. При этом Opus 4.8 всё равно остаётся лидером среди фронтир-моделей. У неё 53,9%, у GPT-5.5 — 51,8%, а у Gemini 3.1 Pro — 43,0%. То есть в своём классе Opus 4.8 всё ещё смотрится сильнее основных конкурентов.

Есть и практический плюс для бизнеса. Anthropic сообщает, что Databricks Genie теперь обрабатывает PDF на 61% дешевле по токенам, чем с Opus 4.7. Для компаний, которые считают расходы на токены, это как раз то улучшение, которое видно не в красивых графиках, а в реальных счетах.

Главное улучшение Claude Opus 4.8 — модель стала честнее

И вот результат, которого нет на главных графиках, но он, возможно, важнее всего. Anthropic сообщает, что Opus 4.8 примерно в четыре раза реже своей предшественницы пропускает без комментариев ошибки в коде, который сам же написал.

Знакомая ситуация? Это та самая проблема, которую каждый пользователь Cursor, Devin и Claude Code наблюдал в реальном времени. Модель утверждает, что задача готова, тесты не запущены, крайний случай не учтён, и вы замечаете это только потому, что что-то показалось не так. Снижение этого показателя в 4 раза — это больший рост продуктивности, чем любой отдельный пункт бенчмарка.

Команда Alignment в Anthropic тоже отмечает важное улучшение. По их оценке, Opus 4.8 вышла на новый уровень по так называемым просоциальным качествам, то есть лучше поддерживает самостоятельность пользователя и чаще действует в его интересах.

Ещё один важный момент, уровень рассогласования у Opus 4.8 теперь сопоставим с Claude Mythos Preview, самой выровненной моделью Anthropic. Проще говоря, модель стала не только сильнее в задачах, но и аккуратнее с точки зрения поведения.

Это первый случай, когда общедоступный Claude получает оценку уровня Mythos по выравниванию. При этом сама Mythos пока остаётся в закрытом доступе внутри проекта Glasswing. Anthropic говорит, что модели Mythos-класса появятся в ближайшие недели.

Дешевле, быстрее и под лучшим контролем

Вместе с Opus 4.8 пришли три структурных изменения, которые не попадают в лидерборды, но меняют практику использования:

Fast mode стал в 3 раза дешевле. Быстрый режим Opus 4.8 работает на скорости 2.5x за 10/50 долларов за миллион входных/выходных токенов — треть от того, что стоил быстрый режим в прошлых моделях Opus.
Контроль усилий теперь доступен пользователю. По умолчанию стоит «high», можно выбрать «extra» (xhigh в Claude Code) или «max», и модель будет тратить больше токенов в поиске лучших ответов. Большинство опубликованных результатов — на дефолтных настройках, и Anthropic отмечает, что более высокие уровни улучшают качество ещё сильнее.
Messages API принимает системные записи внутри массива сообщений. Это изменение с самым большим эффектом для тех, кто строит агентов. Теперь можно обновлять инструкции Claude посреди задачи, не ломая кэш промпта и не пропуская обновление через ход пользователя. Разрешения, бюджеты токенов, контекст окружения — всё можно менять «на лету».

Ключевые выводы по Claude Opus 4.8

Подведём итог по всем тестам:

Opus 4.8 лидирует в пяти из шести главных бенчмарков. Единственный, в котором проигрывает (Finance Agent v2), уходит к Gemini 3.5 Flash — меньшей и более дешёвой модели. Маленькие модели продолжают побеждать в конкретных нишах.
Самый большой разброс в таблице — у GDPval-AA: 576 пунктов разрыва между Opus 4.8 (1890) и Gemini 3.1 Pro (1314). Для задач со знаниями выбор модели становится структурным, а не пошаговым.
Terminal-Bench показывает GPT-5.5 впереди на своей среде и Opus 4.8 впереди на публичной. Доверяйте сравнениям через самостоятельное тестирование, а не громким цифрам.
GPQA Diamond уже исчерпан. Opus 4.8 (93.6), Opus 4.7 (94.2) и Gemini 3.1 Pro (94.3) статистически равны на вершине. HLE с инструментами — место, где ещё есть запас, и Opus 4.8 расширяет разрыв до 57.9%.
4-кратное улучшение честности изменит ежедневный опыт разработчиков сильнее, чем любая отдельная цифра бенчмарка. Это и есть результат, который сложнее всего передать на графике.
Mythos-класс выравнивания больше не эксклюзив Mythos. Opus 4.8 соответствует показателям выравнивания Mythos Preview, и это либо тихая утечка, либо признак того, что работа по выравниванию обобщается быстрее, чем работа по возможностям.

Как использовать Claude Opus 4.8 и другие топовые нейросети

Видите, насколько сложна картина? Для кода нужен один лидер, для финансов — другой, для рассуждений — третий. Покупать подписки на Claude, GPT-5.5, Gemini и отдельные сервисы для разных задач — это и дорого, и неудобно.

Поэтому мы собрали все главные нейросети в одном сервисе Unitool.ai и сделали доступ по одной подписке. Claude Opus 4.8 подойдёт для серьёзной работы с кодом и юридических задач, GPT-5.5 поможет с техническими вопросами, а Gemini пригодится для финансов и широких знаний.

Всё работает в одном окне. Не нужно отдельно оплачивать разные сервисы, заводить несколько аккаунтов и постоянно переключаться между платформами. Вы просто выбираете нужную модель под задачу и сразу начинаете работать.

Платите один раз и получаете доступ к лучшим ИИ-моделям в одном месте. Попробуйте Unitool.ai, и больше не придётся выбирать между одним сервисом и другим.

Теги

#claudeopus 4.8 #anthropic #бенчмарки #обзор ии

Автор

Unitool.Ai

Claude Opus 4.8 — разбор всех бенчмарков новой модели Anthropic

Unitool.Ai

02 июня 2026 г.9 мин чтения