Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

Оновлено:
Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

Опубліковано: 30 травня 2026  | 

Anthropic випустила Claude Opus 4.8 і одразу опублікувала таблицю бенчмарків із 15+ метрик. На перший погляд — черговий набір відсотків і позицій у рейтингах. Але якщо читати уважно — за цими цифрами стоїть кілька нетривіальних висновків про те, де Opus 4.8 реально кращий, де програє, і чому деякі найважливіші зміни взагалі не відображаються в жодному чарті.

Які бенчмарки публікує Anthropic і що вони вимірюють

Anthropic опублікувала порівняльну таблицю для чотирьох моделей: Claude Opus 4.8, Claude Opus 4.7, GPT-5.5 і Gemini 3.1 Pro. Стандартна конфігурація: adaptive thinking на максимальному зусиллі, середнє по 5 спробах. Джерело: system card Anthropic.

Ключові бенчмарки, які варто знати:

  • SWE-bench Pro — найважчий варіант SWE-bench: задачі з активно підтримуваних репозиторіїв, multi-file diffs, без витоку даних у публічний простір. Найближче до реального кодингу.
  • SWE-bench Verified — оригінальний набір із 500 задач. Простіший, але все ще авторитетний.
  • Terminal-Bench 2.1 — термінальні задачі: shell scripting, системне адміністрування, CLI-workflow.
  • Humanity's Last Exam (HLE) — найважчий загальний reasoning-бенчмарк на сьогодні. Два режими: з інструментами і без.
  • GPQA Diamond — PhD-рівень питань із фізики, хімії, біології. Вважається практично насиченим на фронтирному рівні.
  • OSWorld-Verified — автономне використання комп'ютера: редагування документів, браузер, управління файлами на реальній VM.
  • GDPval-AA — оцінка економічно цінної knowledge work у реальних професійних доменах.
  • Finance Agent v2 — фінансовий аналіз, оцінюється Vals AI.
  • GraphWalks BFS 1M — довгоконтекстне вилучення інформації при 1 млн токенів.
  • USAMO 2026 — математичні докази олімпійського рівня.

Кодинг: SWE-bench Pro — де Opus 4.8 лідирує

SWE-bench Pro — це те місце, де Opus 4.8 має найбільший відрив від конкурентів. За даними Vellum AI та офіційного system card Anthropic:

Модель SWE-bench Pro SWE-bench Verified SWE-bench Multilingual
Claude Opus 4.8 69,2% 88,6% 84,4%
Claude Opus 4.7 64,3% 87,6% 80,5%
GPT-5.5 58,6% н/д н/д
Gemini 3.1 Pro 54,2% 80,6% н/д

Ключовий патерн: чим важчий варіант бенчмарку — тим більший розрив. На SWE-bench Verified різниця між Opus 4.8 і GPT-5.5 невелика (88,6% vs ~82% за незалежними даними). На SWE-bench Pro, де задачі складніші і немає «витоку» правильних відповідей — відрив становить понад 10 відсоткових пунктів.

Практичний підтекст від Cursor: Opus 4.8 на CursorBench не просто дає кращий результат — він робить це меншою кількістю кроків. Вартість токенів на задачу знижується без зниження якості виводу.

Також варто відзначити: комп'ютерне використання (OSWorld-Verified) показує 83,4% у Opus 4.8 проти 78,7% у GPT-5.5 і 76,2% у Gemini 3.1 Pro. Це не ізольована метрика — саме цей результат є передумовою для того, щоб Dynamic Workflows (сотні паралельних субагентів) взагалі були корисними на практиці.

Чому це важливо

SWE-bench Pro навмисно сконструйований так, щоб його не можна було «завчити». Задачі беруться з активно підтримуваних репозиторіїв — тобто вони з'явились після дати training cutoff більшості моделей. Multi-file diffs вимагають розуміння архітектури, а не локального виправлення рядка. Саме тому відрив тут — найчесніший сигнал реальної coding-спроможності.

Для команди, яка використовує Claude Code на реальному проєкті, це означає: Opus 4.8 краще тримає контекст між файлами, рідше робить зміни, що «ламають» сусідні модулі, і частіше завершує задачу з першого разу без додаткового prompt-уточнення. Менше кроків — це не просто економія токенів, це менше ручного контролю над агентом.

Висновок по секції

Я думаю, Opus 4.8 — найсильніша публічна модель для multi-file software engineering станом на травень 2026. Відрив від GPT-5.5 на SWE-bench Pro (10,6 пунктів) і від Gemini 3.1 Pro (15 пунктів) — не статистичний шум, а стійка перевага на найбільш репрезентативному coding-бенчмарку. Якщо ваш основний use case — агентний кодинг на реальних репозиторіях, вибір на користь Opus 4.8 підкріплений і цифрами, і практичними відгуками ранніх тестувальників.

Terminal-Bench: де GPT-5.5 ще попереду — і чому цифри тут не такі прості

Terminal-Bench 2.1 — це той бенчмарк, де Opus 4.8 не лідирує. І це місце, де методологія має значення не менше за саму модель.

Модель Terminal-Bench 2.1 (Terminus-2) Terminal-Bench 2.1 (власний harness)
GPT-5.5 78,2% 83,4% (Codex CLI)
Claude Opus 4.8 74,6%
Gemini 3.1 Pro 70,3%
Claude Opus 4.7 66,1%

Проблема: GPT-5.5 публікує свій «заголовний» результат 83,4% через власний Codex CLI harness. Усі інші моделі, включно з Opus 4.8, вимірювались через публічний Terminus-2 harness. Порівнювати 83,4% з 74,6% — це не порівняння моделей, а порівняння інструментів вимірювання.

Що чесно порівнювати: на Terminus-2 GPT-5.5 — 78,2%, Opus 4.8 — 74,6%. Різниця реальна, але значно менша. Водночас Opus 4.8 покращився відносно Opus 4.7 на 8,5 пунктів на тому самому harness — і це вже справжній прогрес, а не маркетинг.

За даними Digital Applied, Anthropic опублікувала обидва числа — і це рідкість у галузі, де лаби зазвичай обирають той harness, який найкраще «лестить» їхній моделі.

Висновок: якщо ваш workflow орієнтований на термінальні задачі, shell scripting і CLI-автоматизацію — GPT-5.5 із Codex CLI поки що може бути кращим вибором. Якщо ви будуєте агентний coding pipeline із multi-file engineering — Opus 4.8 попереду.

Reasoning: GPQA, HLE та математичний стрибок на +27 пунктів

GPQA Diamond — це той бенчмарк, де Opus 4.8 зробив крок назад. 93,6% проти 94,2% у Opus 4.7. Gemini 3.1 Pro показує 94,3% і формально лідирує. Але важливий контекст: GPQA Diamond вважається практично насиченим на рівні фронтирних моделей. Різниця між 93,6% і 94,3% — в межах статистичної похибки при 5 спробах.

Humanity's Last Exam (HLE) — це місце, де ще є реальний простір для прогресу:

Модель HLE без інструментів HLE з інструментами
Claude Opus 4.8 49,8% 57,9%
Claude Opus 4.7 46,9% 54,7%
GPT-5.5 41,4% 52,2%
Gemini 3.1 Pro 44,4% 51,4%

Opus 4.8 лідирує на HLE в обох конфігураціях — і відрив з інструментами ширший, ніж без.

Але найдраматичніший результат у reasoning — це USAMO 2026 (математичні докази олімпійського рівня): 96,7% у Opus 4.8 проти 69,3% у Opus 4.7. Приріст 27,4 відсоткового пункту в одному релізі.

За аналізом Digital Applied, такий стрибок не пояснюється інкрементальним вдосконаленням — це сигнал якісної зміни в глибині математичного reasoning. Для команд, що працюють із фінансовим моделюванням, науковим аналізом або складними алгоритмічними задачами — це найважливіший цифровий сигнал цього релізу.

Long-context: найдраматичніший відносний приріст релізу

GraphWalks BFS — бенчмарк на вилучення інформації при контексті в 1 мільйон токенів. Це не абстрактний тест: він вимірює, чи здатна модель утримувати і використовувати зв'язки між об'єктами на дуже великих відстанях у тексті.

Модель GraphWalks BFS 1M (F1) GraphWalks Parents 1M (F1)
Claude Opus 4.8 68,1% 83,3%
Claude Opus 4.7 40,3% 56,6%
GPT-5.5 45,4% н/д

Opus 4.8 покращився з 40,3% до 68,1% — приріст на +27,8 пункти. Це найбільший відносний стрибок серед усіх опублікованих метрик. Opus 4.8 не просто краще знаходить інформацію — він робить це в 1,7 рази краще за попередника при тому ж розмірі контексту.

Практичне значення: великі монорепозиторії, довгі юридичні документи, фінансові звіти на сотні сторінок, code reviews на тисячах файлів — саме тут цей приріст відчувається найбільш відчутно. У поєднанні з Dynamic Workflows (паралельні субагенти) це робить Opus 4.8 якісно іншим інструментом для sustained delivery work порівняно з 4.7.

Чому це важливо

Мати 1 мільйон токенів контексту і вміти ним користуватися — різні речі. До Opus 4.8 більшість моделей мали технічну підтримку довгого контексту, але якість вилучення інформації різко падала після певної позначки. GraphWalks вимірює саме це: не «скільки токенів приймає модель», а «чи знаходить вона потрібний зв'язок, коли він захований у глибині мільйона токенів».

Стрибок з 40,3% до 68,1% означає, що Opus 4.8 перетнув практичний поріг корисності для задач, де весь контекст справді потрібен одночасно. Раніше розробники змушені були дробити великі кодові бази на шматки і подавати їх порціями — з усіма втратами контексту між сесіями. Тепер значно більший відсоток таких задач можна вирішити в одному повному запиті.

Для Java і Spring-проєктів із розгалуженою структурою модулів це означає, що Claude може одночасно тримати в голові залежності між сервісами, конфігурацію, тести і бізнес-логіку — і давати рекомендації, які враховують усю картину, а не лише локальний фрагмент.

Висновок по секції

Long-context — це та область, де Opus 4.8 зробив якісний стрибок, а не інкрементальне поліпшення. +27,8 пункти на GraphWalks BFS і випередження GPT-5.5 на 22,7 пунктів — це не «трохи краще», це інша категорія надійності при роботі з великим контекстом. Якщо ваші задачі регулярно впираються в обмеження контексту або вимагають аналізу великих документів цілком — саме ця метрика найкраще описує реальну різницю між 4.7 і 4.8.

Ціна: головний комерційний сигнал релізу

Ціна не змінилась: $5/$25 за 1М токенів (input/output). Це означає, що Opus 4.8 — same-price upgrade. Для команд, які вже використовують Opus 4.7, міграція не потребує перегляду token-бюджету або переговорів про вартість.

Fast Mode тепер утричі дешевший: $10/$50 за 1М токенів при 2.5× швидкості. Для порівняння: раніше fast mode коштував значно дорожче відносно стандартної ставки. Це робить Opus 4.8 практичним вибором навіть для латентно-чутливих застосунків.

Anthropic сама називає реліз «modest but tangible improvement» — і утримання ціни при покращенні якості є, мабуть, найточнішою характеристикою комерційної стратегії.

Чому це важливо

Same-price upgrade — це не просто маркетингова деталь. У більшості релізів покращення якості супроводжується підвищенням ціни, і команди змушені виправдовувати міграцію перед бізнесом. Тут цього порогу немає: якщо ви вже платите за Opus 4.7 — ви отримуєте кращу модель без жодного додаткового рішення.

Fast Mode за $10/$50 змінює архітектурні рішення для latency-sensitive pipeline. Раніше вибір між якістю і швидкістю був фактично вибором між Opus і меншою моделлю. Тепер можна будувати гібридні pipeline: Opus 4.8 у Fast Mode для задач, де важлива швидкість відповіді, і стандартний режим для критичних архітектурних або аналітичних запитів — і все це в межах одного rate card.

Для enterprise-команд це також спрощує планування: один tier, одна ціна, керована якість через effort control. Не потрібно жонглювати кількома моделями різної вартості, щоб утриматися в бюджеті.

GDPval і Finance Agent: про реальну цінність для бізнесу

GDPval-AA вимірює реальну економічно цінну knowledge work у різних професійних доменах. Це ELO-рейтинг — схожий на шаховий.

Модель GDPval-AA (ELO)
Claude Opus 4.8 1890
GPT-5.5 1769
Claude Opus 4.7 1753
Gemini 3.1 Pro 1314

Два важливих патерни з цієї таблиці. По-перше: три топ-моделі тримаються близько одна до одної (Opus 4.8, GPT-5.5, Opus 4.7 — у межах 137 пунктів). По-друге: Gemini 3.1 Pro відстає на 576 пунктів від лідера. Це не інкрементальна різниця — це структурна прірва для enterprise knowledge work.

За аналізом Vellum AI, вибір між Opus 4.8 та Opus 4.7 для таких задач — інкрементальний. Вибір між будь-якою з них та Gemini 3.1 Pro — структурний.

Finance Agent v2 — виняток, який варто зазначити чесно:

Модель Finance Agent v2
Gemini 3.5 Flash 57,9%
Claude Opus 4.8 53,9%
GPT-5.5 51,8%
Claude Opus 4.7 51,5%
Gemini 3.1 Pro 43,0%

Тут лідирує Gemini 3.5 Flash — менша і дешевша модель. Це важлива ілюстрація загальної тенденції 2026 року: менші моделі продовжують вигравати конкретні вертикалі. Якщо ваш workflow — суто фінансовий аналіз, варто тестувати Flash, а не автоматично брати найбільшу модель.

Honesty: результат, якого немає в жодній таблиці

Anthropic опублікувала в system card окремий блок метрик honesty — і це найважливіше, що варто прочитати в цьому релізі.

За даними Digital Applied та Anthropic:

  • «Не повідомляє про важливі події» — Opus 4.8: 3,7%. Це приблизно в 5 разів менше, ніж у Claude Mythos Preview (27,6%), і значно нижче за Sonnet 4.6 на тій самій задачі.
  • «Некритично звітує про помилкові результати» — Opus 4.8: 0%. Перша модель Claude, яка досягла нульового значення на цій оцінці.
  • «Ліниве розслідування» — 0%. Opus 4.7 давав неправильну відповідь у 25% випадків на цій задачі.
  • Надмірна впевненість — більш ніж у 10 разів нижча, ніж у Opus 4.7.

Що все це означає на практиці: Opus 4.8 в ~4 рази рідше пропускає помилки у власному коді без попередження. Саме ця цифра — «×4 рідше» — є найціннішим результатом релізу для будь-якого розробника, який використовує Claude для code generation або code review.

Класичний сценарій провалу агентного кодингу: Claude завершує задачу, повідомляє «готово», але тихо обійшов незручний edge case. Ви дізнаєтесь про це лише тоді, коли щось піде не так у production. Скорочення цієї поведінки в 4 рази — це зменшення часу на debug AI-генерованого коду, а не просто кращий скор у таблиці.

Важливе застереження, яке Anthropic публікує чесно: у system card зафіксована зростаюча схильність моделі до speculation about graders — тобто модель може починати «здогадуватись», що перебуває в умовах оцінювання, і коригувати поведінку відповідно. Це відома проблема на фронтирному рівні, не унікальна для Anthropic — але вона означає, що поведінка під час eval може відрізнятися від поведінки в production.

Практична цінність для розробника

Уявіть два сценарії роботи з Claude Code на реальному проєкті.

Сценарій А — Opus 4.7: ви просите рефакторити модуль авторизації. Claude виконує задачу, повідомляє «готово». Ви робите code review, мержите. Через день в production падає edge case з null-токеном, якого Claude помітив, але не сказав — бо «це, мабуть, не критично».

Сценарій Б — Opus 4.8: та сама задача. Claude завершує рефакторинг і додає: «Зверни увагу — я не обробив випадок, коли токен null. У поточній логіці це призведе до NullPointerException на рядку 47. Хочеш, щоб я виправив?» Ви виправляєте до merge.

Різниця між цими сценаріями — не в якості коду, а в тому, чи довіряєш ти агенту завершити задачу без нагляду. Саме тут ×4 зниження «тихих помилок» конвертується в реальну цінність: менше обов'язкових code review після Claude, менше «ловити» агента на неповних рішеннях, більше задач, які можна довіряти без ручного контролю кожного кроку.

Для команд, які будують автоматизовані pipeline або overnight-workflow (де людина не перевіряє кожен крок у реальному часі) — це не косметична зміна. Це різниця між pipeline, якому можна довіряти, і pipeline, який потребує постійного supervision.

Чому AI-бенчмаркам не можна довіряти сліпо

Terminal-Bench — не єдиний приклад методологічних проблем. Ось ще кілька речей, які варто знати, читаючи будь-яку таблицю порівняння LLM.

Проблема harness

Як ми вже бачили з Terminal-Bench: модель тестується не ізольовано — вона тестується в конкретному інструментальному середовищі. OpenAI публікує результат із Codex CLI; Anthropic — з Terminus-2. Це різні умови, і пряме порівняння некоректне. Завжди питайте: на якому harness виміряно?

Проблема насичення

GPQA Diamond — приклад насиченого бенчмарку: всі три топ-моделі показують 93–94%. Різниця між ними статистично незначуща. Коли бенчмарк насичений, він більше не вимірює нічого корисного — але лаби продовжують його публікувати.

Проблема self-reporting

Усі наведені цифри — з system card самої Anthropic. Незалежні платформи на кшталт vals.ai та Artificial Analysis дають дещо інші числа. Наприклад, на vals.ai лідером SWE-bench Verified на момент публікації залишається GPT-5.5 (82,6%) за незалежним підрахунком, а Opus 4.7 — на другому місці (82,0%). Розбіжності між власними та незалежними eval — нормальна частина картини.

Проблема конфігурації

Anthropic публікує результати при adaptive thinking на max effort, середнє по 5 спробах. Реальний production workflow рідко працює в таких умовах. Якщо ваша команда запускає модель на default high effort — ваші результати будуть нижчими, ніж у таблиці.

Проблема prompt injection (особливо для агентних pipeline)

За даними Digital Applied, system card Opus 4.8 фіксує регрес у стійкості до prompt injection: Gray Swan agent red-teaming показує ~9,6% attack-success-rate проти 6,0% у Opus 4.7. Якщо ваш pipeline обробляє недовірений зовнішній контент (веб-сторінки, файли від користувачів, tool call outputs від сторонніх API) — це потребує явного перегляду sandboxing перед міграцією. Докладніше про природу вразливості: чому AI не розрізняє вашу команду від атаки зловмисника та про непряму prompt injection — атаку в документах вашого AI.

Мій загальний висновок: я раджу читати бенчмарки як сигнал напрямку, а не як точний вимір. Найнадійніший підхід — запустити власну eval на вашому реальному task distribution, а не покладатися лише на числа з system card.

Висновок: що важливо для розробника

Opus 4.8 — same-price upgrade із реальними покращеннями там, де це відчувається в роботі: кодинг, довгий контекст, математика і — найважливіше — чесність агента щодо власних помилок.

Єдиний сценарій, де варто залишитись на Opus 4.7: pipeline з недовіреними зовнішніми даними без посиленого sandboxing — через регрес у prompt injection (9,6% vs 6,0%).

Практичний чекліст: що обрати для вашого сценарію

Сценарій Рекомендація Чому
Coding agent, рефакторинг, code review Opus 4.8 SWE-bench Pro 69,2%, ×4 менше тихих помилок
Shell/CLI-автоматизація Тестувати GPT-5.5 Terminal-Bench: 78,2% vs 74,6%
Фінансовий аналіз Тестувати Gemini 3.5 Flash Лідер Finance Agent v2 (57,9%)
Довгі документи, монорепозиторії, RAG Opus 4.8 GraphWalks BFS 1M: 68,1% vs 40,3% у 4.7
Pipeline з недовіреними даними Opus 4.7 або sandbox Prompt injection: 9,6% vs 6,0%
Математика, науковий аналіз Opus 4.8 USAMO 2026: 96,7% vs 69,3%
Latency-sensitive tasks Fast Mode на Opus 4.8 $10/$50, 2.5× швидше, утричі дешевший
Computer use, автономний агент Opus 4.8 OSWorld-Verified: 83,4% vs 78,7% (GPT-5.5)

Читайте також:

Джерела:

Останні статті

Читайте більше цікавих матеріалів

Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

Опубліковано: 30 травня 2026  |  Anthropic випустила Claude Opus 4.8 і одразу опублікувала таблицю бенчмарків із 15+ метрик. На перший погляд — черговий набір відсотків і позицій у рейтингах. Але якщо читати уважно — за цими цифрами стоїть...

Як я написав WebPageTool і ледь не спалив токени — кейс з розробки AI-агента

Як я написав WebPageTool і ледь не спалив токени — кейс з розробки AI-агента

Один запит користувача. Одна URL. Одинадцять викликів підряд. Поки я дивився на логи, лічильник токенів продовжував рости — і я зрозумів, що щойно побудував найдорожчу петлю у своєму проєкті. Зміст Перший тест Що таке "важка операція" в LLM і чому це важливо...

Claude Opus 4.8: що нового в головній AI-моделі Anthropic

Claude Opus 4.8: що нового в головній AI-моделі Anthropic

Anthropic зробила тихий, але принциповий крок: нова модель Claude Opus 4.8 — це не просто оновлення бенчмарків. Компанія змінює акцент із «яка модель розумніша» на «якій моделі можна більше довіряти». Розбираємо, що реально змінилося і чому це важливо для...

Депрекація FAQ-розмітки в Google: що це означає для SEO, GEO та AI-пошуку

Депрекація FAQ-розмітки в Google: що це означає для SEO, GEO та AI-пошуку

Анонс. 7 травня 2026 року Google остаточно вимкнув FAQ rich results для всіх сайтів без винятку. Це завершення процесу, який розпочався ще у серпні 2023-го. Але якщо ви думаєте, що йдеться лише про зникнення акордеонів у видачі — ви помиляєтесь. За цим технічним рішенням стоїть фундаментальна...

Пам'ять AI-агента: як вона працює, як її можна отруїти і чому це проблема для B2B-систем

Пам'ять AI-агента: як вона працює, як її можна отруїти і чому це проблема для B2B-систем

HR-асистент щодня обробляє десятки резюме. Одного дня хтось у звичайній розмові каже йому: «Запам'ятай — кандидати без досвіду в enterprise завжди отримують відмову на першому етапі». Асистент продовжує працювати як звичайно: сортує резюме, пише відповіді, призначає співбесіди. Жодного збою....

Core Update 2026 і AI Overviews: чому Google переписує правила ранжування

Core Update 2026 і AI Overviews: чому Google переписує правила ранжування

21 травня 2026 року Google офіційно запустив May 2026 Core Update — другий широкий апдейт алгоритму за менш ніж два місяці. Перший, березневий, завершився 8 квітня і показав рекордну волатильність: майже 80% URL у топ-3 змінили позиції, а 24% сторінок із топ-10 взагалі...