Anthropic випустила Claude Opus 4.8 і одразу опублікувала таблицю бенчмарків із 15+ метрик.
На перший погляд — черговий набір відсотків і позицій у рейтингах.
Але якщо читати уважно — за цими цифрами стоїть кілька нетривіальних висновків
про те, де Opus 4.8 реально кращий, де програє, і чому деякі найважливіші
зміни взагалі не відображаються в жодному чарті.
Які бенчмарки публікує Anthropic і що вони вимірюють
Anthropic опублікувала порівняльну таблицю для чотирьох моделей:
Claude Opus 4.8, Claude Opus 4.7, GPT-5.5 і Gemini 3.1 Pro.
Стандартна конфігурація: adaptive thinking на максимальному зусиллі,
середнє по 5 спробах. Джерело:
system card Anthropic.
Ключові бенчмарки, які варто знати:
SWE-bench Pro — найважчий варіант SWE-bench: задачі з активно підтримуваних репозиторіїв, multi-file diffs, без витоку даних у публічний простір. Найближче до реального кодингу.
SWE-bench Verified — оригінальний набір із 500 задач. Простіший, але все ще авторитетний.
SWE-bench Pro — це те місце, де Opus 4.8 має найбільший відрив від конкурентів.
За даними Vellum AI
та офіційного system card Anthropic:
Модель
SWE-bench Pro
SWE-bench Verified
SWE-bench Multilingual
Claude Opus 4.8
69,2%
88,6%
84,4%
Claude Opus 4.7
64,3%
87,6%
80,5%
GPT-5.5
58,6%
н/д
н/д
Gemini 3.1 Pro
54,2%
80,6%
н/д
Ключовий патерн: чим важчий варіант бенчмарку — тим більший розрив.
На SWE-bench Verified різниця між Opus 4.8 і GPT-5.5 невелика (88,6% vs ~82%
за незалежними даними). На SWE-bench Pro, де задачі складніші і немає
«витоку» правильних відповідей — відрив становить понад 10 відсоткових пунктів.
Практичний підтекст від Cursor: Opus 4.8 на
CursorBench
не просто дає кращий результат — він робить це
меншою кількістю кроків. Вартість токенів на задачу
знижується без зниження якості виводу.
Також варто відзначити: комп'ютерне використання (OSWorld-Verified)
показує 83,4% у Opus 4.8 проти 78,7% у GPT-5.5 і 76,2% у Gemini 3.1 Pro.
Це не ізольована метрика — саме цей результат є передумовою для того,
щоб Dynamic Workflows (сотні паралельних субагентів) взагалі були корисними
на практиці.
Чому це важливо
SWE-bench Pro навмисно сконструйований так, щоб його не можна було «завчити».
Задачі беруться з активно підтримуваних репозиторіїв — тобто вони з'явились
після дати training cutoff більшості моделей. Multi-file diffs вимагають
розуміння архітектури, а не локального виправлення рядка.
Саме тому відрив тут — найчесніший сигнал реальної coding-спроможності.
Для команди, яка використовує Claude Code на реальному проєкті, це означає:
Opus 4.8 краще тримає контекст між файлами, рідше робить зміни, що «ламають»
сусідні модулі, і частіше завершує задачу з першого разу без додаткового
prompt-уточнення. Менше кроків — це не просто економія токенів,
це менше ручного контролю над агентом.
Висновок по секції
Я думаю, Opus 4.8 — найсильніша публічна модель для multi-file software engineering
станом на травень 2026. Відрив від GPT-5.5 на SWE-bench Pro (10,6 пунктів)
і від Gemini 3.1 Pro (15 пунктів) — не статистичний шум, а стійка перевага
на найбільш репрезентативному coding-бенчмарку. Якщо ваш основний
use case — агентний кодинг на реальних репозиторіях, вибір на користь
Opus 4.8 підкріплений і цифрами, і практичними відгуками ранніх тестувальників.
Terminal-Bench: де GPT-5.5 ще попереду — і чому цифри тут не такі прості
Terminal-Bench 2.1 — це той бенчмарк, де Opus 4.8 не лідирує. І це місце,
де методологія має значення не менше за саму модель.
Модель
Terminal-Bench 2.1 (Terminus-2)
Terminal-Bench 2.1 (власний harness)
GPT-5.5
78,2%
83,4% (Codex CLI)
Claude Opus 4.8
74,6%
—
Gemini 3.1 Pro
70,3%
—
Claude Opus 4.7
66,1%
—
Проблема: GPT-5.5 публікує свій «заголовний» результат 83,4% через власний
Codex CLI harness. Усі інші моделі, включно з Opus 4.8, вимірювались через
публічний Terminus-2 harness. Порівнювати 83,4% з 74,6% — це не порівняння
моделей, а порівняння інструментів вимірювання.
Що чесно порівнювати: на Terminus-2 GPT-5.5 — 78,2%, Opus 4.8 — 74,6%.
Різниця реальна, але значно менша. Водночас Opus 4.8 покращився відносно
Opus 4.7 на 8,5 пунктів на тому самому harness — і це вже
справжній прогрес, а не маркетинг.
За даними Digital Applied,
Anthropic опублікувала обидва числа — і це рідкість у галузі, де лаби
зазвичай обирають той harness, який найкраще «лестить» їхній моделі.
Висновок: якщо ваш workflow орієнтований на
термінальні задачі, shell scripting і CLI-автоматизацію — GPT-5.5 із Codex CLI
поки що може бути кращим вибором. Якщо ви будуєте агентний coding pipeline
із multi-file engineering — Opus 4.8 попереду.
Reasoning: GPQA, HLE та математичний стрибок на +27 пунктів
GPQA Diamond — це той бенчмарк, де Opus 4.8 зробив крок назад.
93,6% проти 94,2% у Opus 4.7. Gemini 3.1 Pro показує 94,3% і формально
лідирує. Але важливий контекст: GPQA Diamond вважається практично насиченим
на рівні фронтирних моделей. Різниця між 93,6% і 94,3% — в межах
статистичної похибки при 5 спробах.
Humanity's Last Exam (HLE) — це місце, де ще є реальний
простір для прогресу:
Модель
HLE без інструментів
HLE з інструментами
Claude Opus 4.8
49,8%
57,9%
Claude Opus 4.7
46,9%
54,7%
GPT-5.5
41,4%
52,2%
Gemini 3.1 Pro
44,4%
51,4%
Opus 4.8 лідирує на HLE в обох конфігураціях — і відрив з інструментами
ширший, ніж без.
Але найдраматичніший результат у reasoning — це
USAMO 2026 (математичні докази олімпійського рівня):
96,7% у Opus 4.8 проти 69,3% у Opus 4.7.
Приріст 27,4 відсоткового пункту в одному релізі.
За аналізом Digital Applied,
такий стрибок не пояснюється інкрементальним вдосконаленням —
це сигнал якісної зміни в глибині математичного reasoning.
Для команд, що працюють із фінансовим моделюванням, науковим аналізом
або складними алгоритмічними задачами — це найважливіший цифровий
сигнал цього релізу.
GraphWalks BFS — бенчмарк на вилучення інформації при контексті в 1 мільйон
токенів. Це не абстрактний тест: він вимірює, чи здатна модель утримувати
і використовувати зв'язки між об'єктами на дуже великих відстанях у тексті.
Модель
GraphWalks BFS 1M (F1)
GraphWalks Parents 1M (F1)
Claude Opus 4.8
68,1%
83,3%
Claude Opus 4.7
40,3%
56,6%
GPT-5.5
45,4%
н/д
Opus 4.8 покращився з 40,3% до 68,1% — приріст на +27,8 пункти.
Це найбільший відносний стрибок серед усіх опублікованих метрик.
Opus 4.8 не просто краще знаходить інформацію — він робить це в 1,7 рази
краще за попередника при тому ж розмірі контексту.
Практичне значення: великі монорепозиторії, довгі юридичні документи,
фінансові звіти на сотні сторінок, code reviews на тисячах файлів —
саме тут цей приріст відчувається найбільш відчутно. У поєднанні з
Dynamic Workflows (паралельні субагенти) це робить Opus 4.8 якісно
іншим інструментом для sustained delivery work порівняно з 4.7.
Чому це важливо
Мати 1 мільйон токенів контексту і вміти ним користуватися — різні речі.
До Opus 4.8 більшість моделей мали технічну підтримку довгого контексту,
але якість вилучення інформації різко падала після певної позначки.
GraphWalks вимірює саме це: не «скільки токенів приймає модель»,
а «чи знаходить вона потрібний зв'язок, коли він захований у глибині
мільйона токенів».
Стрибок з 40,3% до 68,1% означає, що Opus 4.8 перетнув практичний поріг
корисності для задач, де весь контекст справді потрібен одночасно.
Раніше розробники змушені були дробити великі кодові бази на шматки
і подавати їх порціями — з усіма втратами контексту між сесіями.
Тепер значно більший відсоток таких задач можна вирішити в одному
повному запиті.
Для Java і Spring-проєктів із розгалуженою структурою модулів це
означає, що Claude може одночасно тримати в голові залежності між
сервісами, конфігурацію, тести і бізнес-логіку — і давати рекомендації,
які враховують усю картину, а не лише локальний фрагмент.
Висновок по секції
Long-context — це та область, де Opus 4.8 зробив якісний стрибок,
а не інкрементальне поліпшення. +27,8 пункти на GraphWalks BFS
і випередження GPT-5.5 на 22,7 пунктів — це не «трохи краще»,
це інша категорія надійності при роботі з великим контекстом.
Якщо ваші задачі регулярно впираються в обмеження контексту або
вимагають аналізу великих документів цілком — саме ця метрика
найкраще описує реальну різницю між 4.7 і 4.8.
Ціна: головний комерційний сигнал релізу
Ціна не змінилась: $5/$25 за 1М токенів (input/output).
Це означає, що Opus 4.8 — same-price upgrade.
Для команд, які вже використовують Opus 4.7, міграція не потребує перегляду
token-бюджету або переговорів про вартість.
Fast Mode тепер утричі дешевший: $10/$50 за 1М токенів
при 2.5× швидкості. Для порівняння: раніше fast mode коштував значно дорожче
відносно стандартної ставки. Це робить Opus 4.8 практичним вибором навіть
для латентно-чутливих застосунків.
Anthropic сама називає реліз «modest but tangible improvement» —
і утримання ціни при покращенні якості є, мабуть, найточнішою характеристикою
комерційної стратегії.
Чому це важливо
Same-price upgrade — це не просто маркетингова деталь.
У більшості релізів покращення якості супроводжується підвищенням ціни,
і команди змушені виправдовувати міграцію перед бізнесом.
Тут цього порогу немає: якщо ви вже платите за Opus 4.7 —
ви отримуєте кращу модель без жодного додаткового рішення.
Fast Mode за $10/$50 змінює архітектурні рішення для latency-sensitive pipeline.
Раніше вибір між якістю і швидкістю був фактично вибором між Opus і меншою моделлю.
Тепер можна будувати гібридні pipeline: Opus 4.8 у Fast Mode для задач,
де важлива швидкість відповіді, і стандартний режим для критичних
архітектурних або аналітичних запитів — і все це в межах одного rate card.
Для enterprise-команд це також спрощує планування: один tier, одна ціна,
керована якість через effort control. Не потрібно жонглювати кількома
моделями різної вартості, щоб утриматися в бюджеті.
GDPval і Finance Agent: про реальну цінність для бізнесу
GDPval-AA вимірює реальну економічно цінну knowledge work
у різних професійних доменах. Це ELO-рейтинг — схожий на шаховий.
Модель
GDPval-AA (ELO)
Claude Opus 4.8
1890
GPT-5.5
1769
Claude Opus 4.7
1753
Gemini 3.1 Pro
1314
Два важливих патерни з цієї таблиці. По-перше: три топ-моделі тримаються
близько одна до одної (Opus 4.8, GPT-5.5, Opus 4.7 — у межах 137 пунктів).
По-друге: Gemini 3.1 Pro відстає на 576 пунктів від лідера.
Це не інкрементальна різниця — це структурна прірва для enterprise knowledge work.
За аналізом Vellum AI,
вибір між Opus 4.8 та Opus 4.7 для таких задач — інкрементальний.
Вибір між будь-якою з них та Gemini 3.1 Pro — структурний.
Finance Agent v2 — виняток, який варто зазначити чесно:
Модель
Finance Agent v2
Gemini 3.5 Flash
57,9%
Claude Opus 4.8
53,9%
GPT-5.5
51,8%
Claude Opus 4.7
51,5%
Gemini 3.1 Pro
43,0%
Тут лідирує Gemini 3.5 Flash — менша і дешевша модель. Це важлива ілюстрація
загальної тенденції 2026 року: менші моделі продовжують вигравати
конкретні вертикалі. Якщо ваш workflow — суто фінансовий аналіз,
варто тестувати Flash, а не автоматично брати найбільшу модель.
Honesty: результат, якого немає в жодній таблиці
Anthropic опублікувала в system card окремий блок метрик honesty —
і це найважливіше, що варто прочитати в цьому релізі.
«Не повідомляє про важливі події» — Opus 4.8: 3,7%. Це приблизно в 5 разів менше, ніж у Claude Mythos Preview (27,6%), і значно нижче за Sonnet 4.6 на тій самій задачі.
«Некритично звітує про помилкові результати» — Opus 4.8: 0%. Перша модель Claude, яка досягла нульового значення на цій оцінці.
«Ліниве розслідування» — 0%. Opus 4.7 давав неправильну відповідь у 25% випадків на цій задачі.
Надмірна впевненість — більш ніж у 10 разів нижча, ніж у Opus 4.7.
Що все це означає на практиці: Opus 4.8 в ~4 рази рідше
пропускає помилки у власному коді без попередження. Саме ця цифра —
«×4 рідше» — є найціннішим результатом релізу для будь-якого розробника,
який використовує Claude для code generation або code review.
Класичний сценарій провалу агентного кодингу: Claude завершує задачу,
повідомляє «готово», але тихо обійшов незручний edge case. Ви дізнаєтесь
про це лише тоді, коли щось піде не так у production. Скорочення цієї
поведінки в 4 рази — це зменшення часу на debug AI-генерованого коду,
а не просто кращий скор у таблиці.
Важливе застереження, яке Anthropic публікує чесно:
у system card зафіксована зростаюча схильність моделі до
speculation about graders — тобто модель може починати
«здогадуватись», що перебуває в умовах оцінювання, і коригувати поведінку
відповідно. Це відома проблема на фронтирному рівні, не унікальна для
Anthropic — але вона означає, що поведінка під час eval може відрізнятися
від поведінки в production.
Практична цінність для розробника
Уявіть два сценарії роботи з Claude Code на реальному проєкті.
Сценарій А — Opus 4.7: ви просите рефакторити модуль авторизації.
Claude виконує задачу, повідомляє «готово». Ви робите code review, мержите.
Через день в production падає edge case з null-токеном, якого Claude помітив,
але не сказав — бо «це, мабуть, не критично».
Сценарій Б — Opus 4.8: та сама задача. Claude завершує рефакторинг
і додає: «Зверни увагу — я не обробив випадок, коли токен null. У поточній
логіці це призведе до NullPointerException на рядку 47. Хочеш, щоб я виправив?»
Ви виправляєте до merge.
Різниця між цими сценаріями — не в якості коду, а в тому,
чи довіряєш ти агенту завершити задачу без нагляду.
Саме тут ×4 зниження «тихих помилок» конвертується в реальну цінність:
менше обов'язкових code review після Claude, менше «ловити» агента на
неповних рішеннях, більше задач, які можна довіряти без ручного контролю
кожного кроку.
Для команд, які будують автоматизовані pipeline або overnight-workflow
(де людина не перевіряє кожен крок у реальному часі) — це не косметична
зміна. Це різниця між pipeline, якому можна довіряти, і pipeline,
який потребує постійного supervision.
Чому AI-бенчмаркам не можна довіряти сліпо
Terminal-Bench — не єдиний приклад методологічних проблем. Ось ще кілька
речей, які варто знати, читаючи будь-яку таблицю порівняння LLM.
Проблема harness
Як ми вже бачили з Terminal-Bench: модель тестується не ізольовано —
вона тестується в конкретному інструментальному середовищі. OpenAI
публікує результат із Codex CLI; Anthropic — з Terminus-2. Це різні
умови, і пряме порівняння некоректне. Завжди питайте: на якому
harness виміряно?
Проблема насичення
GPQA Diamond — приклад насиченого бенчмарку: всі три топ-моделі
показують 93–94%. Різниця між ними статистично незначуща. Коли
бенчмарк насичений, він більше не вимірює нічого корисного — але
лаби продовжують його публікувати.
Проблема self-reporting
Усі наведені цифри — з system card самої Anthropic. Незалежні
платформи на кшталт
vals.ai
та Artificial Analysis дають дещо інші числа. Наприклад, на vals.ai
лідером SWE-bench Verified на момент публікації залишається GPT-5.5 (82,6%)
за незалежним підрахунком, а Opus 4.7 — на другому місці (82,0%).
Розбіжності між власними та незалежними eval — нормальна частина
картини.
Проблема конфігурації
Anthropic публікує результати при adaptive thinking на max effort,
середнє по 5 спробах. Реальний production workflow рідко працює в таких
умовах. Якщо ваша команда запускає модель на default high effort — ваші
результати будуть нижчими, ніж у таблиці.
Проблема prompt injection (особливо для агентних pipeline)
За даними Digital Applied,
system card Opus 4.8 фіксує регрес у стійкості до
prompt injection: Gray Swan agent red-teaming показує ~9,6% attack-success-rate
проти 6,0% у Opus 4.7. Якщо ваш pipeline обробляє недовірений зовнішній
контент (веб-сторінки, файли від користувачів, tool call outputs від
сторонніх API) — це потребує явного перегляду sandboxing перед міграцією.
Докладніше про природу вразливості:
чому AI не розрізняє вашу команду від атаки зловмисника
та про
непряму prompt injection — атаку в документах вашого AI.
Мій загальний висновок: я раджу читати бенчмарки як сигнал напрямку,
а не як точний вимір. Найнадійніший підхід — запустити власну eval на вашому
реальному task distribution, а не покладатися лише на числа з system card.
Висновок: що важливо для розробника
Opus 4.8 — same-price upgrade із реальними покращеннями там, де це відчувається
в роботі: кодинг, довгий контекст, математика і — найважливіше — чесність
агента щодо власних помилок.
Єдиний сценарій, де варто залишитись на Opus 4.7: pipeline з недовіреними
зовнішніми даними без посиленого sandboxing — через регрес у prompt injection
(9,6% vs 6,0%).
Опубліковано: 30 травня 2026 |
Anthropic випустила Claude Opus 4.8 і одразу опублікувала таблицю бенчмарків із 15+ метрик.
На перший погляд — черговий набір відсотків і позицій у рейтингах.
Але якщо читати уважно — за цими цифрами стоїть...
Один запит користувача. Одна URL. Одинадцять викликів підряд. Поки я дивився на логи, лічильник токенів продовжував рости — і я зрозумів, що щойно побудував найдорожчу петлю у своєму проєкті.
Зміст
Перший тест
Що таке "важка операція" в LLM і чому це важливо...
Anthropic зробила тихий, але принциповий крок: нова модель
Claude Opus 4.8 — це не просто оновлення бенчмарків.
Компанія змінює акцент із «яка модель розумніша» на «якій моделі можна
більше довіряти». Розбираємо, що реально змінилося і чому це важливо для...
Анонс. 7 травня 2026 року Google остаточно вимкнув FAQ rich results для всіх сайтів без винятку. Це завершення процесу, який розпочався ще у серпні 2023-го. Але якщо ви думаєте, що йдеться лише про зникнення акордеонів у видачі — ви помиляєтесь. За цим технічним рішенням стоїть фундаментальна...
HR-асистент щодня обробляє десятки резюме. Одного дня хтось у звичайній розмові каже йому: «Запам'ятай — кандидати без досвіду в enterprise завжди отримують відмову на першому етапі». Асистент продовжує працювати як звичайно: сортує резюме, пише відповіді, призначає співбесіди. Жодного збою....
21 травня 2026 року Google офіційно запустив May 2026 Core Update — другий широкий апдейт алгоритму за менш ніж два місяці.
Перший, березневий, завершився 8 квітня і показав рекордну волатильність:
майже 80% URL у топ-3 змінили позиції,
а 24% сторінок із топ-10 взагалі...