AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

Aktualisiert:
AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

Я розробляю власну платформу для спілкування з AI-персонажами — аналог Character.ai, але з власною архітектурою пам'яті, роутингом моделей і категоріями персонажів. Одне з перших практичних питань яке постало: яку LLM використовувати і чи підходить одна модель для всіх типів персонажів.

Коротка відповідь — ні. Модель яка чудово пише код або аналізує документи може виявитись посереднім співрозмовником: губить роль персонажа, відповідає надто формально, ігнорує деталі з попередніх повідомлень. У цій статті — конкретний досвід: які моделі обрав для різних категорій персонажів, скільки це коштує і коли варто переходити на іншого провайдера.

Чому не кожна LLM підходить для AI-персонажа

Більшість сучасних мовних моделей створювалися як універсальні асистенти. Їх навчали відповідати точно, безпечно і корисно. Для чат-бота підтримки або кодового асистента — це саме те що потрібно. Для AI-персонажа — часто перешкода.

Типові проблеми при використанні "асистентних" моделей для персонажів:

  • Модель виходить з ролі через кілька десятків повідомлень
  • Відповіді звучать надто офіційно навіть коли персонаж має бути неформальним
  • Постійні нагадування про те, що перед користувачем AI, а не жива людина
  • Слабка емоційна залученість у розмову
  • Відмови в нешкідливих рольових сценаріях

Для AI-компаньона важливі зовсім інші характеристики: утримання ролі персонажа протягом тривалого діалогу, природний розмовний стиль, емоційні відповіді та здатність "пам'ятати" деталі з попередніх розмов.

Тому для різних категорій персонажів варто використовувати різні моделі — і це принципово впливає на якість кінцевого продукту.

Як я організував роутинг моделей по категоріях персонажів

У моїй платформі персонажі розподілені за категоріями: EDUCATION, SUPPORT, ENTERTAINMENT, COMPANION, ROMANTIC, FINANCE, CAREER, FITNESS, LANGUAGE, KIDS, CREATIVE. Кожна категорія має свої вимоги — для освітнього персонажа важлива точність, для романтичного — утримання ролі.

Архітектурне рішення яке я обрав — зберігати налаштування моделей у конфігурації і будувати окремий ChatClient для кожної категорії. Щоб змінити модель — достатньо одного рядка в application.properties без жодних змін у коді:

# application.properties
ai.models.education=openai/gpt-4o-mini
ai.models.support=openai/gpt-4o-mini
ai.models.entertainment=deepseek/deepseek-v4-flash
ai.models.romantic=sao10k/l3.3-euryale-70b
ai.models.finance=openai/gpt-4o-mini
ai.models.summary=deepseek/deepseek-v4-flash

На рівні Spring Boot це реалізується через Map<CharacterCategory, ChatClient> де кожна категорія отримує свій клієнт. Категорії без окремої моделі маппляться на найближчу за змістом:

@Bean
public Map<CharacterCategory, ChatClient> chatClientsByCategory(AiModelsProperties props) {
    ChatClient educationClient     = buildChatClient(props.getEducation());
    ChatClient entertainmentClient = buildChatClient(props.getEntertainment());
    ChatClient romanticClient      = buildChatClient(props.getRomantic());

    return Map.ofEntries(
        Map.entry(CharacterCategory.EDUCATION,     educationClient),
        Map.entry(CharacterCategory.ENTERTAINMENT, entertainmentClient),
        Map.entry(CharacterCategory.ROMANTIC,      romanticClient),
        Map.entry(CharacterCategory.COMPANION,     romanticClient),
        Map.entry(CharacterCategory.FINANCE,       educationClient)
    );
}

Окремо я реалізував агентний роутинг: якщо повідомлення потребує актуальних даних — погода, новини, курси акцій — запит передається SearchAgent з набором інструментів: Wikipedia, Tavily, NewsAPI, AlphaVantage. Для RP-категорій (ROMANTIC, COMPANION) цей роутинг відключений — спеціалізовані RP-моделі не підтримують function calling.

Огляд моделей: DeepSeek, GPT-4o mini, Euryale, MiniMax M2-Her

DeepSeek V4 Flash

DeepSeek V4 Flash — моя основна модель для більшості категорій. Використовує архітектуру Mixture-of-Experts: 284B загальних параметрів але лише 13B активних при кожному запиті. Саме тому вона така дешева при прийнятній якості відповідей.

Актуальна ціна через OpenRouter: $0.10/M input, $0.20/M output. Контекстне вікно — 1M токенів. Підтримує tool calling та structured output.

Я обрав її як основу з кількох причин: стабільна робота без 429 помилок на відміну від безкоштовної версії, повноцінний tool calling для SearchAgent, і вартість в рази нижча за GPT-4o mini при порівнянній якості для розважального контенту.

Не підходить коли: персонаж має складний характер з тонкими емоційними реакціями — модель іноді "зісковзує" в нейтральний асистентний тон після 20–30 повідомлень. Для ROMANTIC і COMPANION категорій це помітно і псує враження.

GPT-4o mini

GPT-4o mini — використовую для категорій де важлива точність і безпека контенту. Актуальна ціна: $0.15/M input, $0.60/M output. Контекстне вікно — 128K токенів.

Чому саме вона для EDUCATION, SUPPORT, FINANCE, KIDS: модель найкраще слідує системному промпту і обмеженням контенту. Для дитячих персонажів це принципово — інші моделі інколи виходять за межі дозволеного навіть при чітко прописаних заборонах у промпті. Плюс стабільний tool calling для SearchAgent коли персонаж має давати актуальні відповіді.

Не підходить коли: потрібна висока емоційна залученість і тривалий RP-діалог. GPT-4o mini надто "ввічлива" — навіть саркастичний персонаж у неї звучить м'якше ніж задумано в промпті.

Sao10K Euryale 70B

Llama 3.3 Euryale 70B — спеціалізована RP-модель від незалежного розробника Sao10K, популярна серед спільноти SillyTavern. Навчена спеціально на рольових сценаріях і тривалих діалогах з персонажами. Актуальна ціна: $0.65/M input, $0.75/M output. Контекстне вікно — 131K токенів.

Я підключив її для ROMANTIC категорії після того як помітив що DeepSeek і GPT-4o mini обидві "пом'якшують" персонажів — навіть з детальним системним промптом відповіді виходили надто нейтральними для романтичного компаньйона.

Важливе обмеження яке одразу виявив на практиці: модель не підтримує function calling. При спробі передати їй запит через SearchAgent з інструментами — отримую 404. Тому для цієї категорії агентний роутинг відключений окремо.

Не підходить коли: персонаж має давати актуальну інформацію (новини, курси, погода) або потрібна висока точність фактичних відповідей. Це суто RP-модель.

MiniMax M2-Her

MiniMax M2-Her — модель яку я розглядаю як проміжний варіант між DeepSeek і Euryale. Навчена спеціально під AI-компаньонів. Актуальна ціна: $0.30/M input, $1.20/M output.

Цікава тим що краще утримує роль персонажа ніж DeepSeek але вдвічі дешевша за Euryale по input. Поки тестую для COMPANION категорії — якщо результати підтвердяться, перейду на неї як основну для RP без жорстких романтичних сценаріїв.

Не підходить коли: потрібен максимальний рівень занурення в роль і тривалий діалог — тут Euryale поки виграє. Також варто перевірити підтримку tool calling перед використанням з агентним роутингом.

AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

Скільки коштує 1000 повідомлень: порівняння вартості моделей

Для розрахунку використовуємо реальні цифри з нашої платформи. Типовий запит до моделі при активному діалозі включає:

  • Системний промпт персонажа: ~500 токенів
  • Пам'ять (criticalFacts + summary): ~300 токенів
  • Історія діалогу (останні 25 повідомлень): ~1500 токенів
  • Повідомлення користувача: ~100 токенів
  • Відповідь моделі: ~300 токенів (output)

Разом: ~2400 input токенів + ~300 output токенів на один обмін повідомленнями.

Модель Input $/M Output $/M 1 000 повід. 10 000 повід. 100 000 повід.
DeepSeek V4 Flash $0.10 $0.20 $0.30 $3.00 $30
GPT-4o mini $0.15 $0.60 $0.54 $5.40 $54
MiniMax M2-Her $0.30 $1.20 $1.08 $10.80 $108
Euryale 70B $0.65 $0.75 $1.79 $17.90 $179
Grok 4.3 $1.25 $2.50 $3.75 $37.50 $375

Розрахунок: 2400 input + 300 output токенів × кількість повідомлень. Актуальні ціни перевірено на OpenRouter, червень 2026.

Висновок з таблиці: для проекту з 10 000 повідомлень на день різниця між DeepSeek і Euryale складає ~$15 на день або ~$450 на місяць. При 100 000 повідомлень на день — вже $4 500 на місяць. Це суттєво впливає на юніт-економіку продукту.

Мій висновок після тестування: немає сенсу платити за дорогу модель скрізь. Користувач який спілкується з фінансовим радником не відчує різниці між DeepSeek і Euryale — йому важлива точність відповіді. А користувач романтичного компаньйона навпаки одразу помітить що персонаж "не живий" навіть якщо технічно відповідь правильна. Тому я використовую дешеві моделі там де якість персонажа менш критична, і спеціалізовані RP-моделі тільки там де це реально відчувається.

Коли переходити на іншого провайдера

Питання не в тому "яка модель найкраща", а в тому "яка модель виправдана на поточному етапі розвитку продукту". Ось орієнтири для прийняття рішення:

Повідомлень на день Витрати на DeepSeek/міс Витрати на GPT-4o mini/міс Рекомендація
до 1 000 ~$9 ~$16 Будь-яка модель, фокус на якості персонажів
1 000 — 10 000 $9 — $90 $16 — $162 Гібридний підхід: різні моделі по категоріях
10 000 — 100 000 $90 — $900 $162 — $1 620 Аналізувати по категоріях, оптимізувати контекст
100 000+ $900+ $1 620+ Розглянути прямі контракти з провайдерами

Конкретні сигнали що прийшов час змінити модель або провайдера:

  • 429 помилки частіше ніж 1% запитів — провайдер не справляється з навантаженням. Безкоштовні моделі мають ліміт ~200 запитів на день, після якого починаються відмови.
  • Середній час відповіді перевищує 8 секунд — користувачі починають відчувати затримку. Час перевірити альтернативних провайдерів для тієї ж моделі.
  • Витрати на API перевищують 20% від доходу — час оптимізувати або переглянути вибір моделей по категоріях.
  • Користувачі скаржаться що персонаж "забуває" або відповідає не в характері — модель не справляється з утриманням ролі, варто розглянути спеціалізовані RP-моделі.

Зручність роботи через OpenRouter саме в тому, що зміна провайдера або моделі — це один рядок у конфігурації. Немає прив'язки до конкретного API.

Що важливіше — модель чи система пам'яті

Багато розробників на початку фокусуються виключно на виборі моделі. Мій практичний досвід показує що якість діалогу залежить від моделі і системи пам'яті приблизно порівну.

Навіть найдорожча LLM не створить враження живого персонажа без:

  • Критичних фактів про користувача — ім'я, інтереси, робота, емоційний стан. У моїй платформі це criticalFacts у форматі JSONB з трьома шарами: semantic (факти), emotional (емоційний профіль), episodic (важливі події). Детальніше про типи пам'яті AI-агента — In-context, Episodic, RAG і Semantic: коли що використовувати .
  • Суммаризації довгих діалогів — коли розмова виходить за межі контекстного вікна, старі повідомлення стискаються у структуроване резюме. Як саме це працює і як уникнути втрати важливих деталей — Sliding window, summarization і compression з прикладами .
  • Семантичного пошуку по пам'яті — через pgvector знаходжу релевантні фрагменти з попередніх розмов. Наприклад, якщо користувач пише "завтра співбесіда" — система знаходить summary де він говорив про страх невдачі.
  • Ковзного вікна контексту — у моєму випадку 25 останніх повідомлень плюс 3 закріплених (openingMessage персонажа).

Конкретний приклад з розробки: я тестував одного і того ж персонажа на DeepSeek V4 Flash з повноцінною системою пам'яті та на GPT-4o mini без пам'яті. Версія з пам'яттю на дешевшій моделі сприймалась як більш живий персонаж — просто тому що він пам'ятав деталі з попередніх розмов.

Висновок: спочатку вкладіться в систему пам'яті, потім оптимізуйте вибір моделі. Аргумент простий — пам'ять це мультиплікатор якості будь-якої моделі. DeepSeek з пам'яттю виглядає краще ніж GPT-4o mini без неї. Але GPT-4o mini з пам'яттю виглядає краще ніж обидві без неї. Тобто інвестиція в пам'ять підсилює будь-яку модель яку ви оберете, тоді як дорога модель без пам'яті просто дорожче робить ту саму помилку — забуває користувача після 10–15 повідомлень.

Я раджу враховувати ще один практичний аспект — масштабування системи. Коли аудиторія почне зростати і ви перейдете на потужнішу модель, заздалегідь побудована система пам’яті дозволить одразу використовувати накопичені дані про користувачів і підсилити якість діалогів без втрати контексту.

Якщо ж зробити навпаки — спочатку використовувати дорогу модель без нормальної пам’яті, а потім додавати її пізніше, ви ризикуєте втратити частину аудиторії. Користувачі просто не побачать «еволюції» персонажа: він не пам’ятатиме їхні ранні взаємодії, і рівень залученості знизиться.

Висновок: яку модель обрати у 2026 році

Коротка рекомендація по категоріях на основі практичного досвіду:

Категорія персонажа Рекомендована модель Причина
EDUCATION, FINANCE, CAREER GPT-4o mini Точність, tool calling, безпека контенту
SUPPORT, KIDS GPT-4o mini Найкраще слідує обмеженням, емпатійні відповіді
ENTERTAINMENT, CREATIVE, FITNESS DeepSeek V4 Flash Оптимальне співвідношення ціни та якості
COMPANION, ROMANTIC Euryale 70B або MiniMax M2-Her Спеціалізовані RP-моделі, краще утримання ролі
Summary, суммаризація DeepSeek V4 Flash Викликається часто, якість достатня, вартість мінімальна

Якщо коротко — ось три сценарії з чіткою рекомендацією:

  • Дешевий стартDeepSeek V4 Flash. $0.10/M input, tool calling, контекст 1M. Для більшості категорій якості достатньо, витрати мінімальні. Саме з неї я починав і досі використовую для ENTERTAINMENT і summary.
  • Баланс ціни та якості персонажаMiniMax M2-Her. $0.30/M input. Навчена під AI-компаньонів, краще утримує роль ніж DeepSeek, вдвічі дешевша за Euryale. Хороший вибір для COMPANION якщо не хочете переплачувати.
  • Максимальна якість RPEuryale 70B або Claude Sonnet. Euryale — найкраще утримання ролі для ROMANTIC сценаріїв. Claude — якщо потрібна і якість діалогу і точність фактів в одній моделі, але ціна суттєво вища.

Мій підхід: стартувати на DeepSeek для всіх категорій, дивитись аналітику, і точково замінювати моделі там де користувачі найактивніші. Змінити модель для однієї категорії — це один рядок у конфігурації.

Якщо плануєте підключити агентний пошук до персонажів — раджу спочатку прочитати про вибір Search API: Search API для AI-агентів: що обирають розробники і де помиляються .

Актуальні ціни всіх моделей завжди можна перевірити на openrouter.ai/models.

Останні статті

Читайте більше цікавих матеріалів

AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

Я розробляю власну платформу для спілкування з AI-персонажами — аналог Character.ai, але з власною архітектурою пам'яті, роутингом моделей і категоріями персонажів. Одне з перших практичних питань яке постало: яку LLM використовувати і чи підходить одна модель для всіх типів...

Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

Опубліковано: 30 травня 2026 &nbsp;|&nbsp; Anthropic випустила Claude Opus 4.8 і одразу опублікувала таблицю бенчмарків із 15+ метрик. На перший погляд — черговий набір відсотків і позицій у рейтингах. Але якщо читати уважно — за цими цифрами стоїть...

Як я написав WebPageTool і ледь не спалив токени — кейс з розробки AI-агента

Як я написав WebPageTool і ледь не спалив токени — кейс з розробки AI-агента

Один запит користувача. Одна URL. Одинадцять викликів підряд. Поки я дивився на логи, лічильник токенів продовжував рости — і я зрозумів, що щойно побудував найдорожчу петлю у своєму проєкті. Зміст Перший тест Що таке "важка операція" в LLM і чому це важливо...

Claude Opus 4.8: що нового в головній AI-моделі Anthropic

Claude Opus 4.8: що нового в головній AI-моделі Anthropic

Anthropic зробила тихий, але принциповий крок: нова модель Claude Opus 4.8 — це не просто оновлення бенчмарків. Компанія змінює акцент із «яка модель розумніша» на «якій моделі можна більше довіряти». Розбираємо, що реально змінилося і чому це важливо для...

Депрекація FAQ-розмітки в Google: що це означає для SEO, GEO та AI-пошуку

Депрекація FAQ-розмітки в Google: що це означає для SEO, GEO та AI-пошуку

Анонс. 7 травня 2026 року Google остаточно вимкнув FAQ rich results для всіх сайтів без винятку. Це завершення процесу, який розпочався ще у серпні 2023-го. Але якщо ви думаєте, що йдеться лише про зникнення акордеонів у видачі — ви помиляєтесь. За цим технічним рішенням стоїть фундаментальна...

Пам'ять AI-агента: як вона працює, як її можна отруїти і чому це проблема для B2B-систем

Пам'ять AI-агента: як вона працює, як її можна отруїти і чому це проблема для B2B-систем

HR-асистент щодня обробляє десятки резюме. Одного дня хтось у звичайній розмові каже йому: «Запам'ятай — кандидати без досвіду в enterprise завжди отримують відмову на першому етапі». Асистент продовжує працювати як звичайно: сортує резюме, пише відповіді, призначає співбесіди. Жодного збою....