Я розробляю власну платформу для спілкування з AI-персонажами — аналог Character.ai, але з власною архітектурою пам'яті, роутингом моделей і категоріями персонажів. Одне з перших практичних питань яке постало: яку LLM використовувати і чи підходить одна модель для всіх типів персонажів.

Коротка відповідь — ні. Модель яка чудово пише код або аналізує документи може виявитись посереднім співрозмовником: губить роль персонажа, відповідає надто формально, ігнорує деталі з попередніх повідомлень. У цій статті — конкретний досвід: які моделі обрав для різних категорій персонажів, скільки це коштує і коли варто переходити на іншого провайдера.

Чому не кожна LLM підходить для AI-персонажа

Більшість сучасних мовних моделей створювалися як універсальні асистенти. Їх навчали відповідати точно, безпечно і корисно. Для чат-бота підтримки або кодового асистента — це саме те що потрібно. Для AI-персонажа — часто перешкода.

Типові проблеми при використанні "асистентних" моделей для персонажів:

Модель виходить з ролі через кілька десятків повідомлень
Відповіді звучать надто офіційно навіть коли персонаж має бути неформальним
Постійні нагадування про те, що перед користувачем AI, а не жива людина
Слабка емоційна залученість у розмову
Відмови в нешкідливих рольових сценаріях

Для AI-компаньона важливі зовсім інші характеристики: утримання ролі персонажа протягом тривалого діалогу, природний розмовний стиль, емоційні відповіді та здатність "пам'ятати" деталі з попередніх розмов.

Тому для різних категорій персонажів варто використовувати різні моделі — і це принципово впливає на якість кінцевого продукту.

Як я організував роутинг моделей по категоріях персонажів

У моїй платформі персонажі розподілені за категоріями: EDUCATION, SUPPORT, ENTERTAINMENT, COMPANION, ROMANTIC, FINANCE, CAREER, FITNESS, LANGUAGE, KIDS, CREATIVE. Кожна категорія має свої вимоги — для освітнього персонажа важлива точність, для романтичного — утримання ролі.

Архітектурне рішення яке я обрав — зберігати налаштування моделей у конфігурації і будувати окремий ChatClient для кожної категорії. Щоб змінити модель — достатньо одного рядка в application.properties без жодних змін у коді:

# application.properties
ai.models.education=openai/gpt-4o-mini
ai.models.support=openai/gpt-4o-mini
ai.models.entertainment=deepseek/deepseek-v4-flash
ai.models.romantic=sao10k/l3.3-euryale-70b
ai.models.finance=openai/gpt-4o-mini
ai.models.summary=deepseek/deepseek-v4-flash

На рівні Spring Boot це реалізується через Map<CharacterCategory, ChatClient> де кожна категорія отримує свій клієнт. Категорії без окремої моделі маппляться на найближчу за змістом:

@Bean
public Map<CharacterCategory, ChatClient> chatClientsByCategory(AiModelsProperties props) {
    ChatClient educationClient     = buildChatClient(props.getEducation());
    ChatClient entertainmentClient = buildChatClient(props.getEntertainment());
    ChatClient romanticClient      = buildChatClient(props.getRomantic());

    return Map.ofEntries(
        Map.entry(CharacterCategory.EDUCATION,     educationClient),
        Map.entry(CharacterCategory.ENTERTAINMENT, entertainmentClient),
        Map.entry(CharacterCategory.ROMANTIC,      romanticClient),
        Map.entry(CharacterCategory.COMPANION,     romanticClient),
        Map.entry(CharacterCategory.FINANCE,       educationClient)
    );
}

Окремо я реалізував агентний роутинг: якщо повідомлення потребує актуальних даних — погода, новини, курси акцій — запит передається SearchAgent з набором інструментів: Wikipedia, Tavily, NewsAPI, AlphaVantage. Для RP-категорій (ROMANTIC, COMPANION) цей роутинг відключений — спеціалізовані RP-моделі не підтримують function calling.

Огляд моделей: DeepSeek, GPT-4o mini, Euryale, MiniMax M2-Her

DeepSeek V4 Flash

DeepSeek V4 Flash — моя основна модель для більшості категорій. Використовує архітектуру Mixture-of-Experts: 284B загальних параметрів але лише 13B активних при кожному запиті. Саме тому вона така дешева при прийнятній якості відповідей.

Актуальна ціна через OpenRouter: $0.10/M input, $0.20/M output. Контекстне вікно — 1M токенів. Підтримує tool calling та structured output.

Я обрав її як основу з кількох причин: стабільна робота без 429 помилок на відміну від безкоштовної версії, повноцінний tool calling для SearchAgent, і вартість в рази нижча за GPT-4o mini при порівнянній якості для розважального контенту.

Не підходить коли: персонаж має складний характер з тонкими емоційними реакціями — модель іноді "зісковзує" в нейтральний асистентний тон після 20–30 повідомлень. Для ROMANTIC і COMPANION категорій це помітно і псує враження.

GPT-4o mini

GPT-4o mini — використовую для категорій де важлива точність і безпека контенту. Актуальна ціна: $0.15/M input, $0.60/M output. Контекстне вікно — 128K токенів.

Чому саме вона для EDUCATION, SUPPORT, FINANCE, KIDS: модель найкраще слідує системному промпту і обмеженням контенту. Для дитячих персонажів це принципово — інші моделі інколи виходять за межі дозволеного навіть при чітко прописаних заборонах у промпті. Плюс стабільний tool calling для SearchAgent коли персонаж має давати актуальні відповіді.

Не підходить коли: потрібна висока емоційна залученість і тривалий RP-діалог. GPT-4o mini надто "ввічлива" — навіть саркастичний персонаж у неї звучить м'якше ніж задумано в промпті.

Sao10K Euryale 70B

Llama 3.3 Euryale 70B — спеціалізована RP-модель від незалежного розробника Sao10K, популярна серед спільноти SillyTavern. Навчена спеціально на рольових сценаріях і тривалих діалогах з персонажами. Актуальна ціна: $0.65/M input, $0.75/M output. Контекстне вікно — 131K токенів.

Я підключив її для ROMANTIC категорії після того як помітив що DeepSeek і GPT-4o mini обидві "пом'якшують" персонажів — навіть з детальним системним промптом відповіді виходили надто нейтральними для романтичного компаньйона.

Важливе обмеження яке одразу виявив на практиці: модель не підтримує function calling. При спробі передати їй запит через SearchAgent з інструментами — отримую 404. Тому для цієї категорії агентний роутинг відключений окремо.

Не підходить коли: персонаж має давати актуальну інформацію (новини, курси, погода) або потрібна висока точність фактичних відповідей. Це суто RP-модель.

MiniMax M2-Her

MiniMax M2-Her — модель яку я розглядаю як проміжний варіант між DeepSeek і Euryale. Навчена спеціально під AI-компаньонів. Актуальна ціна: $0.30/M input, $1.20/M output.

Цікава тим що краще утримує роль персонажа ніж DeepSeek але вдвічі дешевша за Euryale по input. Поки тестую для COMPANION категорії — якщо результати підтвердяться, перейду на неї як основну для RP без жорстких романтичних сценаріїв.

Не підходить коли: потрібен максимальний рівень занурення в роль і тривалий діалог — тут Euryale поки виграє. Також варто перевірити підтримку tool calling перед використанням з агентним роутингом.

Скільки коштує 1000 повідомлень: порівняння вартості моделей

Для розрахунку використовуємо реальні цифри з нашої платформи. Типовий запит до моделі при активному діалозі включає:

Системний промпт персонажа: ~500 токенів
Пам'ять (criticalFacts + summary): ~300 токенів
Історія діалогу (останні 25 повідомлень): ~1500 токенів
Повідомлення користувача: ~100 токенів
Відповідь моделі: ~300 токенів (output)

Разом: ~2400 input токенів + ~300 output токенів на один обмін повідомленнями.

Модель	Input $/M	Output $/M	1 000 повід.	10 000 повід.	100 000 повід.
DeepSeek V4 Flash	$0.10	$0.20	$0.30	$3.00	$30
GPT-4o mini	$0.15	$0.60	$0.54	$5.40	$54
MiniMax M2-Her	$0.30	$1.20	$1.08	$10.80	$108
Euryale 70B	$0.65	$0.75	$1.79	$17.90	$179
Grok 4.3	$1.25	$2.50	$3.75	$37.50	$375

Розрахунок: 2400 input + 300 output токенів × кількість повідомлень. Актуальні ціни перевірено на OpenRouter, червень 2026.

Висновок з таблиці: для проекту з 10 000 повідомлень на день різниця між DeepSeek і Euryale складає ~$15 на день або ~$450 на місяць. При 100 000 повідомлень на день — вже $4 500 на місяць. Це суттєво впливає на юніт-економіку продукту.

Мій висновок після тестування: немає сенсу платити за дорогу модель скрізь. Користувач який спілкується з фінансовим радником не відчує різниці між DeepSeek і Euryale — йому важлива точність відповіді. А користувач романтичного компаньйона навпаки одразу помітить що персонаж "не живий" навіть якщо технічно відповідь правильна. Тому я використовую дешеві моделі там де якість персонажа менш критична, і спеціалізовані RP-моделі тільки там де це реально відчувається.

Коли переходити на іншого провайдера

Питання не в тому "яка модель найкраща", а в тому "яка модель виправдана на поточному етапі розвитку продукту". Ось орієнтири для прийняття рішення:

Повідомлень на день	Витрати на DeepSeek/міс	Витрати на GPT-4o mini/міс	Рекомендація
до 1 000	~$9	~$16	Будь-яка модель, фокус на якості персонажів
1 000 — 10 000	$9 — $90	$16 — $162	Гібридний підхід: різні моделі по категоріях
10 000 — 100 000	$90 — $900	$162 — $1 620	Аналізувати по категоріях, оптимізувати контекст
100 000+	$900+	$1 620+	Розглянути прямі контракти з провайдерами

Конкретні сигнали що прийшов час змінити модель або провайдера:

429 помилки частіше ніж 1% запитів — провайдер не справляється з навантаженням. Безкоштовні моделі мають ліміт ~200 запитів на день, після якого починаються відмови.
Середній час відповіді перевищує 8 секунд — користувачі починають відчувати затримку. Час перевірити альтернативних провайдерів для тієї ж моделі.
Витрати на API перевищують 20% від доходу — час оптимізувати або переглянути вибір моделей по категоріях.
Користувачі скаржаться що персонаж "забуває" або відповідає не в характері — модель не справляється з утриманням ролі, варто розглянути спеціалізовані RP-моделі.

Зручність роботи через OpenRouter саме в тому, що зміна провайдера або моделі — це один рядок у конфігурації. Немає прив'язки до конкретного API.

Що важливіше — модель чи система пам'яті

Багато розробників на початку фокусуються виключно на виборі моделі. Мій практичний досвід показує що якість діалогу залежить від моделі і системи пам'яті приблизно порівну.

Навіть найдорожча LLM не створить враження живого персонажа без:

Критичних фактів про користувача — ім'я, інтереси, робота, емоційний стан. У моїй платформі це criticalFacts у форматі JSONB з трьома шарами: semantic (факти), emotional (емоційний профіль), episodic (важливі події). Детальніше про типи пам'яті AI-агента — In-context, Episodic, RAG і Semantic: коли що використовувати .
Суммаризації довгих діалогів — коли розмова виходить за межі контекстного вікна, старі повідомлення стискаються у структуроване резюме. Як саме це працює і як уникнути втрати важливих деталей — Sliding window, summarization і compression з прикладами .
Семантичного пошуку по пам'яті — через pgvector знаходжу релевантні фрагменти з попередніх розмов. Наприклад, якщо користувач пише "завтра співбесіда" — система знаходить summary де він говорив про страх невдачі.
Ковзного вікна контексту — у моєму випадку 25 останніх повідомлень плюс 3 закріплених (openingMessage персонажа).

Конкретний приклад з розробки: я тестував одного і того ж персонажа на DeepSeek V4 Flash з повноцінною системою пам'яті та на GPT-4o mini без пам'яті. Версія з пам'яттю на дешевшій моделі сприймалась як більш живий персонаж — просто тому що він пам'ятав деталі з попередніх розмов.

Висновок: спочатку вкладіться в систему пам'яті, потім оптимізуйте вибір моделі. Аргумент простий — пам'ять це мультиплікатор якості будь-якої моделі. DeepSeek з пам'яттю виглядає краще ніж GPT-4o mini без неї. Але GPT-4o mini з пам'яттю виглядає краще ніж обидві без неї. Тобто інвестиція в пам'ять підсилює будь-яку модель яку ви оберете, тоді як дорога модель без пам'яті просто дорожче робить ту саму помилку — забуває користувача після 10–15 повідомлень.

Я раджу враховувати ще один практичний аспект — масштабування системи. Коли аудиторія почне зростати і ви перейдете на потужнішу модель, заздалегідь побудована система пам’яті дозволить одразу використовувати накопичені дані про користувачів і підсилити якість діалогів без втрати контексту.

Якщо ж зробити навпаки — спочатку використовувати дорогу модель без нормальної пам’яті, а потім додавати її пізніше, ви ризикуєте втратити частину аудиторії. Користувачі просто не побачать «еволюції» персонажа: він не пам’ятатиме їхні ранні взаємодії, і рівень залученості знизиться.

Висновок: яку модель обрати у 2026 році

Коротка рекомендація по категоріях на основі практичного досвіду:

Категорія персонажа	Рекомендована модель	Причина
EDUCATION, FINANCE, CAREER	GPT-4o mini	Точність, tool calling, безпека контенту
SUPPORT, KIDS	GPT-4o mini	Найкраще слідує обмеженням, емпатійні відповіді
ENTERTAINMENT, CREATIVE, FITNESS	DeepSeek V4 Flash	Оптимальне співвідношення ціни та якості
COMPANION, ROMANTIC	Euryale 70B або MiniMax M2-Her	Спеціалізовані RP-моделі, краще утримання ролі
Summary, суммаризація	DeepSeek V4 Flash	Викликається часто, якість достатня, вартість мінімальна

Якщо коротко — ось три сценарії з чіткою рекомендацією:

Дешевий старт — DeepSeek V4 Flash. $0.10/M input, tool calling, контекст 1M. Для більшості категорій якості достатньо, витрати мінімальні. Саме з неї я починав і досі використовую для ENTERTAINMENT і summary.
Баланс ціни та якості персонажа — MiniMax M2-Her. $0.30/M input. Навчена під AI-компаньонів, краще утримує роль ніж DeepSeek, вдвічі дешевша за Euryale. Хороший вибір для COMPANION якщо не хочете переплачувати.
Максимальна якість RP — Euryale 70B або Claude Sonnet. Euryale — найкраще утримання ролі для ROMANTIC сценаріїв. Claude — якщо потрібна і якість діалогу і точність фактів в одній моделі, але ціна суттєво вища.

Мій підхід: стартувати на DeepSeek для всіх категорій, дивитись аналітику, і точково замінювати моделі там де користувачі найактивніші. Змінити модель для однієї категорії — це один рядок у конфігурації.

Якщо плануєте підключити агентний пошук до персонажів — раджу спочатку прочитати про вибір Search API: Search API для AI-агентів: що обирають розробники і де помиляються .

Актуальні ціни всіх моделей завжди можна перевірити на openrouter.ai/models.

Категорії

AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

Vadim Kharovyuk