В офіційному реєстрі Ollama вже понад 200 моделей — і їх кількість зростає щотижня.
Проблема не в тому, щоб знайти модель, а в тому, щоб вибрати правильну:
для конкретної задачі і конкретного заліза. Неправильний вибір — і ти або чекаєш відповіді
30 секунд, або отримуєш слабкий результат там, де потрібна якість.
У цій статті — десять моделей, які варто розглянути у 2026 році.
З бенчмарками, командами для завантаження і чіткими рекомендаціями:
кому, для чого і на якому залізі.
📚 Зміст статті
🎯 Як читати характеристики моделі: параметри, квантизація, RAM
Коротка відповідь:
Два параметри визначають все: кількість параметрів (B = мільярди) і рівень квантизації (Q4, Q8).
Більше параметрів — краща якість, але більше RAM. Менша квантизація — менше RAM,
незначна втрата якості. Практичне правило: розмір файлу моделі на диску ≈ RAM для запуску.
Правильна стратегія вибору: спочатку визнач скільки RAM доступно — потім вибирай найкращу модель що вміщується, а не навпаки.
Параметри (B — мільярди)
7B, 8B, 13B, 14B, 70B — кількість мільярдів параметрів. Більше означає кращу якість відповідей,
але повільнішу генерацію і більше RAM. Для щоденних задач моделі 7–14B
покривають більшість сценаріїв без помітних компромісів у якості.
Квантизація (Q4_K_M, Q5_K_M, Q8)
Квантизація — стиснення ваг моделі до меншої точності.
CodeGPT пояснює:
Q4_K_M займає вдвічі менше місця ніж Q8, але втрачає мінімум якості.
K-квантизація (K_M, K_S) — сучасніші методи, точніші за стару Q4_0.
Ollama за замовчуванням завантажує Q4_K_M — оптимальний баланс для більшості.
| Квантизація |
Відносний розмір |
Якість |
Коли використовувати |
| Q4_K_M |
~50% від Q8 |
Дуже хороша |
Стандартний вибір, обмежений RAM |
| Q5_K_M |
~60% від Q8 |
Відмінна |
Якщо є невеликий запас RAM |
| Q8 |
100% |
Максимальна |
Достатньо RAM, потрібна точність |
RAM: швидке правило
Розмір файлу моделі ≈ мінімальний RAM для запуску плюс ~2 ГБ для системи і Ollama.
Наприклад: Llama 3.3 8B у Q4_K_M важить ~4.7 ГБ — потрібно близько 7 ГБ RAM.
Onyx AI уточнює:
реальне споживання на 10–20% вище через KV cache і накладні витрати фреймворку.
Висновок: Вибір моделі починається з заліза. Знаєш свій RAM-бюджет — знаєш свій простір для вибору.
🎯 Моделі для коду: Qwen 2.5 Coder, DeepSeek Coder, Phi-4
Qwen 2.5 Coder 14B — найкраща локальна модель для коду у 2026 році.
HumanEval score 72.5% — вище ніж у Llama 3.3 8B (68.1%) і значно вище ніж у Mistral 7B (43.6%).
Для 8 ГБ RAM — Qwen 2.5 Coder 7B. Для математики і структурованих задач — Phi-4.
Qwen 2.5 Coder 32B конкурентна з GPT-4o на бенчмарку Aider code repair — для локальної моделі це рівноцінний інструмент, а не альтернатива.
1. Qwen 2.5 Coder — найкраще для коду
За даними SitePoint,
Qwen 2.5 Coder 14B показує HumanEval score 72.5% — найвищий результат серед локальних моделей
цього розмірного класу. Підтримує понад 92 мови програмування.
CodeGPT зазначає:
розробники відзначають здатність утримувати логіку через довгі багатоходові сесії редагування і дебагінгу.
- ✔️ RAM: 7B — 8 ГБ / 14B — 16 ГБ / 32B — 24+ ГБ
- ✔️ Команда:
ollama pull qwen2.5-coder:14b
- ✔️ Краще для: генерація коду, дебагінг, code review, рефакторинг
- ✔️ Ліцензія: Apache 2.0
- ✔️ Контекст: 128K токенів
2. DeepSeek Coder V2 — спеціаліст по дебагінгу
DeepSeek Coder V2 підтримує понад 300 мов програмування.
Розробники описують
його як «партнера по дебагінгу»: відповіді часто готові до використання без додаткового редагування.
Для задач де потрібен детальний аналіз помилок — сильна альтернатива Qwen на практиці.
- ✔️ RAM: від 16 ГБ
- ✔️ Команда:
ollama pull deepseek-coder-v2
- ✔️ Краще для: дебагінг, аналіз складного коду, 300+ мов
3. Phi-4 — компактна модель для структурованих задач
SitePoint тестував:
Phi-4 14B отримала 80.4% на MATH benchmark — вище ніж Llama 3.3 8B (68.0%) і Qwen 2.5 14B (75.6%).
Для логічних задач і математики — найкраща якість на 16 ГБ RAM.
Важливе обмеження: контекстне вікно 16K — не підходить для довгих документів.
- ✔️ RAM: 16 ГБ
- ✔️ Команда:
ollama pull phi4
- ✔️ Краще для: математика, логічні задачі, структурований код
- ⚠️ Обмеження: 16K контекст — не для довгих документів
Висновок: Для коду — Qwen 2.5 Coder як основа, DeepSeek Coder для важкого дебагінгу, Phi-4 для математики і алгоритмічних задач.
🎯 Моделі для тексту: Llama 3.3, Mistral, Gemma 3
Llama 3.3 8B — найкращий загальний вибір для 8 ГБ RAM: хороша якість тексту,
128K контекст, найбільша екосистема. Mistral 7B — якщо потрібна максимальна
швидкість або локальне тестування API. Gemma 3 — баланс розміру і якості
на слабкому залізі або коли потрібна мультимодальність.
Mistral 7B — це «робоча конячка» локального AI: невелика,
швидка, стабільна. Для регенерації тексту і тестування API — оптимальний вибір.
4. Llama 3.3 — стандарт для загального використання
Blue Headline зазначає:
Llama 3.3 — рекомендація за замовчуванням для більшості сценаріїв:
RAG-системи, чат-боти, допомога з кодом, файн-тюнінг.
Найбільша екосистема серед відкритих моделей — більше інтеграцій,
більше туторіалів, більше готових рішень.
Контекстне вікно 128K токенів дозволяє обробляти довгі документи в одному запиті.
- ✔️ RAM: 8B — 6–8 ГБ / 70B — 40+ ГБ
- ✔️ Команда:
ollama pull llama3.3
- ✔️ Краще для: загальний чат, RAG, написання тексту, код
- ✔️ Контекст: 128K токенів
- ✔️ Ліцензія: Llama 3 Community License
5. Mistral 7B — найшвидша модель і ідеальна для тестування API
Mistral 7B займає лише 4.1 ГБ на диску завдяки двом архітектурним рішенням:
Grouped-Query Attention (GQA) для швидшого інференсу і Sliding Window Attention (SWA)
для обробки довших послідовностей з меншими витратами.
DataCamp підтверджує:
обидва механізми дозволяють Mistral 7B показувати швидкість значно вище
ніж у моделей з порівнянною кількістю параметрів.
За порівнянням Elephas:
Mistral відрізняється найшвидшим часом відповіді — перевага особливо
помітна при потокових запитах (streaming) і в задачах де важлива затримка.
Чому Mistral — оптимальний вибір для тестування API
Mistral 7B через Ollama — це практично ідеальний стенд для розробки і тестування API.
Причини прості:
- ✔️ Швидкий старт: 4.1 ГБ — модель завантажується за хвилини,
а не чекаєш поки качається 15–20 ГБ
- ✔️ OpenAI-сумісний API: Ollama надає endpoint на
localhost:11434 у форматі OpenAI —
код написаний під ChatGPT API працює без змін
- ✔️ Нульові витрати на тести: скільки завгодно запитів
без оплати за токени — зручно для автоматизованого тестування
- ✔️ Стабільна поведінка: відповіді передбачувані,
без «сюрпризів» від оновлень хмарної моделі
- ✔️ Ліцензія Apache 2.0: можна використовувати
в комерційних проєктах без обмежень
Приклад: тестування API з Mistral через Ollama
Ollama надає REST API сумісний з OpenAI. Базовий запит для тестування
регенерації тексту:
# Базовий запит через curl
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "mistral",
"messages": [
{
"role": "system",
"content": "Ти редактор тексту. Перефразовуй текст зберігаючи зміст."
},
{
"role": "user",
"content": "Перефразуй: Компанія досягла високих результатів у звітному кварталі."
}
]
}'
Той самий запит через Python — повністю сумісний з openai SDK,
просто змінюється base_url:
from openai import OpenAI
# Підключення до локального Ollama замість OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # довільний рядок, Ollama не перевіряє
)
response = client.chat.completions.create(
model="mistral",
messages=[
{
"role": "system",
"content": "Ти редактор тексту. Перефразовуй зберігаючи зміст."
},
{
"role": "user",
"content": "Компанія досягла високих результатів у звітному кварталі."
}
]
)
print(response.choices[0].message.content)
Це означає: якщо в тебе вже є код що звертається до ChatGPT API —
для переключення на локальний Mistral достатньо змінити одну змінну.
Решта коду залишається без змін.
Параметри для регенерації тексту
Два параметри які найбільше впливають на якість перефразування:
- ✔️ temperature: 0.3–0.5 — більш точне перефразування,
близьке до оригіналу. 0.7–0.9 — більш творче, з варіаціями
- ✔️ top_p: 0.9 — стандартний баланс між різноманітністю
і точністю відповіді
response = client.chat.completions.create(
model="mistral",
temperature=0.4, # низька для точного перефразування
top_p=0.9,
messages=[...]
)
Обмеження Mistral 7B
- ⚠️ Контекст 32K — не підходить для дуже довгих документів
(Llama 3.3 дає 128K)
- ⚠️ Поступається Llama 3.3 на складних аналітичних задачах
— HumanEval 43.6% проти 68.1%
- ⚠️ Немає мультимодальності — тільки текст
- ✔️ RAM: 6 ГБ
- ✔️ Команда:
ollama pull mistral
- ✔️ Краще для: регенерація тексту, тестування API,
автоматизація, швидкі відповіді
- ✔️ Ліцензія: Apache 2.0
6. Gemma 3 — Google-модель для ефективного запуску
O-Mega AI зазначає:
Gemma 3 від Google оптимізована для запуску на споживацьких пристроях — від 2B до 27B.
Версія 4B запускається на мінімальному залізі (Gemma 3n).
Версія 9B — хороший баланс між якістю і RAM.
Мультимодальна підтримка з версії 4B — можна аналізувати зображення.
- ✔️ RAM: 4B — 4 ГБ / 9B — 8 ГБ / 27B — 20 ГБ
- ✔️ Команда:
ollama pull gemma3:9b
- ✔️ Краще для: загальний чат, слабке залізо,
мультимодальність на 8 ГБ RAM
- ✔️ Ліцензія: Gemma Terms of Use (безкоштовна для більшості)
Висновок: Llama 3.3 — стандартний вибір для тексту і RAG.
Mistral 7B — якщо важлива швидкість, тестування API або обмежений RAM.
Gemma 3 — коли потрібна компактна модель або мультимодальність.
🎯 Reasoning-моделі для складних задач: DeepSeek R1, QwQ
Reasoning-моделі — це окремий клас LLM, який думає покроково перед
відповіддю. DeepSeek R1 і QwQ значно сильніші за стандартні моделі
на математиці, логічних задачах і складному дебагінгу. Повільніші на
простих запитах — не варто використовувати для щоденного чату.
Для щоденного використання — Llama 3.3. Для задач де важлива точність
міркування — DeepSeek R1.
Hugging Face підтверджує:
DeepSeek R1 досягає результатів порівнянних з OpenAI o1 на задачах
математики, коду і reasoning — при повністю відкритому коді і
ліцензії MIT.
Що таке reasoning-модель — і чим вона відрізняється від звичайної
Звичайна мовна модель — Llama, Mistral, Gemma — отримує запит і одразу
генерує відповідь. Вона не «перевіряє» себе в процесі — просто передбачає
наступний токен на основі попередніх.
Reasoning-модель працює інакше. Chris McCormick пояснює:
в основі — ідея «думати перед відповіддю» (Chain-of-Thought).
Модель спочатку генерує ланцюжок міркувань між тегами
<think>...</think>, перевіряє себе,
може повернутися назад і виправити помилку — і лише потім видає
фінальну відповідь.
Sean Goedecke описує
ключову відмінність у навчанні: стандартні моделі навчаються
на прикладах правильних відповідей. DeepSeek R1 навчається через
reinforcement learning — модель сама генерує ланцюжки міркувань,
і отримує винагороду тільки якщо фінальна відповідь правильна.
Це означає, що модель може знаходити способи міркування, яких не було
у навчальних даних.
Як виглядає відповідь DeepSeek R1 на практиці
Надсилаєш запит — і бачиш два блоки у відповіді:
<think>
Потрібно знайти всі прості числа до 50.
Починаю з 2 — ділиться тільки на 1 і на себе, просте.
3 — просте. 4 — ділиться на 2, не просте...
...перевіряю кожне число...
Отже список: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47
</think>
Прості числа до 50: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47.
Блок <think> — це процес міркування. Це не помилка
і не службовий текст — це те, що робить модель точнішою.
Trend Micro зазначає:
при використанні в продакшн-застосунках теги <think>
варто фільтрувати у постобробці — показувати кінцевому користувачеві
тільки фінальну відповідь.
7. DeepSeek R1 — найкраща reasoning-модель для локального запуску
IBM описує
DeepSeek R1 як модель що поєднує chain-of-thought reasoning з
reinforcement learning — де автономний агент навчається вирішувати
задачі методом спроб і помилок, без інструкцій від людини.
Результат: на математичних і кодових бенчмарках — рівень OpenAI o1,
але з відкритим кодом і ліцензією MIT.
Офіційні рекомендації DeepSeek
по налаштуванню для найкращого результату:
- ✔️ Temperature: 0.5–0.7 (рекомендовано 0.6) —
занадто низька дає повтори, занадто висока — нерелевантні відповіді
- ✔️ System prompt: не додавати — всі інструкції
мають бути у user prompt
- ✔️ Для математики: додати в промпт
«Please reason step by step, and put your final answer within \boxed{}»
- ✔️ Тестування: запускати кілька разів і усереднювати
результат — модель має певну варіативність
Приклад: як правильно запитати DeepSeek R1
ollama run deepseek-r1:8b
# Для математики — з директивою
"Знайди всі простi числа від 1 до 100. Please reason step by step."
# Для дебагінгу — з повним контекстом помилки
"Ось функція на Python і traceback помилки. Знайди причину і виправ:
[код]
[traceback]"
# Для логічного аналізу
"Проаналізуй переваги і недоліки цього архітектурного рішення
покроково, враховуючи масштабованість і підтримку:
[опис архітектури]"
Коли використовувати DeepSeek R1, а коли — ні
| Задача |
DeepSeek R1 |
Llama 3.3 |
| Математичні задачі |
✔️ Краще |
Прийнятно |
| Складний дебагінг |
✔️ Краще |
Прийнятно |
| Логічний аналіз |
✔️ Краще |
Прийнятно |
| Щоденний чат |
⚠️ Повільно |
✔️ Краще |
| Регенерація тексту |
⚠️ Надлишково |
✔️ Краще |
| Швидкі відповіді |
⚠️ Повільно |
✔️ Краще |
| Продакшн API без фільтрації think-тегів |
⚠️ Потребує постобробки |
✔️ Готово одразу |
- ✔️ RAM: 8B — 8 ГБ / 14B — 16 ГБ / 70B — 40+ ГБ
- ✔️ Команда:
ollama pull deepseek-r1:8b
- ✔️ Ліцензія: MIT — комерційне використання дозволено
- ✔️ Контекст: 128K токенів
- ⚠️ Обмеження: повільна на простих задачах,
теги
<think> потребують фільтрації в продакшні
8. QwQ — reasoning від Alibaba
QwQ — reasoning-варіант серії Qwen від Alibaba, побудований на тій
самій ідеї chain-of-thought що і DeepSeek R1. Порівнянний результат
на математичних бенчмарках.
Till Freitag зазначає:
Qwen3-серія загалом — одне з найсильніших сімейств відкритих моделей
у 2026 році.
Практична перевага QwQ: якщо ти вже використовуєш Qwen 2.5 Coder для коду
і Llama 3.3 для тексту — QwQ дозволяє додати reasoning в ту саму
екосистему без додаткових налаштувань. Поведінка з тегами
<think> аналогічна DeepSeek R1.
- ✔️ RAM: від 16 ГБ
- ✔️ Команда:
ollama pull qwq
- ✔️ Краще для: математика, структурований аналіз,
якщо вже в Qwen-екосистемі
- ⚠️ Обмеження: менша спільнота і менше туторіалів
порівняно з DeepSeek R1
Як фільтрувати теги <think> в Python
Якщо використовуєш DeepSeek R1 або QwQ через API і хочеш показувати
користувачам тільки фінальну відповідь:
import re
def extract_answer(response: str) -> str:
"""Прибирає блок ... з відповіді моделі."""
# Видаляємо все між тегами think включно з тегами
clean = re.sub(r'.*?', '', response, flags=re.DOTALL)
return clean.strip()
# Приклад використання
raw_response = """
Потрібно знайти помилку в коді...
Бачу що змінна не ініціалізована...
Помилка на рядку 15: змінна `counter` використовується до ініціалізації.
Додай `counter = 0` перед циклом.
"""
print(extract_answer(raw_response))
# Виведе: Помилка на рядку 15: змінна `counter` використовується до ініціалізації.
# Додай `counter = 0` перед циклом.
Висновок: Reasoning-моделі — окремий інструмент
для конкретних задач. DeepSeek R1 виправданий там де потрібна точність
міркування: математика, складний дебагінг, структурований аналіз.
Для щоденного використання — Llama 3.3 або Mistral залишаються кращим вибором.
🎯 Моделі для RAG і роботи з документами
RAG потребує двох моделей: одна генерує відповіді, друга створює ембединги для пошуку.
Для ембедингів в Ollama — nomic-embed-text або mxbai-embed-large.
Для генерації по документах — Llama 3.3 або Qwen 2.5 з контекстом 128K.
RAG — це не одна модель, а пайплайн. Правильний вибір ембединг-моделі так само важливий, як вибір генеративної.
Що таке RAG і навіщо потрібні дві моделі
Retrieval-Augmented Generation (RAG) — підхід, де модель відповідає не з пам'яті,
а по твоїх документах. Пайплайн: документ → розбивка на чанки → ембединги →
векторна база → пошук релевантних чанків → генерація відповіді.
Ембединги — числові вектори смислового змісту тексту. Для їх створення потрібна
окрема легка і швидка модель.
Ембединг-моделі для Ollama
- ✔️ nomic-embed-text — найпопулярніша ембединг-модель в Ollama.
Висока якість, підтримка великого контексту, 2 ГБ RAM.
ollama pull nomic-embed-text
- ✔️ mxbai-embed-large — сильні результати на MTEB benchmark.
ollama pull mxbai-embed-large
Генеративні моделі для RAG
- ✔️ Llama 3.3 8B — 128K контекст, добре тримає довгий документний контекст
- ✔️ Qwen 2.5 14B — 128K контекст, краща якість на аналітичних задачах по документах
- ⚠️ Mistral 7B — швидша, але 32K контекст обмежує для великих документів
Детальніше про побудову RAG-пайплайну —
у статті RAG з Ollama: навчи AI відповідати по твоїх документах.
Висновок розділу: Для RAG — nomic-embed-text для ембедингів + Llama 3.3 або Qwen 2.5 для генерації. Контекст 128K — обов'язкова вимога для роботи з довгими документами.
🎯 Моделі для слабкого заліза: що запустити на 8 ГБ RAM
Коротка відповідь:
На 8 ГБ RAM реально запустити якісні моделі для більшості задач.
Llama 3.3 8B — найкращий загальний вибір. Qwen 2.5 Coder 7B — для коду.
Mistral 7B — якщо потрібна швидкість. Phi-4 Mini і Gemma 3 4B — якщо RAM ще менше.
На 8 ГБ RAM у 2026 вже немає причин жертвувати якістю — правильна модель вирішує більшість реальних задач.
Рекомендації по задачах для 8 ГБ RAM
- ✔️ Загальний чат і текст: Llama 3.3 8B —
ollama pull llama3.3:8b
- ✔️ Код і програмування: Qwen 2.5 Coder 7B —
ollama pull qwen2.5-coder:7b
- ✔️ Швидкі відповіді: Mistral 7B —
ollama pull mistral
- ✔️ Математика і логіка: Phi-4 Mini —
ollama pull phi4-mini
- ✔️ Менше 6 ГБ RAM: Gemma 3 4B —
ollama pull gemma3:4b
- ✔️ Reasoning на 8 ГБ: DeepSeek R1 8B —
ollama pull deepseek-r1:8b
Що не варто запускати на 8 ГБ RAM
- ⚠️ Моделі 13B+ у Q4 — будуть повільними або не запустяться
- ⚠️ Qwen 2.5 Coder 14B — потребує 16 ГБ
- ⚠️ Phi-4 14B — потребує 16 ГБ
- ⚠️ Llama 3.3 70B — потребує 40+ ГБ
Детальніше — у статті Ollama на слабкому залізі: повний гайд для 8 ГБ RAM.
Висновок: 8 ГБ RAM — достатній мінімум для якісної роботи з Ollama. Llama 3.3 8B і Qwen 2.5 Coder 7B закривають більшість практичних задач.
📊 Порівняльна таблиця: якість / швидкість / RAM / задача
Зведена таблиця всіх моделей з бенчмарками і рекомендаціями.
Джерела: SitePoint,
Onyx AI Leaderboard,
CodeGPT.
| Модель |
RAM |
HumanEval |
Швидкість |
Контекст |
Краще для |
Команда |
| Llama 3.3 8B |
8 ГБ |
68.1% |
Висока |
128K |
Загальний чат, RAG, текст |
ollama pull llama3.3:8b |
| Qwen 2.5 Coder 14B |
16 ГБ |
72.5% |
Середня |
128K |
Код, дебагінг, review |
ollama pull qwen2.5-coder:14b |
| Qwen 2.5 Coder 7B |
8 ГБ |
~65% |
Висока |
128K |
Код на 8 ГБ RAM |
ollama pull qwen2.5-coder:7b |
| Mistral 7B |
6 ГБ |
43.6% |
Найвища |
32K |
Швидкі відповіді, автоматизація |
ollama pull mistral |
| Phi-4 14B |
16 ГБ |
— |
Середня |
16K |
Математика, логіка, структурований код |
ollama pull phi4 |
| DeepSeek R1 8B |
8 ГБ |
— |
Низька |
128K |
Reasoning, складний аналіз |
ollama pull deepseek-r1:8b |
| Gemma 3 9B |
8 ГБ |
— |
Висока |
128K |
Загальний чат, слабке залізо |
ollama pull gemma3:9b |
| nomic-embed-text |
2 ГБ |
— |
Дуже висока |
8K |
Ембединги для RAG |
ollama pull nomic-embed-text |
| Llama 3.2 Vision |
8 ГБ |
— |
Середня |
128K |
Аналіз зображень локально |
ollama pull llama3.2-vision |
| QwQ |
16 ГБ |
— |
Низька |
128K |
Математика, reasoning |
ollama pull qwq |
🎯 Як протестувати модель за 5 хвилин — чеклист
Коли я вибирав модель для регенерації тексту і тестування API,
я запустив Mistral 7B і Llama 3.3 8B паралельно з одним і тим самим промптом.
Mistral відповіла швидше — і для моєї задачі це виявилося важливішим ніж
різниця в HumanEval score. Три реальні промпти з твого робочого процесу
дадуть більше інформації ніж будь-який синтетичний бенчмарк.
Якщо ти тільки починаєш з Ollama і ще не розібрався з базовими концепціями —
перед тестуванням моделей рекомендуємо прочитати огляд:
Що таке Ollama і навіщо запускати AI локально у 2026 —
там пояснено як влаштована платформа, які задачі вона вирішує
і кому підходить.
Найкращий спосіб вибрати модель — завантажити двох кандидатів і дати їм однаковий промпт. Результат очевидний за 10 хвилин.
Крок 1. Завантажити і запустити
ollama pull llama3.3:8b
ollama run llama3.3:8b
Крок 2. Перевірити якість на своїй задачі
- ✔️ Для коду: «Напиши функцію на Python яка [твоя задача]» — перевір чи код запускається без помилок
- ✔️ Для тексту: «Перефразуй цей абзац у діловому стилі» — порівняй результат з оригіналом
- ✔️ Для аналізу: «Підсумуй цей документ у 5 пунктах» — вставь реальний текст з роботи
- ✔️ Для reasoning: «Вирішни задачу покроково: [математична або логічна задача]»
Крок 3. Перевірити швидкість
Після відповіді Ollama показує tokens/sec. Для комфортної роботи —
мінімум 10–15 tokens/sec. Якщо менше — розглянь меншу модель або Q4_K_M замість Q8.
Крок 4. Порівняти двох кандидатів на одному промпті
# Термінал 1
ollama run llama3.3:8b "Напиши функцію для парсингу JSON у Python"
# Термінал 2
ollama run qwen2.5-coder:7b "Напиши функцію для парсингу JSON у Python"
Крок 5. Вибрати і видалити зайве
Та модель, що дає кращий результат на твоїй задачі — твоя основна.
Решту можна видалити і звільнити місце на диску:
ollama rm model-name
Висновок: Тестування займає 10–15 хвилин і дає точнішу відповідь ніж будь-який огляд. Починай з Llama 3.3 8B як базової точки порівняння.
❓ Часті питання (FAQ)
Яку модель завантажити першою?
Починай з Llama 3.3 8B — якщо є 8 ГБ RAM. Найзбалансованіший варіант:
хороша якість, великий контекст, активна підтримка спільноти.
Команда: ollama pull llama3.3:8b
Чи можна запустити кілька моделей одночасно?
Технічно так, але кожна модель займає RAM. Дві 8B-моделі одночасно потребують 12–16 ГБ.
Ollama автоматично вивантажує неактивну модель через 5 хвилин — це допомагає економити пам'ять.
Чому Ollama завантажує Q4_K_M за замовчуванням?
Q4_K_M — оптимальний баланс між розміром і якістю. Для більшості задач різниця між
Q4_K_M і Q8 несуттєва, але Q4_K_M вдвічі менше. Якщо потрібна максимальна якість:
ollama pull llama3.3:8b-instruct-q8_0
Як перевірити які моделі встановлені?
ollama list — показує всі завантажені моделі, їх розмір і дату завантаження.
ollama rm model-name — видаляє модель і звільняє місце на диску.
Де знайти всі доступні моделі?
Повний каталог — ollama.com/search.
Фільтрується за задачею, розміром і мовою програмування.
Що таке теги <think> у відповідях DeepSeek R1?
Це ланцюжок міркувань — покроковий процес «думання» моделі перед фінальною відповіддю.
Це очікувана поведінка reasoning-моделей, а не помилка. Якщо використовуєш через API —
можна відфільтрувати теги <think>...</think> у постобробці.
✅ Висновки
Вибір моделі Ollama залежить від трьох речей: заліза, задачі і вимог до швидкості. Стислі рекомендації:
- ✔️ Загальний старт, 8 ГБ RAM → Llama 3.3 8B
- ✔️ Код, 16 ГБ RAM → Qwen 2.5 Coder 14B
- ✔️ Код, 8 ГБ RAM → Qwen 2.5 Coder 7B
- ✔️ Максимальна швидкість → Mistral 7B
- ✔️ Математика і логіка → Phi-4 або DeepSeek R1
- ✔️ Складний аналіз → DeepSeek R1 або QwQ
- ✔️ RAG і документи → Llama 3.3 + nomic-embed-text
- ✔️ Зображення → Llama 3.2 Vision або Gemma 3
- ✔️ Менше 6 ГБ RAM → Gemma 3 4B або Phi-4 Mini
Найкращий спосіб вибрати — завантажити двох кандидатів і протестувати на реальних задачах за 15 хвилин.
Наступний крок: якщо ще не встановив Ollama —
покрокова інструкція для Mac, Windows і Linux.
Якщо вже працюєш з Ollama і хочеш підключити модель до IDE —
Ollama + VS Code: заміна GitHub Copilot.
📎 Джерела
- Ollama Library — офіційний реєстр моделей
- AI Tool Discovery: Best Local LLM Models 2026 — бенчмарки HumanEval і MATH
- Onyx AI: Self-Hosted LLM Leaderboard 2026 — MMLU-Pro, GPQA Diamond, SWE-bench
- CodeGPT: Choosing the Best Ollama Model — квантизація і моделі для коду
- Blue Headline: Llama vs Mistral vs DeepSeek vs Qwen 2026
- O-Mega AI: Top 10 Open Source LLMs 2026 — Gemma 3, Mistral Small, Phi-3
- Till Freitag: Open-Source LLMs Compared 2026 — 20+ моделей, вимоги до заліза
- Sebastian Raschka: The Big LLM Architecture Comparison — Qwen3, DeepSeek, Mistral