Чи можна встановити декілька моделей Ollama одночасно?

Так. Завантажуйте стільки моделей, скільки дозволяє місце на диску. Перемикайтесь між ними командами ollama run llama3.2 або ollama run mistral. Видалити непотрібну — ollama rm назва_моделі.

Що робити якщо Ollama генерує відповіді дуже повільно?

Перевірте чи використовується GPU командою ollama ps. Якщо GPU не активний — оновіть драйвер NVIDIA до версії 550+. Якщо GPU немає — спробуйте меншу модель (llama3.2:1b). SSD значно швидший за HDD при завантаженні моделі — різниця в 3–5 разів.

Чи збирає Ollama дані користувачів ?

Ні. Ollama — відкритий проєкт під ліцензією MIT. Усі запити обробляються локально на комп'ютері користувача. Після завантаження моделі інтернет не потрібен і жодні дані не відправляються назовні.

TUTORIALS 17 marzo 2026 13 min de lectura 529 vista

Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026

Actualizado: 21 March 2026

Idioma: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026

ChatGPT і Claude працюють через браузер — відкрив вкладку і пишеш. Ollama працює інакше: спочатку встановлюєш програму на комп'ютер, потім завантажуєш модель — і після цього AI працює локально, без інтернету і без підписок.

Увесь процес займає 5–10 хвилин. Ця стаття проведе через кожен крок — від перевірки системних вимог до першого запиту до моделі. Окремо для macOS, Windows і Linux, з типовими помилками і їх вирішенням.

Якщо ти ще не знаєш що таке Ollama і навіщо запускати AI локально — почни з вступної статті.

📚 Зміст статті

📌 Розділ 1. Що потрібно перед встановленням: системні вимоги
📌 Розділ 2. Встановлення на macOS: два способи за 3 хвилини
📌 Розділ 3. Встановлення на Windows: PowerShell, .exe або winget
📌 Розділ 4. Встановлення на Linux: одна команда і що після неї
📌 Розділ 5. Встановлення через Docker (усі платформи)
📌 Розділ 6. Не хочеш термінал? Графічний інтерфейс для Ollama
📌 Розділ 7. Перевірка: три команди щоб переконатись що все працює
📌 Розділ 8. Перша модель: завантаження і перший запит
❓ Часті питання (FAQ)
✅ Висновки

🎯 Що потрібно перед встановленням: системні вимоги

Перш ніж встановлювати Ollama, переконайся що твій комп'ютер відповідає мінімальним вимогам. Ollama працює на CPU без додаткових налаштувань, але наявність GPU значно прискорює генерацію відповідей.

Параметр	Мінімум	Рекомендовано
RAM	8 ГБ	16 ГБ і більше
Вільне місце на диску	4 ГБ (програма) + 2–5 ГБ (модель)	SSD з 20+ ГБ вільного місця
Операційна система	macOS 14+, Windows 10 (10240+), Ubuntu 18.04+	Остання версія ОС
GPU (опціонально)	—	NVIDIA 525+, Apple Silicon (M1–M4), AMD ROCm 6.x
Інтернет	Потрібен для завантаження	Після завантаження не потрібен

Правило вибору моделі за RAM: модель 7B у квантизації Q4 займає ~4–5 ГБ RAM. Модель 3B — близько 2 ГБ. Завжди залишай 2–3 ГБ вільної пам'яті для операційної системи.

Детальніше про вибір моделі під твоє залізо — у статті Ollama на слабкому залізі: що запустити на 8 ГБ RAM.

GPU: що підтримується і що налаштовувати

Apple Silicon (M1/M2/M3/M4): Metal GPU-прискорення працює автоматично. Завдяки unified memory чіп використовує RAM і VRAM одночасно — це найзручніша платформа для Ollama. Нічого налаштовувати не потрібно.
NVIDIA (Windows/Linux): потрібен драйвер версії 525 або новіший (рекомендовано 550+). Перевір командою nvidia-smi. Ollama автоматично виявить GPU після встановлення драйвера.
AMD (тільки Linux): підтримка через ROCm 6.x. На Windows нативне GPU-прискорення AMD поки не підтримується Ollama.
Без GPU: Ollama запуститься і працюватиме на CPU. Повільніше, але повністю функціонально. Для моделей до 3B — цілком прийнятна швидкість.

🎯 Встановлення на macOS: два способи за 3 хвилини

macOS — найпростіша платформа для Ollama. На Apple Silicon (M1 і новіші) модель автоматично використовує GPU без жодних налаштувань. Два способи встановлення: через офіційний сайт або через Homebrew.

Спосіб 1: Завантаження з офіційного сайту (рекомендовано)

Перейди на ollama.com/download
Натисни Download for macOS
Відкрий завантажений .dmg файл
Перетягни Ollama в папку Applications
Запусти Ollama з Launchpad або Applications

Після запуску іконка Ollama (лама) з'явиться у menu bar (верхня панель). Це означає що сервер працює у фоні і готовий приймати команди.

Спосіб 2: Через Homebrew

Якщо використовуєш Homebrew — встановлення одним рядком:

brew install ollama

Після встановлення запусти сервер вручну:

ollama serve

Перевірка встановлення

Відкрий Terminal і виконай:

ollama --version

Очікуваний результат: ollama version 0.6.2 (або новіша версія).

Типові помилки на macOS та їх вирішення

«command not found: ollama» — якщо встановив через .dmg, команда ollama доступна в терміналі тільки коли програма запущена. Відкрий Ollama з Launchpad — іконка з'явиться у menu bar, після чого термінальні команди працюватимуть.

Повільна робота на Intel Mac — Ollama використовує Metal тільки на Apple Silicon. На Intel Mac модель працюватиме виключно на CPU, що значно повільніше. Для прийнятної швидкості обирай моделі до 3B параметрів: ollama run llama3.2:1b.

«Not enough memory» — модель завелика для обсягу RAM твого Mac. Спробуй меншу версію: ollama run llama3.2:1b (1B параметрів, ~1.3 ГБ) замість стандартної 3B.

Ollama не оновлюється — завантаж нову версію з ollama.com і встанови поверх поточної. Моделі залишаться на місці — перезавантажувати їх не потрібно.

🎯 Встановлення на Windows: PowerShell, .exe або winget

Windows підтримує Ollama нативно починаючи з 2024 року. У 2025–2026 з'явилася повна підтримка CUDA GPU-прискорення і нативний ARM64-білд для пристроїв на Snapdragon. Три способи встановлення — обирай зручний.

Спосіб 1: Через PowerShell (найшвидший)

Відкрий PowerShell і виконай:

irm https://ollama.com/install.ps1 | iex

Встановлення повністю автоматичне — Ollama з'явиться у PATH і запуститься як фоновий сервіс. Права адміністратора не потрібні.

Спосіб 2: Через інсталятор (.exe)

Перейди на ollama.com/download
Натисни Download for Windows
Запусти OllamaSetup.exe
Дотримуйся інструкцій майстра встановлення

Ollama не потребує прав адміністратора — програма встановлюється у домашню директорію користувача і не змінює системні файли.

Спосіб 3: Через winget

winget install Ollama.Ollama

Перевірка встановлення

Важливо: відкрий нове вікно PowerShell або Command Prompt. У старому вікні PATH ще не оновився і команда не буде знайдена.

ollama --version

Також перевір наявність іконки Ollama (лама) у системному треї (правий нижній кут панелі задач) — це означає що сервер працює.

Налаштування NVIDIA GPU на Windows

Якщо у тебе NVIDIA GPU, переконайся що драйвер актуальний:

nvidia-smi

Команда повинна показати версію драйвера — 525+ обов'язково, 550+ рекомендовано. Ollama автоматично виявить GPU і використає його. Якщо nvidia-smi не знайдена — завантаж драйвер з nvidia.com/drivers.

Типові помилки на Windows та їх вирішення

«ollama is not recognized» — закрий PowerShell і відкрий нове вікно. PATH оновлюється тільки в нових сесіях. Якщо не допомогло — перезавантаж комп'ютер.

Windows Defender / SmartScreen блокує встановлення — Windows може попередити про невідомого видавця. Натисни «More info» → «Run anyway». Ollama — відкритий проєкт під ліцензією MIT, він безпечний.

Моделі займають багато місця на диску C: — за замовчуванням моделі зберігаються у C:\Users\ІМ'Я\.ollama. Якщо на системному диску мало місця — змінити шлях можна через змінну середовища OLLAMA_MODELS. Відкрий «Змінні середовища» у налаштуваннях Windows і вкажи папку на іншому диску.

Повільна робота без GPU — перевір nvidia-smi. Якщо команда не працює — встанови або онови драйвер NVIDIA. Без GPU Ollama працюватиме на CPU — повільніше, але функціонально. Для CPU обирай моделі до 3B.

AMD GPU на Windows — нативне GPU-прискорення для AMD на Windows поки не підтримується Ollama. Варіант для досвідчених: WSL2 з Linux-середовищем і ROCm, але це експериментальна підтримка.

🎯 Встановлення на Linux: одна команда і що після неї

На Linux встановлення Ollama — одна команда. Скрипт автоматично визначить архітектуру системи (x86_64, ARM64), завантажить потрібний бінарник і зареєструє Ollama як systemd-сервіс.

Встановлення

curl -fsSL https://ollama.com/install.sh | sh

Якщо потрібен sudo:

curl -fsSL https://ollama.com/install.sh | sudo sh

Перевірка встановлення

ollama --version

Перевір що systemd-сервіс запущений:

systemctl status ollama

Статус повинен бути active (running). Якщо ні — запусти вручну: sudo systemctl start ollama.

Налаштування GPU на Linux

NVIDIA

nvidia-smi

Версія драйвера повинна бути 525+ (рекомендовано 550+). Для максимальної швидкості генерації увімкни Flash Attention. Відкрий файл сервісу:

sudo nano /etc/systemd/system/ollama.service

Додай у секцію [Service]:

Environment="OLLAMA_FLASH_ATTENTION=1"

Перезапусти сервіс:

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD (ROCm)

ROCm 6.x підтримується на Linux. Переконайся що ROCm встановлений і rocminfo показує твій GPU. Ollama автоматично виявить AMD GPU через ROCm.

Доступ з локальної мережі

За замовчуванням Ollama доступна тільки на localhost. Щоб відкрити доступ для інших пристроїв у мережі (наприклад для Open WebUI на іншому комп'ютері), додай у файл сервісу /etc/systemd/system/ollama.service:

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

І перезапусти:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Типові помилки на Linux та їх вирішення

«permission denied» — використай sudo при встановленні: curl -fsSL https://ollama.com/install.sh | sudo sh.

Ollama не бачить NVIDIA GPU — перевір nvidia-smi. Якщо команда не працює — встанови драйвер NVIDIA і CUDA toolkit. Переконайся що версії драйвера і CUDA сумісні між собою.

«port 11434 already in use» — інший процес Ollama вже працює. Зупини його: sudo systemctl stop ollama, потім запусти знову: sudo systemctl start ollama.

Завантаження моделі перервалось — Ollama підтримує відновлення завантаження. Просто повтори ollama pull назва_моделі — завантаження продовжиться з місця зупинки, а не спочатку.

Оновлення Ollama — повтори ту ж команду встановлення: curl -fsSL https://ollama.com/install.sh | sh. Скрипт виявить існуючу версію і оновить її. Моделі залишаться на місці.

🎯 Встановлення через Docker: універсальний спосіб для будь-якої ОС

Docker — зручний варіант якщо ти не хочеш встановлювати програми глобально, або плануєш розгорнути Ollama на сервері. Один контейнер — і все працює ізольовано від основної системи.

Базовий запуск (тільки CPU)

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Прапор -v ollama:/root/.ollama зберігає завантажені моделі у Docker volume — вони залишаться навіть після зупинки контейнера.

Запуск з NVIDIA GPU

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Для GPU у Docker на Linux потрібен NVIDIA Container Toolkit. Встанови його перед запуском контейнера.

Запуск моделі у контейнері

docker exec -it ollama ollama run llama3.2

Docker Compose (для постійного розгортання)

Створи файл docker-compose.yml:

version: '3.8'
services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    restart: unless-stopped
    # Для GPU розкоментуй:
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - capabilities: [gpu]

volumes:
  ollama_data:

Запусти:

docker compose up -d

Типові помилки з Docker

Docker на Mac не підтримує GPU-прохідку — у Docker на macOS модель працюватиме тільки на CPU, навіть якщо у тебе Apple Silicon. Для GPU-прискорення на Mac — встановлюй Ollama нативно, а не через Docker.

«docker: command not found» — встанови Docker Desktop для macOS/Windows або Docker Engine для Linux.

Контейнер не бачить GPU — перевір що NVIDIA Container Toolkit встановлений коректно:

docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi

Якщо команда показує GPU — усе в порядку, проблема в іншому. Якщо помилка — перевстанови NVIDIA Container Toolkit.

🎯 Не хочеш термінал? Графічний інтерфейс для Ollama

Не всім зручно працювати в командному рядку. Ollama має два варіанти графічного інтерфейсу — власний десктопний застосунок і сторонній веб-інтерфейс Open WebUI.

Варіант 1: Десктопний застосунок Ollama

З липня 2025 року Ollama має власний десктопний застосунок з графічним інтерфейсом для macOS і Windows. Завантажуєш з сайту, встановлюєш — і отримуєш вікно для чату без терміналу. Підтримує drag-and-drop PDF і зображень для мультимодальних моделей.

Варіант 2: Open WebUI — повноцінний веб-інтерфейс

Open WebUI — це окремий проєкт з відкритим кодом, який дає інтерфейс схожий на ChatGPT: перемикання між моделями, збереження історії чатів, завантаження документів, мультикористувацький режим для команди.

Встановлення через Docker (Ollama повинна бути вже запущена):

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Після запуску відкрий http://localhost:3000 у браузері.

При першому вході потрібно створити обліковий запис адміністратора — це локальний акаунт, дані нікуди не відправляються.

Детальніше про налаштування і функції Open WebUI — у статті Ollama + Open WebUI: локальний ChatGPT у браузері.

🎯 Перевірка: три команди щоб переконатись що все працює

Після встановлення (будь-яким способом) виконай три перевірки, щоб переконатись що Ollama готова до роботи.

1. Версія Ollama

ollama --version

Очікуваний результат: ollama version 0.6.x (або новіша).

2. Список моделей

ollama list

Якщо ще не завантажував моделі — список буде порожнім. Це нормально — моделі з'являться після першого ollama pull.

3. API-відповідь сервера

curl http://localhost:11434

Очікуваний результат: Ollama is running. Ця перевірка підтверджує що сервер працює і API доступний на порту 11434.

Усі три перевірки пройшли? Ollama встановлена і готова до роботи. Переходимо до завантаження першої моделі.

🎯 Перша модель: завантаження і перший запит

Ollama встановлена, сервер працює — час завантажити модель і поставити їй перше питання.

Крок 1: Завантаження моделі

ollama pull llama3.2

Llama 3.2 — легка модель від Meta з 3B параметрами (~2 ГБ). Вона оптимізована для edge-пристроїв і запуститься навіть на комп'ютері з 8 ГБ RAM. Ідеальний вибір для першого знайомства з локальним AI.

Завантаження займе 1–5 хвилин залежно від швидкості інтернету. Якщо з'єднання перерветься — повтори команду, завантаження продовжиться з місця зупинки.

Крок 2: Запуск і перший запит

ollama run llama3.2

Відкриється інтерактивний чат у терміналі. Напиши будь-що, наприклад:

>>> Що таке Ollama? Відповідай українською.

Модель згенерує відповідь прямо у терміналі. Вітаю — AI працює локально на твоєму комп'ютері, без хмари і без підписок!

Крок 3: Вихід з чату

Щоб вийти з інтерактивного режиму:

>>> /bye

Хочеш потужнішу модель?

Llama 3.2 (3B) — це модель початкового рівня. Якщо у тебе достатньо RAM і хочеш кращої якості, спробуй:

Модель	Розмір	RAM	Для чого
`llama3.2:1b`	~1.3 ГБ	4+ ГБ	Мінімальна модель, максимальна швидкість
`llama3.2`	~2 ГБ	8+ ГБ	Базова модель для знайомства
`llama3.1:8b`	~5 ГБ	16+ ГБ	Якісна модель для щоденних задач
`mistral`	~4.1 ГБ	12+ ГБ	Добре працює з текстом і інструкціями
`deepseek-r1:8b`	~5 ГБ	16+ ГБ	Складне міркування і код
`qwen2.5-coder:7b`	~4.7 ГБ	16+ ГБ	Програмування, автодоповнення коду

Завантажити будь-яку модель: ollama pull назва_моделі. Повний каталог моделей — ollama.com/search.

Детальне порівняння моделей з рекомендаціями по задачах — у статті Топ-10 моделей Ollama у 2026: яку вибрати.

Корисні команди для старту

Команда	Що робить
`ollama pull llama3.2`	Завантажити модель
`ollama run llama3.2`	Запустити інтерактивний чат з моделлю
`ollama list`	Показати всі завантажені моделі
`ollama ps`	Показати запущені зараз моделі
`ollama show llama3.2`	Детальна інформація про модель
`ollama rm llama3.2`	Видалити модель і звільнити місце на диску
`ollama cp llama3.2 my-model`	Скопіювати модель під новим ім'ям

❓ Часті питання (FAQ)

Чи потрібні права адміністратора для встановлення?

На macOS і Windows — ні. Ollama встановлюється у домашню директорію без зміни системних файлів. На Linux — потрібен sudo для встановлення через скрипт, але після цього Ollama працює як звичайний systemd-сервіс.

Скільки місця на диску займають моделі?

Програма — близько 4 ГБ. Кожна модель — від 1 до 50+ ГБ залежно від розміру і квантизації. Перша модель Llama 3.2 (3B) займає ~2 ГБ. Моделі зберігаються у ~/.ollama/models (macOS/Linux) або C:\Users\ІМ'Я\.ollama (Windows). Шлях можна змінити через змінну середовища OLLAMA_MODELS.

Ollama працює у фоні після встановлення?

На macOS — працює у фоні коли запущена (іконка у menu bar). На Windows — стартує при завантаженні системи (іконка у системному треї). На Linux — зареєстрована як systemd-сервіс. Це потрібно щоб API на порту 11434 був завжди доступний для запитів.

Чи можна встановити декілька моделей одночасно?

Так. Завантажуй стільки моделей, скільки дозволяє місце на диску. Перемикайся між ними: ollama run llama3.2 або ollama run mistral. Видалити непотрібну — ollama rm назва_моделі.

Як оновити Ollama до нової версії?

macOS — завантаж нову версію з ollama.com і встанови поверх поточної. Windows — так само, або winget upgrade Ollama.Ollama. Linux — повтори команду: curl -fsSL https://ollama.com/install.sh | sh. Моделі залишаються на місці — перезавантажувати їх не потрібно.

Модель генерує відповіді дуже повільно — що робити?

Перевір чи використовується GPU: ollama ps покаже де працює модель. Якщо GPU не активний — оновіть драйвер (NVIDIA 550+). Якщо GPU немає — спробуй меншу модель (llama3.2:1b). Також HDD значно повільніший за SSD при завантаженні моделі у пам'ять — різниця в 3–5 разів.

Ollama збирає мої дані?

Ні. Ollama — відкритий проєкт під ліцензією MIT. Усі запити обробляються локально на твоєму комп'ютері. Після завантаження моделі інтернет не потрібен і жодні дані не відправляються назовні.

Чи можна використовувати Ollama без терміналу?

Так. Десктопний застосунок Ollama (macOS і Windows, з липня 2025) має графічний інтерфейс для чату. Також можна встановити Open WebUI — веб-інтерфейс у стилі ChatGPT, який працює у браузері на localhost:3000.

Чи підтримує Ollama українську мову?

Залежить від моделі. Llama 3.2 і Mistral розуміють і генерують українською, хоча якість нижча ніж англійською. Для кращої якості українською спробуй llama3.1:8b або qwen2.5:7b — ці моделі тренувались на ширшому наборі мультимовних даних.

✅ Висновки

Встановлення Ollama у 2026 році — це 5–10 хвилин незалежно від платформи. Одна команда в терміналі або один інсталятор — і ти маєш повноцінний AI на своєму комп'ютері.

Коротко по платформах:

macOS: найпростіший досвід, особливо на Apple Silicon. Завантажив з сайту — перетягнув в Applications — працює. GPU-прискорення автоматичне.
Windows: повна підтримка з CUDA-прискоренням. PowerShell-скрипт, .exe-інсталятор або winget — на вибір. Права адміністратора не потрібні.
Linux: одна команда curl — і готово. Автоматичний systemd-сервіс. Ідеально для серверного розгортання.
Docker: універсальний варіант для будь-якої ОС і для продакшн-деплою. Але на macOS у Docker немає GPU-прискорення.

Після встановлення — завантаж першу модель (ollama pull llama3.2) і зроби перший запит. Далі можна рухатись глибше: вибрати оптимальну модель під задачу, налаштувати автодоповнення коду у VS Code або підняти повноцінний веб-інтерфейс Open WebUI.

Categorías

📚 Зміст статті

🎯 Що потрібно перед встановленням: системні вимоги

GPU: що підтримується і що налаштовувати

🎯 Встановлення на macOS: два способи за 3 хвилини

Спосіб 1: Завантаження з офіційного сайту (рекомендовано)

Спосіб 2: Через Homebrew

Перевірка встановлення

Типові помилки на macOS та їх вирішення

🎯 Встановлення на Windows: PowerShell, .exe або winget

Спосіб 1: Через PowerShell (найшвидший)

Спосіб 2: Через інсталятор (.exe)

Спосіб 3: Через winget

Перевірка встановлення

Налаштування NVIDIA GPU на Windows

Типові помилки на Windows та їх вирішення

🎯 Встановлення на Linux: одна команда і що після неї

Встановлення

Перевірка встановлення

Налаштування GPU на Linux

NVIDIA

AMD (ROCm)

Доступ з локальної мережі

Типові помилки на Linux та їх вирішення

🎯 Встановлення через Docker: універсальний спосіб для будь-якої ОС

Базовий запуск (тільки CPU)

Запуск з NVIDIA GPU

Запуск моделі у контейнері

Docker Compose (для постійного розгортання)

Типові помилки з Docker

🎯 Не хочеш термінал? Графічний інтерфейс для Ollama

Варіант 1: Десктопний застосунок Ollama

Варіант 2: Open WebUI — повноцінний веб-інтерфейс

🎯 Перевірка: три команди щоб переконатись що все працює

1. Версія Ollama

2. Список моделей

3. API-відповідь сервера

🎯 Перша модель: завантаження і перший запит

Крок 1: Завантаження моделі

Крок 2: Запуск і перший запит

Крок 3: Вихід з чату

Хочеш потужнішу модель?

Корисні команди для старту

❓ Часті питання (FAQ)

Чи потрібні права адміністратора для встановлення?

Скільки місця на диску займають моделі?

Ollama працює у фоні після встановлення?

Чи можна встановити декілька моделей одночасно?

Як оновити Ollama до нової версії?

Модель генерує відповіді дуже повільно — що робити?

Ollama збирає мої дані?

Чи можна використовувати Ollama без терміналу?

Чи підтримує Ollama українську мову?

✅ Висновки

📎 Джерела

📬 No se pierda los nuevos artículos

¿Listo para crear un sitio web llave en mano?

Останні статті

Що означає GPT-5.5 для ринку AI у 2026 році

GPT-5.5 vs GPT-5.4: що змінилося у 2026 році

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Gemma 4 26B MoE: підводні камені і коли це реально виграє