AI_TOOLS 19 червня 2026 10 хв читання 69 перегляд

LM Studio на 8GB RAM: які моделі реально працюють у 2026

Оновлено: 19 June 2026

Мова: 🇺🇦 🇬🇧 🇩🇪 🇪🇸

Dmitro Petrov

A Tech Lead who builds AI/ML systems for production — and writes about how they actually work.

LM Studio на 8GB RAM: які моделі реально працюють у 2026

Коротко: LM Studio офіційно рекомендує мінімум 16GB RAM — 8GB це нижче рекомендованого порогу. Але це не означає що локальний AI на такому Mac неможливий. Phi-4-mini 3.8B і Gemma 4 E4B — це по суті єдині моделі які дають комфортний досвід на 8GB unified memory. Розбираємось чесно: що реально працює, а що краще навіть не пробувати.

📉 Реальність 8GB на Apple Silicon: чому це менше ніж здається

Перше що варто зрозуміти перед тим як взагалі завантажувати LM Studio на Mac з 8GB — ця цифра не означає те, що ви думаєте.

На Apple Silicon діє unified memory — CPU і GPU діляться однією й тією ж фізичною пам'яттю замість окремих пулів як у класичному ПК з дискретною відеокартою. Це насправді перевага для AI-навантажень (немає накладних витрат на копіювання даних між CPU і GPU пам'яттю), але це означає що ваші 8GB мусять покрити одночасно: macOS і фонові процеси, відкриті застосунки (браузер з кількома вкладками легко з'їдає 1-2GB), і саму модель плюс її контекст.

На практиці реально доступно для моделі — десь 4-6GB, а не всі 8. Це і є та цифра яку варто тримати в голові коли обираєте модель, а не номінальний обсяг пам'яті вашого Mac.

⚠️ Що офіційно каже LM Studio про 16GB

Тут варто бути чесним одразу: офіційна сторінка системних вимог LM Studio прямо каже — "LLMs can consume a lot of RAM. At least 16GB of RAM is recommended". 8GB — це нижче рекомендованого порогу, не базова комфортна конфігурація.

Це не означає що 8GB Mac непридатний — це означає що вам доведеться свідомо обирати маленькі моделі і не очікувати того ж досвіду що на 16GB чи 32GB. LM Studio сама допомагає з цим вибором: у браузері моделей кожен файл супроводжується кольоровим hardware-fit індикатором — зелений означає що модель комфортно влізає у ваше залізо, жовтий означає що працюватиме, але впритул, червоний означає що знадобиться offloading частини шарів у системну пам'ять (і відповідне падіння швидкості). На 8GB варто привчити себе дивитись на цей індикатор перед кожним завантаженням, а не покладатись на назву моделі.

🧩 MLX чи GGUF на 8GB — коротко про квантизацію

На 8GB вибір формату і рівня квантизації — це вже не питання зручності, а питання чи модель взагалі завантажиться. Тут я не буду повторювати теорію — у мене вже є детальний розбір квантування GGUF для Ollama — що означають суфікси Q4_K_M, Q8_0, IQ4_XS, чому Q4 часто кращий за Q8 (не лише через розмір, а й через швидкість), і формула для розрахунку потрібної RAM під будь-яку модель. Принципи там ідентичні і для LM Studio — формат файлу (GGUF) той самий, відрізняється лише рушій що його виконує.

Коротко для контексту 8GB: на такому обсязі пам'яті ви практично завжди працюєте з 4-bit квантизацією (Q4_K_M для GGUF, або просто "4bit" для MLX-збірок — позначення дещо інші, суть та сама). Усе що вище — Q6, Q8 — на 8GB вже не лишає простору ні для контексту, ні для системи.

🥇 Phi-4-mini 3.8B MLX — єдина комфортна модель

Якщо у вас 8GB і потрібна модель з якою буде дійсно зручно працювати щодня, а не просто "технічно запускається" — це Phi-4-mini. Незалежні тести підтверджують стабільні ~15-20 токенів за секунду на залізі рівня M1 MacBook Air — досить для коментаторів коду, простих пояснень і легкого чату без відчутних затримок.

Модель добре справляється з автодоповненням коду, простими поясненнями і легкими чат-сценаріями. Не очікуйте від неї глибокого reasoning чи складної багатокрокової логіки — для цього потрібні моделі значно більшого розміру, які на 8GB просто не влізуть з прийнятною швидкістю.

У LM Studio шукайте версію з позначкою 4bit MLX в назві — саме вона дасть вказані вище 15-20 токенів/сек на Apple Silicon, тоді як GGUF-варіант буде дещо повільнішим на тому ж залізі.

🤖 Gemma 4 E4B MLX — Google варіант "your best bet"

Тут варто скоригувати поширену помилку. Дехто радить на 8GB брати найменшу Gemma 4 — E2B. Це не зовсім правильна порада: E2B настільки маленька (в 4-bit займає приблизно 1.5GB) що недовантажує ваші реальні можливості — ви отримуєте швидкість, але втрачаєте якість яку могли б мати.

Реальний сенс на 8GB має Gemma 4 E4B — займає в 4-bit приблизно 5GB, і незалежні огляди системних вимог прямо називають її "your best bet" саме для 8GB конфігурацій — несподівано потужний варіант як для такого скромного об'єму пам'яті. E4B використовує технологію Per-Layer Embeddings (PLE) яка дає моделі глибину набагато більшого розміру при відносно невеликому споживанні пам'яті.

Якщо вибираєте між Phi-4-mini і Gemma 4 E4B на 8GB — простого правила "одна краще за іншу" немає. Phi-4-mini швидша і легша, Gemma 4 E4B важча але потенційно якісніша завдяки більшій ефективній глибині. Спробуйте обидві на ваших типових задачах — це займе лічені хвилини, а різниця в досвіді може бути суттєвою.

🔄 Qwen3 / Qwen3.5 на 8GB — що реально влізе

Сімейство Qwen теж пропонує компактні варіанти, і це гідна альтернатива якщо вам потрібна модель з сильнішим tool calling чи трохи іншим стилем відповідей ніж у Phi чи Gemma.

Тут варто бути обережним з конкретними моделями: на момент написання найменші офіційні MLX-збірки Qwen3 які масово протестовані спільнотою — це варіанти в районі 3-4B параметрів. Свіжіша лінійка Qwen3.5 теж пропонує менші розміри, але для неї поки менше незалежних бенчмарків швидкості на слабкому залізі типу 8GB Mac — тому раджу орієнтуватись насамперед на hardware-fit індикатор прямо в LM Studio перед завантаженням, а не на загальні цифри з інтернету, які для щойно випущених малих моделей ще не встигли накопичитись.

Практичне правило: якщо назва моделі містить "3B" чи "4B" і є MLX-збірка з позначкою 4bit — варто спробувати, індикатор одразу покаже чи це реалістично для вашої машини.

Для 8GB RAM у 2026 році починайте з Phi-4-mini, Gemma 4 E4B або Qwen 3-4B у 4-bit квантизації. Якщо LM Studio показує жовтий або зелений hardware-fit індикатор — модель майже напевно буде придатною для повсякденного використання.

🤔 Чому AI-підказки іноді радять зайве

Якщо ви гуглили щось на кшталт "яка модель для LM Studio на 8GB" — цілком ймовірно бачили автоматичну AI-відповідь яка серед іншого радить щось типу "Llama-3 8B з квантуванням Q2_K". Тут варто зупинитись і пояснити чому це погана порада, навіть якщо технічно модель завантажиться.

По-перше, 8B модель на 8GB реально пам'яті — це майже завжди впритул чи за межею комфортного, з огляду на те що системі й так потрібно 2-4GB. По-друге, і це головне: Q2_K — це настільки агресивне квантування що якість деградує нерівномірно. Модель може зв'язно говорити речення, але "губити логіку" посередині довшої відповіді. Детальніше чому так відбувається і де саме проходить межа прийнятного квантування — я розбирав у статті про квантування GGUF: коротке правило звідти — краще взяти меншу модель у Q4, ніж більшу в Q2.

AI-огляди в пошуку добре справляються з загальними інструкціями (як увімкнути Metal, як обмежити контекст), але коли справа доходить до конкретних рекомендацій моделей — варто перевіряти ці поради через незалежні джерела чи власний практичний досвід, а не сліпо виконувати перший-ліпший автоматично згенерований список.

Реальні цифри швидкості — що підтверджено, а що ні

Тут я мушу бути таким же чесним як і в розділі про AI-підказки: робити таблицю з точними токенами/сек для зв'язки "M1 8GB + Ryzen 5600U" на ці конкретні моделі я не буду — таких прямих незалежних замірів я не знайшов, а вигадувати цифри означало б порушити саме ту чесність до якої закликає ця стаття.

Натомість ось перевірені дані з різних джерел, з чітким зазначенням на якому залізі вони отримані:

Модель	Залізо / умови тесту	Токени/сек	Джерело
Phi-4-mini 3.8B Q4_K_M	M1 MacBook Air (8GB-клас заліза)	~15-20 тoк/с	Незалежний огляд локальних моделей 2026
Gemma 4 E4B Q4_K_M	CPU-only, бюджетний міні-ПК без GPU	~5-9 тoк/с (decode)	Екстраполяція з бенчмарків llama.cpp на подібних CPU
Gemma 4 E4B Q4_K_M	CPU-only, Raspberry Pi 5	~2-4 тoк/с	Гайд з edge-розгортання Gemma 4
Gemma 4 E4B, повна точність	48GB GPU (для довідки — не 8GB-клас)	~13.8 тoк/с	Незалежний тест усіх варіантів Gemma 4

Що звідси можна забрати практично: Apple Silicon з unified memory і Metal-прискоренням системно швидший за CPU-only x86 ноутбуки (типу Ryzen 5600U без дискретної відеокарти) для цього класу задач — Neural Engine і архітектура пам'яті дають перевагу яку CPU-only x86 залізо просто не може компенсувати. Але точну цифру "скільки токенів/сек дасть саме ваш Ryzen 5600U на Phi-4-mini" я не вкажу, бо чесний відповідь — "я не знайшов цього заміру", а не вигадане число яке виглядає правдоподібно.

Якщо хочете отримати точну цифру для свого заліза — це займає буквально дві хвилини: завантажте модель в LM Studio, відкрийте чат, і подивіться на лічильник токенів/сек який з'являється під час генерації відповіді. Це дасть набагато точніший орієнтир ніж будь-яка таблиця в статті, бо враховує саме вашу конкретну конфігурацію — версію macOS, фонові процеси, поточне навантаження.

🚫 Що НЕ варто запускати на 8GB

Будь-які 7B+ моделі у повноцінному вигляді — навіть у 4-bit квантизації 7B модель з контекстом і системними потребами практично гарантовано виштовхне вас за межі доступних 4-6GB
Gemma 4 26B чи 31B — це моделі для 24-32GB+ конфігурацій, на 8GB про них навіть не варто думати незалежно від квантизації
Будь-яку модель без перевірки hardware-fit індикатора — якщо бачите жовтий чи червоний індикатор в LM Studio, це сигнал що досвід буде нестабільний навіть якщо технічно запуститься
Q8 чи Q6 квантизацію навіть для маленьких моделей — на 8GB немає простору для розкоші вищої точності, тримайтесь 4-bit
Кілька одночасно завантажених моделей — функція LM Studio "load multiple models" чудова на залізі з запасом пам'яті, але на 8GB вона швидко призведе до свопінгу

⚙️ Практичний сетап у LM Studio

Кілька конкретних налаштувань які варто застосувати одразу на 8GB Mac, через інтерфейс LM Studio:

Hardware Settings → Metal — переконайтесь що апаратне прискорення через Metal увімкнене. Це майже завжди так за замовчуванням на Apple Silicon, але варто перевірити в правому сайдбарі застосунку
GPU Offload — виставте повзунок на максимум доступних ядер. На unified memory архітектурі це не "забирає" пам'ять окремо — CPU і GPU все одно діляться одним пулом, тож сенсу обмежувати offload штучно немає
Context Size — обмежте до 2048-4096 токенів — це найважливіше практичне налаштування на 8GB. Кожен токен контексту займає пам'ять під KV-кеш, і на обмеженому об'ємі довгий контекст (8K, 16K) може призвести до вильоту застосунку через нехватку пам'яті ще до того як модель встигне щось відповісти
Завантажуйте лише одну модель за раз — на 8GB не намагайтесь тримати "швидку" і "розумну" модель одночасно завантаженими як це можна робити на 16GB+

Якщо після цих налаштувань модель все одно поводиться нестабільно чи генерація відчутно сповільнюється на довших відповідях — це сигнал що варто або скоротити контекст ще сильніше, або перейти на меншу модель.

✅ Чесний висновок: 8GB — мінімум, 16GB — комфорт

Якщо коротко: 8GB Apple Silicon Mac технічно може запускати LM Studio і давати корисний результат — Phi-4-mini чи Gemma 4 E4B покривають реальні повсякденні задачі типу простого чату, пояснень, легкого автодоповнення коду. Це не іграшка і не марна трата часу.

Але це й не той досвід який обіцяють маркетингові скриншоти з потужними 14B-32B моделями. Ви свідомо обираєте компроміс: менший розмір моделі, обмежений контекст, і відмову від складніших задач типу глибокого reasoning, роботи з великими документами чи багатоагентних сценаріїв через MCP де контекст швидко росте.

Якщо локальний AI стає для вас регулярним робочим інструментом, а не разовим експериментом — апгрейд до 16GB дає набагато ширший вибір моделей (Qwen3-8B, повноцінні Gemma 4 26B MoE варіанти на межі можливого) і прибирає постійну тривогу "чи влізе". Для тих хто вже на 16GB — у мене є вступна стаття про LM Studio і чому локальний AI у 2026 перестав бути компромісом, з якої варто почати якщо ви взагалі новачок у цій темі.

Категорії