Ollama en 8 GB de RAM: qué modelos funcionan en 2026

Actualizado:
Ollama en 8 GB de RAM: qué modelos funcionan en 2026

¿Tienes un portátil con 8 GB de RAM y quieres ejecutar IA localmente? Este artículo es un análisis: qué funciona, qué apenas funciona, y qué ni siquiera vale la pena descargar. Sin ilusiones, con modelos y comandos concretos para cada tarea. Si aún no estás familiarizado con Ollama, empieza por el artículo introductorio sobre qué es Ollama y por qué es necesaria.

📚 Contenido del artículo

🎯 Aritmética honesta: cuánta RAM queda realmente para el modelo

Respuesta corta: Con 8 GB de RAM, realmente hay 4-5 GB disponibles para el modelo de IA. El resto lo consume el sistema operativo, el navegador y los procesos básicos. Esto determina la regla principal: con 8 GB, los modelos de hasta 3-7B parámetros en cuantización de 4 bits funcionan cómodamente.

8 GB de RAM no son 8 GB para el modelo. Son 8 GB menos el SO, menos Chrome, menos todo lo que olvidaste cerrar.

Antes de elegir un modelo, necesitas entender el presupuesto real de memoria. Aquí tienes una distribución típica en un sistema con 8 GB de RAM:

  • ✔️ Sistema operativo: 1.5–2.5 GB (macOS más cerca de 2.5, Windows — 2, Linux — 1.5)
  • ✔️ Navegador (5–10 pestañas): 1–2 GB
  • ✔️ IDE (VS Code / IntelliJ): 0.5–1.5 GB
  • ✔️ Procesos en segundo plano: 0.3–0.5 GB

Resto para el modelo: 3–5 GB.

Según LocalLLM.in, un modelo de 7B parámetros en cuantización Q4_K_M ocupa aproximadamente 4–5 GB, más 1–2 GB para el caché KV y la sobrecarga del sistema. Esto significa: un modelo de 7B con 8 GB es posible, pero al límite, y es mejor cerrar todo lo innecesario.

Regla práctica para 8 GB:

  • ✔️ Zona de confort: modelos de 1–3B parámetros (Q4_K_M) — queda espacio para IDE y navegador
  • ✔️ Zona de trabajo: modelos de 7–8B parámetros (Q4_K_M) — es necesario cerrar todo lo innecesario
  • Zona roja: modelos de 13B+ — bloqueos garantizados o intercambio en disco

Conclusión: Antes de elegir un modelo, cierra el navegador, verifica ollama ps y mira la memoria restante real. Con 8 GB, cada gigabyte vale oro.

🎯 Para código: qué modelo reemplazará a Copilot con 8 GB

Autocompletado de código Para autocompletar código con 8 GB, la mejor opción es Qwen 2.5 Coder 3B o Phi-4 Mini (3.8B) en cuantización Q4_K_M. Ambos modelos dejan suficiente memoria para VS Code y ofrecen una calidad de generación aceptable.

GitHub Copilot cuesta $10/mes. Un modelo local para código cuesta $0/mes y funciona sin conexión. La única pregunta es qué modelo funcionará en tu hardware.

Codificar es una tarea donde incluso los modelos pequeños pueden ser útiles. Autocompletado, generación de funciones, explicación de código, escritura de pruebas — para esto no necesitas GPT-4, necesitas un modelo rápido y preciso que entienda la sintaxis.

Mejores modelos para código con 8 GB

1. Qwen 2.5 Coder 3B (Q4_K_M) — ~2.2 GB RAM

Según SitePoint, Qwen lidera el benchmark HumanEval entre los modelos de la clase 7–8B. La versión 3B es más ligera, pero mantiene una fuerte especialización en código. Entrenada con una gran cantidad de código de programación y documentación técnica.

ollama pull qwen2.5-coder:3b
ollama run qwen2.5-coder:3b "Escribe una función de ordenación de arrays en Python"

2. Phi-4 Mini (3.8B) — ~2.3 GB RAM

Según SitePoint, Phi-4 Mini es el único modelo que funciona cómodamente en sistemas con 8 GB, produciendo 15-20 tokens/seg en un MacBook Air M1 o un portátil Linux económico. Funciona bien con autocompletado, explicaciones sencillas y tareas de chat ligeras.

ollama pull phi4-mini
ollama run phi4-mini "Explica la diferencia entre HashMap y TreeMap en Java"

3. DeepSeek Coder 1.3B (Q4_K_M) — ~1 GB RAM

El modelo más ligero para código. Ideal para autocompletado en IDE — rápido, no sobrecarga el sistema, se puede mantener ejecutándose en segundo plano junto con VS Code, el navegador y la terminal.

ollama pull deepseek-coder:1.3b
ollama run deepseek-coder:1.3b

¿Qué elegir?

  • ✔️ Necesitas autocompletado en segundo plano + navegador abierto → DeepSeek Coder 1.3B
  • ✔️ Necesitas generación de funciones y explicación de código → Qwen 2.5 Coder 3B
  • ✔️ Necesitas un modelo universal para código y texto → Phi-4 Mini

Más detalles sobre la configuración del autocompletado — en el artículo Ollama + VS Code: una alternativa gratuita a GitHub Copilot.

Conclusión: Con 8 GB puedes codificar con IA local. No esperes la calidad de GPT-4, pero para el autocompletado diario, la generación de código repetitivo y las explicaciones de código, esto es suficiente.

🎯 Para texto y comunicación: chat, resumen, traducción

Para tareas de texto Para tareas de texto con 8 GB, la opción óptima es Llama 3.2 3B para chat general, Gemma 2B para máxima velocidad, o Phi-3 Mini para un equilibrio entre calidad y tamaño. Los tres dejan espacio para otro software.

No todas las tareas requieren GPT-4. Resumir texto, responder preguntas, parafrasear un artículo — con esto se las arregla un modelo que pesa menos que una película en 4K.

Las tareas de texto son la categoría más amplia: desde chat simple hasta análisis de documentos y traducción. Con 8 GB, hay opciones para elegir.

Mejores modelos para texto con 8 GB

1. Llama 3.2 3B (Q4_K_M) — ~2 GB RAM

Según StudyHUB, Llama 3.1/3.2 es el modelo más popular en Ollama con más de 111 millones de descargas. La versión 3B es más ligera, pero mantiene la calidad en conversaciones generales, resúmenes y respuestas a preguntas. Soporta 8 idiomas.

ollama pull llama3.2:3b
ollama run llama3.2:3b "Resume la idea principal de este texto: ..."

2. Gemma 2B (Q4_K_M) — ~1.6 GB RAM

Un modelo de Google DeepMind. El más rápido en esta categoría — ideal cuando se necesita una respuesta instantánea y una carga mínima en el sistema. La calidad es inferior a Llama 3B, pero para preguntas simples y clasificación de texto es más que suficiente.

ollama pull gemma:2b
ollama run gemma:2b "Crea una breve descripción para este producto: ..."

3. Phi-3 Mini (3.8B) — ~2.3 GB RAM

Según StudyHUB, Phi-3 Mini, con un peso de 2.3 GB, cubre el 90% de las tareas diarias. Funciona rápido incluso en CPU y es adecuado para Raspberry Pi 4/5.

ollama pull phi3:mini
ollama run phi3:mini "Traduce al español: The quick brown fox jumps over the lazy dog"

¿Qué elegir?

  • ✔️ Chat general y preguntas-respuestas → Llama 3.2 3B
  • ✔️ Máxima velocidad, mínima RAM → Gemma 2B
  • ✔️ Equilibrio entre calidad y tamaño, uso diario → Phi-3 Mini

Si quieres una interfaz gráfica bonita en lugar de la terminal — mira el artículo Ollama + Open WebUI: ChatGPT local en el navegador.

Conclusión: Para tareas de texto, 8 GB es un territorio cómodo. Los modelos 2-3B funcionan rápido, dejan espacio para otros programas y ofrecen una calidad suficiente para la mayoría de las necesidades diarias.

🎯 Para razonamiento: matemáticas, lógica, depuración de código

Para tareas que requieren pensamiento paso a paso — matemáticas, problemas lógicos, depuración de código complejo — con 8 GB funciona DeepSeek R1 8B en cuantización Q4. Es un modelo "pensante": es más lento, pero más preciso en preguntas complejas.

Un modelo normal responde de inmediato. Un modelo de razonamiento primero piensa — paso a paso — y luego responde. Es como la diferencia entre "responder al azar" y "calcular en papel".

Los modelos de razonamiento son una categoría relativamente nueva. Funcionan según el principio de cadena de pensamiento: dividen la tarea en pasos, verifican los resultados intermedios, y solo entonces forman la respuesta final.

Qué funciona con 8 GB

1. DeepSeek R1 8B (Q4_K_M) — ~5 GB RAM

Según StudyHUB, DeepSeek R1 es un modelo "pensante", análogo a OpenAI o1. En tareas de matemáticas, rompecabezas lógicos y razonamiento técnico, ofrece mejores resultados que Llama 3.1 del mismo tamaño. Compromiso: responde más lentamente porque "piensa" antes de responder.

ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b "Encuentra el error en esta consulta SQL: SELECT * FROM users WHERE id = '5' AND active = true GROUP HAVING count > 1"

⚠️ Importante: DeepSeek R1 8B ocupa ~5 GB de RAM. En un sistema con 8 GB, esto está al límite — es necesario cerrar el navegador, el IDE y todo lo innecesario. En macOS con memoria unificada funciona de manera más estable que en Windows con gráficos integrados.

2. Qwen 3 8B (Q4_K_M) — ~5 GB RAM

Según LocalLLM.in, Qwen 3 8B es una alternativa sólida para tareas de razonamiento, especialmente en matemáticas y escenarios multilingües. Soporta el modo de pensamiento en Ollama por defecto.

ollama pull qwen3:8b
ollama run qwen3:8b "Resuelve: si 3x + 7 = 22, ¿cuánto vale x?"

¿Qué elegir?

  • ✔️ Depuración de código y problemas lógicos → DeepSeek R1 8B
  • ✔️ Matemáticas y razonamiento multilingüe → Qwen 3 8B
  • ✔️ Si 8B no cabe — Phi-4 Mini como compromiso (más pequeño, pero sin cadena de pensamiento)

Conclusión: El razonamiento con 8 GB es posible, pero está en el límite de la comodidad. Los modelos de 8B requieren casi toda la memoria disponible. Para un trabajo regular con estas tareas, vale la pena considerar una actualización a 16 GB — la diferencia en capacidades será sustancial.

Ollama en 8 GB de RAM: qué modelos funcionan en 2026

🎯 CPU vs GPU vs Apple Silicon — де 8 ГБ це різні 8 ГБ

8 ГБ на Mac M1 і 8 ГБ на Windows-ноутбуці з Intel — це два різних досвіди. Apple Silicon використовує unified memory, де вся пам'ять доступна і CPU, і GPU одночасно. На звичайному ПК RAM і VRAM — окремі пули, і для AI-моделей це критично.

Mac M1 з 8 ГБ — це повноцінна робоча станція для локального AI. Windows-ноутбук з 8 ГБ і Intel HD Graphics — це боротьба за кожен мегабайт.

Apple Silicon (M1/M2/M3) — найкращий сценарій для 8 ГБ

На Apple Silicon вся оперативна пам'ять — unified memory. Це означає, що GPU-частина чіпа має доступ до тих самих 8 ГБ, що і CPU. Ollama автоматично використовує Metal для прискорення — без додаткових налаштувань.

Результат: 7B-модель у Q4_K_M на M1 з 8 ГБ видає 15–20 токенів/сек — достатньо для комфортного інтерактивного використання. За даними SitePoint, Phi-4 Mini на M1 MacBook Air — це приблизно 15–20 tok/s, що достатньо для щоденної роботи.

Windows / Linux з дискретним GPU (RTX 3060, RTX 4060) — хороший сценарій

Якщо є дискретна відеокарта з 6–8 ГБ VRAM — модель повністю завантажується в GPU-пам'ять, і системна RAM залишається для ОС і софту. За даними LocalLLM.in, на RTX 4060 (8 ГБ VRAM) 7B-модель видає 40+ токенів/сек — найшвидший варіант із усіх.

Windows / Linux без GPU (Intel HD / AMD Radeon iGPU) — складний сценарій

Без дискретного GPU модель працює повністю на CPU. Олама все одно запуститься — але швидкість падає до 3–6 токенів/сек. За даними LocalLLM.in, CPU-only inference прийнятний для пакетних задач, але фруструє при інтерактивному використанні.

Плюс системна RAM ділиться між ОС, софтом і моделлю — на 8 ГБ це дуже тісно.

Зведена таблиця

Платформа 7B модель (Q4) 3B модель (Q4) Швидкість Комфорт
Mac M1/M2 8 ГБ ✔️ Працює ✔️ Комфортно 15–20 tok/s ⭐⭐⭐⭐
Windows + RTX 4060 8 ГБ VRAM ✔️ Працює швидко ✔️ Комфортно 40+ tok/s ⭐⭐⭐⭐⭐
Windows/Linux CPU only 8 ГБ ⚠️ На межі ✔️ Працює 3–6 tok/s ⭐⭐

Висновок: Якщо у тебе Mac M1+ з 8 ГБ — ти у найкращій позиції для локального AI на бюджетному залізі. Якщо Windows без GPU — фокусуйся на 3B-моделях і закривай все зайве. Детальніше про встановлення на різних ОС — у статті Як встановити Ollama на Mac, Windows і Linux.

🎯 Квантизація простими словами: Q4 vs Q8 і що обрати на слабкому залізі

Коротка відповідь: Квантизація — це стиснення моделі, яке зменшує її розмір у 2–4 рази з мінімальною втратою якості. На 8 ГБ оптимальний вибір — Q4_K_M: найкращий баланс між розміром, швидкістю і якістю відповідей.

Квантизація — це як JPEG для фото. Файл менший, різниця майже непомітна. Але якщо стиснути занадто сильно — якість помітно впаде.

Коли ти бачиш у назві моделі на Ollama теги типу :7b-q4_0, :8b-instruct-q8_0 або :3b-q4_k_m — це позначення рівня квантизації. Число після «q» — кількість біт на один параметр.

Рівні квантизації: що означають теги

  • ✔️ Q8 (8-біт): максимальна якість, найбільший розмір. Для 7B-моделі — ~8 ГБ. На 8 ГБ RAM не влізе.
  • ✔️ Q4_K_M (4-біт, K-quant medium): оптимальний баланс. Для 7B — ~4–5 ГБ. Рекомендований для 8 ГБ систем.
  • ✔️ Q4_K_S (4-біт, K-quant small): трохи менший за Q4_K_M, трохи нижча якість.
  • ⚠️ Q2_K (2-біт): мінімальний розмір (~2.5 ГБ для 7B), але помітна деградація якості. Крайній варіант.

Суфікс «K» означає новіші методи квантизації (K-quant), які розумніше розподіляють точність між шарами моделі. K-quant-теги завжди кращі за legacy-варіанти (q4_0, q4_1) при тому самому розмірі.

Скільки важать моделі різних квантизацій

Модель Q8 Q4_K_M Q2_K
Phi-3 Mini (3.8B) 4.0 ГБ 2.3 ГБ 1.2 ГБ
Llama 3.2 (7B) ~8 ГБ ~4.5 ГБ ~2.6 ГБ
Mistral 7B ~8 ГБ ~4.1 ГБ ~2.8 ГБ

Дані за LocalAIMaster.

Правило для 8 ГБ: завжди обирай Q4_K_M. Якщо не влазить — знижуй розмір моделі (3B замість 7B), а не рівень квантизації (Q2 замість Q4). Менша модель з Q4 дасть кращу якість, ніж більша з Q2.

Детальніше про техніки стиснення і їхній вплив на якість — у статті Квантизація моделей: INT4, INT8 — що це і як впливає на якість.

Висновок: Q4_K_M — золотий стандарт для 8 ГБ. Не піддавайся спокусі завантажити Q8 «для якості» — модель не влізе в пам'ять, і ти отримаєш swap на диск замість швидких відповідей.

🎯 Налаштування Ollama для максимуму на слабкому залізі

Три змінні середовища і одна звичка (закривати зайве) — це все, що потрібно, щоб вичавити максимум із 8 ГБ. Налаштування займає хвилину, а різниця у стабільності — відчутна.

На потужному залізі Ollama «просто працює». На слабкому — потрібно допомогти їй не витрачати пам'ять на те, що тобі не потрібно.

За замовчуванням Ollama може тримати в пам'яті кілька моделей одночасно і обробляти паралельні запити. На 8 ГБ це зайва розкіш. Ось мінімальний набір оптимізацій:

Змінні середовища

# Тримати в пам'яті лише одну модель (за замовчуванням може бути більше)
export OLLAMA_MAX_LOADED_MODELS=1

# Один паралельний запит (без конкуренції за пам'ять)
export OLLAMA_NUM_PARALLEL=1

# Зменшити вікно контексту — економить 200–800 МБ RAM
export OLLAMA_CTX_SIZE=2048

На macOS / Linux додай ці рядки у ~/.zshrc або ~/.bashrc. На Windows — задай через системні змінні середовища або PowerShell-профіль.

Перед запуском моделі

Звучить банально, але на 8 ГБ це критично:

  • ✔️ Закрий браузер або залиш максимум 2–3 вкладки
  • ✔️ Закрий Slack, Discord, Spotify — кожна програма з'їдає 200–500 МБ
  • ✔️ Перевір поточне використання: ollama ps покаже завантажені моделі
  • ✔️ Якщо стара модель ще в пам'яті — ollama stop назва_моделі

Modelfile для тонкого налаштування

Якщо хочеш більше контролю — створи Modelfile з оптимізованими параметрами:

FROM phi3:mini
PARAMETER num_ctx 2048
PARAMETER num_thread 4
PARAMETER temperature 0.7

num_ctx 2048 — зменшує вікно контексту (менше RAM на KV-кеш). num_thread 4 — обмежує кількість потоків CPU, щоб система залишалася відзивчивою.

Покроковий гайд по встановленню і першому запуску — у статті Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026. А про створення кастомних моделей через Modelfile — у статті Modelfile в Ollama: створи свого кастомного AI.

Висновок: Три змінні середовища + закриті зайві програми = стабільна робота на 8 ГБ. Без цих налаштувань навіть легка модель може спричинити swap на диск.

🎯 Що НЕ варто пробувати на 8 ГБ — мій досвід

Коротка відповідь: Моделі 13B+, будь-які моделі у Q8-квантизації, і спроби запустити дві моделі одночасно — гарантоване розчарування на 8 ГБ. Я перевірив це на своєму Mac M1 — щоб вам не довелося.

Кожен, хто працював з Ollama на 8 ГБ, проходив через один і той самий етап: «А може 13B всe-таки влізе?» Ні, не влізе. Я перевірив.

Працюючи з Ollama на Mac M1 з 8 ГБ unified memory, я тестував десятки моделей різних розмірів. Ось чесний список того, що не працює — або працює настільки погано, що краще б не працювало.

❌ Моделі 13B і більше

Llama 2 13B, Qwen 14B, CodeLlama 13B — навіть у Q4-квантизації вони потребують 8–9 ГБ лише на ваги моделі. Додай KV-кеш, ОС, і ти отримаєш систему, яка безперервно свопить на диск. Я спробував запустити Llama 2 13B Q4 — перші 5 хвилин вона завантажувалася, потім видавала 1–2 токени на секунду з постійними паузами. Це непрацездатно для інтерактивного використання.

❌ Будь-яка 7B-модель у Q8-квантизації

Q8-версія 7B-моделі важить близько 8 ГБ — це вся твоя оперативна пам'ять. ОС не зникає магічно. Я пробував Mistral 7B Q8 — система зависла через хвилину після старту. Завжди використовуй Q4_K_M для 7B-моделей на 8 ГБ.

❌ Дві моделі одночасно

Ollama може тримати кілька моделей у пам'яті. На 16 ГБ це зручно — переключаєшся між моделями миттєво. На 8 ГБ це рецепт для swap-шторму. Тримай OLLAMA_MAX_LOADED_MODELS=1 і не забувай ollama stop перед завантаженням іншої моделі.

❌ Великі контекстні вікна (8K+ токенів)

Кожне подвоєння контекстного вікна — це додаткові сотні мегабайт на KV-кеш. На 8 ГБ тримай контекст на 2048–4096 токенів максимум. Передати модель 10-сторінковий документ цілком — не вийде, потрібно розбивати на частини.

❌ Mixtral 8x7B (MoE-архітектура)

Mixtral активує лише 2 з 8 «експертів» на кожен токен, тому теоретично використовує менше обчислень. Але всі 8 експертів мають бути в пам'яті — і це 26+ ГБ навіть у Q4. Назва «8x7B» вводить в оману: це не модель розміром 7B.

Загальне правило: якщо ollama run завантажується довше 30 секунд і перша відповідь приходить через хвилину — модель занадто велика для твоєї системи. Не чекай, що «розігріється» — закрий і візьми модель меншого розміру.

Порівняння моделей за розміром, якістю і задачами — у статті Топ-10 моделей Ollama у 2026: яку вибрати.

Висновок: Я сам пройшов через це — думав, що більша модель дасть кращий результат, скачав 13B, почекав хвилину на першу відповідь і видалив. Встановив 3B — і продуктивність одразу зросла. На 8 ГБ краща стратегія — обрати модель, яка працює швидко і стабільно, ніж мучитися з тією, що «майже влазить».

Ollama en 8 GB de RAM: qué modelos funcionan en 2026

🎯 Pruebas: qué esperar en la práctica

Respuesta corta: En Mac M1 con 8 GB, el modelo 3B produce 20-30 tokens/seg, el modelo 7B produce 10-15 tokens/seg. En Windows solo con CPU, es dos o tres veces más lento. A continuación, una tabla resumen para orientación.

Las comparativas en internet a menudo se realizan en un sistema limpio sin otro software. En la realidad, con VS Code abierto y 5 pestañas de Chrome, las cifras serán más bajas. Por eso, estas pruebas se acercan más a la realidad.

Tabla resumen de rendimiento

Modelo RAM Mac M1 8 GB Solo CPU 8 GB RTX 4060 8 GB VRAM
Gemma 2B (Q4) ~1.6 GB ~30 tok/s ~10 tok/s ~50+ tok/s
Phi-3 Mini 3.8B (Q4) ~2.3 GB ~25 tok/s ~8 tok/s ~45 tok/s
Llama 3.2 3B (Q4) ~2 GB ~28 tok/s ~9 tok/s ~48 tok/s
Qwen 2.5 Coder 3B (Q4) ~2.2 GB ~25 tok/s ~8 tok/s ~45 tok/s
Llama 3.1 8B (Q4) ~4.5 GB ~12 tok/s ~4 tok/s ~40 tok/s
DeepSeek R1 8B (Q4) ~5 GB ~10 tok/s ~3 tok/s ~35 tok/s

Datos aproximados, basados en los resultados de LocalLLM.in, SitePoint y LocalAIMaster. La velocidad real depende de la carga del sistema, el tamaño de la ventana de contexto y los procesos en segundo plano.

¿Qué significan estas cifras en la práctica?

  • ✔️ 15+ tok/s: chat interactivo cómodo: la respuesta aparece más rápido de lo que puedes leer
  • ✔️ 8–15 tok/s: se puede trabajar, pero se nota un retraso en respuestas largas
  • ⚠️ 3–6 tok/s: aceptable para tareas puntuales (depuración, análisis), frustrante en chat activo
  • <3 tok/s: el modelo es demasiado grande para este sistema

Conclusión: Para el trabajo diario en 8 GB, enfócate en modelos de 3B: ofrecen 20+ tok/s en Apple Silicon y dejan el sistema receptivo. Los modelos de 7-8B son para tareas específicas, cuando estás dispuesto a cerrar todo lo innecesario y esperar.

❓ Preguntas frecuentes (FAQ)

¿Se puede ejecutar Ollama en un portátil con 8 GB de RAM?

Sí. Los modelos de 1-3B parámetros (Phi-3 Mini, Llama 3.2 3B, Gemma 2B) funcionan cómodamente en cualquier sistema con 8 GB. Los modelos de 7-8B funcionan al límite: es necesario cerrar programas innecesarios. Más detalles en la guía de instalación de Ollama.

¿Cuál es el mejor modelo para 8 GB de RAM?

Depende de la tarea. Para código: Qwen 2.5 Coder 3B. Para texto y chat: Llama 3.2 3B o Phi-3 Mini. Para razonamiento y depuración: DeepSeek R1 8B (al límite de 8 GB). Comparación completa de modelos en el artículo Top 10 modelos de Ollama en 2026.

¿Se necesita GPU para Ollama?

No, Ollama también funciona en CPU. Pero con GPU (dedicada o Apple Silicon) la velocidad es 3-10 veces mayor. En un sistema solo con CPU y 8 GB, limítate a modelos de 3B o menos para un trabajo cómodo.

¿Qué es mejor: un modelo 7B en Q2 o un 3B en Q4?

Casi siempre, el 3B en Q4. La cuantización agresiva (Q2) reduce significativamente la calidad de las respuestas, especialmente en tareas complejas. Un modelo más pequeño con cuantización normal dará un mejor resultado.

¿Puede Ollama en 8 GB reemplazar a ChatGPT?

Para tareas diarias: resumir, preguntas sencillas, generar código, sí. Para análisis complejos, tareas multimodales y trabajo con grandes contextos, los modelos en la nube siguen siendo más potentes. El enfoque óptimo es híbrido: Ollama para tareas regulares, ChatGPT/Claude para las complejas. Más detalles en el artículo Ollama vs ChatGPT vs Claude: cuándo la IA local es mejor.

¿Cuánto espacio en disco se necesita?

Un modelo 3B en Q4 ocupa aproximadamente 2 GB en disco. Tres modelos para diferentes tareas: 6-8 GB. Ollama almacena los modelos en ~/.ollama. Los modelos descargados se pueden eliminar con el comando ollama rm nombre_del_modelo.

¿Vale la pena actualizar a 16 GB?

Si planeas trabajar regularmente con IA local, definitivamente sí. 16 GB abren el acceso a modelos de 13-14B, modelos de 7B completos en calidad Q8 y trabajo cómodo con ventanas de contexto grandes. La diferencia en capacidades entre 8 y 16 GB es la mayor en todo el espectro.

✅ Conclusiones

8 GB de memoria RAM no son una sentencia para la IA local, pero son un límite que requiere decisiones conscientes. Lo principal:

  • ✔️ Modelos 3B - zona de confort: Phi-3 Mini, Llama 3.2 3B, Gemma 2B funcionan rápido y estable, dejando espacio para IDE y navegador
  • ✔️ Modelos 7-8B - zona de trabajo: DeepSeek R1 8B, Qwen 3 8B funcionan al límite, pero ofrecen una calidad notablemente mejor para tareas específicas
  • ✔️ Q4_K_M - la única opción de cuantización sensata en 8 GB: un modelo más pequeño con Q4 siempre es mejor que uno más grande con Q2
  • ✔️ Apple Silicon con 8 GB - la mejor opción económica: la memoria unificada da una ventaja sobre los sistemas solo con CPU
  • ✔️ Modelos 13B+, Q8, dos modelos simultáneamente - no vale la pena: probado, no funciona

Yo mismo utilizo este enfoque: mantengo varios modelos para diferentes tareas: uno para código, otro para texto, uno separado para depuración. Cada modelo tiene su punto fuerte, y en lugar de uno grande, que podría no caber en memoria, es mejor tener 2-3 especializados y ligeros. Cambiar entre ellos a través de ollama run es cuestión de segundos.

Si recién empiezas, instala Ollama según nuestra guía, descarga phi3:mini y pruébalo. En cinco minutos tendrás una IA local funcionando, sin suscripciones, sin internet, sin enviar datos al exterior.

Y si necesitas un sitio web, blog o aplicación web con integración de funcionalidades de IA, escríbenos a WebsCraft, te ayudaremos a implementarlo.

📖 Fuentes

Останні статті

Читайте більше цікавих матеріалів

DeepSeek V4 Pro у 2026: повний розбір — архітектура, бенчмарки і коли переходити вигідно

DeepSeek V4 Pro у 2026: повний розбір — архітектура, бенчмарки і коли переходити вигідно

TL;DR за 30 секунд: DeepSeek V4 Pro — найбільша open-weight модель у світі: 1.6T параметрів (49B активних), контекст 1M токенів, MIT-ліцензія. Вийшла 24 квітня 2026 як preview. Коштує $3.48/M output токенів — у 7 разів дешевше за GPT-5.5 і в 6 разів дешевше за Claude Opus 4.7. На...

Міграція з deepseek-chat на DeepSeek V4: що зламається до 24 липня

Міграція з deepseek-chat на DeepSeek V4: що зламається до 24 липня

TL;DR за 30 секунд: 24 липня 2026 о 15:59 UTC назви deepseek-chat і deepseek-reasoner перестануть працювати назавжди — без попереджень і без grace period. Будь-який код, який їх використовує, поверне помилку. Це не косметична зміна: V4 — нова архітектура з іншою поведінкою за...

Що означає GPT-5.5 для ринку AI у 2026 році

Що означає GPT-5.5 для ринку AI у 2026 році

У лютому 2026 за 48 годин зникло $285 мільярдів з капіталізації технологічних компаній. Не через рецесію. Не через провальну звітність. Через одне питання, яке інвестори поставили собі одночасно: якщо AI-агент робить роботу десяти людей — навіщо платити за десять місць у...

GPT-5.5 vs GPT-5.4: що  змінилося у 2026 році

GPT-5.5 vs GPT-5.4: що змінилося у 2026 році

OpenAI випустив GPT-5.5 лише через шість тижнів після GPT-5.4 — і це не черговий патч. Спойлер: перша повністю перетренована базова модель з часів GPT-4.5 дає реальний стрибок у агентних задачах і довгому контексті, але у hallucinations не покращилась — і коштує на 20% дорожче, а...

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

TL;DR за 30 секунд: DeepSeek V4 Flash — MoE-модель з 284B параметрами (13B активних), контекстом 1M токенів і MIT-ліцензією. Вийшла 24 квітня 2026 року. Коштує $0.14/$0.28 за мільйон токенів — дешевше за Claude Haiku 4.5, Gemini 3.1 Flash і GPT-5.4 Nano. Доступна через Ollama Cloud на NVIDIA...

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Коротко про що ця стаття: 17 квітня я взяв свіжий Claude Opus 4.7 і прогнав його через свою RAG-систему AskYourDocs на тестовому наборі з ~400 публічних юридичних документів (зразки договорів, нормативні акти, шаблони з відкритих джерел). Порівняв з Llama 3.3 70B, на якій у мене зараз...