AI_TOOLS 19 junio 2026 10 min de lectura 66 vista

LM Studio en 8GB RAM: qué modelos funcionan realmente en 2026

Actualizado: 19 June 2026

Idioma: 🇺🇦 🇬🇧 🇩🇪 🇪🇸

Dmitro Petrov

A Tech Lead who builds AI/ML systems for production — and writes about how they actually work.

LM Studio en 8GB RAM: qué modelos funcionan realmente en 2026

En resumen: LM Studio recomienda oficialmente un mínimo de 16 GB de RAM; 8 GB están por debajo del umbral recomendado. Pero esto no significa que la IA local no sea posible en un Mac así. Phi-4-mini 3.8B y Gemma 4 E4B son esencialmente los únicos modelos que ofrecen una experiencia cómoda con 8 GB de memoria unificada. Analizamos honestamente: qué funciona realmente y qué es mejor ni siquiera intentarlo.

📉 La realidad de 8 GB en Apple Silicon: por qué es menos de lo que parece

Lo primero que hay que entender antes de descargar LM Studio en un Mac con 8 GB es que esta cifra no significa lo que crees.

En Apple Silicon, existe la memoria unificada: la CPU y la GPU comparten la misma memoria física en lugar de tener grupos separados como en un PC clásico con una tarjeta gráfica discreta. Esto es en realidad una ventaja para las cargas de trabajo de IA (no hay sobrecarga por copiar datos entre la memoria de la CPU y la GPU), pero significa que tus 8 GB deben cubrir simultáneamente: macOS y procesos en segundo plano, aplicaciones abiertas (un navegador con varias pestañas puede consumir fácilmente 1-2 GB), y el propio modelo más su contexto.

En la práctica, lo que realmente está disponible para el modelo es alrededor de 4-6 GB, no los 8 GB completos. Esta es la cifra que debes tener en cuenta al elegir un modelo, no la cantidad nominal de memoria de tu Mac.

⚠️ Lo que dice oficialmente LM Studio sobre 16 GB

Aquí hay que ser honesto desde el principio: la página oficial de requisitos del sistema de LM Studio dice claramente: "Los LLM pueden consumir mucha RAM. Se recomiendan al menos 16 GB de RAM". 8 GB están por debajo del umbral recomendado, no es una configuración básica cómoda.

Esto no significa que un Mac de 8 GB sea inútil; significa que tendrás que elegir conscientemente modelos pequeños y no esperar la misma experiencia que en 16 GB o 32 GB. LM Studio te ayuda con esta elección: en el navegador de modelos, cada archivo va acompañado de un indicador de ajuste de hardware de color: el verde significa que el modelo cabe cómodamente en tu hardware, el amarillo significa que funcionará, pero justo al límite, el rojo significa que será necesario descargar parte de las capas a la memoria del sistema (y la consiguiente caída de velocidad). Con 8 GB, deberías acostumbrarte a mirar este indicador antes de cada descarga, en lugar de confiar en el nombre del modelo.

🧩 MLX o GGUF en 8 GB: brevemente sobre la cuantización

Con 8 GB, la elección del formato y el nivel de cuantización ya no es una cuestión de conveniencia, sino de si el modelo se cargará o no. Aquí no repetiré la teoría; ya tengo un análisis detallado de la cuantización GGUF para Ollama: qué significan los sufijos Q4_K_M, Q8_0, IQ4_XS, por qué Q4 es a menudo mejor que Q8 (no solo por el tamaño, sino también por la velocidad), y la fórmula para calcular la RAM necesaria para cualquier modelo. Los principios son idénticos para LM Studio: el formato del archivo (GGUF) es el mismo, solo cambia el motor que lo ejecuta.

En resumen, para el contexto de 8 GB: con este volumen de memoria, casi siempre trabajas con cuantización de 4 bits (Q4_K_M para GGUF, o simplemente "4bit" para compilaciones MLX; las designaciones son ligeramente diferentes, pero la esencia es la misma). Cualquier cosa superior, Q6, Q8, ya no deja espacio en 8 GB ni para el contexto ni para el sistema.

🥇 Phi-4-mini 3.8B MLX: el único modelo cómodo

Si tienes 8 GB y necesitas un modelo con el que sea realmente cómodo trabajar a diario, y no solo que "se ejecute técnicamente", este es Phi-4-mini. Las pruebas independientes confirman una velocidad estable de ~15-20 tokens por segundo en hardware de nivel M1 MacBook Air, suficiente para comentarios de código, explicaciones sencillas y chat ligero sin retrasos perceptibles.

El modelo se desenvuelve bien en la autocompletación de código, explicaciones sencillas y escenarios de chat ligeros. No esperes de él un razonamiento profundo o una lógica compleja de varios pasos; para eso se necesitan modelos de tamaño considerablemente mayor, que en 8 GB simplemente no cabrán a una velocidad aceptable.

En LM Studio, busca la versión con la designación 4bit MLX en el nombre; esta te dará los 15-20 tokens/seg mencionados anteriormente en Apple Silicon, mientras que la variante GGUF será algo más lenta en el mismo hardware.

🤖 Gemma 4 E4B MLX — la opción de Google "tu mejor apuesta"

Aquí vale la pena corregir un error común. Algunas personas recomiendan tomar la Gemma 4 más pequeña, E2B, para 8GB. Este no es un consejo del todo correcto: E2B es tan pequeña (ocupa aproximadamente 1.5GB en 4 bits) que no aprovecha al máximo tus capacidades reales: obtienes velocidad, pero pierdes la calidad que podrías tener.

La Gemma 4 E4B tiene un sentido real en 8GB: ocupa aproximadamente 5GB en 4 bits, y las revisiones independientes de los requisitos del sistema la llaman directamente "tu mejor apuesta" precisamente para configuraciones de 8GB: una opción inesperadamente potente para un volumen de memoria tan modesto. E4B utiliza la tecnología Per-Layer Embeddings (PLE) que da a la modelo una profundidad mucho mayor con un consumo de memoria relativamente pequeño.

Si eliges entre Phi-4-mini y Gemma 4 E4B en 8GB, no hay una regla simple de "una es mejor que la otra". Phi-4-mini es más rápida y ligera, Gemma 4 E4B es más pesada pero potencialmente de mayor calidad debido a su mayor profundidad efectiva. Prueba ambas en tus tareas típicas: te llevará solo unos minutos, y la diferencia en la experiencia puede ser sustancial.

🔄 Qwen3 / Qwen3.5 en 8GB — lo que realmente cabe

La familia Qwen también ofrece opciones compactas, y es una alternativa digna si necesitas un modelo con un tool calling más fuerte o un estilo de respuesta ligeramente diferente al de Phi o Gemma.

Aquí hay que tener cuidado con los modelos específicos: en el momento de escribir esto, las compilaciones MLX oficiales más pequeñas de Qwen3 que han sido probadas masivamente por la comunidad son variantes en el rango de 3-4B parámetros. La línea más reciente Qwen3.5 también ofrece tamaños más pequeños, pero todavía hay menos benchmarks independientes de velocidad para ella en hardware débil como un Mac de 8GB, por lo que te recomiendo que te centres principalmente en el indicador hardware-fit directamente en LM Studio antes de descargar, en lugar de las cifras generales de Internet, que para modelos pequeños recién lanzados aún no se han acumulado.

Regla práctica: si el nombre del modelo contiene "3B" o "4B" y hay una compilación MLX con la marca de 4 bits, vale la pena intentarlo, el indicador te mostrará de inmediato si es realista para tu máquina.

Para 8GB de RAM en 2026, empieza con Phi-4-mini, Gemma 4 E4B o Qwen 3-4B en cuantización de 4 bits. Si LM Studio muestra un indicador hardware-fit amarillo o verde, el modelo casi seguro será adecuado para el uso diario.

🤔 Por qué las indicaciones de IA a veces recomiendan demasiado

Si has buscado algo como "qué modelo para LM Studio en 8GB", es muy probable que hayas visto una respuesta automática de IA que, entre otras cosas, recomienda algo como "Llama-3 8B con cuantización Q2_K". Aquí vale la pena detenerse y explicar por qué es un mal consejo, incluso si técnicamente el modelo se carga.

En primer lugar, un modelo 8B en 8GB de RAM real es casi siempre justo al límite o por encima del límite de lo cómodo, considerando que el sistema ya necesita 2-4GB. En segundo lugar, y lo más importante: Q2_K es una cuantización tan agresiva que la calidad se degrada de manera desigual. El modelo puede formar frases coherentes, pero "perder la lógica" a mitad de una respuesta más larga. Expliqué en detalle por qué sucede esto y dónde está el límite de cuantización aceptable en mi artículo sobre cuantización GGUF: la regla corta de allí es que es mejor tomar un modelo más pequeño en Q4 que uno más grande en Q2.

Las revisiones de IA en la búsqueda hacen un buen trabajo con instrucciones generales (cómo habilitar Metal, cómo limitar el contexto), pero cuando se trata de recomendaciones de modelos específicas, vale la pena verificar estos consejos a través de fuentes independientes o tu propia experiencia práctica, en lugar de seguir ciegamente la primera lista generada automáticamente.

Cifras reales de velocidad — lo que está confirmado y lo que no

Aquí debo ser tan honesto como en la sección sobre indicaciones de IA: no haré una tabla con tokens/seg exactos para la combinación "M1 8GB + Ryzen 5600U" para estos modelos específicos — no he encontrado tales mediciones independientes directas, y inventar cifras significaría violar precisamente la honestidad que promueve este artículo.

En cambio, aquí tienes datos verificados de diversas fuentes, con una indicación clara de en qué hardware se obtuvieron:

Modelo	Hardware / condiciones de prueba	Tokens/seg	Fuente
Phi-4-mini 3.8B Q4_K_M	M1 MacBook Air (hardware de clase 8GB)	~15-20 tok/s	Revisión independiente de modelos locales 2026
Gemma 4 E4B Q4_K_M	Solo CPU, mini-PC económico sin GPU	~5-9 tok/s (decodificación)	Extrapolación de benchmarks de llama.cpp en CPUs similares
Gemma 4 E4B Q4_K_M	Solo CPU, Raspberry Pi 5	~2-4 tok/s	Guía de despliegue edge de Gemma 4
Gemma 4 E4B, precisión completa	GPU de 48GB (para referencia — no clase 8GB)	~13.8 tok/s	Prueba independiente de todas las variantes de Gemma 4

Lo que se puede extraer de esto de forma práctica: Apple Silicon con memoria unificada y aceleración Metal es sistémicamente más rápido que los portátiles x86 solo CPU (como Ryzen 5600U sin tarjeta gráfica dedicada) para esta clase de tareas: el Neural Engine y la arquitectura de memoria dan una ventaja que el hardware x86 solo CPU simplemente no puede compensar. Pero no indicaré la cifra exacta de "cuántos tokens/seg dará exactamente tu Ryzen 5600U en Phi-4-mini", porque la respuesta honesta es "no encontré esta medición", no un número inventado que parezca plausible.

Si quieres obtener una cifra exacta para tu hardware, solo lleva un par de minutos: descarga el modelo en LM Studio, abre un chat y mira el contador de tokens/seg que aparece durante la generación de la respuesta. Esto te dará una referencia mucho más precisa que cualquier tabla en un artículo, ya que tiene en cuenta tu configuración específica: versión de macOS, procesos en segundo plano, carga actual.

🚫 Qué NO ejecutar en 8GB

Cualquier modelo de 7B+ en su forma completa — incluso en cuantización de 4 bits, un modelo de 7B con contexto y necesidades del sistema te sacará prácticamente garantizado de los 4-6GB disponibles
Gemma 4 26B o 31B — estos son modelos para configuraciones de 24-32GB+, en 8GB ni siquiera deberías pensar en ellos independientemente de la cuantización
Cualquier modelo sin verificar el indicador hardware-fit — si ves un indicador amarillo o rojo en LM Studio, es una señal de que la experiencia será inestable incluso si técnicamente se inicia
Cuantización Q8 o Q6 incluso para modelos pequeños — en 8GB no hay espacio para el lujo de mayor precisión, quédate con 4 bits
Varios modelos cargados simultáneamente — la función "cargar múltiples modelos" de LM Studio es excelente en hardware con memoria de sobra, pero en 8GB rápidamente conducirá a swapping

⚙️ Configuración práctica en LM Studio

Algunas configuraciones específicas que vale la pena aplicar de inmediato en un Mac de 8 GB, a través de la interfaz de LM Studio:

Hardware Settings → Metal: asegúrese de que la aceleración de hardware a través de Metal esté activada. Casi siempre está activada por defecto en Apple Silicon, pero vale la pena verificarlo en la barra lateral derecha de la aplicación.
GPU Offload: ajuste el control deslizante al máximo de núcleos disponibles. En la arquitectura de memoria unificada, esto no "consume" memoria por separado: la CPU y la GPU comparten el mismo grupo de todos modos, por lo que no tiene sentido limitar artificialmente la descarga.
Context Size — limítelo a 2048-4096 tokens: esta es la configuración práctica más importante en 8 GB. Cada token de contexto ocupa memoria para la caché KV, y con una memoria limitada, un contexto largo (8K, 16K) puede provocar que la aplicación se cierre por falta de memoria antes de que el modelo pueda responder algo.
Cargue solo un modelo a la vez: en 8 GB, no intente mantener un modelo "rápido" y uno "inteligente" cargados simultáneamente, como se puede hacer en 16 GB+.

Si después de estas configuraciones el modelo sigue comportándose de manera inestable o la generación se ralentiza notablemente en respuestas más largas, es una señal de que debería reducir aún más el contexto o cambiar a un modelo más pequeño.

✅ Conclusión honesta: 8 GB — mínimo, 16 GB — cómodo

En resumen: un Mac con Apple Silicon de 8 GB puede ejecutar técnicamente LM Studio y dar resultados útiles: Phi-4-mini o Gemma 4 E4B cubren tareas cotidianas reales como chat simple, explicaciones, autocompletado de código ligero. No es un juguete ni una pérdida de tiempo.

Pero tampoco es la experiencia que prometen las capturas de pantalla de marketing con potentes modelos de 14B-32B. Usted elige conscientemente un compromiso: un tamaño de modelo más pequeño, un contexto limitado y la renuncia a tareas más complejas como el razonamiento profundo, el trabajo con documentos grandes o escenarios multiagente a través de MCP donde el contexto crece rápidamente.

Si la IA local se convierte en una herramienta de trabajo regular para usted, y no en un experimento único, una actualización a 16 GB le brinda una selección mucho más amplia de modelos (Qwen3-8B, variantes completas de Gemma 4 26B MoE al límite de lo posible) y elimina la preocupación constante de "si cabrá". Para aquellos que ya tienen 16 GB, tengo un artículo introductorio sobre LM Studio y por qué la IA local en 2026 dejó de ser un compromiso, con el que debería empezar si es completamente nuevo en este tema.

Categorías