Gemma 4 en M1 16 GB — pruebas reales: código, texto, velocidad

Actualizado:
Gemma 4 en M1 16 GB — pruebas reales: código, texto, velocidad
En resumen: Instalé Gemma 4 en un MacBook Pro M1 de 16 GB y lo probé en dos tareas reales: generar código Spring Boot y un texto sobre RAG. Lo comparé con Qwen3:8b y Mistral Nemo. Resultado: Gemma 4 ofrece la mejor calidad, pero es la más lenta. Qwen3:8b ofrece una calidad de código casi idéntica en 1/4 de tiempo. Lee si quieres saber si vale la pena el cambio.

⚠️ Cómo instalé Gemma 4 en M1: un error real con la versión de Ollama

Lo primero que vi no fue el modelo, sino un error. Y este es el primer dato útil para quienes quieran repetirlo.

Hace tiempo que uso Ollama para IA local, así que lo primero que hice después del lanzamiento de Gemma 4 fue simplemente escribir en la terminal:

ollama run gemma4

Y obtuve inmediatamente:

Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.
Please download the latest version at: https://ollama.com/download

La razón es simple: tenía instalada la versión 0.17.0, y Gemma 4 requiere como mínimo 0.20+. Para verificar tu versión: ollama --version. Puedes actualizarla a través de la página oficial de descargas o a través de Homebrew, que es lo que hice (documentación oficial de Ollama):

brew upgrade ollama
brew services restart ollama

Después de esto, se instaló la versión 0.20.5 y el modelo se descargó sin problemas. Si instalaste Ollama hace tiempo, verifica la versión antes de intentar usar Gemma 4. Ahorrarás 10 minutos buscando la causa del error.

Descarga del modelo:

ollama run gemma4

Tamaño: 9.6 GB. En mi conexión a internet, tardó unas 2 horas. Después de la descarga, el modelo se inició inmediatamente en la terminal: el símbolo indica que se está cargando en memoria, y después de unos segundos aparece >>>.

💾 Qué variante de Gemma 4 es adecuada para M1 16 GB y por qué no 26B

Gemma 4 no es un solo modelo, sino cuatro. Y en M1 16 GB solo uno de ellos es adecuado.

Una descripción detallada de todas las variantes se encuentra en el artículo sobre modelos para 8 GB de RAM. En resumen, sobre Gemma 4:

Modelo Tamaño del archivo RAM (4-bit) Adecuado para M1 16 GB
gemma4:e2b ~5 GB 5 GB ✅ Sí, pero de baja calidad
gemma4 (e4b) 9.6 GB ~6 GB ✅ Sí — opción óptima
gemma4:26b ~18 GB ~18 GB ❌ No — swapping, cuelgues
gemma4:31b ~20 GB ~20 GB ❌ No — no cabe

Sobre gemma4:26b en particular: en internet lo anuncian activamente como "Magia MoE: calidad de 26B al precio de 8B". Esto no es del todo cierto. El tamaño real del archivo es de 18 GB, y en un M1 con 16 GB de memoria unificada simplemente no cabe sin un swapping agresivo. Incluso en Mac mini con 24 GB, la gente informa de cuelgues bajo carga y de volver a e4b. Más detalles sobre esto en un artículo separado sobre las trampas de Gemma 4 26B MoE.

Mi elección: gemma4 (e4b) — la opción por defecto, no es necesario especificar nada adicional.

💻 Prueba 1 — Generación de código: endpoint de Spring Boot con paginación

El mismo prompt — tres modelos. Veamos qué salió.

El prompt que utilicé:

Escribe un endpoint REST de Spring Boot para obtener una lista de usuarios con paginación. Utiliza JPA Repository.

Elegí esta tarea a propósito: conozco bien Spring Boot, así que puedo evaluar la calidad sin buscar en Google.

Gemma 4 — resultado:

Estructura completa: Entity → Repository → Service → Controller + dependencias en pom.xml + ejemplos de URL-requests. Correcta inyección de dependencias a través del constructor, ResponseEntity<Page<User>>, comentarios para cada paso. Es código listo para producción que se puede tomar y usar. El único inconveniente es el tiempo. Primero "pensó" durante 73 segundos (bloque Thinking), y luego generó el texto durante ~3 minutos. En total, casi 4 minutos.

Qwen3:8b — resultado:

La misma estructura completa: Entity + Repository + Service + Controller. Adicionalmente, dependencias para Maven y Gradle (lo que Gemma no hizo). La calidad del código es prácticamente idéntica. Tiempo: ~32 segundos thinking + ~35 segundos de generación = 67 segundos en total. 3.5 veces más rápido.

Mistral Nemo — resultado:

Código mínimo: solo el Controller, sin una capa de Service separada. El mismo bloque de código se duplicó dos veces (parece un error de generación). Tiempo ~30 segundos — la respuesta más rápida, pero la más débil.

Gemma 4 en M1 16 GB — pruebas reales: código, texto, velocidad

📝 Prueba 2 — generación de texto: explicación de RAG para empresas

Aquí la situación cambió: Gemma 4 demostró ser significativamente mejor que sus competidores.

Prompt:

Explica qué es RAG (Retrieval-Augmented Generation) en un lenguaje sencillo para empresas. Sin tecnicismos. 3-4 párrafos.

La restricción de "3-4 párrafos" y "sin tecnicismos" se puso específicamente para comprobar si el modelo sigue las instrucciones.

Gemma 4 — resultado:

Incumplió la restricción de número de párrafos, pero correctamente. En lugar de 3-4 párrafos, creó un artículo estructurado con subtítulos, una analogía ("un estudiante con todos los libros del mundo vs un asistente con el manual de tu empresa") y una tabla comparativa "LLM sin RAG vs con RAG". Esto es exactamente lo que necesita una empresa; lo sé por mi propia experiencia con AskYourDocs. Tiempo: ~37 segundos de pensamiento + ~1 minuto de texto.

Qwen3:8b — resultado:

Cumplió la restricción: exactamente 3 párrafos. Limpio, conciso, comprensible. Hay una analogía ("fuente adicional de conocimiento"). Pero en comparación con Gemma 4, es significativamente más simple, sin estructura y sin tabla. Tiempo: ~18 segundos de pensamiento + ~20 segundos de texto = 38 segundos en total.

Mistral Nemo — resultado:

6 párrafos en lugar de 3-4: no cumplió la restricción. El contenido es acuoso, hay repeticiones de las mismas ideas con diferentes palabras. Tiempo ~30 segundos, pero la calidad es la más baja de las tres.

📊 Comparación con Qwen3:8b y Mistral Nemo: tabla de resultados

Las cifras se recopilaron en un MacBook Pro M1 de 16 GB. No son benchmarks de laboratorio, son mis propias pruebas.
Modelo Tamaño Código: tiempo Código: calidad Texto: tiempo Texto: calidad
gemma4 9.6 GB ~4 min ⭐⭐⭐⭐⭐ ~1.5 min ⭐⭐⭐⭐⭐
qwen3:8b 5.2 GB ~67 seg ⭐⭐⭐⭐⭐ ~38 seg ⭐⭐⭐⭐
mistral-nemo 7.1 GB ~30 seg ⭐⭐ ~30 seg ⭐⭐⭐

Conclusión de la tabla: para código, Qwen3:8b y Gemma 4 son iguales en calidad, pero Qwen3 es 3.5 veces más rápido. Para texto, Gemma 4 es notablemente mejor: estructura, analogías, tablas. Mistral Nemo pierde en ambas pruebas excepto en velocidad.

🧠 Modo de razonamiento en la práctica: cuánto tiempo consume y si vale la pena

Gemma 4 "piensa" antes de cada respuesta por defecto. Esta es su principal ventaja y la razón principal de su lentitud.

Inmediatamente después de la primera consulta, noté algo inusual:

Thinking...
Thinking Process:
1. Analyze the user's input...
2. Identify the core question...
...done thinking.

Este es el modo de razonamiento: el modelo construye un plan de respuesta antes de generar el texto. En Gemma 4, está activado por defecto a través del token <|think|> en el prompt del sistema. Para más detalles sobre cómo activarlo y desactivarlo manualmente, consulta el artículo separado sobre el modo de razonamiento en Gemma 4.

Lo que esto aporta en la práctica se puede ver en las pruebas:

  • Código: 73 segundos de pensamiento → respuesta con estructura completa y explicaciones
  • Texto: 37 segundos de pensamiento → respuesta con una estructura que no se solicitó, pero que realmente mejoró el resultado

¿Vale la pena? Depende de la tarea. Para consultas complejas de un solo uso, sí, la calidad es notablemente mayor. Para tareas rutinarias donde se necesita velocidad (autocompletado, respuestas cortas, chat), el razonamiento solo ralentiza. En tales casos, Qwen3:8b es mejor.

✅ Conclusión: cuándo elegir Gemma 4 en M1 y cuándo quedarse con Qwen3

Gemma 4 no reemplaza a todos los modelos. Ocupa su nicho, y en ese nicho es realmente la mejor.

Elige Gemma 4 si:

  • Escribes texto complejo: artículos, documentación, explicaciones para negocios
  • Necesitas la máxima calidad de código y el tiempo no es crítico
  • Quieres un modelo que estructure la respuesta por sí mismo sin instrucciones detalladas
  • Planeas usarlo en un producto RAG: contexto de 128K y function calling nativo

Quédate con Qwen3:8b si:

  • Generas código a diario y necesitas velocidad
  • Lo usas como autocompletado en IDE
  • La reactividad en el chat es importante

En mi M1 de 16 GB, ambos modelos están instalados simultáneamente: ocupan juntos ~15 GB y no entran en conflicto. Cambio según la tarea.

Si quieres profundizar, lee más sobre el tema:

Vadym Kharovuk - desarrollador, fundador de WebsCraft y AskYourDocs.

Останні статті

Читайте більше цікавих матеріалів

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...

Як модель LLM  вирішує коли шукати — механіка прийняття рішень

Як модель LLM вирішує коли шукати — механіка прийняття рішень

Розробник налаштував tool use, перевірив на тестових запитах — все працює. У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно, але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь. Спойлер: модель не «зламалась»...

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка: здається що модель сама виконала запит до бази або API. Це не так, і саме ця помилка породжує цілий клас архітектурних багів. Спойлер: LLM лише повертає структурований JSON з назвою...