En resumen: Instalé Gemma 4 en un MacBook Pro M1 de 16 GB y lo probé en dos tareas reales: generar código Spring Boot y un texto sobre RAG. Lo comparé con Qwen3:8b y Mistral Nemo. Resultado: Gemma 4 ofrece la mejor calidad, pero es la más lenta. Qwen3:8b ofrece una calidad de código casi idéntica en 1/4 de tiempo. Lee si quieres saber si vale la pena el cambio.
⚠️ Cómo instalé Gemma 4 en M1: un error real con la versión de Ollama
Lo primero que vi no fue el modelo, sino un error. Y este es el primer dato útil para quienes quieran repetirlo.
Hace tiempo que uso Ollama para IA local, así que lo primero que hice después del lanzamiento de Gemma 4 fue simplemente escribir en la terminal:
ollama run gemma4
Y obtuve inmediatamente:
Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.
Please download the latest version at: https://ollama.com/download
La razón es simple: tenía instalada la versión 0.17.0, y Gemma 4 requiere como mínimo 0.20+. Para verificar tu versión: ollama --version. Puedes actualizarla a través de la página oficial de descargas o a través de Homebrew, que es lo que hice (documentación oficial de Ollama):
brew upgrade ollama
brew services restart ollama
Después de esto, se instaló la versión 0.20.5 y el modelo se descargó sin problemas. Si instalaste Ollama hace tiempo, verifica la versión antes de intentar usar Gemma 4. Ahorrarás 10 minutos buscando la causa del error.
Descarga del modelo:
ollama run gemma4
Tamaño: 9.6 GB. En mi conexión a internet, tardó unas 2 horas. Después de la descarga, el modelo se inició inmediatamente en la terminal: el símbolo ⠇ indica que se está cargando en memoria, y después de unos segundos aparece >>>.
💾 Qué variante de Gemma 4 es adecuada para M1 16 GB y por qué no 26B
Gemma 4 no es un solo modelo, sino cuatro. Y en M1 16 GB solo uno de ellos es adecuado.
Sobre gemma4:26b en particular: en internet lo anuncian activamente como "Magia MoE: calidad de 26B al precio de 8B". Esto no es del todo cierto. El tamaño real del archivo es de 18 GB, y en un M1 con 16 GB de memoria unificada simplemente no cabe sin un swapping agresivo. Incluso en Mac mini con 24 GB, la gente informa de cuelgues bajo carga y de volver a e4b. Más detalles sobre esto en un artículo separado sobre las trampas de Gemma 4 26B MoE.
Mi elección: gemma4 (e4b) — la opción por defecto, no es necesario especificar nada adicional.
💻 Prueba 1 — Generación de código: endpoint de Spring Boot con paginación
El mismo prompt — tres modelos. Veamos qué salió.
El prompt que utilicé:
Escribe un endpoint REST de Spring Boot para obtener una lista de usuarios con paginación. Utiliza JPA Repository.
Elegí esta tarea a propósito: conozco bien Spring Boot, así que puedo evaluar la calidad sin buscar en Google.
Gemma 4 — resultado:
Estructura completa: Entity → Repository → Service → Controller + dependencias en pom.xml + ejemplos de URL-requests. Correcta inyección de dependencias a través del constructor, ResponseEntity<Page<User>>, comentarios para cada paso. Es código listo para producción que se puede tomar y usar. El único inconveniente es el tiempo. Primero "pensó" durante 73 segundos (bloque Thinking), y luego generó el texto durante ~3 minutos. En total, casi 4 minutos.
Qwen3:8b — resultado:
La misma estructura completa: Entity + Repository + Service + Controller. Adicionalmente, dependencias para Maven y Gradle (lo que Gemma no hizo). La calidad del código es prácticamente idéntica. Tiempo: ~32 segundos thinking + ~35 segundos de generación = 67 segundos en total. 3.5 veces más rápido.
Mistral Nemo — resultado:
Código mínimo: solo el Controller, sin una capa de Service separada. El mismo bloque de código se duplicó dos veces (parece un error de generación). Tiempo ~30 segundos — la respuesta más rápida, pero la más débil.
📝 Prueba 2 — generación de texto: explicación de RAG para empresas
Aquí la situación cambió: Gemma 4 demostró ser significativamente mejor que sus competidores.
Prompt:
Explica qué es RAG (Retrieval-Augmented Generation) en un lenguaje sencillo para empresas. Sin tecnicismos. 3-4 párrafos.
La restricción de "3-4 párrafos" y "sin tecnicismos" se puso específicamente para comprobar si el modelo sigue las instrucciones.
Gemma 4 — resultado:
Incumplió la restricción de número de párrafos, pero correctamente. En lugar de 3-4 párrafos, creó un artículo estructurado con subtítulos, una analogía ("un estudiante con todos los libros del mundo vs un asistente con el manual de tu empresa") y una tabla comparativa "LLM sin RAG vs con RAG". Esto es exactamente lo que necesita una empresa; lo sé por mi propia experiencia con AskYourDocs. Tiempo: ~37 segundos de pensamiento + ~1 minuto de texto.
Qwen3:8b — resultado:
Cumplió la restricción: exactamente 3 párrafos. Limpio, conciso, comprensible. Hay una analogía ("fuente adicional de conocimiento"). Pero en comparación con Gemma 4, es significativamente más simple, sin estructura y sin tabla. Tiempo: ~18 segundos de pensamiento + ~20 segundos de texto = 38 segundos en total.
Mistral Nemo — resultado:
6 párrafos en lugar de 3-4: no cumplió la restricción. El contenido es acuoso, hay repeticiones de las mismas ideas con diferentes palabras. Tiempo ~30 segundos, pero la calidad es la más baja de las tres.
📊 Comparación con Qwen3:8b y Mistral Nemo: tabla de resultados
Las cifras se recopilaron en un MacBook Pro M1 de 16 GB. No son benchmarks de laboratorio, son mis propias pruebas.
Modelo
Tamaño
Código: tiempo
Código: calidad
Texto: tiempo
Texto: calidad
gemma4
9.6 GB
~4 min
⭐⭐⭐⭐⭐
~1.5 min
⭐⭐⭐⭐⭐
qwen3:8b
5.2 GB
~67 seg
⭐⭐⭐⭐⭐
~38 seg
⭐⭐⭐⭐
mistral-nemo
7.1 GB
~30 seg
⭐⭐
~30 seg
⭐⭐⭐
Conclusión de la tabla: para código, Qwen3:8b y Gemma 4 son iguales en calidad, pero Qwen3 es 3.5 veces más rápido. Para texto, Gemma 4 es notablemente mejor: estructura, analogías, tablas. Mistral Nemo pierde en ambas pruebas excepto en velocidad.
🧠 Modo de razonamiento en la práctica: cuánto tiempo consume y si vale la pena
Gemma 4 "piensa" antes de cada respuesta por defecto. Esta es su principal ventaja y la razón principal de su lentitud.
Inmediatamente después de la primera consulta, noté algo inusual:
Thinking...
Thinking Process:
1. Analyze the user's input...
2. Identify the core question...
...done thinking.
Este es el modo de razonamiento: el modelo construye un plan de respuesta antes de generar el texto. En Gemma 4, está activado por defecto a través del token <|think|> en el prompt del sistema. Para más detalles sobre cómo activarlo y desactivarlo manualmente, consulta el artículo separado sobre el modo de razonamiento en Gemma 4.
Lo que esto aporta en la práctica se puede ver en las pruebas:
Código: 73 segundos de pensamiento → respuesta con estructura completa y explicaciones
Texto: 37 segundos de pensamiento → respuesta con una estructura que no se solicitó, pero que realmente mejoró el resultado
¿Vale la pena? Depende de la tarea. Para consultas complejas de un solo uso, sí, la calidad es notablemente mayor. Para tareas rutinarias donde se necesita velocidad (autocompletado, respuestas cortas, chat), el razonamiento solo ralentiza. En tales casos, Qwen3:8b es mejor.
✅ Conclusión: cuándo elegir Gemma 4 en M1 y cuándo quedarse con Qwen3
Gemma 4 no reemplaza a todos los modelos. Ocupa su nicho, y en ese nicho es realmente la mejor.
Elige Gemma 4 si:
Escribes texto complejo: artículos, documentación, explicaciones para negocios
Necesitas la máxima calidad de código y el tiempo no es crítico
Quieres un modelo que estructure la respuesta por sí mismo sin instrucciones detalladas
Planeas usarlo en un producto RAG: contexto de 128K y function calling nativo
Quédate con Qwen3:8b si:
Generas código a diario y necesitas velocidad
Lo usas como autocompletado en IDE
La reactividad en el chat es importante
En mi M1 de 16 GB, ambos modelos están instalados simultáneamente: ocupan juntos ~15 GB y no entran en conflicto. Cambio según la tarea.
Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
Що таке MoE і чому 26B...
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...
Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...
Розробник налаштував tool use, перевірив на тестових запитах — все працює.
У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно,
але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь.
Спойлер: модель не «зламалась»...
Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка:
здається що модель сама виконала запит до бази або API.
Це не так, і саме ця помилка породжує цілий клас архітектурних багів.
Спойлер: LLM лише повертає структурований JSON з назвою...