DSpark de DeepSeek: V4 es un 60-85% más rápido sin nuevo hardware

Actualizado:
DSpark de DeepSeek: V4 es un 60-85% más rápido sin nuevo hardware

27 de junio de 2026 DeepSeek lanzó DSpark, un framework de decodificación especulativa que acelera la generación de respuestas de DeepSeek V4 Flash y Pro en un 60-85% sin reentrenamiento del modelo y sin nuevo hardware. No es un modelo nuevo: las mismas ponderaciones, un módulo adicional para una inferencia más rápida.

Spoiler: si ya utilizas DeepSeek V4 a través de la API oficial, DSpark ya está funcionando para ti automáticamente, no necesitas activar nada. Si alojas el modelo tú mismo, se requieren pasos adicionales que se detallan a continuación.

⚡ En resumen

  • Qué es: DSpark es un framework de decodificación especulativa para DeepSeek-V4-Flash y V4-Pro, presentado en el informe técnico «DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation», en coautoría con investigadores de la Universidad de Pekín
  • Cifras: la generación por usuario es un 60-85% más rápida (V4-Flash) y un 57-78% (V4-Pro) en comparación con el baseline anterior MTP-1; en benchmarks offline, la longitud aceptada es un 26.7-30.9% mayor en comparación con Eagle3 y un 16.3-18.4% en comparación con DFlash
  • Ya funciona: DSpark está activo en la API de producción de DeepSeek desde el 27 de junio de 2026, funciona automáticamente para todas las solicitudes a deepseek-v4-flash y deepseek-v4-pro
  • Código abierto: DeepSpec es un stack completo con licencia MIT para entrenar tus propios modelos de borrador, soporta Qwen3 y Gemma
  • ⚠️ Advertencia honesta: todas las cifras son auto-reportadas, no hay verificación independiente a finales de junio de 2026; el primer benchmark de la comunidad confirma la dirección, pero con cifras significativamente más modestas
  • 🎯 Obtendrás: una explicación de la mecánica en palabras sencillas, un análisis de dónde las cifras son reales y dónde son marketing, instrucciones para auto-alojamiento y consejos prácticos para tu stack de DeepSeek

📚 Contenido

Si aún no estás familiarizado con el modelo V4 Flash en sí, comienza con nuestra reseña DeepSeek V4 Flash en 2026: qué es, cuánto cuesta y cómo ejecutarlo sin GPU. DSpark es una aceleración sobre las mismas ponderaciones, por lo que el contexto de allí será útil.

🎯 ¿Qué es la decodificación especulativa (base para quienes no lo saben)?

Imagina que le dictas una carta a un secretario. Puedes dictar palabra por palabra, esperando a que el secretario escriba cada una: lento, pero seguro. O puedes contratar a un asistente junior que rápidamente redacte un borrador de todo un párrafo basándose en cómo sueles escribir. El secretario luego lee este borrador de un vistazo y dice: "estas primeras cinco palabras son correctas, y el resto lo reescribiré yo mismo".

Así es exactamente como funciona la decodificación especulativa. En el papel de "secretario" está un modelo grande (modelo objetivo) que genera el texto final correcto. En el papel de "asistente junior" está un modelo de borrador pequeño y rápido que propone un bloque de tokens por adelantado. El modelo grande luego verifica todo el bloque en una sola pasada (no token por token) y acepta el prefijo correcto más largo. Los tokens aceptados son una ganancia neta en velocidad. Los rechazados: el modelo simplemente regresa a la generación normal desde ese punto.

Un detalle crucial: esta es una técnica lossless. A través del muestreo por rechazo, se garantiza matemáticamente que la distribución final de tokens es idéntica a la que produciría el modelo sin decodificación especulativa. La calidad no disminuye: no es un compromiso de "velocidad a expensas de la precisión", sino puramente una aceleración de ingeniería del lado del servidor.

💡 La velocidad aquí no es un "bono", sino una métrica de negocio clave: para cualquier producto que pague por tiempo de GPU o atienda a usuarios en tiempo real, cada porcentaje de aceleración es una reducción directa en el costo por token de salida.

🐌 El problema de la "pasta de dientes": por qué la generación estándar es lenta

La generación autorregresiva estándar, el mismo proceso que analizamos en detalle en el artículo sobre la mecánica de las alucinaciones de la IA, genera exactamente un token a la vez. Cada paso requiere un pase completo a través de todo el modelo. Para DeepSeek-V4-Pro, esto son 1.6 billones de parámetros (49 mil millones activos por token), un pase costoso por una sola palabra.

Los ingenieros lo llaman "generación tipo pasta de dientes": generación similar a exprimir pasta de dientes de un tubo: lenta, gota a gota, independientemente de lo predecible que sea el siguiente trozo de texto. Si el modelo escribe for i in range(, el siguiente token es casi seguro len, pero el sistema aún gasta un pase completo y costoso para confirmarlo.

Antes de DSpark, existían dos enfoques dominantes para resolver este problema:

  • Eagle3: un método de borrador secuencial (autorregresivo). Un modelo pequeño genera tokens uno por uno, al igual que el grande, pero más rápido. Proporciona una alta precisión de aceptación, pero tiene un límite de velocidad interno: también es secuencial.
  • DFlash: un método de borrador paralelo. Genera todo el bloque de tokens simultáneamente, lo que es rápido, pero sufre de decaimiento de sufijo: las posiciones posteriores en el bloque se adivinan "a ciegas", sin saber lo que el modelo acaba de elegir para las posiciones anteriores. Cuanto más largo es el bloque, peor es la precisión de aceptación cerca del final.

Es decir, la industria tenía una opción: rápido, pero impreciso (DFlash), o preciso, pero lento (Eagle3). DSpark pretende cerrar esta brecha.

🔧 ¿Qué hay de nuevo exactamente en DSpark: un enfoque híbrido

DSpark es la abreviatura de Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation. El nombre es largo, pero describe exactamente lo que sucede: una combinación de enfoques paralelos y secuenciales más una programación de verificación inteligente.

Drafteo híbrido: paralelo + corrección de Markov

DSpark toma una columna vertebral paralela (conceptualmente similar a DFlash) para generar los estados ocultos base de todas las posiciones del bloque simultáneamente; esto es barato y rápido. Pero luego agrega una ligera cabeza de Markov secuencial: una factorización de rango 256 que introduce un sesgo (bias) antes de muestrear cada token, basándose solo en el token inmediatamente anterior, no en todo el prefijo.

Este es el truco: la cabeza solo considera un token anterior, no toda la cadena, por lo que sigue siendo barata y rápida, pero esto es suficiente para corregir el decaimiento del sufijo que afecta al DFlash puramente paralelo.

Programación consciente de la confianza: verificación inteligente

La segunda innovación es la programación dinámica de la longitud de verificación. En lugar de enviar ciegamente todo el bloque de tokens de borrador para su verificación (y desperdiciar el costoso cálculo del modelo grande en tokens que casi con certeza serán rechazados), DSpark tiene una cabeza de confianza: un módulo separado que estima la probabilidad de aceptación de cada token.

En combinación con un programador consciente del hardware, esto funciona así: cuando las GPUs están inactivas, el sistema verifica prefijos más largos, incluso con menor confianza, porque el recurso computacional está libre. Cuando la carga es alta, solo se verifican los tokens con la mayor confianza, y la "cola" de baja probabilidad se descarta de inmediato, sin desperdiciar la capacidad del lote.

Para el entorno de producción, el programador utiliza además un mecanismo asíncrono de Zero-Overhead Scheduling (ZOS): la longitud de corte se determina basándose en las predicciones de los dos pasos anteriores, lo que oculta la latencia de programación y evita la inactividad de la GPU.

Tabla comparativa: DSpark frente a predecesores

Método Tipo de drafteo Fortaleza Debilidad
Eagle3 Secuencial (autorregresivo) Alta precisión de aceptación Límite de velocidad interno: todavía un token a la vez
DFlash Paralelo Generación rápida de bloques Decaimiento de sufijo: la precisión disminuye hacia el final del bloque
DSpark Híbrido (paralelo + corrección de Markov) Velocidad de DFlash + menor decaimiento de sufijo, más programación inteligente Nueva técnica, verificación oficial limitada por terceros independientes

Un detalle técnico interesante del informe original: la configuración de 2 capas de DSpark supera a la de 5 capas de DFlash en precisión de aceptación: un modelo de borrador más pequeño y barato da un mejor resultado gracias a la ventaja arquitectónica, no solo a una mayor cantidad de parámetros.

Detalles de la arquitectura: informe técnico de DSpark en GitHub | tarjeta del modelo en Hugging Face.

DSpark de DeepSeek: V4 es un 60-85% más rápido sin nuevo hardware

📊 Cifras: puntos de referencia sin conexión frente a resultados de producción

Aquí es importante separar dos tipos fundamentalmente diferentes de mediciones que a menudo se mezclan en las noticias.

Puntos de referencia sin conexión: pruebas controladas en Qwen3

DeepSeek probó DSpark en modelos de la familia Qwen3 (4B, 8B, 14B) en condiciones controladas sin conexión: matemáticas, generación de código, diálogo. La métrica es longitud aceptada, cuántos tokens de borrador acepta en promedio un modelo grande por ronda. Cuanto mayor sea, más rápida será la generación real.

Modelo Mejora sobre Eagle3 Mejora sobre DFlash
Qwen3-4B +30.9% +16.3%
Qwen3-8B +26.7% +18.4%
Qwen3-14B +30.0% +18.3%

Los resultados también se resumen en Gemma4-12B, lo que significa que el método no está vinculado exclusivamente a la arquitectura de DeepSeek.

Resultados de producción: tráfico real de DeepSeek-V4

Esta es una categoría separada: mediciones en tráfico en vivo de DeepSeek-V4-Flash y V4-Pro, en comparación con la línea de base de producción anterior MTP-1 (una configuración de un solo token que ya no es una regresión "ingenua", sino una optimización previa).

Modelo Velocidad de generación por usuario (rendimiento igualado) Rendimiento agregado (SLA moderado)
V4-Flash +60% a +85% +51% con SLA de 80 tok/s/usuario
V4-Pro +57% a +78% +52% con SLA de 35 tok/s/usuario

Los resultados más altos se obtienen en tareas estructuradas: la generación de código tiene una alta previsibilidad natural del siguiente token (después de import rara vez sigue algo inesperado), por lo que la longitud aceptada es la más alta allí. El diálogo abierto es menos predecible, y la aceleración allí es más modesta.

⚠️ "Las grandes cifras requieren supervisión adulta": analizando el 661%

Esta es la sección más importante para una comprensión honesta del lanzamiento. En algunos materiales sobre DSpark, aparecen las cifras 661% (V4-Flash) y 406% (V4-Pro), lo que provoca titulares como "DeepSeek aceleró el modelo 7 veces". Esta es una interpretación incorrecta.

Estos números extremos miden algo completamente diferente de los 60-85% descritos anteriormente. Aquí está la diferencia:

  • 60-85% (velocidad de generación por usuario): qué tan rápido un usuario individual recibe tokens con un rendimiento general del sistema comparable. Este es un número justo y representativo para una carga de producción típica.
  • 661% / 406% (rendimiento agregado con SLA estricto): cuántas más solicitudes puede atender el sistema cuando se establece un umbral de velocidad muy estricto por usuario (120 tok/s/usuario para Flash, 50 tok/s/usuario para Pro). Esto no es una "aceleración general", es una medición en un modo donde la línea de base antigua (MTP-1) alcanza su límite de rendimiento y literalmente no puede atender a tantos usuarios con un SLA tan estricto, mientras que DSpark sí puede.

En otras palabras: el 661% no es "el modelo se volvió 7.6 veces más rápido para ti". Es "en un modo de servicio estrecho y extremo, el sistema procesa 7.6 veces más usuarios simultáneos con un SLA estricto dado, porque el sistema antiguo prácticamente se ahoga allí". Este es un indicador real y útil para los ingenieros de infraestructura que planifican la capacidad para cargas máximas, pero es absolutamente incorrecto extrapolarlo a la experiencia "normal" del usuario.

Comparación de dos métricas de DSpark: velocidad por usuario y rendimiento El diagrama explica la diferencia entre el aumento realista de velocidad del 60-85% para un solo usuario y el aumento extremo del rendimiento agregado de hasta el 661% con un SLA muy estricto Dos métricas diferentes de DSpark: no las confunda Velocidad de generación por usuario Indicador realista para carga típica Línea de base MTP-1 = 100% +60% a +85% V4-Flash, con rendimiento comparable del sistema Rendimiento agregado con SLA estricto Indicador de capacidad para planificación de infraestructura MTP-1 hasta +661% solo con un SLA muy estricto de 120 tok/s/usuario (V4-Flash) Por qué tanta diferencia Con un SLA estricto, el antiguo MTP-1 alcanza prácticamente su límite de rendimiento y atiende a pocos usuarios simultáneos; DSpark se ve dramáticamente mejor allí porque no se compara con el modo de funcionamiento típico, sino con el peor modo de funcionamiento del predecesor.

🎯 Conclusión práctica: enfóquese en 60-85% (Flash) y 57-78% (Pro) como una estimación realista para una carga de producción típica. Las cifras con tres dígitos porcentuales son un indicador de capacidad de nicho, no una aceleración general.

🛠️ DeepSpec: código abierto para sus propios modelos de borrador

Junto con DSpark, DeepSeek ha lanzado DeepSpec, una pila completa con licencia MIT para entrenar y evaluar modelos de borrador de decodificación especulativa. No es solo el código de DSpark, sino toda una infraestructura con tres algoritmos integrados: DSpark, DFlash y Eagle3.

Qué incluye el repositorio:

  • Utilidades de preparación de datos
  • Pipelines de entrenamiento Multi-GPU
  • Scripts de evaluación en nueve puntos de referencia, incluidos GSM8K, MATH500, HumanEval y LiveCodeBench
  • Soporte para modelos objetivo: Qwen3 y Gemma, solo estos dos familias por ahora

Advertencia importante sobre el hardware: la configuración típica apunta a un nodo con 8 GPU. Para la configuración Qwen3-4B por defecto, la caché de destino puede ocupar aproximadamente 38 TB de almacenamiento, y esto se aplica solo al entrenamiento, no a la inferencia. Este es un proyecto para equipos con recursos serios, no para un desarrollador individual en una computadora portátil.

Para aquellos que simplemente quieren acelerar un V4 existente sin entrenamiento, hay puntos de control listos en Hugging Face: DeepSeek-V4-Flash-DSpark y DeepSeek-V4-Pro-DSpark. Importante: no son modelos nuevos, es el mismo punto de control al que se agregó un módulo de decodificación especulativa. Los pesos, los datos de entrenamiento y la distribución de salidas no han cambiado.

# Ejecución a través de vLLM con un punto de control DSpark preexistente
pip install vllm
vllm serve "deepseek-ai/DeepSeek-V4-Pro-DSpark"

Repositorio: github.com/deepseek-ai/DeepSpec | Punto de control Flash: huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

🔬 Verificación independiente: ¿qué dice la comunidad?

Una metodología honesta requiere decir de inmediato: todas las cifras del informe técnico son autoinformadas. A partir del 29 de junio de 2026, no se ha publicado ninguna verificación independiente de la longitud aceptada sin conexión ni de las cifras de producción. Esto no significa que las cifras sean falsas; DeepSeek tiene una reputación con V3 y R1, donde los puntos de referencia autoinformados se confirmaron más tarde. Pero la regla "confía, pero verifica" también se aplica aquí.

Las primeras reacciones de la comunidad, que aparecieron dentro de 1-2 días después del lanzamiento:

  • Rafael Caricio (PR de GitHub, prueba de flujo único en V4-Flash): 26.33 tok/s sin decodificación especulativa → 39.88 tok/s con MTP-1 → aproximadamente 60 tok/s con DSpark. Esto es aproximadamente 1.5 veces más que MTP-1 y 2.3 veces más que la ausencia de decodificación especulativa en general; la dirección se confirma, pero el número absoluto (60 tok/s de un solo flujo en una prueba de flujo único "desnuda") difiere significativamente del posicionamiento de marketing y requiere un contexto de comparación separado.
  • Daniel Han (Unsloth, X/Twitter): confirmó que DSpark se generaliza más allá de V4; se entrena con éxito tanto en objetivos Gemma como Qwen, no solo en los modelos propios de DeepSeek.
  • Advertencia práctica de la misma prueba de Caricio: en sesiones de codificación realistas de varios pasos, el rendimiento puede degradarse a medida que aumenta el contexto, porque la aceptación de tokens de borrador disminuye. Es decir, DSpark acelera la decodificación, pero la calidad de la aceptación aún determina cuánta velocidad real obtendrá en su carga de trabajo específica.
  • La prueba simple de Simon Willison (conocido por su comentario sobre el lanzamiento del propio V4: "casi a la vanguardia, por una fracción del precio") aún no ha publicado una prueba separada de DSpark, pero la metodología general de la comunidad es: probar con su propia distribución de prompts, en lugar de confiar en una sola cifra del comunicado de prensa.

📌 Qué recordar: la primera prueba externa confirma la dirección (DSpark es realmente más rápido que MTP-1), pero los números absolutos y el comportamiento en sesiones largas requieren una verificación separada en su propia carga de trabajo; no confíe en las cifras del informe técnico como garantía para su caso de uso específico.

🌐 Los datos pasan por China: lo que debe saber

Este es un punto que a menudo pasa desapercibido en las revisiones técnicas, pero es importante para cualquiera que planee usar la API de alojamiento de DeepSeek (no autoalojada) en producción.

Cuando las solicitudes pasan por la API de alojamiento oficial o la aplicación web de DeepSeek, los datos se transmiten a servidores en China y están sujetos a la legislación nacional china. La política de privacidad actualizada de DeepSeek (a partir del 10 de febrero de 2026) indica claramente: los datos personales se recopilan, procesan y almacenan en el territorio de la República Popular China. Además, se aplican dos leyes: la Ley de Inteligencia Nacional de la República Popular China (2017), artículo 7, que obliga legalmente a todas las organizaciones y ciudadanos a ayudar y cooperar con los órganos de inteligencia estatales a solicitud, y la Ley de Ciberseguridad de la República Popular China (2017), que exige a los operadores de redes proporcionar al estado acceso para inspeccionar la infraestructura.

Esto no significa "no use DeepSeek"; para la mayoría de las tareas de producción neutrales (RAG para contenido público, generación de código sin secretos sensibles, pruebas), este es un perfil de riesgo aceptable, especialmente considerando el precio. Pero para industrias reguladas, contratos empresariales con requisitos de residencia de datos o tareas con datos corporativos sensibles, este es un factor que debe tenerse en cuenta explícitamente al elegir: la API de alojamiento oficial de DeepSeek frente a la implementación autoalojada de los mismos pesos abiertos en su propia infraestructura o en la nube occidental.

Es importante distinguir: las ventajas de velocidad de DSpark son pura ingeniería que funciona independientemente del modelo de implementación. Un equipo que autoaloja los pesos abiertos de V4 en su propia infraestructura o en la nube occidental obtiene la misma velocidad de DSpark y elimina por completo las cuestiones de jurisdicción de datos, ya que las solicitudes de los usuarios ni siquiera llegan a los servidores de DeepSeek. La licencia MIT juega a su favor aquí: puede descargar los pesos (incluidos los puntos de control acelerados por DSpark) y desplegarlos en AWS, GCP, Azure o su propio hardware.

🚀 Cómo probar: conectándose a su stack

Si ya está utilizando la API oficial de DeepSeek u Ollama Cloud

No necesita hacer nada. DSpark ya está activo en la API de producción de DeepSeek desde el 27 de junio de 2026 — se aplica automáticamente a todas las solicitudes a deepseek-v4-flash y deepseek-v4-pro a través del endpoint oficial api.deepseek.com. No es un interruptor que el cliente de la API pueda activar o desactivar externamente — DeepSeek ha migrado su propia infraestructura de producción a la nueva tecnología. Si configuró la integración según nuestra guía anterior para ejecutar V4 Flash, ya está obteniendo aceleración sin ningún cambio en el código.

Si aloja DeepSeek-V4 en su propio hardware

Descargue el checkpoint DSpark precompilado en lugar del estándar y ejecútelo a través de vLLM:

pip install vllm
vllm serve "deepseek-ai/DeepSeek-V4-Flash-DSpark"
# o para Pro:
vllm serve "deepseek-ai/DeepSeek-V4-Pro-DSpark"

El requisito mínimo es una configuración con 8 GPUs por nodo para un despliegue completo de V4. El requisito de almacenamiento de 38 terabytes se aplica solo al entrenamiento de sus propios modelos draft a través de DeepSpec, no a la ejecución de checkpoints DSpark ya preparados.

Si desea aceleración DSpark para Qwen3 o Gemma

Clonifique DeepSpec, prepare los datos de entrenamiento basándose en la distribución de su carga de trabajo real y entrene un modelo draft altamente especializado. La tasa de aceptación en una tarea de dominio estrecho (por ejemplo, generación de código en un framework específico) será significativamente mayor que en un chat general — esto se deriva directamente de la naturaleza de la decodificación especulativa: cuanto más predecible sea el siguiente token, mayor será la longitud aceptada.

Consejo honesto sobre benchmarking

No compare su latencia "antes" con la decodificación autorregresiva ingenua — la línea base MTP-1 ya es una optimización en sí misma, no una decodificación autorregresiva "desnuda". Mida su propia latencia antes y después bajo su carga de producción real y concurrencia, no bajo las condiciones de prueba de DeepSeek.

Si accede a través de OpenRouter

Aquí hay un matiz que vale la pena entender honestamente. A diferencia de la API oficial api.deepseek.com, donde DSpark es una solución de DeepSeek para su propia infraestructura, OpenRouter es un enrutador sobre varios proveedores independientes que alojan los pesos V4 de forma independiente. La página del modelo en OpenRouter le permite elegir el modo de enrutamiento — Equilibrado (precio + velocidad), Nitro (el más rápido) o Exacto (proveedor fijo) — y cada proveedor decide por sí mismo si desplegar el checkpoint DSpark en lugar del estándar.

Conclusión práctica: si la velocidad es crítica, elija el modo Nitro y mida la latencia real en su tráfico — la mayoría de los proveedores de inferencia serios tienen un incentivo directo para pasar a los checkpoints DSpark, ya que esto reduce el costo del tiempo de GPU de su lado. Pero no hay garantía formal de "DSpark en todas partes en OpenRouter", ya que DeepSeek no lo controla. Si es fundamental saber que está obteniendo la inferencia acelerada por DSpark, es más confiable ir directamente a través de api.deepseek.com, donde está confirmado oficialmente desde el 27 de junio de 2026.

✅ Conclusiones: ¿a quién le resulta realmente útil ahora?

Útil hoy:

  • Cualquiera que utilice DeepSeek V4 a través de la API oficial — obtiene aceleración de forma gratuita y automática
  • Equipos que alojan V4 en su propia infraestructura de 8 GPUs — los checkpoints DSpark precompilados ofrecen una mejora sin entrenamiento adicional
  • Agentes de codificación y flujos de trabajo estructurados — la mayor longitud aceptada se da en tareas predecibles como la generación de código
  • Equipos que ya trabajan con Qwen3 o Gemma en su propio hardware — DeepSpec proporciona un camino directo a la aceleración estilo DSpark sin esperar el soporte oficial de otros proveedores

Demasiado pronto para:

  • Soluciones de producción donde la estabilidad de las cifras verificada de forma independiente es crítica — espere a benchmarks externos adicionales
  • Equipos sin infraestructura de 8 GPUs que desean entrenar sus propios modelos draft a través de DeepSpec — el umbral de entrada es alto
  • Industrias reguladas que utilizan la API de alojamiento de DeepSeek sin evaluar los riesgos de residencia de datos — primero debería considerar el autoalojamiento

El hecho más importante de este lanzamiento no es la cifra del 85%. Es que DeepSeek ha puesto su propia infraestructura de producción en DSpark y ha abierto inmediatamente el código. Esta es la prueba más sólida de la preparación de la tecnología que existe: la empresa no está demostrando un prototipo de investigación, está mostrando aquello en lo que ya opera su tráfico real.

Fuentes: VentureBeat | MarkTechPost | Tech Times | Hugging Face: DeepSeek-V4-Flash-DSpark | GitHub: DeepSpec

❓ Preguntas frecuentes (FAQ)

¿Es DSpark un nuevo modelo de DeepSeek?

No. DSpark es un módulo de decodificación especulativa añadido a los pesos ya existentes de DeepSeek-V4-Flash y V4-Pro. Las tarjetas de modelo en Hugging Face indican claramente: los mismos checkpoints con un módulo draft adicional para aceleración. Los pesos, los datos de entrenamiento y la distribución de tokens de salida no han cambiado.

¿Necesito activar algo para obtener la aceleración DSpark?

Si utiliza la API oficial de DeepSeek (api.deepseek.com) — no, DSpark ya está activo automáticamente desde el 27 de junio de 2026 para todas las solicitudes a los modelos V4. Si aloja el modelo usted mismo — debe descargar explícitamente el checkpoint DSpark (DeepSeek-V4-Flash-DSpark o DeepSeek-V4-Pro-DSpark) en lugar del estándar.

¿DSpark reduce la calidad de las respuestas en aras de la velocidad?

No. La decodificación especulativa es una técnica matemáticamente sin pérdidas a través del muestreo de rechazo: la distribución final de tokens es idéntica a la que produciría el modelo sin aceleración. Es puramente una optimización de ingeniería del lado del servidor, no un cambio en la calidad de la generación.

¿De dónde provienen las cifras del 661% y 406% si la aceleración real es del 60-85%?

Estas son dos mediciones diferentes. 60-85% — cuánto más rápido un usuario individual recibe tokens con una capacidad de sistema comparable (un indicador realista). 661%/406% — cuántos más usuarios simultáneos atiende el sistema con un SLA muy estricto (120 y 50 tok/s/usuario respectivamente), donde la línea base antigua prácticamente choca contra su propio techo. Este es un indicador de capacidad de nicho para la planificación de infraestructura, no una aceleración general para el usuario típico.

¿Se puede aplicar DSpark a otros modelos que no sean DeepSeek?

Sí, parcialmente. DeepSpec — una pila de entrenamiento abierta — admite oficialmente el entrenamiento de modelos draft estilo DSpark para Qwen3 y Gemma. El soporte para otras familias de modelos dependerá de las contribuciones de la comunidad. Para DeepSeek-V4 en sí, los checkpoints DSpark precompilados están disponibles inmediatamente sin entrenamiento.

¿Es seguro utilizar la API de alojamiento de DeepSeek para datos de producción?

Depende de la sensibilidad de los datos. Las solicitudes a través de la API de alojamiento oficial pasan por servidores en China y están sujetas a la legislación china, incluida la Ley de Inteligencia Nacional (2017). Para tareas neutrales, este suele ser un riesgo aceptable dada la relación costo-beneficio. Para industrias reguladas o datos corporativos sensibles, se recomienda considerar el autoalojamiento de los mismos pesos abiertos en su propia infraestructura o en la nube occidental — la licencia MIT lo permite sin restricciones.