En resumen

Duplicar la dimensionalidad (1536 → 3072) duplica la RAM, el almacenamiento y la latencia, pero solo proporciona un aumento del ~3-5% en la puntuación de recuperación MTEB en los modelos de OpenAI.
En documentos financieros, BM25 supera a text-embedding-3-large en Precision@5. La búsqueda léxica sigue siendo importante.
La recuperación híbrida + reranker proporciona Recall@5 = 0.816 frente a 0.587 para la recuperación densa pura, un aumento del +39% sin cambiar la dimensionalidad del embedding.
En 2026, text-embedding-3-large ya no será el líder: Qwen3-Embedding-8B (MTEB 75.22) y Gemini Embedding 2 (67.71 MTEB Retrieval) lo superan.
Para la mayoría de los escenarios RAG: primero, recuperación híbrida + reranker, luego medir, y solo entonces pensar en cambiar el modelo.

Parámetro	1536 (text-embedding-3-small)	3072 (text-embedding-3-large)
Tamaño del vector	~6 KB	~12 KB
RAM por 1M de fragmentos	~6.1 GB	~12.2 GB
Velocidad de búsqueda ANN	Más rápido	~1.5–2× más lento
Costo API de embedding	$0.02 / 1M tokens	$0.13 / 1M tokens (6.5×)
Recuperación MTEB (nDCG@10)	0.5108	0.5544 (+8.5%)
Índice HNSW de pgvector	✅ Soportado	⚠️ No soportado en GCP
Adecuado para la mayoría de RAG	✅ Sí	⚠️ No siempre justificado

Cuando un equipo construye un pipeline RAG y la recuperación devuelve resultados irrelevantes, la reacción típica es: "necesitamos un modelo de embedding más grande". La lógica es clara: más dimensiones → más información → mejor búsqueda. Pero los datos dicen lo contrario.

Este artículo es un análisis técnico para desarrolladores que diseñan RAG bajo restricciones específicas de RAM, costo y calidad. Analizamos cifras: benchmarks MTEB, costos de almacenamiento, latencia, y comparamos alternativas, en particular el reranking, que en la mayoría de los escenarios proporciona un mayor aumento en la calidad de recuperación por un menor costo que cambiar a un modelo de 3072 dimensiones.

Si aún se encuentra en la etapa de elegir un enfoque para el análisis de documentos antes de la vectorización, lea primero los artículos anteriores de la serie: "Cómo el OCR afecta la calidad de los sistemas RAG" y "Vision RAG vs OCR: comparación de enfoques". Datos de entrada deficientes anulan cualquier ventaja de un mejor modelo de embedding.

¿Qué es un vector de embedding y qué significa su dimensionalidad?

Un modelo de embedding convierte texto en un vector numérico, una lista de números de longitud fija. Este vector es la "coordenada" del texto en un espacio semántico n-dimensional. Los textos con significado similar tienen vectores cercanos (alta similitud coseno); los textos con significado diferente están lejos.

La dimensionalidad del vector es la cantidad de números en esta lista. text-embedding-3-small devuelve 1536 números por texto de entrada. text-embedding-3-large, 3072.

¿Qué mide la dimensionalidad?

Dimensionalidad	Qué da teóricamente	Qué significa en la práctica
Más alta (3072+)	Un "alfabeto" más grande para codificar diferencias semánticas	Potencialmente una mejor separación entre conceptos similares pero diferentes
Más baja (768–1536)	Un espacio menos detallado	Suficiente para la mayoría de las consultas prácticas; el doble de barato de almacenar y buscar
Muy baja (256–512)	Representación comprimida	Rápido y barato; la calidad disminuye en tareas semánticas complejas

Importante: la dimensionalidad es una propiedad de la arquitectura del modelo y su entrenamiento, no simplemente "más es mejor". Estudios de sistemas RAG en producción muestran que reducir de 1536 a 384 dimensiones en algunos escenarios no produce una caída medible en la precisión de recuperación, al tiempo que reduce la latencia a la mitad y el almacenamiento en un 75%.

El precio de elegir la dimensionalidad: números concretos

100.000 fragmentos

1536 dimensiones → ~600 MB de RAM
3072 dimensiones → ~1.2 GB de RAM (+2×)

1.000.000 fragmentos

1536 dimensiones → ~6.1 GB de RAM
3072 dimensiones → ~12.2 GB de RAM (+2×)

10.000.000 fragmentos

1536 dimensiones → ~61 GB de RAM
3072 dimensiones → ~122 GB de RAM — otro nivel de servidor, otro presupuesto

El crecimiento es lineal: duplicas la dimensionalidad, duplicas todos los costos de almacenamiento y búsqueda. La fórmula es simple: N fragmentos × dimensionalidad × 4 bytes (float32)

Matryoshka Representation Learning (MRL): usa large, almacena menos

text-embedding-3-large y text-embedding-3-small soportan MRL, un enfoque donde las primeras dimensiones del vector llevan la señal semántica más general, y cada una adicional agrega detalle. Esto permite "recortar" el vector después de la generación sin un reentrenamiento completo del modelo.

En la práctica: generas un vector de 3072 dimensiones a través de la API, pero almacenas solo las primeras 256, 512, 1024 o 1536 dimensiones a través del parámetro dimensions. La calidad no cae proporcionalmente, sino de forma no lineal:

Dimensionalidad almacenada	Recuperación MTEB (nDCG@10)	Relativo a 3072 completo	RAM por 1M de fragmentos
3072 (completo)	0.5544	100%	~12.2 GB
1536	0.5453	98.4%	~6.1 GB (−50%)
1024	0.5390	97.2%	~4.1 GB (−66%)
512	0.5233	94.4%	~2.0 GB (−83%)
256	0.4969	89.6%	~1.0 GB (−92%)

Reducir de 3072 a 1536 dimensiones proporciona un −50% de RAM con una pérdida de solo el 1.6% de calidad. Hasta 1024, un −66% de RAM con un −2.8% de calidad. Este es el compromiso más práctico para la mayoría de los escenarios.

Importante: MRL solo funciona con modelos entrenados explícitamente con esta técnica (text-embedding-3-* de OpenAI, algunos modelos de Cohere y Nomic). El simple "recorte" de un vector de un modelo arbitrario dará lugar a una degradación sin garantías.

Cómo la dimensionalidad afecta la calidad de la búsqueda semántica

La ventaja teórica de una mayor dimensionalidad no siempre se realiza y no de manera uniforme. El impacto depende de tres factores: la naturaleza de los documentos, el tipo de consultas y la presencia de otros componentes del pipeline.

Dónde la dimensionalidad es realmente importante

Escenario	Por qué una mayor dimensionalidad ayuda	Efecto práctico
Diferencias semánticas sutiles	"Rescindir un contrato" vs "terminar un contrato" — palabras similares, significado legal diferente	Menos falsos positivos en la recuperación de documentos legales
Contenido multilingüe	Mayor espacio para codificar relaciones semánticas interlingüísticas	Mejor recuperación cross-lingual
Documentación técnica con terminología específica	Los términos técnicos a menudo son OOV o raros; un espacio mayor proporciona una mejor posición	Mejora menor en corpus especializados

Dónde la dimensionalidad es casi irrelevante

Escenario	Por qué la dimensionalidad no resuelve el problema
Preguntas frecuentes y respuestas cortas	Las consultas y los documentos son semánticamente directos; 768 dimensiones son más que suficientes
Textos contaminados con artefactos OCR	El ruido en el texto desplaza el vector independientemente de la dimensionalidad; el problema está en los datos de entrada
Consultas numéricas exactas	"Suma de 47.500 UAH" — la recuperación densa es inferior a BM25; la dimensionalidad no ayuda aquí
Colecciones muy pequeñas (< 10.000 fragmentos)	Con una colección pequeña, la diferencia entre modelos se nivela; cualquiera encontrará el fragmento correcto

text-embedding-3-small (1536) vs text-embedding-3-large (3072): diferencias reales

Benchmark MTEB: cifras

MTEB (Massive Text Embedding Benchmark) es un benchmark estándar para comparar modelos de embedding. Para RAG, la métrica más relevante es MTEB Retrieval (nDCG@10).

Modelo	Dimensionalidad	Recuperación MTEB nDCG@10	Costo (por 1M de tokens)
text-embedding-3-small	1536	0.5108	$0.02
text-embedding-3-large	3072	0.5544	$0.13
Diferencia	+2× (tamaño)	+4.36 pp (~8.5%)	6.5× más caro

Fuente: ICLERB Benchmark, MTEB Leaderboard noviembre 2024.

Un aumento del 8.5% en nDCG@10 es una diferencia real, pero es importante entender el contexto: es un benchmark en un conjunto general de tareas. En su corpus específico, la diferencia puede ser mayor o menor. Y por un costo de embedding 6.5 veces mayor, más un costo de almacenamiento 2 veces mayor.

Contexto del mercado: OpenAI ya no es el líder

text-embedding-3-large no se ha actualizado desde enero de 2024. Según el MTEB Leaderboard de abril de 2026, el panorama ha cambiado significativamente:

Modelo	Dimensionalidad	MTEB (Eng v2)	Recuperación MTEB	Licencia
text-embedding-3-large	3072	66.43	55.44	Propietaria
Gemini Embedding 2	3072	—	67.71	Propietaria
Qwen3-Embedding-8B	4096	75.22	—	Apache 2.0 (autoalojado)
Qwen3-Embedding-4B	2560	74.60	—	Apache 2.0 (autoalojado)
Qwen3-Embedding-0.6B	1024	70.70	—	Apache 2.0 (autoalojado)

Qwen3-Embedding-0.6B con 1024 dimensiones (70.70 MTEB) supera a text-embedding-3-large con 3072 dimensiones (66.43 MTEB), con una dimensionalidad menor y total disponibilidad autoalojada. Esto recuerda el mensaje principal del artículo: la dimensionalidad no es igual a la calidad.

Diferencia práctica en tareas reales

Tarea	small (1536)	large (3072)	Diferencia en la práctica
Consultas directas a FAQ ("¿cuál es el precio de X?")	Bien	Bien	Menor
Consultas semánticas en textos legales	Satisfactorio	Mejor	Notable, pero inferior a BM25 en términos precisos
Documentación técnica, terminología específica	Satisfactorio	Notablemente mejor	Diferencia real en recuperación técnica profunda
Consultas numéricas exactas	Malo	Malo	Ambos son inferiores a BM25; la dimensionalidad no resuelve el problema
Contenido multilingüe (mezcla uk/en)	Satisfactorio	Mejor	Notable para consultas cross-lingual

Impact on RAM, disk space, and search speed

The cost of storing vectors is linear with dimensionality. Each float32 takes 4 bytes. 1536 dimensions × 4 = 6,144 bytes (~6 KB) per vector. 3072 dimensions is exactly twice as much.

Specific numbers for typical collections

Collection size	1536 dimensions (RAM)	3072 dimensions (RAM)	Difference
100,000 chunks	~0.6 GB	~1.2 GB	+0.6 GB
1,000,000 chunks	~6.1 GB	~12.2 GB	+6.1 GB
10,000,000 chunks	~61 GB	~122 GB	+61 GB — different server tier

Source: Qdrant documentation; arXiv 2505.00105 — Optimization of embeddings storage for RAG.

Cost of managed vector DB at scale

According to the Vector DB Costs 2026 analysis, one embedding call to text-embedding-3-large generates a 3072-dimensional vector — 10M documents yield 120 GB of raw vector data before indexing. Management costs for Pinecone for 10M vectors with 3072 dimensions are ~$70–120+/month versus $35–65 for 1536 dimensions.

With self-hosted Qdrant: 1M vectors of 1536 dimensions require a minimum 4GB RAM tier (~$36/month on Qdrant Cloud). 3072 dimensions for the same volume require an 8GB RAM tier, ~$72/month.

Search speed (ANN latency)

Metric	1536 dimensions	3072 dimensions	Detail
Cosine similarity computation	Baseline	+100% operations	Dot product of 3072 float32s is twice as expensive
HNSW index build time	Baseline	~1.5–2× longer	Larger graph; more memory during build
Query latency (p95, 1M vectors)	~5–15 ms	~10–30 ms	Approximate estimates; depends on hardware and index params
Embedding generation (API call)	Baseline	~1.2–1.5× longer	Larger API response; larger payload

Practical advice: pgvector and 3072 dimensions

If you are using pgvector, pay attention to an important limitation: GCP PostgreSQL does not allow creating HNSW indexes for vectors with >2000 dimensions. text-embedding-3-large with 3072 dimensions on pgvector in GCP means brute-force search without an index — a catastrophic degradation of latency on collections of 100,000+ chunks. Either reduce to 1536 using the API's dimensions parameter, or switch to Qdrant/Weaviate.

Comparison on typical RAG scenarios: legal documents, technical documentation, FAQ

Scenario 1: Legal documents

Legal texts are a complex case for dense retrieval. They contain both precise numerical values (sums, dates, articles) and subtle semantic differences (responsibility vs. obligation).

Query type	Optimal approach	Why
"What is the penalty amount for delay?"	BM25 or hybrid	Precise terms and numbers; BM25 outperforms dense retrieval on financial documents for Precision@5
"What are the consequences of breaching contract terms?"	Dense (1536 or 3072) + reranker	Semantic query; dense better understands synonyms and paraphrasing
"Customer's liability in a construction contract"	Hybrid (BM25 + dense) + reranker	Combination of precise terms and semantics; hybrid provides the best Recall

Key takeaway for legal documents: the difference between 1536 and 3072 in the dense component is minimal compared to the effect of adding BM25 in a hybrid pipeline. Research on T2-RAGBench financial documents (2026) shows that hybrid + reranker yields Recall@5 = 0.816 versus 0.587 for pure dense retrieval with text-embedding-3-large — a +39% increase without changing the embedding model.

Scenario 2: Technical documentation

Technical documentation (API guides, specifications, RFCs) contains highly specialized terminology. Here, a 3072-dimensional model provides a more noticeable effect — narrow terms are encoded more precisely in a larger space.

However, there's a nuance here too: if the documentation contains exact names (functions, parameters, versions), BM25 or hybrid remains the better option for precise queries. The dense component helps with "how to do X" queries.

Scenario 3: FAQ and helpdesk

FAQ is the simplest scenario for embedding models. Queries and answers are semantically straightforward. For FAQ and helpdesk systems, even a 384-dimensional model provides acceptable quality — the difference between 1536 and 3072 on this data is minimal.

For FAQs, the optimal strategy is to start with text-embedding-3-small or even BGE-small (384 dimensions), measure Recall@5 on a test set of questions, and only if there's a measurable deficit, move to a larger model.

Overall table by scenario

Scenario	Recommended model	Reranker needed?	Is BM25 important?
FAQ / helpdesk (< 50K chunks)	text-embedding-3-small or BGE-small (384)	Optional	No
General corporate documents	text-embedding-3-small (1536)	Yes, recommended	Yes, hybrid
Legal documents	text-embedding-3-small + hybrid + reranker	Mandatory	Yes, mandatory
Technical documentation (narrow terminology)	text-embedding-3-large (3072) or Qwen3-8B	Yes	Yes for precise queries
Multilingual archive (uk + en)	text-embedding-3-large or Qwen3-Embedding (multilingual)	Yes	Yes
Large archive (> 5M chunks), budget limited	Qwen3-Embedding-0.6B (1024 dimensions, self-hosted)	Yes	Yes

Why model quality is more important than dimensionality

Comparing text-embedding-3-small (1536) and text-embedding-3-large (3072) is a comparison of two products from the same vendor. But the real picture is broader: there are models with lower dimensionality and higher quality.

The already mentioned Qwen3-Embedding-0.6B (1024 dimensions, MTEB 70.70) outperforms text-embedding-3-large (3072 dimensions, MTEB 66.43) on the overall MTEB benchmark with lower dimensionality. Apache 2.0, fully self-hostable.

Factors determining embedding quality beyond dimensionality

Factor	Impact	What to do
Quality of model's training data	Critical — determines where vectors "live" in space	Check if the model was trained on domain-specific data (legal, medical, etc.)
Quality of input text	Critical — OCR artifacts shift the vector regardless of dimensionality	Text post-processing before embedding — higher priority than model selection
Chunk length and chunking strategy	Significant — too large a chunk dilutes the signal; too small loses context	Test 256, 512, 1024 tokens with overlap on your data
Presence of hybrid retrieval (BM25 + dense)	Significant — hybrid + reranker gives >30% Recall increase compared to pure dense	Implement hybrid before switching to a larger model
Reranker	Significant — cross-encoder is much more accurate than bi-encoder at the same scale	Add a reranker before changing the embedding model

The "FAISS Hybrid Paradox": when a larger model is worse

The study "Rethinking Hybrid Retrieval" (2025) revealed a counterintuitive result: MiniLM-v6 (a compact model) consistently outperforms BGE-Large when integrated with LLM-based reranking in tri-modal hybrid retrieval. The difference: up to 23.1% better nDCG@10 and 36.5% better nDCG@1 in the financial domain — with 93% fewer parameters and 63% smaller embeddings.

The reason is the "FAISS Hybrid Paradox": the embedding space of large models may not align with the relevance criteria of an LLM reranker. A larger model creates a more "stretched" space that the LLM reranker re-ranks less effectively than a compact one.

Conclusion: if your pipeline includes a reranker, it's not guaranteed that a larger embedding model will improve results. Test on your data.

Reranking as an alternative to increasing dimensionality

Reranker (or cross-encoder) is the second stage of retrieval. In the first stage, the embedding model finds top-k candidates by cosine similarity (fast, but not precise). In the second stage, the reranker re-ranks these candidates, evaluating each pair (query, document) together (slow, but much more precise).

Why a reranker is more accurate than an embedding

A bi-encoder (embedding model) encodes the query and document *independently*. This allows for fast ANN search, but means the model doesn't "see" the query and document simultaneously during encoding.

A cross-encoder (reranker) encodes the pair (query + document) *together*. Self-attention "sees" both texts simultaneously and can evaluate subtle semantic interactions. This is computationally much more expensive — but also much more precise.

Real numbers: what a reranker provides

Configuration	Recall@5	MRR@3	Source
Dense retrieval (text-embedding-3-large)	0.587	—	T2-RAGBench (2026), financial documents
BM25	0.644	—
Hybrid RRF (BM25 + dense)	0.695	0.433
Hybrid RRF + Cohere Rerank v4	0.816	0.605

Hybrid + reranker yields Recall@5 = 0.816 versus 0.587 for pure dense — a +39% increase without changing the embedding model. For comparison, switching from text-embedding-3-small to large provides ~8.5% improvement on MTEB Retrieval.

When a reranker is not enough

A reranker only re-ranks what made it into the top-k from the first stage. If a relevant chunk didn't even make it into the top 50 candidates, the reranker won't help. In this case, a better embedding model or hybrid retrieval with a larger k is needed.

Also important: a reranker adds latency (~100–500 ms for 50 candidates). For real-time systems with requirements of <500 ms end-to-end, this can be a limitation.

Lógica de selección matricial: tamaño de la colección × precisión × presupuesto

Tamaño de la colección	Requisitos de precisión	Presupuesto	Recomendación
< 50K fragmentos	Básico	Cualquiera	text-embedding-3-small (1536) o BGE-small (384). Con una colección pequeña, la diferencia entre modelos es mínima.
< 50K fragmentos	Alto	Cualquiera	text-embedding-3-small + Cohere Rerank o bge-reranker-large. Reranker dará más que pasar a 3072.
50K – 1M fragmentos	Básico	Limitado	text-embedding-3-small (1536) + híbrido (BM25 + denso). Más barato y eficiente que large.
50K – 1M fragmentos	Alto, dominio técnico	Medio	text-embedding-3-large (3072) o Qwen3-Embedding-4B (autoalojado) + reranker + híbrido.
> 1M fragmentos	Cualquiera	Limitado	Autoalojado: Qwen3-Embedding-0.6B (1024) o BGE-M3 (1024). El coste de almacenamiento para 3072 dimensiones a esta escala es crítico.
> 1M fragmentos	Máximo, GDPR	Suficiente (GPU)	Qwen3-Embedding-8B (4096, Apache 2.0, autoalojado) + bge-reranker-large + híbrido. Mejor MTEB con autoalojamiento completo.
Cualquier tamaño	Alto, contenido multilingüe (uk+en)	Cualquiera	text-embedding-3-large o Qwen3-Embedding (fuertes en multilingüe). Para multilingüismo, la dimensionalidad es menos importante que el entrenamiento multilingüe.

Algoritmo de toma de decisiones

Pregunta	Sí → acción	No → siguiente pregunta
¿Hay un déficit medible de Recall (por debajo del objetivo)?	Continuar	No cambiar nada; el modelo actual es suficiente
¿Está implementada la recuperación híbrida (BM25 + denso)?	Siguiente pregunta	Primero añadir BM25; medir el efecto
¿Está implementado el reranker?	Siguiente pregunta	Añadir reranker; normalmente da más que pasar a 3072
¿Persiste el déficit después de híbrido + reranker?	Siguiente pregunta	El problema no está en el modelo de embedding; comprobar la calidad del texto y el chunking
¿La colección es > 1M fragmentos?	Considerar Qwen3-Embedding autoalojado (mejor MTEB, menor coste)	Pasar a text-embedding-3-large o Qwen3-Embedding; probar en datos reales
¿Es obligatorio GDPR / autoalojamiento?	Qwen3-Embedding-0.6B / 4B / 8B (Apache 2.0)	text-embedding-3-large o Gemini Embedding 2

Preguntas frecuentes: preguntas comunes sobre la dimensionalidad de los embeddings

¿Vale la pena pasar de 1536 a 3072?

Desde mi experiencia, en la mayoría de los casos no, al menos no como primer paso. Pasar de small a large da un aumento de ~8.5% en MTEB Retrieval, pero cuesta 6.5 veces más por API y el doble en almacenamiento. Antes de cambiar el modelo, siempre compruebo primero: si está implementada la recuperación híbrida (BM25 + denso), si hay un reranker. Estos dos componentes juntos dan un +39% en Recall@5, sin cambiar la dimensionalidad en absoluto. Si después de esto persiste el déficit de calidad, entonces sí, pasar a 3072 o a un mejor modelo está justificado.

¿Cuánto aumenta el consumo de RAM?

Exactamente el doble, la dependencia es lineal. 1M de fragmentos con 1536 dimensiones ocupan ~6.1 GB de RAM, con 3072 son ~12.2 GB. Con 10M de fragmentos, ya es la diferencia entre 61 GB y 122 GB, básicamente un nivel de servidor diferente y un presupuesto de infraestructura diferente. Para colecciones pequeñas (hasta 100K fragmentos), la diferencia no es crítica: 600 MB frente a 1.2 GB caben en cualquier instancia moderna. Pero al escalar, se convierte en la primera limitación.

¿Afecta la dimensionalidad a la velocidad de pgvector?

Afecta, y hay una trampa práctica importante. En primer lugar, dimensiones más altas significan más operaciones al calcular la similitud del coseno: la latencia de la consulta aumenta. En segundo lugar, y esto es crítico: GCP PostgreSQL no admite la creación de índices HNSW para vectores de más de 2000 dimensiones. Si usas text-embedding-3-large (3072) con pgvector en GCP, obtienes búsqueda por fuerza bruta sin índice, lo que en colecciones de 100K+ fragmentos provoca una degradación catastrófica de la latencia. Solución: o reduce a 1536 a través del parámetro dimensions en la API, o pasa a Qdrant o Weaviate.

¿Son necesarias 3072 dimensiones para un RAG pequeño?

No. Con una colección de hasta 50K fragmentos, la diferencia entre 1536 y 3072 es prácticamente imperceptible; cualquier modelo encontrará el fragmento correcto en un índice pequeño. Recomiendo empezar con text-embedding-3-small o incluso BGE-small (384 dimensiones), medir el Recall@5 en un conjunto de preguntas de prueba y solo entonces tomar una decisión. La mayoría de los equipos con los que he trabajado han descubierto que el problema no es la dimensionalidad, sino la calidad del texto de entrada o la ausencia de un reranker.

¿Qué es más importante: el modelo o la dimensionalidad?

El modelo es siempre más importante. El mejor ejemplo: Qwen3-Embedding-0.6B con 1024 dimensiones obtiene 70.70 MTEB, mientras que text-embedding-3-large con 3072 dimensiones obtiene 66.43. Menor dimensionalidad, mejor resultado. Desde mi experiencia, el orden de prioridad de optimización de RAG es el siguiente: primero la calidad del texto de entrada, luego la estrategia de chunking, luego la recuperación híbrida y el reranker, y solo después de eso la elección o el cambio del modelo de embedding. La dimensionalidad es la última variable que vale la pena ajustar.

Conclusiones

La elección entre 1536 y 3072 dimensiones no es la decisión principal al diseñar un pipeline RAG. Está mucho más abajo en la prioridad que la calidad de los datos de entrada, la estrategia de chunking y la presencia de recuperación híbrida con reranker.

Conclusiones clave

Tesis	Detalle
Mayor dimensionalidad ≠ mejor recuperación	Qwen3-Embedding-0.6B (1024 dimensiones, MTEB 70.70) supera a text-embedding-3-large (3072 dimensiones, MTEB 66.43). La calidad de la arquitectura y el entrenamiento importan más que el número de dimensiones.
Híbrido + reranker > cambio de modelo	Híbrido RRF + Cohere Rerank: Recall@5 = 0.816 vs 0.587 para denso puro (+39%). Este es un efecto mayor que el paso de small a large (~8.5% MTEB).
3072 dimensiones cuestan 2 veces más en almacenamiento y latencia	1M fragmentos: 6 GB RAM (1536) vs 12 GB (3072). Base de datos vectorial gestionada: ~2 veces un nivel superior. A escala > 1M fragmentos, este es un factor decisivo.
text-embedding-3-large ya no es el líder en 2026	El modelo no se ha actualizado desde enero de 2024. Gemini Embedding 2 (67.71 MTEB Retrieval), Qwen3-Embedding (Apache 2.0, autoalojado) son mejores alternativas.
Orden de prioridad de optimización de RAG	1. Calidad del texto de entrada → 2. Chunking → 3. Recuperación híbrida → 4. Reranker → 5. Selección/cambio del modelo de embedding.

Cómo se implementan estos principios en el producto

En AskYourDocs aplicamos un enfoque híbrido: recuperación híbrida (BM25 + denso), postprocesamiento de texto OCR antes de la indexación y enrutamiento de documentos complejos a Vision OCR. La elección del modelo de embedding y la dimensionalidad se seleccionan para el tipo específico de archivo, no como una constante fija, sino como un parámetro medido en los datos reales del cliente.

→ Más información sobre AskYourDocs

Serie de artículos sobre OCR, RAG y búsqueda de documentos:

OCR en sistemas de IA modernos: de documentos escaneados a RAG — visión general para público no técnico
Cómo el OCR afecta la calidad de los sistemas RAG: análisis técnico — dónde se rompe el pipeline y cómo arreglarlo
Visión RAG vs OCR: comparación de enfoques para el procesamiento de documentos — GPT-4o, Qwen2.5-VL, olmOCR, Docling

Reranker	Type	Feature	Suitable for
Cohere Rerank v4	Cloud API	Production-ready, high quality on document tasks; Hit Rate 0.932 + JinaAI in LlamaIndex benchmark	Cloud-based systems with API access
bge-reranker-large	Open-source, self-hosted	Strong cross-encoder; integrates with LangChain, LlamaIndex	Self-hosted, GDPR
Qwen3-Reranker-4B	Open-source, self-hosted	+2.6% recall compared to the 0.6B version; Apache 2.0	Self-hosted with GPU
Voyage AI Rerank	Cloud API	Competitive with Cohere; various options by cost	Cloud-based systems

Categorías