DeepSeek V3.2 Exp: textos largos más rápidos y baratos

Un nuevo modelo desplaza el foco hacia la eficiencia

DeepSeek presenta con V3.2 Exp un modelo de lenguaje experimental diseñado expresamente para textos largos y un cómputo más eficiente. En el centro está un manejo distinto de la atención, que pretende reducir el coste de cómputo y la memoria sin empeorar de forma apreciable la calidad de los resultados.

De la atención exhaustiva a la atención selectiva

Los modelos transformer clásicos trabajan con atención autorreferencial: cada token evalúa su relación con todos los tokens anteriores. Este principio mejoró notablemente las traducciones y muchas otras tareas porque permite tener en cuenta las relaciones en todo el contexto. La contrapartida es un coste de cómputo que crece con fuerza a medida que el texto se alarga.
La idea de la atención dispersa interviene precisamente aquí. En lugar de comparar cada palabra con todas las demás, el modelo se concentra en un conjunto de posiciones relevantes. Aprende a fijarse solo en las partes realmente importantes del contexto e ignorar muchas otras. Así se reduce el número de cálculos necesarios mientras se preserva la información central.
Más allá de los detalles técnicos, la idea es simple: el modelo intenta calcular menos sin entender menos.

Enfoques de investigación llegan a escala productiva

Los patrones de atención local y dispersa se discuten desde poco después de la introducción de la arquitectura transformer. Los trabajos de investigación señalaron pronto que con ello se podía reducir la complejidad teórica. En la práctica, sin embargo, su uso quedaba a menudo restringido a modelos pequeños o aplicaciones especializadas.
DeepSeek da ahora un paso más y prueba estos enfoques en un modelo con varios cientos de miles de millones de parámetros. La nueva versión utiliza un patrón de atención disperso para contextos largos y valida el efecto en benchmarks realistas. Así se prueba a escala industrial un concepto que hasta ahora se encontraba sobre todo en publicaciones científicas.

Combinación de atención dispersa y lineal

Los patrones dispersos tienen la ventaja de centrar el foco en zonas seleccionadas. Al mismo tiempo existe el riesgo de perder de vista detalles importantes por la reducción. DeepSeek trabaja por ello con una combinación de atención dispersa y métodos lineales complementarios.
La atención lineal escala mejor con la longitud del contexto y sirve para compensar omisiones. Combinados, ambos enfoques permiten procesar entradas largas con mayor rapidez sin que el modelo pierda sensibilidad ante señales inesperadas pero relevantes. El montaje experimental sirve precisamente para entender mejor ese equilibrio entre velocidad y precisión.

El cómputo cae con notable rendimiento similar

Las evaluaciones internas indican que la nueva versión mantiene en muchos benchmarks estándar un rendimiento cercano al de su predecesora. Al mismo tiempo, el coste de cómputo y el consumo de memoria se reducen de forma apreciable. En textos largos la velocidad de inferencia debería multiplicarse por dos o tres, mientras que el consumo de memoria desciende en torno a un tercio.
A grandes rasgos, el montaje se acerca a una situación en la que gran parte de las capacidades puede ofrecerse con solo una fracción de la potencia de cálculo originalmente requerida. Para los operadores significa que las mismas tareas pueden resolverse con bastantes menos recursos de GPU.

Modelo de precios orientado a un uso más amplio

En paralelo a la publicación técnica, DeepSeek ajusta también los precios del acceso por API. El coste por millón de tokens en la salida sigue bajando y se sitúa hoy claramente por debajo de muchos proveedores internacionales. Para los equipos que generan respuestas largas con regularidad, baja así la barrera de entrada.
En particular, las pequeñas empresas y los profesionales independientes pueden beneficiarse de esta estructura. Los escenarios en los que hasta ahora, por motivos de coste, se utilizaban modelos más pequeños o contextos muy reducidos pueden reevaluarse con la nueva versión. Cuanto menores son los gastos recurrentes, más merece la pena pasarse a modelos más potentes con ventanas de contexto amplias.

Alivio para recursos de cómputo escasos

Los modelos más baratos y rápidos tienen también una dimensión de infraestructura. Si baja el cómputo necesario por consulta, disminuye la presión sobre el hardware limitado como las GPU. En un entorno donde los chips de alto rendimiento son escasos y caros, cualquier optimización a nivel de token cuenta.
Menos tiempo de cómputo por consulta permite además distribuir de otro modo las capacidades existentes. Los proveedores pueden atender más solicitudes en paralelo u operar servicios adicionales en la misma infraestructura. A escala nacional, una mejor utilización de los centros de datos existentes contribuye a aliviar algo los cuellos de botella en la expansión de la infraestructura de IA.

Nuevos márgenes para contextos largos

Las aplicaciones que trabajan intensivamente con documentos largos se benefician especialmente de las optimizaciones descritas. Esto incluye, entre otros, el análisis de documentación técnica, el examen de textos legales, el procesamiento de publicaciones científicas o la construcción de sistemas internos de conocimiento con archivos extensos.
Cuando los contextos largos pueden procesarse con mayor rapidez y menor coste, los sistemas pueden actualizarse con más frecuencia, incorporar volúmenes mayores de información o introducir pasos de verificación adicionales en los flujos de trabajo. El foco se desplaza así de la pregunta de si una configuración grande merece la pena al diseño de casos de uso con sentido.

La eficiencia como métrica propia junto al tamaño del modelo

La publicación del modelo experimental subraya una tendencia más amplia: junto al tamaño y a las puntuaciones en benchmarks, la eficiencia gana protagonismo como métrica autónoma. Ya no basta con presentar un modelo con alta puntuación en pruebas seleccionadas si en el uso práctico resulta demasiado caro o lento.
Enfoques como la atención dispersa y lineal muestran cómo decisiones técnicas de detalle pueden estrechar la distancia entre la investigación y el uso productivo. Cuanto mejor se logre adelgazar los modelos existentes, más espacio queda para nuevos servicios, modelos de precios y modelos de negocio en torno a los grandes modelos de lenguaje.

DeepSeek hace los textos largos más rápidos y económicos