Representación abstracta de un modelo de IA que procesa textos largos de forma eficiente

DeepSeek acelera textos largos y reduce costes

Nuevo modelo orientado a la eficiencia

DeepSeek presenta con V3.2 Exp un modelo de lenguaje experimental pensado para manejar textos largos con menos recursos. En el centro del enfoque está una forma distinta de gestionar la atención, que reduce el esfuerzo de cálculo y el consumo de memoria sin que la calidad de las respuestas sichtbar leidet.

De una atención completa a una atención más dirigida

Los modelos Transformer clásicos utilizan atención auto-regresiva, en la que cada token evalúa su relación con todos los tokens anteriores. Este principio mejoró claramente traducciones y otras tareas, weil Zusammenhänge im gesamten Kontext berücksichtigt werden können. El coste es un esfuerzo de cálculo creciente a medida que el texto se alarga.
La idea de la atención dispersa aborda precisamente este punto. En lugar de comparar cada palabra con todas las demás, el modelo se concentra en un subconjunto de posiciones relevantes. Aprende a fijarse solo en las partes realmente importantes del contexto y a ignorar el resto. Así disminuye de forma notable el número de operaciones sin perder la información central.
Entre todos los detalles técnicos queda ein einfacher Kern: El objetivo es calcular menos, ohne weniger zu verstehen.

De la investigación a los despliegues a gran escala

Tanto los patrones locales como los esquemas de atención dispersa se discuten desde poco después de la introducción de la arquitectura Transformer. Diversos trabajos de investigación han mostrado que es posible reducir la complejidad teórica de esta forma. En la práctica, sin embargo, el uso seguía limitado en gran medida a modelos más pequeños o a aplicaciones muy específicas.
DeepSeek da ahora un paso adicional y prueba estos enfoques en un modelo con varios cientos de miles de millones de parámetros. La nueva versión utiliza un trazado de atención dispersa para contextos largos y comprueba su efecto en benchmarks realistas. De este modo, un concepto que hasta hace poco se veía sobre todo en artículos científicos se traslada al entorno de producción.

Combinación de atención dispersa y atención lineal

Los patrones dispersos tienen la ventaja de centrar el foco en áreas seleccionadas. Al mismo tiempo, existe el riesgo de que se pierdan detalles relevantes debido a la reducción. Por ello, DeepSeek combina la atención dispersa con métodos lineales complementarios.
La atención lineal escala mejor con la longitud del contexto y sirve para compensar posibles omisiones. En conjunto, ambos enfoques pueden ayudar a procesar entradas largas con mayor rapidez sin que el modelo pierda sensibilidad ante señales inesperadas pero importantes. El experimento busca encontrar un equilibrio entre velocidad y precisión.

Menos cómputo con una capacidad similar

Las evaluaciones internas apuntan a que la nueva versión mantiene un rendimiento cercano al modelo anterior en muchos benchmarks estándar. Al mismo tiempo, el esfuerzo de cálculo y el uso de memoria se reducen de forma notable. En textos largos, la velocidad de inferencia debería aumentar entre dos y tres veces, mientras que el consumo de memoria disminuye aproximadamente en un tercio.
En términos generales, el conjunto se aproxima a un escenario en el que gran parte de las capacidades se ofrecen con solo una fracción de los recursos necesarios anteriormente. Para los operadores significa que las mismas tareas pueden resolverse con muchas menos GPU.

Modelo de precios orientado a un uso más amplio

Junto con la parte técnica, DeepSeek ajusta también los precios del acceso por API. El coste por millón de tokens generados se reduce otra vez y queda claramente por debajo de las tarifas de muchos proveedores internacionales. Para equipos que generan respuestas largas de forma regular, la barrera de entrada baja de manera significativa.
En especial, las pequeñas empresas y personas individuales pueden beneficiarse de esta estructura. Escenarios que hasta ahora recurrían a modelos reducidos o a contextos muy recortados por motivos de coste pueden replantearse con la nueva versión. Cuanto menores sean los gastos continuos, más atractivo se vuelve el uso de modelos potentes con ventanas de contexto amplias.

Alivio para recursos informáticos limitados

Los modelos más rápidos y económicos también tienen una dimensión infraestructural. Si el esfuerzo de cálculo por petición baja, disminuye la presión sobre el hardware limitado, como las GPU. En un contexto en el que los chips de alto rendimiento son escasos y caros, cada optimización a nivel de token cuenta.
Menos tiempo de cálculo por petición permite además redistribuir la capacidad existente. Los proveedores pueden procesar más consultas en paralelo o ejecutar servicios adicionales sobre la misma infraestructura. A escala nacional, una utilización más eficiente de los centros de datos ayuda a mitigar los cuellos de botella en la expansión de la infraestructura de IA.

Nuevas posibilidades para contextos largos

Las aplicaciones que trabajan de forma intensiva con documentos extensos se benefician especialmente de las optimizaciones. Entre ellas se cuentan la evaluación de documentación técnica, el análisis de textos jurídicos, el procesamiento de publicaciones científicas o la construcción de sistemas internos de conocimiento con grandes archivos.
Si los contextos largos pueden procesarse de forma más rápida y económica, los sistemas pueden actualizarse con mayor frecuencia, integrar volúmenes de información más amplios o añadir pasos de comprobación adicionales en los flujos de trabajo. De este modo, la cuestión deja de ser si merece la pena una configuración grande y pasa a ser cómo diseñar casos de uso útiles.

Eficiencia como métrica independiente junto al tamaño del modelo

La publicación de este modelo experimental subraya una tendencia más amplia. Junto al tamaño y a los valores de benchmark, la eficiencia se consolida como métrica propia. Ya no basta con presentar un modelo con buena puntuación en conjuntos de prueba seleccionados si su uso resulta demasiado caro o lento en la práctica.
Enfoques como la atención dispersa y la atención lineal muestran cómo las decisiones técnicas de detalle pueden reducir la distancia entre investigación y despliegue. Cuanto mejor se consiga aligerar los modelos existentes, mayor será el margen para nuevos servicios, estructuras de precios y modelos de negocio en torno a los grandes modelos de lenguaje.


Publicado

en

por

Etiquetas: