Nuevo módulo genómico amplía el enfoque de Engram de DeepSeek
DeepSeek ha demostrado con Engram que una parte del conocimiento general puede salir de la cabeza del modelo y gestionarse en un diccionario ligero de referencias.
Del modelo de lenguaje a la IA genómica
Pocas semanas después de la publicación de Engram un equipo chino retoma esta idea en el campo de la genómica. Su módulo Gengram introduce una memoria externa similar en modelos que trabajan con secuencias de ADN.
El núcleo sigue siendo un gran modelo genómico. Gengram añade una fina capa de conocimiento especializado de modo que el modelo principal pueda concentrarse más en contexto e interpretación.
Por qué los modelos genómicos clásicos se atascan
Muchos modelos actuales procesan el ADN a nivel de base individual. Ven largas cadenas de A T C y G y deben reconstruir por sí mismos motivos típicos como señales de inicio de genes o puntos de empalme.
El enfoque es preciso pero costoso. En secuencias muy extensas los modelos pierden fácilmente la visión de conjunto e invierten mucho cómputo en recomponer una y otra vez patrones ya conocidos.
Para las personas esto resulta poco natural. Al leer una palabra complicada ayuda recordar bloques conocidos. Sin ese conocimiento previo cada palabra tendría que analizarse desde cero.
Gengram como diccionario biológico
Gengram interviene precisamente aquí. El módulo construye una tabla con fragmentos cortos de ADN los llamados k mers que abarcan combinaciones de una a seis bases como ATG o CGTA.
Muchos de estos fragmentos ya se conocen como unidades funcionales por ejemplo sitios de unión de factores de transcripción. Cada fragmento recibe su propio vector en memoria que actúa como entrada de un diccionario biológico.
Cuando aparece un motivo de este tipo el modelo puede consultar directamente la entrada correspondiente sin reconstruir toda la estructura a partir de bases sueltas.
Como el alfabeto del ADN es muy reducido este diccionario permanece compacto. Gengram solo añade unos veinte millones de parámetros a un modelo con miles de millones de parámetros.
Conmutación dinámica en lugar de funcionamiento permanente
Un aspecto clave es que Gengram no está activo de forma continua. Un mecanismo de compuerta decide según el contexto cuándo merece la pena mirar el diccionario.
En regiones con alta densidad funcional como exones promotores o zonas ricas en motivos el acceso se activa con más frecuencia. En tramos largos poco informativos el sistema se apoya más en la representación general del modelo.
Así se reparte el trabajo. El conocimiento estático sobre motivos típicos reside en el diccionario mientras que el modelo central se encarga de interpretar y combinar esos bloques.
Mejoras medibles en tareas biológicas
Pese a su reducido tamaño Gengram aporta ganancias claras en tareas genómicas centrales. En las publicaciones aumentan de forma notable las métricas de calidad tanto para la predicción de puntos de empalme como para ciertos marcadores epigenéticos.
Igual de importante es la relación entre esfuerzo y beneficio. En comparaciones con otros modelos genómicos un sistema con Gengram alcanza calidad similar o superior aunque utilice muchos menos datos de entrenamiento y parámetros activados.
La eficiencia de datos y cómputo mejora de forma visible. Para muchos laboratorios esto es decisivo porque los grandes modelos genómicos chocan rápidamente con límites prácticos.
Adaptable a distintas arquitecturas de modelo
Gengram no se limita a redes densas clásicas. El módulo también puede integrarse en arquitecturas Mixture of Experts y actúa allí además como estabilizador.
Al asumir parte del reconocimiento local de patrones el diccionario descarga a los expertos de ruido de alta frecuencia. La carga se reparte mejor y el entrenamiento converge con mayor rapidez.
De este modo el módulo se convierte en un bloque general que puede acoplarse a distintos tipos de modelo sin rediseñar la arquitectura básica.
Cuando el modelo redescubre la estructura del ADN
Un resultado experimental llama especialmente la atención. Al probar distintas anchuras de ventana para una etapa de agregación local una longitud de veintiuna bases ofrece el mejor rendimiento.
La cifra no es casual. La doble hélice de ADN de tipo B completa un giro aproximadamente cada 10,5 bases de modo que veintiuna bases corresponden a dos vueltas completas. Posiciones separadas por 21 bases vuelven a ocupar lados similares de la hélice.
El modelo elige así un tamaño de ventana que encaja con la geometría física de la molécula pese a no recibir información explícita sobre estructura. Parece haber aprendido por sí mismo parte de la lógica espacial de la secuencia.
Posible plano para futuras IA científicas
Más allá del caso concreto Gengram apunta a una arquitectura futura para modelos de IA científicos. En lugar de ampliar indefinidamente redes y datos un núcleo general podría complementarse con varios módulos especializados pequeños.
En genómica Gengram ocupa ese papel. En otras disciplinas podrían surgir diccionarios análogos para materiales química o física que ofrezcan conocimiento estructurado como recurso externo.
La idea central se mantiene. El modelo universal se centra en patrones complejos y razonamiento mientras que el conocimiento de dominio compacto se organiza en módulos adicionales bien definidos. Gengram demuestra que este enfoque puede funcionar en la práctica y no es solo un concepto teórico de arquitectura.

