Red Hat lanza la comunidad llm-d impulsando la inferencia de inteligencia artificial

Llm-d es un proyecto que tiene como objetivo hacer que la IA generativa de producción sea tan omnipresente como Linux.

Claus Narr Rubio

mayo 21, 2025

Red Hat, anunció en el Red Hat Summit 2025, el lanzamiento de llm-d, un nuevo proyecto de código abierto que responde a la necesidad más crucial del futuro de la IA generativa (IA gen): la inferencia a escala.

Y es que la firma de tecnología está aprovechando tecnologías de inferencia innovadoras para la IA gen a escala, mientras que llm-d se basa en una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y enrutamiento de red inteligente compatible con IA, lo que permite nubes de inferencia de modelos de lenguaje (LLM) robustas y de gran tamaño para cumplir con los objetivos de nivel de servicio (SLO) de producción más exigentes.

“Al aprovechar la innovación de vLLM y las capacidades comprobadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador, en cualquier entorno de nube y ayudando a hacer realidad una visión de potencial ilimitado de IA”, indica Brian Stevens, vicepresidente sénior y director de tecnología de inteligencia artificial de Red Hat.

Comunidad y proyecto llm-d

Red Hat y sus socios del sector afrontan este desafío directamente con llm-d, un proyecto visionario que potencia el poder de vLLM para superar las limitaciones de un solo servidor y habilitar la producción a escala para la inferencia de IA.

Utilizando la probada capacidad de orquestación de Kubernetes, llm-d integra capacidades avanzadas de inferencia en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, a la vez que implementa técnicas innovadoras para maximizar la eficiencia y minimizar drásticamente el coste total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.

LEER MAS Red Hat libera la IA generativa para cualquier modelo y acelerador en toda la nube híbrida con Red Hat AI Inference Server

llm-d ofrece un potente conjunto de innovaciones, destacadas por:

vLLM , que se ha convertido rápidamente en el servidor de inferencia estándar de facto de código abierto, que proporciona soporte de modelo de día 0 para modelos de frontera emergentes y soporte para una amplia lista de aceleradores, que ahora incluyen unidades de procesador tensor (TPU) de Google Cloud.
Desagregación de prellenado y decodificación para separar las fases de contexto de entrada y generación de tokens de IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
La descarga de caché KV (clave-valor) , basada en LMCache, cambia la carga de memoria de la caché KV de la memoria de la GPU a un almacenamiento estándar más abundante y rentable, como la memoria de la CPU o el almacenamiento de red.
Clústeres y controladores impulsados por Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, al tiempo que se mantiene el rendimiento y una menor latencia.
Enrutamiento de red consciente de la IA para programar solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés activos de cálculos de inferencia anteriores.
API de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores del proyecto llm-d, junto con AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI como socios, lo que subraya la estrecha colaboración de la industria para diseñar el futuro de los servicios LLM a gran escala.

LEER MAS ¿Y tu ya sabes como respaldar los datos del computador?

Puedes revisar más información relativa a noticias de tecnología | Instagram | YouTube