Red Hat, anunció en el Red Hat Summit 2025, el lanzamiento de llm-d, un nuevo proyecto de código abierto que responde a la necesidad más crucial del futuro de la IA generativa (IA gen): la inferencia a escala.

Y es que la firma de tecnología está aprovechando tecnologías de inferencia innovadoras para la IA gen a escala, mientras que llm-d se basa en una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y enrutamiento de red inteligente compatible con IA, lo que permite nubes de inferencia de modelos de lenguaje (LLM) robustas y de gran tamaño para cumplir con los objetivos de nivel de servicio (SLO) de producción más exigentes.

«Al aprovechar la innovación de vLLM y las capacidades comprobadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador, en cualquier entorno de nube y ayudando a hacer realidad una visión de potencial ilimitado de IA», indica Brian Stevens, vicepresidente sénior y director de tecnología de inteligencia artificial de Red Hat.

Comunidad y proyecto llm-d

proyecto llm-d

Red Hat y sus socios del sector afrontan este desafío directamente con llm-d, un proyecto visionario que potencia el poder de vLLM para superar las limitaciones de un solo servidor y habilitar la producción a escala para la inferencia de IA.

Utilizando la probada capacidad de orquestación de Kubernetes, llm-d integra capacidades avanzadas de inferencia en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, a la vez que implementa técnicas innovadoras para maximizar la eficiencia y minimizar drásticamente el coste total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.

LEER MAS Red Hat anuncia la adquisición de Chatterbox Labs en nuevo paso a potenciar la IA

llm-d ofrece un potente conjunto de innovaciones, destacadas por:

vLLM , que se ha convertido rápidamente en el servidor de inferencia estándar de facto de código abierto, que proporciona soporte de modelo de día 0 para modelos de frontera emergentes y soporte para una amplia lista de aceleradores, que ahora incluyen unidades de procesador tensor (TPU) de Google Cloud.
Desagregación de prellenado y decodificación para separar las fases de contexto de entrada y generación de tokens de IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
La descarga de caché KV (clave-valor) , basada en LMCache, cambia la carga de memoria de la caché KV de la memoria de la GPU a un almacenamiento estándar más abundante y rentable, como la memoria de la CPU o el almacenamiento de red.
Clústeres y controladores impulsados por Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, al tiempo que se mantiene el rendimiento y una menor latencia.
Enrutamiento de red consciente de la IA para programar solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés activos de cálculos de inferencia anteriores.
API de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores del proyecto llm-d, junto con AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI como socios, lo que subraya la estrecha colaboración de la industria para diseñar el futuro de los servicios LLM a gran escala.

LEER MAS El código abierto reduce la brecha de habilidades y acelera el desarrollo de aplicaciones en la era de la IA

Puedes revisar más información relativa a noticias de tecnología | Instagram | YouTube

About The Author

Claus Narr Rubio

Periodista radicado en Chile. Amante de la tecnología, aplicaciones móviles y sistemas operativos. No me considero fan de ninguno pero me gusta probar tecnologías y escribir de ellos. Fundador de Zoom Tecnológico Chile.

See author's posts