Red Hat, anunció en el Red Hat Summit 2025, el lanzamiento de llm-d, un nuevo proyecto de código abierto que responde a la necesidad más crucial del futuro de la IA generativa (IA gen): la inferencia a escala.
Y es que la firma de tecnología está aprovechando tecnologías de inferencia innovadoras para la IA gen a escala, mientras que llm-d se basa en una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y enrutamiento de red inteligente compatible con IA, lo que permite nubes de inferencia de modelos de lenguaje (LLM) robustas y de gran tamaño para cumplir con los objetivos de nivel de servicio (SLO) de producción más exigentes.
“Al aprovechar la innovación de vLLM y las capacidades comprobadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador, en cualquier entorno de nube y ayudando a hacer realidad una visión de potencial ilimitado de IA”, indica Brian Stevens, vicepresidente sénior y director de tecnología de inteligencia artificial de Red Hat.
Comunidad y proyecto llm-d
Red Hat y sus socios del sector afrontan este desafío directamente con llm-d, un proyecto visionario que potencia el poder de vLLM para superar las limitaciones de un solo servidor y habilitar la producción a escala para la inferencia de IA.
Utilizando la probada capacidad de orquestación de Kubernetes, llm-d integra capacidades avanzadas de inferencia en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, a la vez que implementa técnicas innovadoras para maximizar la eficiencia y minimizar drásticamente el coste total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.
llm-d ofrece un potente conjunto de innovaciones, destacadas por:
- vLLM , que se ha convertido rápidamente en el servidor de inferencia estándar de facto de código abierto, que proporciona soporte de modelo de día 0 para modelos de frontera emergentes y soporte para una amplia lista de aceleradores, que ahora incluyen unidades de procesador tensor (TPU) de Google Cloud.
- Desagregación de prellenado y decodificación para separar las fases de contexto de entrada y generación de tokens de IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
- La descarga de caché KV (clave-valor) , basada en LMCache, cambia la carga de memoria de la caché KV de la memoria de la GPU a un almacenamiento estándar más abundante y rentable, como la memoria de la CPU o el almacenamiento de red.
- Clústeres y controladores impulsados por Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, al tiempo que se mantiene el rendimiento y una menor latencia.
- Enrutamiento de red consciente de la IA para programar solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés activos de cálculos de inferencia anteriores.
- API de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).
CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores del proyecto llm-d, junto con AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI como socios, lo que subraya la estrecha colaboración de la industria para diseñar el futuro de los servicios LLM a gran escala.
Puedes revisar más información relativa a noticias de tecnología | Instagram | YouTube
