Red Hat lanza la comunidad llm-d impulsando la inferencia de inteligencia artificial

Red Hat, anunció en el Red Hat Summit 2025, el lanzamiento de llm-d, un nuevo proyecto de código abierto que responde a la necesidad más crucial del futuro de la IA generativa (IA gen): la inferencia a escala.

Y es que la firma de tecnología está aprovechando tecnologías de inferencia innovadoras para la IA gen a escala, mientras que llm-d se basa en una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y enrutamiento de red inteligente compatible con IA, lo que permite nubes de inferencia de modelos de lenguaje (LLM) robustas y de gran tamaño para cumplir con los objetivos de nivel de servicio (SLO) de producción más exigentes.

«Al aprovechar la innovación de vLLM y las capacidades comprobadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador, en cualquier entorno de nube y ayudando a hacer realidad una visión de potencial ilimitado de IA», indica Brian Stevens, vicepresidente sénior y director de tecnología de inteligencia artificial de Red Hat.

Comunidad y proyecto llm-d

proyecto llm-d

Red Hat y sus socios del sector afrontan este desafío directamente con llm-d, un proyecto visionario que potencia el poder de vLLM para superar las limitaciones de un solo servidor y habilitar la producción a escala para la inferencia de IA.

Utilizando la probada capacidad de orquestación de Kubernetes, llm-d integra capacidades avanzadas de inferencia en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, a la vez que implementa técnicas innovadoras para maximizar la eficiencia y minimizar drásticamente el coste total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.

LEER MAS  ¿Puede Chile clasificar al Mundial?

llm-d ofrece un potente conjunto de innovaciones, destacadas por:

  • vLLM , que se ha convertido rápidamente en el servidor de inferencia estándar de facto de código abierto, que proporciona soporte de modelo de día 0 para modelos de frontera emergentes y soporte para una amplia lista de aceleradores, que ahora incluyen unidades de procesador tensor (TPU) de Google Cloud.
  • Desagregación de prellenado y decodificación para separar las fases de contexto de entrada y generación de tokens de IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
  • La descarga de caché KV (clave-valor) , basada en LMCache, cambia la carga de memoria de la caché KV de la memoria de la GPU a un almacenamiento estándar más abundante y rentable, como la memoria de la CPU o el almacenamiento de red.
  • Clústeres y controladores impulsados ​​por Kubernetes  para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, al tiempo que se mantiene el rendimiento y una menor latencia.
  • Enrutamiento de red consciente de la IA para programar solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés activos de cálculos de inferencia anteriores.
  • API de comunicación de alto rendimiento  para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores del proyecto llm-d, junto con AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI como socios, lo que subraya la estrecha colaboración de la industria para diseñar el futuro de los servicios LLM a gran escala.

LEER MAS  Android Wear 2.0: Todas las novedades y sus características

Puedes revisar más información relativa a noticias de tecnología | Instagram | YouTube

About The Author

Últimas Noticias

La tecnología de Lenovo impulsa las operaciones de la Copa Mundial de la FIFA 2026 y refuerza la retransmisión basada en la IA

La infraestructura de IA casi en tiempo real de Lenovo permite la transmisión de IPTV, el control operativo y experiencias en la Copa Mundial de la FIFA 2026.

Guía completa de Galaxy AI para usuarios Samsung

Descubre todos los secretos y trucos de Galaxy AI de Samsung.

eufy X10 Pro Omni: la apuesta de Anker Innovations para competir en la nueva generación de limpieza inteligente

eufy X10 Pro Omni, una aspiradora robot que combina inteligencia artificial, automatización y alto rendimiento

Así es el ecosistema tecnológico que acompaña la vida conectada

Anker apuesta por combinar innovación, facilidad de uso, tecnología avanzada y vida conectada para resolver necesidades cotidianas.
BigBuda
ESET Security Day 2026
Agencia BigBuda
spot_img
Claus Narr Rubio
Claus Narr Rubiohttps://www.zoomtecnologico.com
Periodista radicado en Chile. Amante de la tecnología, aplicaciones móviles y sistemas operativos. No me considero fan de ninguno pero me gusta probar tecnologías y escribir de ellos. Fundador de Zoom Tecnológico Chile.
spot_imgspot_img

IBM y Red Hat comprometen 5.000 millones de dólares para redefinir el futuro del open source

Project Lightwell establece un centro de intercambio de información empresarial de confianza para software open source con un nuevo modelo impulsado por la IA.

Red Hat consolida a Ansible Automation Platform como la capa de ejecución confiable para operaciones de TI

Ansible Automation Platform sincroniza el flujo de trabajo determinista y los impulsados por IA para convertir los conocimientos inteligentes en una realidad.

ARSAT reconocida mundialmente por Red Hat en su Summit 2026

ARSAT, empresa de telecomunicaciones argentina, ha sido destacada como una de las cuatro ganadoras mundiales del Innovation Awards 2026 de Red Hat.