AMD ha anunciado las últimas soluciones de aceleración y redes que impulsarán la próxima generación de infraestructura de IA a escala: los aceleradores AMD Instinct MI325X, la NIC AMD Pensando Pollara 400 y la DPU AMD Pensando Salina.
Es así que los aceleradores AMD Instinct MI325X establecen un nuevo estándar de rendimiento para los modelos de IA generativa y los centros de datos.
Basados en la arquitectura AMD CDNA 3, los aceleradores AMD Instinct MI325X están diseñados para ofrecer un rendimiento y una eficiencia excepcionales en tareas de IA exigentes que abarcan el entrenamiento, el ajuste fino y la inferencia de modelos fundacionales. Juntos, estos productos permiten a los clientes y socios de AMD crear soluciones de IA altamente eficientes y optimizadas a nivel de sistema, bastidor y centro de datos.
“AMD continúa cumpliendo con su hoja de ruta, ofreciendo a los clientes el rendimiento que necesitan y la capacidad de elección que desean para llevar al mercado infraestructuras de IA a escala con mayor rapidez”, afirmó Forrest Norrod, vicepresidente ejecutivo y director general del Grupo Empresarial de Soluciones para Centros de Datos de AMD. “Con los nuevos aceleradores AMD Instinct, los procesadores EPYC y los motores de red AMD Pensando, el crecimiento continuo de nuestro ecosistema de software abierto y la capacidad de aunarlo todo en una infraestructura de IA optimizada, AMD subraya la experiencia fundamental para construir e implementar soluciones de IA de talla mundial”.
AMD Instinct MI325X amplía el liderazgo en rendimiento de IA
Los aceleradores AMD Instinct MI325X ofrecen una capacidad de memoria y un ancho de banda líderes en el sector, con 256 GB de HBM3E que admiten 6,0 TB/s, lo que supone 1,8 veces más capacidad y 1,3 veces más ancho de banda que el H2001. El AMD Instinct MI325X también ofrece un rendimiento de cálculo teórico máximo en FP16 y FP8 1,3 veces superior al del H200.
Esta memoria y capacidad de cálculo líderes pueden proporcionar hasta 1,3 veces más rendimiento de inferencia en Mistral 7B a FP16, 1,2 veces más rendimiento de inferencia en Llama 3.1 70B a FP8 y 1,4 veces más rendimiento de inferencia en Mixtral 8x7B a FP16 que el H200.
Los aceleradores AMD Instinct MI325X están actualmente en camino de comenzar su producción en el cuarto trimestre de 2024 y se espera que estén disponibles en sistemas de una amplia gama de proveedores de plataformas, como Dell Technologies, Eviden, Gigabyte, Hewlett Packard Enterprise, Lenovo, Supermicro y otros, a partir del primer trimestre de 2025.
Continuando con su compromiso con una cadencia anual de hoja de ruta, AMD presentó un avance de los aceleradores AMD Instinct Serie MI350 de próxima generación. Basados en la arquitectura AMD CDNA 4, los aceleradores AMD Instinct Serie MI350 están diseñados para ofrecer una mejora del 35% en el rendimiento de inferencia en comparación con los aceleradores basados en AMD CDNA 3.
La Serie AMD Instinct MI325X continuará impulsando el liderazgo en capacidad de memoria con hasta 288 GB de memoria HBM3E por acelerador. Los aceleradores AMD Instinct Serie MI350 están en camino de estar disponibles durante la segunda mitad de 2025.
Redes de IA de próxima generación de AMD
AMD está aprovechando la DPU programable más implementada para hiperescaladores para impulsar las redes de IA de próxima generación. Divididas en dos partes: el frontend, que entrega datos e información a un clúster de IA, y el backend, que gestiona la transferencia de datos entre aceleradores y clústeres, las redes de IA son fundamentales para garantizar que las CPU y los aceleradores se utilicen de forma eficiente en la infraestructura de IA.
Para gestionar eficazmente estas dos redes e impulsar un alto rendimiento, escalabilidad y eficiencia en todo el sistema, AMD presentó la DPU AMD Pensando Salina para el frontend y la AMD Pensando Pollara 400, la primera NIC del sector preparada para el Ultra Ethernet Consortium (UEC), para el backend.
La AMD Pensando Salina es la tercera generación de la DPU más potente y programable del mundo, que ofrece hasta el doble de rendimiento, ancho de banda y escala en comparación con la generación anterior. Con soporte para un rendimiento de 400G para velocidades de transferencia de datos rápidas, la DPU AMD Pensando Salina es un componente fundamental en los clústeres de red frontend de IA, optimizando el rendimiento, la eficiencia, la seguridad y la escalabilidad para aplicaciones de IA basadas en datos.
La AMD Pensando Pollara 400, impulsada por el motor programable AMD P4, es la primera NIC del sector preparada para UEC. Admite el software RDMA de próxima generación y está respaldada por un ecosistema abierto de redes. La AMD Pensando Pollara 400 es fundamental para proporcionar un rendimiento, una escalabilidad y una eficiencia líderes en la comunicación de acelerador a acelerador en las redes backend.
Tanto la DPU AMD Pensando Salina como la AMD Pensando Pollara 400 se están mosstrando a los clientes en el cuarto trimestre de 2024 y están en camino de estar disponibles en la primera mitad de 2025.
El Software de IA de AMD ofrece nuevas capacidades para la IA Generativa
AMD continúa invirtiendo en impulsar las capacidades de software y el ecosistema abierto para ofrecer nuevas y potentes funciones y capacidades en el software abierto AMD ROCm.
Dentro de la comunidad de software abierto, AMD está impulsando el soporte para los motores de cálculo de AMD en los marcos, bibliotecas y modelos de IA más utilizados, como PyTorch, Triton, Hugging Face y muchos otros. Este trabajo se traduce en un rendimiento y un soporte listos para usar con los aceleradores AMD Instinct en modelos populares de IA generativa como Stable Diffusion 3, Meta Llama 3, 3.1 y 3.2 y más de un millón de modelos en Hugging Face.
Más allá de la comunidad, AMD continúa avanzando en su plataforma de software abierto ROCm, aportando las últimas funciones para dar soporte al entrenamiento y la inferencia líderes en cargas de trabajo de IA generativa. ROCm 6.2 incluye ahora soporte para funciones críticas de IA como el tipo de datos FP8, Flash Attention 3, Kernel Fusion y mucho más. Con estas nuevas incorporaciones, ROCm 6.2, en comparación con ROCm 6.0, proporciona una mejora del rendimiento de hasta 2,4 veces en la inferencia y de 1,8 veces en el entrenamiento para una variedad de LLM.