Google Cloud apuesta por la era de la inferencia con sus TPU Ironwood y las nuevas máquinas virtuales Axion

Google anunció la disponibilidad general de las TPU Ironwood para potenciar la inferencia en sus procesos.

7 minutos de lectura

Los modelos de vanguardia actuales, como Gemini de Google, Veo, Imagen y Claude de Anthropic, se entrenan y ejecutan en Unidades de Procesamiento de Tensores (TPU), ahora con TPU Ironwood.

Para muchas organizaciones, el enfoque está cambiando: de entrenar estos modelos a potenciar interacciones útiles y ágiles con ellos. La constante evolución de las arquitecturas de los modelos, el auge de los flujos de trabajo automatizados y el crecimiento casi exponencial de la demanda de computación definen esta nueva era de la inferencia . En particular, los flujos de trabajo automatizados, que requieren orquestación y una estrecha coordinación entre la computación de propósito general y la aceleración del aprendizaje automático, están creando nuevas oportunidades para el silicio personalizado y las arquitecturas de sistemas cooptimizadas verticalmente.

Y es que Google Cloud lleva tiempo preparándose para esta transición y anunciaron la disponibilidad de tres nuevos productos construidos sobre silicio personalizado que ofrecen un rendimiento excepcional, costes más bajos y nuevas capacidades para cargas de trabajo de inferencia y agentes:

TPU Ironwood, la TPU de séptima generación, que estará disponible para el público general en las próximas semanas. TPU Ironwood está diseñada específicamente para las cargas de trabajo más exigentes: desde el entrenamiento de modelos a gran escala y el aprendizaje por refuerzo (RL) complejo hasta la inferencia de IA de alto volumen y baja latencia y el servicio de modelos.
TPU Ironwood ofrece una mejora de rendimiento máximo de 10 veces con respecto a la TPU v5p y un rendimiento por chip más de 4 veces superior tanto para cargas de trabajo de entrenamiento como de inferencia en comparación con la TPU v6e (Trillium), lo que convierte a Ironwood en nuestro silicio personalizado más potente y eficiente energéticamente hasta la fecha.
Nuevas instancias Axion basadas en Arm. N4A, es la máquina virtual de la serie N más rentable hasta la fecha y ya está disponible en versión preliminar. N4A ofrece una relación precio-rendimiento hasta dos veces superior a la de las máquinas virtuales x86 de última generación comparables.

TPU Ironwood y estas nuevas instancias de Axion son solo los últimos ejemplos de una larga trayectoria de innovación en silicio personalizado en Google, que incluye TPU, unidades de codificación de vídeo (VCU) para YouTube y cinco generaciones de chips Tensor para dispositivos móviles.

En cada caso, Google Cloud desarrolló estos procesadores para impulsar avances en el rendimiento que solo son posibles mediante un diseño conjunto profundo a nivel de sistema, con investigación de modelos, desarrollo de software y hardware integrados.

Así fue como crearon la primera TPU hace diez años, lo que a su vez desbloqueó la invención del Transformer hace ocho años: la arquitectura que impulsa la mayor parte de la IA moderna. También ha influido en avances más recientes como nuestra arquitectura Titanium y la refrigeración líquida avanzada que hemos implementado a escala de gigavatios con un tiempo de actividad de aproximadamente el 99,999 % en toda la flota desde 2020.

LEER MAS Conoce WorkSpaces: Herramienta de AWS para trabajo en casa

TPU Ironwood inferencia

TPU Ironwood: El camino más rápido desde el entrenamiento de modelos hasta la inferencia a escala planetaria

La respuesta inicial a TPU Ironwood ha sido abrumadoramente entusiasta. Anthropic se siente atraída por las impresionantes mejoras en la relación precio-rendimiento que aceleran su transición desde el entrenamiento de modelos Claude masivos hasta su puesta a disposición de millones de usuarios.

De hecho, Anthropic planea acceder a hasta 1 millón de TPU .

“Nuestros clientes, desde empresas Fortune 500 hasta startups, confían en Claude para sus tareas más críticas. A medida que la demanda sigue creciendo exponencialmente, aumentamos nuestros recursos de computación para impulsar la investigación y el desarrollo de productos de IA. Las mejoras de Ironwood en el rendimiento de la inferencia y la escalabilidad del entrenamiento nos ayudarán a escalar de forma eficiente, manteniendo la velocidad y la fiabilidad que nuestros clientes esperan”, indicó James Bradbury, Director de Computación, Anthropic.

Por otra parte, TPU Ironwood está siendo utilizado por organizaciones de todos los tamaños y en todos los sectores.

“Nuestra misión en Lightricks es definir la vanguardia de la creatividad abierta, lo que exige una infraestructura de IA que elimine la fricción y los costos a gran escala. Nos basamos en las TPU de Google Cloud y su enorme dominio ICI para lograr la revolucionaria eficiencia de entrenamiento de LTX-2, nuestro modelo generativo multimodal de código abierto líder. Ahora, al entrar en la era de la inferencia, nuestras primeras pruebas nos generan un gran entusiasmo por Ironwood. Creemos que Ironwood nos permitirá crear imágenes y videos con mayor precisión, fidelidad y matices para nuestros millones de clientes en todo el mundo”, agregó Yoav HaCohen, PhD, Director de Investigación Fundamental en IA Generativa, Lightricks.

El diseño a nivel de sistema maximiza el rendimiento de la inferencia, la confiabilidad y el costo.

Las TPU son un componente clave de AI Hypercomputer, el sistema integrado de supercomputación que combina capacidad de cómputo, redes, almacenamiento y software para mejorar el rendimiento y la eficiencia del sistema. A nivel macro, según un informe reciente de IDC, los clientes de AI Hypercomputer lograron, en promedio, un retorno de la inversión del 353 % en tres años, una reducción del 28 % en los costos de TI y una mayor eficiencia de sus equipos de TI en un 55 %.

LEER MAS Opinión: Buscar oportunidades con la Transformación Digital

Las TPU de Ironwood ayudarán a los clientes a superar los límites de escalabilidad y eficiencia. Al implementar las TPU, el sistema conecta cada chip individual con los demás, creando un módulo, lo que permite que las TPU interconectadas funcionen como una sola unidad.

Con TPU Ironwood, la plataforma de Google puede escalar hasta 9216 chips en un supermódulo conectado mediante la innovadora red de interconexión entre chips (ICI) a 9,6 Tb/s. Esta conectividad masiva permite que miles de chips se comuniquen rápidamente entre sí y accedan a la asombrosa cantidad de 1,77 petabytes de memoria compartida de alto ancho de banda (HBM), superando los cuellos de botella de datos incluso para los modelos más exigentes.

A esa escala, los servicios exigen disponibilidad ininterrumpida. Por eso, Google ofrece una tecnología de conmutación de circuitos ópticos (OCS) actúa como una estructura dinámica y reconfigurable, redirigiendo instantáneamente el tráfico para evitar interrupciones y restaurar la carga de trabajo mientras sus servicios siguen funcionando. Y cuando necesita más potencia, Ironwood escala entre pods en clústeres de cientos de miles de TPU.

TPU Ironwood inferencia

La ventaja de la hipercomputadora de IA: Hardware y software diseñados conjuntamente para obtener resultados más rápidos y eficientes.

Sobre este hardware se encuentra una capa de software codiseñada, cuyo objetivo es maximizar la enorme potencia de procesamiento y memoria de Ironwood, y facilitar su uso a lo largo de todo el ciclo de vida de la IA.

Para mejorar la eficiencia y las operaciones de las flotas, Google anunció que los clientes de TPU ahora pueden beneficiarse de las capacidades de Cluster Director en Google Kubernetes Engine. Esto incluye mantenimiento avanzado y conocimiento de la topología para una programación inteligente y clústeres de alta resiliencia.
Para el preentrenamiento y el postentrenamiento, también disponen de nuevas mejoras en MaxText , un marco LLM de código abierto y alto rendimiento, para facilitar la implementación de técnicas de optimización de entrenamiento y aprendizaje por refuerzo, como el ajuste fino supervisado (SFT) y la optimización de políticas relativas de grupo (GRPO).
Ahora bien, para la inferencia, anunciaron una compatibilidad mejorada con TPU en vLLM , lo que permite a los desarrolladores alternar entre GPU y TPU, o ejecutar ambas, con solo unos pocos cambios de configuración menores, y GKE Inference Gateway, que realiza un equilibrio de carga inteligente entre los servidores TPU para reducir la latencia del tiempo hasta el primer token (TTFT) hasta en un 96 % y los costos de servicio hasta en un 30 %.

Axion: Redefiniendo la computación de propósito general

El desarrollo y la implementación de aplicaciones modernas requieren tanto aceleradores altamente especializados como una capacidad de cómputo de propósito general potente y eficiente.

LEER MAS Se presenta Nespresso x Fusalp: Mundo lleno de estilo y sabores inolvidables

Esta fue la visión para Axion, las nuevas CPU personalizadas basadas en Arm Neoverse, diseñadas para ofrecer un rendimiento, una rentabilidad y una eficiencia energética excepcionales para las cargas de trabajo cotidianas.

En esta línea ampliaron su cartera de productos Axion con:

N4A ( vista previa ), segunda máquina virtual Axion de propósito general, es ideal para microservicios, aplicaciones en contenedores, bases de datos de código abierto, procesamiento por lotes, análisis de datos, entornos de desarrollo, experimentación, preparación de datos y tareas de servidor web que hacen posibles las aplicaciones de IA.
C4A Metal (próximamente en versión preliminar), primera instancia bare-metal basada en Arm, proporciona servidores físicos dedicados para cargas de trabajo especializadas como el desarrollo de Android, sistemas para automóviles, software con estrictos requisitos de licencia, entornos de pruebas a gran escala o la ejecución de simulaciones complejas. Obtenga más información sobre C4A Metal aquí .

Instancia basada en Axion	Optimizado para	Características clave
N4A (vista previa)	Relación calidad-precio y flexibilidad	Hasta 64 vCPU, 512 GB de memoria DDR5 y redes de 50 Gbps, con soporte para tipos de máquinas personalizados, almacenamiento Hyperdisk Balanced y Throughput.
C4A Metal (próximamente en adelanto)	Cargas de trabajo especializadas, como hipervisores y desarrollo nativo de Arm	Hasta 96 vCPU, 768 GB de memoria DDR5, almacenamiento Hyperdisk y hasta 100 Gbps de conexión de red.
C4A	Rendimiento consistentemente alto	Hasta 72 vCPU, 576 GB de memoria DDR5, 100 Gbps de red Tier 1, SSD Titanium con hasta 6 TB de capacidad local, controles de mantenimiento avanzados y compatibilidad con Hyperdisk Balanced, Throughput y Extreme.

Finalmente la eficiencia inherente de Axion también lo convierte en una valiosa opción para los flujos de trabajo modernos de IA.

Mientras que aceleradores especializados como Ironwood se encargan de la compleja tarea de servir modelos, Axion destaca en la infraestructura operativa: admite la preparación e ingesta de grandes volúmenes de datos y la ejecución de servidores de aplicaciones que alojan sus aplicaciones inteligentes. Axion ya está generando un impacto positivo en los clientes.

Puedes revisar más información relativa a noticias de tecnología | Instagram | YouTube | Suscríbete a nuestro Newsletter | Patrocina Bytes and Bits

About The Author

Claus Narr Rubio

Periodista radicado en Chile. Amante de la tecnología, aplicaciones móviles y sistemas operativos. No me considero fan de ninguno pero me gusta probar tecnologías y escribir de ellos. Fundador de Zoom Tecnológico Chile.

See author's posts