Los Trainium3 UltraServers ya están disponibles Permiten a los clientes entrenar e implementar modelos de IA más rápido y a menor costo

Puntos clave:

  • Los Trainium3 UltraServers ofrecen alto rendimiento para cargas de trabajo de IA con hasta 4.4 veces más rendimiento de computación, 4 veces mayor eficiencia energética y casi 4 veces más ancho de banda de memoria que los Trainium2 UltraServers, lo que permite un desarrollo de IA más rápido con menores costos operativos.
  • Los Trn3 UltraServers escalan hasta 144 chips Trainium3, ofreciendo hasta 362 FP8 PFLOPs con 4 veces menor latencia para entrenar modelos más grandes más rápido y servir inferencia a escala.
  • Clientes que incluyen Anthropic, Karakuri, Metagenomics, Neto.ai, Ricoh y Splashmusic están reduciendo los costos de entrenamiento e inferencia hasta en un 50% con Trainium, mientras que Decart está logrando una inferencia 4 veces más rápida para video generativo en tiempo real a la mitad del costo de las GPU, y Amazon Bedrock ya está sirviendo cargas de trabajo de producción en Trainium3.

 

A medida que los modelos de IA crecen en tamaño y complejidad, están llevando al límite la infraestructura de computación y redes, con clientes que buscan reducir los tiempos de entrenamiento y la latencia de inferencia: el tiempo entre cuando un sistema de IA recibe una entrada y genera la salida correspondiente. El entrenamiento de modelos de vanguardia ahora requiere inversiones en infraestructura que solo un puñado de organizaciones pueden permitirse, mientras que servir aplicaciones de IA a escala demanda recursos de computación que pueden salirse de control rápidamente. Incluso con las instancias aceleradas más rápidas disponibles hoy en día, simplemente aumentar el tamaño del clúster no logra un tiempo de entrenamiento más rápido debido a las restricciones de paralelización, mientras que las demandas de inferencia en tiempo real empujan las arquitecturas de instancia única más allá de sus capacidades. Para ayudar a los clientes a superar estas restricciones, hoy anunciamos la disponibilidad general de los Amazon EC2 Trn3 UltraServers. Impulsados por el nuevo chip Trainium3 construido con tecnología de 3nm, los Trn3 UltraServers permiten a organizaciones de todos los tamaños entrenar modelos de IA más grandes más rápido y servir a más usuarios a menor costo, democratizando el acceso al poder de computación necesario para los proyectos de IA más ambiciosos del mañana.

 

Trainium3 UltraServers: Diseñados específicamente para cargas de trabajo de IA de próxima generación

Los Trn3 UltraServers empaquetan hasta 144 chips Trainium3 en un solo sistema integrado, ofreciendo hasta 4.4 veces más rendimiento de computación que los Trainium2 UltraServers. Esto le permite abordar proyectos de IA que anteriormente eran poco prácticos o demasiado costosos al entrenar modelos más rápido, reduciendo el tiempo de meses a semanas, sirviendo más solicitudes de inferencia de usuarios simultáneamente, y reduciendo tanto el tiempo de comercialización como los costos operativos.

En las pruebas de los Trn3 UltraServers usando el modelo de pesos abiertos GPT-OSS de OpenAI, los clientes pueden lograr un rendimiento 3 veces mayor por chip mientras ofrecen tiempos de respuesta 4 veces más rápidos que los Trn2 UltraServers. Esto significa que las empresas pueden escalar sus aplicaciones de IA para manejar la demanda máxima con menos huella de infraestructura, mejorando directamente la experiencia del usuario mientras reducen el costo por solicitud de inferencia.

Estas mejoras provienen del chip diseñado específicamente de Trainium3. El chip logra un rendimiento innovador a través de innovaciones de diseño avanzadas, interconexiones optimizadas que aceleran el movimiento de datos entre chips, y sistemas de memoria mejorados que eliminan cuellos de botella al procesar modelos de IA grandes. Más allá del rendimiento bruto, Trainium3 ofrece ahorros sustanciales de energía: 40% mejor eficiencia energética en comparación con generaciones anteriores. Esta eficiencia importa a escala, permitiéndonos ofrecer infraestructura de IA más rentable mientras reducimos el impacto ambiental en nuestros centros de datos.

Infraestructura de red avanzada diseñada para escalar

AWS diseñó el Trn3 UltraServer como un sistema verticalmente integrado, desde la arquitectura del chip hasta la pila de software. En el corazón de esta integración está la infraestructura de red diseñada para eliminar los cuellos de botella de comunicación que típicamente limitan la computación de IA distribuida. El nuevo NeuronSwitch-v1 ofrece 2 veces más ancho de banda dentro de cada UltraServer, mientras que la red Neuron Fabric mejorada reduce los retrasos de comunicación entre chips a poco menos de 10 microsegundos.

Las cargas de trabajo de IA del mañana, incluidos los sistemas agénticos, las mezclas de expertos (MoE) y las aplicaciones de aprendizaje por refuerzo, requieren que cantidades masivas de datos fluyan sin problemas entre procesadores. Esta red diseñada por AWS le permite construir aplicaciones de IA con respuestas casi instantáneas que anteriormente eran imposibles, desbloqueando nuevos casos de uso como sistemas de decisión en tiempo real que procesan y actúan sobre datos instantáneamente, e IA conversacional fluida que responde naturalmente sin retraso.

Para los clientes que necesitan escalar, los EC2 UltraClusters 3.0 pueden conectar miles de UltraServers que contienen hasta 1 millón de chips Trainium, 10 veces la generación anterior, brindándole la infraestructura para entrenar la próxima generación de modelos fundacionales. Esta escala permite proyectos que simplemente no eran posibles antes, desde entrenar modelos multimodales en conjuntos de datos de billones de tokens hasta ejecutar inferencia en tiempo real para millones de usuarios concurrentes.

Los clientes ya están viendo resultados a escala de vanguardia

Los clientes ya están viendo un valor significativo de Trainium, con compañías como Anthropic, Karakuri, Metagenomics, Neto.ai, Ricoh y Splashmusic reduciendo sus costos de entrenamiento hasta en un 50% en comparación con alternativas. Amazon Bedrock, el servicio administrado de AWS para modelos fundacionales, ya está sirviendo cargas de trabajo de producción en Trainium3, demostrando la preparación del chip para implementación a escala empresarial.

Compañías pioneras de IA como Decart, un laboratorio de IA especializado en modelos eficientes y optimizados de video e imagen de IA generativa que impulsan experiencias interactivas en tiempo real, están aprovechando las capacidades de Trainium3 para cargas de trabajo exigentes como video generativo en tiempo real, logrando una generación de fotogramas 4 veces más rápida a la mitad del costo de las GPU. Esto hace que las aplicaciones intensivas en computación sean prácticas a escala, habilitando categorías completamente nuevas de contenido interactivo, desde experiencias en vivo personalizadas hasta simulaciones a gran escala. Con Project Rainier, AWS colaboró con Anthropic para conectar más de 500,000 chips Trainium2 en el clúster de computación de IA más grande del mundo, cinco veces más grande que la infraestructura utilizada para entrenar la generación anterior de modelos de Anthropic. Trainium3 se basa en esta base probada, extendiendo la arquitectura UltraCluster para ofrecer un rendimiento aún mayor para la próxima generación de clústeres de computación de IA a gran escala y modelos de vanguardia.

Mirando hacia la próxima generación de Trainium

Ya estamos trabajando en Trainium4, que está siendo diseñado para brindar mejoras de rendimiento significativas en todas las dimensiones, incluido al menos 6 veces el rendimiento de procesamiento (FP4), 3 veces el rendimiento FP8 y 4 veces más ancho de banda de memoria para respaldar la próxima generación de entrenamiento e inferencia de vanguardia. Combinado con optimizaciones continuas de hardware y software, puede esperar ganancias de rendimiento que escalan mucho más allá de las mejoras básicas. La mejora de rendimiento FP8 de 3 veces en Trainium4 representa un salto fundamental: puede entrenar modelos de IA al menos tres veces más rápido o ejecutar al menos tres veces más solicitudes de inferencia, con ganancias adicionales realizadas a través de mejoras continuas de software y optimizaciones específicas de carga de trabajo. FP8 es el formato de precisión estándar de la industria que equilibra la precisión del modelo con la eficiencia computacional para las cargas de trabajo de IA modernas.

Para ofrecer un rendimiento de escalamiento aún mayor, Trainium4 está siendo diseñado para admitir la tecnología de interconexión de chips de alta velocidad NVIDIA NVLink Fusion. Esta integración permite que Trainium4, Graviton y EFA trabajen juntos sin problemas dentro de racks MGX comunes, brindándole una infraestructura de IA a escala de rack rentable que admite servidores tanto de GPU como de Trainium. El resultado es una plataforma flexible y de alto rendimiento optimizada para cargas de trabajo exigentes de entrenamiento e inferencia de modelos de IA.

Los Amazon EC2 Trn3 UltraServers ya están disponibles de forma general. Para obtener más detalles sobre Trainium3, visite:

###

Preguntas frecuentes sobre Trainium3

¿Qué están lanzando/anunciando hoy?

AWS está anunciando la disponibilidad general de los Amazon EC2 Trn3 UltraServers impulsados por el nuevo chip Trainium3 construido con tecnología de 3nm. Estos UltraServers ofrecen hasta 4.4 veces más rendimiento de computación, 4 veces mayor eficiencia energética y casi 4 veces más ancho de banda de memoria que los Trainium2 UltraServers, permitiendo a organizaciones de todos los tamaños entrenar modelos de IA más grandes más rápido y servir a más usuarios a menor costo. Clientes como Decart ya están logrando una inferencia 4 veces más rápida para video generativo en tiempo real a la mitad del costo de las GPU.

 ¿Qué es Amazon EC2 Trn3 UltraServer?

Los Amazon EC2 Trn3 UltraServers son sistemas de infraestructura de IA diseñados específicamente que empaquetan hasta 144 chips Trainium3 en un solo sistema integrado, ofreciendo hasta 362 FP8 PFLOPs de poder de computación. Construidos con la primera tecnología de chip de IA de 3nm de AWS, estos UltraServers están diseñados como sistemas verticalmente integrados, desde la arquitectura del chip hasta la pila de software, con infraestructura de red avanzada que incluye el nuevo NeuronSwitch-v1 que ofrece 2 veces más ancho de banda y red Neuron Fabric mejorada con latencia inferior a 10 microsegundos. Para los clientes que requieren escala masiva, los EC2 UltraClusters 3.0 pueden conectar miles de UltraServers que contienen hasta 1 millón de chips Trainium, 10 veces la generación anterior, proporcionando la infraestructura necesaria para entrenar modelos fundacionales de próxima generación y ejecutar inferencia en tiempo real para millones de usuarios concurrentes.

¿Por qué los clientes deberían usar Amazon EC2 Trn3 UltraServers?

_Desarrollo de IA dramáticamente más rápido a menor costo: Los Trn3 UltraServers ofrecen un rendimiento 3 veces mayor y una latencia 4 veces menor en comparación con Trainium2, reduciendo el tiempo de entrenamiento de meses a semanas mientras reducen los costos operativos. Clientes que incluyen Anthropic, Karakuri, Metagenomics, Neto.ai, Ricoh y Splashmusic están reduciendo los costos de entrenamiento e inferencia hasta en un 50%, mientras que Decart está logrando una inferencia 4 veces más rápida para video generativo en tiempo real a la mitad del costo de las GPU.

_Rendimiento diseñado específicamente para cargas de trabajo de IA exigentes: El chip Trainium3 logra un rendimiento innovador a través de innovaciones de diseño avanzadas, interconexiones optimizadas y sistemas de memoria mejorados que eliminan cuellos de botella al procesar modelos de IA grandes. Esto permite a compañías pioneras de IA como Decart aprovechar las capacidades de Trainium3 para aplicaciones intensivas en computación como video generativo en tiempo real, haciendo que cargas de trabajo anteriormente poco prácticas sean prácticas a escala.

_Probado empresarialmente y listo para producción: Amazon Bedrock ya está sirviendo cargas de trabajo de producción en Trainium3, demostrando la preparación del chip para implementación a escala empresarial. Con Project Rainier conectando más de 500,000 chips Trainium2 en el clúster de computación de IA más grande del mundo, Trainium3 se basa en esta base probada para ofrecer un rendimiento aún mayor para la próxima generación de clústeres de computación de IA a gran escala y modelos de vanguardia.

 ¿Qué pueden hacer los clientes ahora que no podían hacer antes?

Con los Trn3 UltraServers, los clientes ahora pueden abordar proyectos de IA que anteriormente eran poco prácticos o demasiado costosos. Pueden entrenar modelos de vanguardia que requieren inversiones en infraestructura anteriormente accesibles solo para un puñado de organizaciones, servir inferencia en tiempo real para millones de usuarios concurrentes simultáneamente, y construir aplicaciones de IA con respuestas casi instantáneas. La infraestructura de red avanzada habilita las cargas de trabajo de IA del mañana, incluidos sistemas agénticos, modelos de mezcla de expertos y aplicaciones de aprendizaje por refuerzo, que requieren un flujo masivo de datos entre procesadores. Clientes como Decart ahora están ejecutando aplicaciones intensivas en computación como video generativo en tiempo real a escala, logrando una generación de fotogramas 4 veces más rápida a la mitad del costo de las GPU. Esto hace posibles categorías completamente nuevas de contenido interactivo, desde experiencias en vivo personalizadas hasta simulaciones a gran escala. Los clientes pueden entrenar modelos multimodales en conjuntos de datos de billones de tokens y servir a millones de usuarios concurrentes con aplicaciones que simplemente no eran factibles antes.

Google News Portal Innova
Síguenos en Google Noticias

Equipo Prensa
Portal Innova