Breaking News

El centro de datos de IA: la nueva fábrica de la era de la IA

 

Vista aérea del nuevo campus del centro de datos de inteligencia artificial de Microsoft en Mt. Pleasant, Wisconsin.

Vista aérea del nuevo campus del centro de datos de inteligencia artificial de Microsoft en Mt Pleasant, Wisconsin.

Un centro de datos de IA es una instalación única y diseñada específicamente para el entrenamiento de IA, así como para la ejecución de modelos y aplicaciones de inteligencia artificial a gran escala. Los centros de datos de IA de Microsoft impulsan OpenAI, Microsoft AI, nuestras capacidades Copilot y muchas otras cargas de trabajo líderes en IA.

El nuevo centro de datos de IA de Fairwater en Wisconsin se erige como una notable obra de ingeniería, con una superficie de 127 hectáreas y tres enormes edificios con un total de 114.000 metros cuadrados bajo techo. La construcción de estas instalaciones requirió 75.8 kilómetros de pilotes de cimentación profunda, 11.8 millones de kilos de acero estructural, 193.8 kilómetros de cable subterráneo de media tensión y 117.8 kilómetros de tuberías mecánicas.

A diferencia de los centros de datos en la nube típicos, optimizados para ejecutar numerosas cargas de trabajo independientes y de menor tamaño, como el alojamiento de sitios web, correo electrónico o aplicaciones empresariales, este centro de datos está diseñado para funcionar como una gigantesca supercomputadora de IA mediante una única red plana que interconecta cientos de miles de las GPU NVIDIA más recientes. De hecho, ofrecerá un rendimiento diez veces superior al de la supercomputadora más rápida del mundo actual, lo que permitirá cargas de trabajo de entrenamiento e inferencia de IA a un nivel sin precedentes.

El papel de nuestros centros de datos de IA: impulsar la IA de vanguardia

Los modelos de IA eficaces se basan en el trabajo conjunto de miles de ordenadores, alimentados por GPU o aceleradores de IA especializados, para procesar cálculos matemáticos masivos y simultáneos. Están interconectados con redes extremadamente rápidas para compartir resultados al instante, y todo esto se sustenta en enormes sistemas de almacenamiento que almacenan los datos (como texto, imágenes o vídeo) desglosados ​​en tokens, las pequeñas unidades de información de las que aprende la IA. El objetivo es mantener estos chips ocupados constantemente, ya que si los datos o la red no pueden seguir el ritmo, todo se ralentiza.

El entrenamiento de la IA en sí es un ciclo: la IA procesa fichas en secuencia, realiza predicciones sobre la siguiente, las compara con las respuestas correctas y se ajusta. Esto se repite billones de veces hasta que el sistema mejora en aquello para lo que se le está entrenando. Imagínatelo como el entrenamiento de un equipo de fútbol profesional. Cada GPU es un jugador que ejecuta un ejercicio, las fichas son las jugadas que se ejecutan paso a paso y la red es el cuerpo técnico, que grita instrucciones y mantiene a todos sincronizados. El equipo repite las jugadas una y otra vez, corrigiendo errores hasta que las ejecuta a la perfección. Al final, el modelo de IA, al igual que el equipo, domina su estrategia y está listo para actuar en condiciones reales de juego.

Infraestructura de IA a escala de frontera

Una infraestructura diseñada específicamente es fundamental para impulsar la IA de forma eficiente. Para calcular los cálculos de tokens a esta escala de billones de parámetros de los principales modelos de IA, el núcleo del centro de datos de IA se compone de aceleradores de IA dedicados (como GPU) montados en placas base junto con CPU, memoria y almacenamiento. Un único servidor aloja múltiples aceleradores de GPU, conectados para una comunicación de alto ancho de banda. Estos servidores se instalan en un rack, con conmutadores de alta velocidad (ToR) que proporcionan una red de baja latencia entre ellos. Cada rack del centro de datos está interconectado, creando un clúster estrechamente acoplado. Desde fuera, esta arquitectura parece muchos servidores independientes, pero a escala funciona como una única supercomputadora donde cientos de miles de aceleradores pueden entrenar un único modelo en paralelo.

Este centro de datos gestiona un único y masivo clúster de servidores NVIDIA GB200 interconectados, millones de núcleos de cómputo y exabytes de almacenamiento, todo diseñado para las cargas de trabajo de IA más exigentes. Azure fue el primer proveedor de la nube en poner en línea los clústeres de servidores, racks y centros de datos completos NVIDIA GB200. Cada rack contiene 72 GPU NVIDIA Blackwell, unidas en un único dominio NVLink que ofrece 1,8 terabytes de ancho de banda de GPU a GPU y da a cada GPU acceso a 14 terabytes de memoria agrupada. En lugar de comportarse como docenas de chips independientes, el rack funciona como un único acelerador gigante, capaz de procesar la asombrosa cifra de 865.000 tokens por segundo, el mayor rendimiento de cualquier plataforma en la nube disponible en la actualidad. Los centros de datos de IA de Noruega y el Reino Unido utilizarán clústeres similares y aprovecharán el próximo diseño de chip de IA de NVIDIA (GB300), que ofrece aún más memoria agrupada por rack.

El desafío de establecer la escala de supercomputación, en particular a medida que los requisitos de entrenamiento de IA continúan exigiendo escalas de computación innovadoras, es lograr la topología de red perfecta. Para garantizar una comunicación de baja latencia a través de múltiples capas en un entorno de nube, Microsoft necesitaba extender el rendimiento más allá de un solo rack. Para las últimas implementaciones de NVIDIA GB200 y GB300 a nivel global, a nivel de rack, estas GPU se comunican a través de NVLink y NVSwitch a terabytes por segundo, derribando las barreras de memoria y ancho de banda. Luego, para conectar a través de múltiples racks en un pod, Azure usa estructuras InfiniBand y Ethernet que entregan 800 Gbps, en una arquitectura de árbol de grasa completa sin bloqueo para garantizar que cada GPU pueda comunicarse con todas las demás GPU a velocidad de línea completa sin congestión. Y en todo el centro de datos, múltiples pods de racks están interconectados para reducir el conteo de saltos y permitir que decenas de miles de GPU funcionen como un superordenador a escala global.

Al distribuirse en un pasillo tradicional de un centro de datos, la distancia física entre los racks introduce latencia en el sistema. Para solucionar esto, los racks del centro de datos de IA de Wisconsin están distribuidos en una configuración de dos plantas, de modo que, además de los racks conectados en red a los racks adyacentes, también están conectados en red a racks adicionales situados por encima o por debajo de ellos.

Este enfoque en capas distingue a Azure. Microsoft Azure no solo fue la primera nube en implementar GB200 a escala de rack y centro de datos; hoy lo estamos haciendo a gran escala con nuestros clientes. Al co-diseñar la pila completa con los mejores socios del sector, junto con nuestros propios sistemas diseñados específicamente, Microsoft ha creado la supercomputadora de IA más potente y estrechamente acoplada del mundo, diseñada específicamente para modelos de vanguardia.

Un clúster de alta densidad de servidores de infraestructura de IA en un centro de datos de Microsoft.
Clúster de alta densidad de servidores de infraestructura de IA en un centro de datos de Microsoft.

Abordar el impacto ambiental: refrigeración líquida de circuito cerrado a escala de instalación

La refrigeración por aire tradicional no puede soportar la densidad del hardware de IA moderno. Nuestros centros de datos utilizan sistemas avanzados de refrigeración líquida: tuberías integradas hacen circular líquido frío directamente a los servidores, extrayendo el calor de forma eficiente. La recirculación de circuito cerrado garantiza un desperdicio cero de agua, ya que solo es necesario rellenarla una vez y luego se reutiliza continuamente.

Al diseñar centros de datos de IA especialmente diseñados, pudimos integrar infraestructura de refrigeración líquida directamente en las instalaciones para lograr una mayor densidad de racks. Fairwater cuenta con el respaldo de la segunda planta de refrigeración por agua más grande del planeta y mantendrá el agua en circulación continua en su sistema de refrigeración de circuito cerrado. El agua caliente se canaliza a las aletas de refrigeración a cada lado del centro de datos, donde 172 ventiladores de 6 metros enfrían y recirculan el agua de vuelta al centro de datos. Este sistema mantiene el centro de datos de IA funcionando eficientemente, incluso en picos de carga.

Vista aérea de parte del sistema de refrigeración líquida de circuito cerrado.
Vista aérea de parte del sistema de refrigeración líquida de circuito cerrado.

Más del 90% de la capacidad de nuestro centro de datos utiliza este sistema, que requiere agua solo una vez durante la construcción y la reutiliza continuamente sin pérdidas por evaporación. El 10% restante de los servidores tradicionales utiliza aire exterior para refrigeración, cambiando a agua solo durante los días más calurosos, un diseño que reduce drásticamente el consumo de agua en comparación con los centros de datos tradicionales.

También utilizamos refrigeración líquida para soportar cargas de trabajo de IA en muchos de nuestros centros de datos existentes; esta refrigeración líquida se logra con unidades de intercambio de calor (HXU) que también funcionan con un uso operativo cero de agua.

Almacenamiento y computación: diseñados para la velocidad de la IA

Los centros de datos modernos pueden contener exabytes de almacenamiento y millones de núcleos de procesamiento de CPU . Para soportar el clúster de infraestructura de IA, se necesita una infraestructura de centro de datos completamente independiente para almacenar y procesar los datos utilizados y generados por el clúster. Para darle un ejemplo de la escala, ¡los sistemas de almacenamiento del centro de datos de IA de Wisconsin tienen una longitud equivalente a cinco campos de fútbol!

Una vista aérea de un centro de datos de almacenamiento y computación dedicado que se utiliza para almacenar y procesar datos para el centro de datos de IA.
Vista aérea de un centro de datos de almacenamiento y computación dedicado que se utiliza para almacenar y procesar datos para el centro de datos de IA.

Rediseñamos el almacenamiento de Azure para las cargas de trabajo de IA más exigentes, en estas implementaciones masivas de centros de datos para lograr una verdadera escalabilidad de supercomputación. Cada cuenta de Azure Blob Storage puede gestionar más de 2 millones de transacciones de lectura/escritura por segundo, y con millones de cuentas disponibles, podemos escalar elásticamente para satisfacer prácticamente cualquier requisito de datos.

Esta capacidad se basa en una base de almacenamiento rediseñada que integra capacidad y ancho de banda en miles de nodos de almacenamiento y cientos de miles de unidades. Esto permite escalar el almacenamiento a escala de exabytes, eliminando la necesidad de fragmentación manual y simplificando las operaciones incluso para las cargas de trabajo de IA y análisis más grandes.

Innovaciones clave como BlobFuse2 ofrecen acceso de alto rendimiento y baja latencia para el entrenamiento local en nodos de GPU, lo que garantiza que los recursos computacionales nunca estén inactivos y que los conjuntos de datos masivos de entrenamiento de IA estén siempre disponibles cuando se necesiten. La compatibilidad con múltiples protocolos permite una integración fluida con diversas canalizaciones de datos, mientras que la integración profunda con motores de análisis y herramientas de IA acelera la preparación y el despliegue de datos.

El escalamiento automático asigna recursos dinámicamente a medida que crece la demanda y, combinado con seguridad avanzada, resiliencia y almacenamiento en niveles rentable, la plataforma de almacenamiento de Azure marca el ritmo para las cargas de trabajo de próxima generación, brindando el rendimiento, la escalabilidad y la confiabilidad necesarios.

AI WAN: Conexión de múltiples centros de datos para una supercomputadora de IA aún más grande

Estos nuevos centros de datos de IA forman parte de una red global de centros de datos de IA de Azure, interconectados a través de nuestra Red de Área Amplia (WAN). No se trata solo de un edificio, sino de un sistema distribuido, resiliente y escalable que funciona como una única y potente máquina de IA. Nuestra WAN de IA está diseñada con capacidades de crecimiento en escalas de ancho de banda nativas de IA para permitir el entrenamiento distribuido a gran escala en múltiples regiones de Azure geográficamente diversas, lo que permite a los clientes aprovechar la potencia de una supercomputadora de IA gigante.

Este es un cambio fundamental en nuestra concepción de las supercomputadoras de IA. En lugar de limitarnos a las paredes de una única instalación, estamos construyendo un sistema distribuido donde los recursos de computación, almacenamiento y red se agrupan y orquestan de forma fluida en todas las regiones de los centros de datos. Esto se traduce en mayor resiliencia, escalabilidad y flexibilidad para los clientes.

Uniéndolo todo

Para satisfacer las necesidades críticas de los mayores desafíos de IA, necesitábamos rediseñar cada capa de nuestra infraestructura en la nube. No se trata solo de avances aislados, sino de integrar múltiples enfoques nuevos en silicio, servidores, redes y centros de datos, lo que genera avances donde el software y el hardware se optimizan como un sistema único y específico.

El centro de datos de Microsoft en Wisconsin desempeñará un papel crucial en el futuro de la IA, basado en tecnología real, inversión real y un impacto real en la comunidad. Al conectar esta instalación con otros centros de datos regionales y armonizar cada capa de nuestra infraestructura como un sistema completo, estamos impulsando una nueva era de inteligencia basada en la nube, segura, adaptable y preparada para el futuro.

Para obtener más información sobre las innovaciones del centro de datos de Microsoft, consulte el recorrido virtual del centro de datos en datacenters.microsoft.com .

Scott Guthrie es responsable de soluciones y servicios de computación en la nube a gran escala, como Azure, la plataforma de computación en la nube de Microsoft, soluciones de IA generativa, plataformas de datos, información y ciberseguridad. Estas plataformas y servicios ayudan a organizaciones de todo el mundo a resolver desafíos urgentes e impulsar la transformación a largo plazo.

No comments