Grandes tecnológicas lanzan un consorcio para cargas de IA en Ethernet
Con el respaldo de Linux Foundation, el nuevo Ultra Ethernet Consortium tiene como objetivo aumentar la escalabilidad, la estabilidad y la confiabilidad de las redes Ethernet.

Las cargas de trabajo de inteligencia artificial (IA) impondrán demandas de rendimiento y capacidad sin precedentes en las redes, y un puñado de proveedores de redes se han unido para mejorar la tecnología Ethernet actual a fin de manejar la escalabilidad y la velocidad que requiere esta tecnología.
AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta y Microsoft han lanzado el Ultra Ethernet Consortium (UEC), un grupo organizado por la Fundación Linux que está trabajando para desarrollar avances de Ethernet físicos, de enlace, de transporte y de capa de software. La industria ha celebrado el 50 aniversario de Ethernet este año. Su sello distintivo ha sido su flexibilidad y adaptabilidad, y esta tecnología desempeñará sin duda un papel fundamental a la hora de soportar infraestructuras de IA. Pero existe la preocupación de que las interconexiones de red tradicionales de hoy en día no puedan proporcionar el rendimiento, la escala y el ancho de banda necesarios para mantenerse al día con estas demandas.
“Estas cargas de trabajo son exigentes en las redes, ya que requieren un uso intensivo de datos y computación. Son tan grandes que los parámetros se distribuyen entre miles de procesadores. Los modelos de lenguaje grande (LLM, de sus siglas inglesas) como GPT-3, Chinchilla y PALM, así como los sistemas de recomendación como DLRM (recomendación de aprendizaje produndo) y DHEN (Red de conjunto jerárquico y profundo) se entrenan en grupos de 1.000 GPU que comparten los parámetros con otros procesadores involucrados en la computación”, escribió el CEO de Arista, Jayshree Ullal. “En este ciclo de cómputo-intercambio-reducción, el volumen de datos intercambiados es tan significativo que cualquier ralentización debido a una red deficiente/congestionada puede tener un impacto crítico en el rendimiento de la aplicación de IA”.
Históricamente, la única opción para conectar los núcleos del procesador y la memoria han sido las interconexiones como InfiniBand, PCI Express, Remote Direct Memory Access a través de Ethernet y otros protocolos que conectan clústeres de cómputo con descargas pero tienen limitaciones cuando se trata de requisitos de cargas de trabajo de IA.
“Los miembros fundadores de Arista y Utra Ethernet Consortium creen que es hora de reconsiderar y reemplazar las limitaciones de RDMA. La RDMA tradicional, tal y como la definió lnfiniBand Trade Association (IBTA) hace décadas, está mostrando su edad en el tráfico de red AI/ML altamente exigente. RDMA transmite datos en fragmentos de grandes flujos, y estos pueden causar enlaces desequilibrados y sobrecargados. Es hora de comenzar desde cero para crear un protocolo de transporte moderno que admita RDMA para aplicaciones emergentes. El protocolo UET (Ultra Ethernet Transport) incorporará las ventajas de Ethernet/IP mientras aborda la escala de la red de IA para aplicaciones, endpoints y procesos y mantiene el objetivo de estándares abiertos e interoperabilidad de múltiples proveedores”.
La UEC escribió en un libro blanco que promoverá una especificación de Ethernet para presentar una serie de tecnologías y capacidades centrales que incluyen:
- Rutas múltiples y rociado de paquetes para garantizar que los flujos de trabajo de IA tengan acceso a un destino simultáneamente.
- Orden de entrega flexible para garantizar que los enlaces Ethernet estén equilibrados de manera óptima; el pedido solo se aplica cuando la carga de trabajo de la IA lo requiere en operaciones con un uso intensivo del ancho de banda.
- Mecanismos modernos de control de congestión para garantizar que las cargas de trabajo de IA eviten puntos de acceso y distribuyan uniformemente la carga a través de rutas múltiples. Se pueden diseñar para trabajar en conjunto con el rociado de paquetes de rutas múltiples, lo que permite un transporte confiable del tráfico de IA.
- Telemetría de extremo a extremo para gestionar la congestión. La información que se origina en la red puede informar a los participantes sobre la ubicación y la causa de la congestión. Acortar la ruta de señalización de congestión y proporcionar más información a los puntos finales permite un control de congestión más receptivo.
La UEC dijo que aumentará la escala, la estabilidad y la confiabilidad de las redes Ethernet junto con una seguridad mejorada.