Ethernet
Conectividad

Grandes tecnológicas lanzan un consorcio para cargas de IA en Ethernet

Con el respaldo de Linux Foundation, el nuevo Ultra Ethernet Consortium tiene como objetivo aumentar la escalabilidad, la estabilidad y la confiabilidad de las redes Ethernet.

ethernet

Las cargas de trabajo de inteligencia artificial (IA) impondrán demandas de rendimiento y capacidad sin precedentes en las redes, y un puñado de proveedores de redes se han unido para mejorar la tecnología Ethernet actual a fin de manejar la escalabilidad y la velocidad que requiere esta tecnología.

AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta y Microsoft han lanzado el Ultra Ethernet Consortium (UEC), un grupo organizado por la Fundación Linux que está trabajando para desarrollar avances de Ethernet físicos, de enlace, de transporte y de capa de software. La industria ha celebrado el 50 aniversario de Ethernet este año. Su sello distintivo ha sido su flexibilidad y adaptabilidad, y esta tecnología desempeñará sin duda un papel fundamental a la hora de soportar infraestructuras de IA. Pero existe la preocupación de que las interconexiones de red tradicionales de hoy en día no puedan proporcionar el rendimiento, la escala y el ancho de banda necesarios para mantenerse al día con estas demandas.

Estas cargas de trabajo son exigentes en las redes, ya que requieren un uso intensivo de datos y computación. Son tan grandes que los parámetros se distribuyen entre miles de procesadores. Los modelos de lenguaje grande (LLM, de sus siglas inglesas) como GPT-3, Chinchilla y PALM, así como los sistemas de recomendación como DLRM (recomendación de aprendizaje produndo) y DHEN (Red de conjunto jerárquico y profundo) se entrenan en grupos de 1.000 GPU que comparten los parámetros con otros procesadores involucrados en la computación”, escribió el CEO de Arista, Jayshree Ullal. “En este ciclo de cómputo-intercambio-reducción, el volumen de datos intercambiados es tan significativo que cualquier ralentización debido a una red deficiente/congestionada puede tener un impacto crítico en el rendimiento de la aplicación de IA”.

Históricamente, la única opción para conectar los núcleos del procesador y la memoria han sido las interconexiones como InfiniBand, PCI Express, Remote Direct Memory Access a través de Ethernet y otros protocolos que conectan clústeres de cómputo con descargas pero tienen limitaciones cuando se trata de requisitos de cargas de trabajo de IA.

“Los miembros fundadores de Arista y Utra Ethernet Consortium creen que es hora de reconsiderar y reemplazar las limitaciones de RDMA. La RDMA tradicional, tal y como la definió lnfiniBand Trade Association (IBTA) hace décadas, está mostrando su edad en el tráfico de red AI/ML altamente exigente. RDMA transmite datos en fragmentos de grandes flujos, y estos pueden causar enlaces desequilibrados y sobrecargados. Es hora de comenzar desde cero para crear un protocolo de transporte moderno que admita RDMA para aplicaciones emergentes. El protocolo UET (Ultra Ethernet Transport) incorporará las ventajas de Ethernet/IP mientras aborda la escala de la red de IA para aplicaciones, endpoints y procesos y mantiene el objetivo de estándares abiertos e interoperabilidad de múltiples proveedores”.

La UEC escribió en un libro blanco que promoverá una especificación de Ethernet para presentar una serie de tecnologías y capacidades centrales que incluyen:

  • Rutas múltiples y rociado de paquetes para garantizar que los flujos de trabajo de IA tengan acceso a un destino simultáneamente.
  • Orden de entrega flexible para garantizar que los enlaces Ethernet estén equilibrados de manera óptima; el pedido solo se aplica cuando la carga de trabajo de la IA lo requiere en operaciones con un uso intensivo del ancho de banda.
  • Mecanismos modernos de control de congestión para garantizar que las cargas de trabajo de IA eviten puntos de acceso y distribuyan uniformemente la carga a través de rutas múltiples. Se pueden diseñar para trabajar en conjunto con el rociado de paquetes de rutas múltiples, lo que permite un transporte confiable del tráfico de IA.
  • Telemetría de extremo a extremo para gestionar la congestión. La información que se origina en la red puede informar a los participantes sobre la ubicación y la causa de la congestión. Acortar la ruta de señalización de congestión y proporcionar más información a los puntos finales permite un control de congestión más receptivo.

La UEC dijo que aumentará la escala, la estabilidad y la confiabilidad de las redes Ethernet junto con una seguridad mejorada.



Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital