Nuevos resultados de MLCommons destacan los impresionantes avances competitivos en IA para Intel

Daniel Minos

hace 2 años

MLCommons publicó los resultados de su análisis de rendimiento de IA de la industria, MLPerf Training 3.0, en el cual tanto el acelerador de deep learning, Habana Gaudi2, como el procesador escalable, Intel Xeon de 4ª generación, ofrecieron resultados impresionantes en entrenamiento.

«Los últimos resultados de MLPerf publicados por MLCommons validan el valor de TCO que los procesadores Intel Xeon y los aceleradores de aprendizaje profundo Intel Gaudi ofrecen a los clientes en el área de la inteligencia artificial. Los aceleradores integrados de Xeon lo convierten en una solución ideal para ejecutar cargas de trabajo de IA en gran volumen utilizando procesadores de propósito general. Por otro lado, Gaudi ofrece un rendimiento competitivo especialmente destacado en modelos de lenguaje grandes y aplicaciones de IA generativa Los sistemas escalables de Intel, con software abierto optimizado y fácil de programar, reducen las barreras para que los clientes y socios puedan implementar una amplia gama de soluciones basadas en IA en el centro de datos, desde la nube hasta el Edge”, menciona Sandra Rivera, vicepresidenta ejecutiva de Intel y gerente general del Grupo de Centros de Datos e Inteligencia Artificial.

¿Por qué es importante? La narrativa actual de la industria es que la IA generativa y los grandes modelos de lenguaje (LLMs) solo pueden ejecutarse en GPUs de Nvidia. Nuevos datos demuestran que el portafolio de soluciones de Intel para IA ofrece opciones competitivas y convincentes para los clientes que buscan liberarse de ecosistemas cerrados que limitan la eficiencia y la escalabilidad.

Los últimos resultados de MLPerf Training 3.0 destacan el rendimiento de los productos de Intel en una variedad de modelos de aprendizaje profundo. La madurez del software y los sistemas basados en Gaudi2 para entrenamiento se demostró a gran escala en el modelo de lenguaje grande, GPT-3. Gaudi2 es una de las dos únicas soluciones de semiconductores para enviar los resultados de desempeño al análisis de desempeño para el entrenamiento LLM de GPT-3.

Gaudi2 también ofrece ventajas de costo sustancialmente competitivas a los clientes, tanto en costos de servidor como de sistema. El rendimiento validado por MLPerf del acelerador en modelos como GPT-3, visión por computadora y lenguaje natural, junto con los próximos avances en software, convierten a Gaudi2 en una alternativa muy atractiva en términos de precio y rendimiento en lugar de la solución H100 de Nvidia.

En el ámbito de la CPU, el rendimiento de entrenamiento de deep learning de los procesadores Xeon de 4ta generación con los motores de IA de Intel demostró que los clientes pueden construir con servidores basados en Xeon un único sistema universal de IA para el preprocesamiento de datos, entrenamiento de modelos e implementación, ofreciendo la combinación adecuada de rendimiento, eficiencia, precisión y escalabilidad en IA.

Acerca de los resultados de Enia Gaudi2: Entrenar modelos de IA generativos y de lenguaje extenso requiere clústeres de servidores para cumplir con los enormes requisitos de cómputo a gran escala. Estos resultados de MLPerf brindan una validación tangible del rendimiento excepcional y la escalabilidad eficiente de Habana Gaudi2 en el modelo más exigente probado, el GPT-3 con 175 mil millones de parámetros.

Aspectos destacados de los resultados:

Gaudi2 ofreció un increíble tiempo de entrenamiento en la GPT-3: 311 minutos en 384 aceleradores.
Escalabilidad casi lineal del 95% del rendimiento al agregar de 256 a 384 aceleradores en el modelo GPT-3.
Excelentes resultados de entrenamiento en modelos de visión por computadora, como ResNet-50 con 8 aceleradores y Unet3D con 8 aceleradores, y en modelos de procesamiento de lenguaje natural, como BERT con 8 y 64 aceleradores.
Aumentos de rendimiento del 10% y 4%, respectivamente, para los modelos BERT y ResNet en comparación con la presentación de noviembre, evidencia de la creciente madurez del software de Gaudi2.
Los resultados de Gaudi2 se presentaron «tal como vienen», lo que significa que los clientes pueden lograr resultados de rendimiento comparables al implementar Gaudi2 en sus instalaciones o en la nube.

Acerca de la madurez del software Gaudi2: El soporte de software para la plataforma Gaudi sigue madurando y adaptándose al creciente número de IA generativa y LLMs que están en alta demanda.

La presentación de Gaudi2 para GPT-3 se basó en PyTorch y utilizó la popular biblioteca de optimización DeepSpeed (parte de Microsoft AI a escala), en lugar de software personalizado. DeepSpeed maximiza la eficiencia de rendimiento en LLMs al habilitar el paralelismo en tres dimensiones (datos, tensor y pipeline) de forma simultánea.
Los resultados de Gaudi2 en la prueba 3.0 se presentaron utilizando el tipo de dato BF16. Se espera un salto significativo en el rendimiento de Gaudi2 cuando se lance el soporte de software para FP8 y nuevas características en el tercer trimestre de 2023.

Acerca de los resultados de los procesadores Xeon de 4ª Generación: Como la única opción de CPU entre varias alternativas, los resultados de MLPerf demuestran que los procesadores Intel Xeon ofrecen a las empresas capacidades listas para usar para implementar IA en sistemas de propósito general y evitan los costos y la complejidad de introducir sistemas dedicados de IA.

Para algunos clientes que ocasionalmente entrenan modelos grandes desde cero, pueden utilizar CPUs de propósito general, y muchas veces en los servidores basados en Intel que ya están utilizando para sus operaciones comerciales. Sin embargo, la mayoría utilizará modelos pre-entrenados y los ajustará con sus propios conjuntos de datos más pequeños y seleccionados. Intel previamente publicó resultados que demuestran que este ajuste fino se puede realizar en solo minutos utilizando el software de Intel AI y software de código abierto estándar de la industria.

Aspectos destacados de los resultados de MLPerf:

En la división cerrada, Xeons de 4ª Generación podría entrenar los modelos UU. Y RESNet-50 en menos de 50 minutos. (47,93 mins.) y menos de 90 minutos. (88,17 mins.), respectivamente.
Con BERT en la división abierta, los resultados muestran que Xeon pudo entrenar el modelo en aproximadamente 30 minutos (31.06 minutos) al escalar a 16 nodos.
Para el modelo más grande de RetinaNet, Xeon logró un tiempo de 232 minutos en 16 nodos, lo que permite a los clientes la flexibilidad de utilizar los ciclos de Xeon fuera de las horas pico para entrenar sus modelos durante la mañana, el almuerzo o durante la noche.
El Xeon de 4ª generación con Intel Advanced Matrix Extensions (Intel AMX) ofrece mejoras significativas en el rendimiento listo para usar que abarcan múltiples frameworks, herramientas de ciencia de datos de extremo a extremo y un amplio ecosistema de soluciones inteligentes.

MLPerf, generalmente considerado como el benchmark más confiable para el rendimiento de la IA, permite una comparación justa y repetible del rendimiento entre soluciones. Además, Intel ha superado el hito de las 100 presentaciones y sigue siendo el único proveedor que ha presentado resultados públicos de CPU con software del ecosistema estándar de deep learning de la industria.

Estos resultados también demuestran la eficiencia de escalado destacada que se puede lograr utilizando adaptadores de red Intel Ethernet 800 Series económicos y ampliamente disponibles que aprovechan el software Intel Ethernet Fabric Suite de código abierto basado en Intel oneAPI.

Más contexto: Métricas de desempeño basadas en el entrenamiento de MLPerf v3.0 (resultados de análisis de desempeño) | Anuncio de MLCommons