AWS anunció su arquitectura sin precedentes: ningún proveedor de hiperescala había dividido previamente una única solicitud de inferencia entre los chips de dos proveedores en producción. La lógica de ingeniería es directa: Trainium para el prellenado, Cerebras CS-3 para la decodificación, con interconexión EFA, todo implementado en Bedrock. Esta lógica se corresponde directamente con la física descrita anteriormente. Los densos núcleos de cómputo de Trainium destacan en las multiplicaciones de matrices paralelas del prellenado.
|
etiquetas: aws , cerebras , cs-3 , trainium , decode , prefill
Gracias #0, este tipo de entradas es lo que me hace atractivo recorrerme la cola de pendientes