MLCommons ha svelato nuovi benchmark per valutare le prestazioni dell'hardware top-of-the-line nell'esecuzione di applicazioni AI, concentrandosi in particolare sulla velocità di generazione delle risposte da modelli AI avanzati. Questi benchmark mirano a fornire informazioni sulla velocità con cui le applicazioni AI, come ChatGPT, possono rispondere alle richieste degli utenti.
Tra i benchmark appena introdotti, uno si occupa di misurare specificamente le prestazioni dei sistemi AI in uno scenario di domanda e risposta utilizzando grandi modelli di linguaggio, tra cui spicca Llama 2, un modello con 70 miliardi di parametri sviluppato da Meta Platforms. Inoltre, MLCommons ha incorporato un benchmark di generazione di immagini da testo sfruttando il modello Stable Diffusion XL di Stability AI, ampliando la loro suite di benchmarking, MLPerf.
In termini di prestazioni, i server dotati di chip H100 di Nvidia, prodotti da aziende tra cui Google, Supermicro e Nvidia stessa, hanno eccelso in entrambi i nuovi benchmark. I benchmark hanno anche visto la partecipazione di altri costruttori di server che utilizzano il chip meno potente L40S di Nvidia.
Krai, un costruttore di server, ha partecipato al benchmark di generazione di immagini con un design basato su un chip AI di Qualcomm, notevole per il suo consumo energetico significativamente inferiore rispetto ai processori di punta di Nvidia. Intel ha partecipato con un design server che utilizza i suoi chip acceleratori Gaudi2, descrivendo i risultati del benchmark come "solidi".
I benchmark evidenziano che le sole prestazioni grezze non sono l'unico fattore da considerare nel dispiegamento di applicazioni AI. Il significativo consumo energetico dei chip AI avanzati rappresenta una sfida, spingendo verso un focus sul raggiungimento delle prestazioni ottimali con il minimo uso di energia. Per affrontare ciò, MLCommons offre anche una categoria di benchmark separata dedicata alla misurazione del consumo energetico.