In breve:
Meta nega le accuse di aver gonfiato i risultati dei test dei suoi nuovi modelli Llama 4 Maverick e Llama 4 Scout, dopo che un presunto ex dipendente ha lanciato l’accusa sui social cinesi. Il sospetto è cresciuto quando utenti su X e Reddit hanno segnalato prestazioni inferiori rispetto ai test ufficiali, e ricercatori hanno notato differenze tra la versione pubblica e quella testata internamente.
Riassunto completo:
- Un dirigente di Meta ha categoricamente negato l'accusa secondo cui sarebbero stati gonfiati artificialmente i risultati dei test sui nuovi modelli di intelligenza artificiale appena presentati.
- I modelli coinvolti nella polemica sono Llama 4 Maverick e Llama 4 Scout, due varianti di intelligenza artificiale recentemente introdotte dall'azienda.
- Il dubbio è nato da una voce non confermata, partita sui social media cinesi da parte di un presunto ex dipendente Meta, che avrebbe lasciato il lavoro per protesta contro presunte manipolazioni nella valutazione dei modelli.
- La voce ha trovato ulteriore diffusione sui social come X e Reddit quando alcuni utenti hanno notato che i modelli di Meta fornivano risultati insoddisfacenti in diverse attività pratiche.
- Alcuni ricercatori hanno inoltre evidenziato differenze evidenti tra il comportamento della versione del modello disponibile per il pubblico e quella usata da Meta nei test ufficiali, alimentando così ulteriormente il sospetto.
- Il vicepresidente Ahmad Al-Dahle ha riconosciuto tuttavia che nelle fasi iniziali di rilascio delle versioni online dei modelli è possibile riscontrare una qualità variabile delle performances, attribuendo il problema a una fase di iniziale assestamento tecnico che richiederà alcuni giorni per essere risolta completamente.
Questo testo è un riassunto del seguente articolo (eng):
Meta exec denies the company artificially boosted Llama 4’s benchmark scores | TechCrunch
A Meta exec has denied a rumor that the company trained its AI models to present well on benchmarks while concealing the models’ weaknesses.

Alternativa in italiano:
Meta presenta Llama 4, due super-modelli di intelligenza artificiale (ma per alcuni ha barato nei test)
Maverick, che conta 400 miliardi di parametri, è arrivato al secondo posto in una classifica che misura le capacità conversazionali dei chatbot. Ma il modello pubblicato da Meta per misurare i benchmark non è lo stesso che è stato reso pubblico
