Salta al contenuto

L'ascesa dei modelli di ragionamento dell'IA rende più costoso il benchmarking

I modelli che ragionano producono più token, che è il metro di misura per calcolare i costi. I prezzi quindi raddoppiano.

In breve:

Sono molto più costosi da testare rispetto ai modelli tradizionali: ad esempio, Artificial Analysis ha speso 5.200 dollari per testare solo 12 modelli con ragionamento, quasi il doppio rispetto alla somma spesa per oltre 80 modelli senza ragionamento. Il motivo principale di questi costi elevati è che i modelli con ragionamento generano un numero molto maggiore di parole ("token") durante le valutazioni, che è il metro di misura per calcolare i prezzi.

Riassunto completo:

  • I nuovi modelli di intelligenza artificiale (IA), definiti modelli di "ragionamento", riescono ad affrontare compiti complessi pensando passo per passo, soprattutto in campi specifici come ad esempio la fisica.
  • Questi modelli però sono molto più costosi da testare rispetto ai modelli tradizionali, creando difficoltà per chi vuole verificare in modo indipendente le dichiarazioni delle aziende produttrici.
  • Per esempio, Artificial Analysis, un'organizzazione terza specializzata nei test, ha speso 2.767 dollari per valutare il modello o1 di OpenAI su sette popolari benchmark, mentre la valutazione del modello GPT-4o, senza ragionamento, è costata soli 108 dollari.
  • In totale, Artificial Analysis ha speso circa 5.200 dollari per testare una dozzina di modelli con ragionamento, quasi il doppio dell'importo utilizzato per oltre 80 modelli senza ragionamento (2.400 dollari).
  • Il motivo principale di questo aumento di costi risiede nel fatto che i modelli di ragionamento producono molte più parole ("token") durante i test, facendo aumentare rapidamente i prezzi, visto che le aziende produttrici richiedono un pagamento per ogni parola generata.
  • Molte aziende produttrici di modelli IA, inclusa OpenAI, offrono a chi valuta i modelli l'accesso gratuito o agevolato, ma questo rischia di rendere meno obiettive le valutazioni poiché ne compromette l'indipendenza e replicabilità scientifica.

Questo testo è un riassunto del seguente articolo (eng):

The rise of AI ‘reasoning’ models is making benchmarking more expensive | TechCrunch
The rise of AI ‘reasoning’ models is making benchmarking more expensive, data from Artificial Analysis shows.

Alternativa in italiano: non pervenuta

Commenti

Più recenti