- Un nuovo test noto come Humanity's Last Exam è stato lanciato meno di due settimane fa e si occupa di misurare la capacità di ragionamento dell'AI con domande estremamente difficili.
Che test è lo Humanity's Last Exam?
Creato dal Center for AI Safety e da Scale AI, il test comprende 3.000 domande che coprono discipline come matematica, scienze naturali e umanistiche. L'obiettivo è misurare se le IA possono raggiungere un livello di ragionamento e conoscenza paragonabile a quello degli esperti umani.
- Inizialmente, il modello DeepSeek R1 guidava la classifica con un punteggio di accuratezza del 9.4% basato solo sul testo.
- OpenAI ha introdotto ChatGPT o3-mini, che ha ottenuto un punteggio di accuratezza del 10.5% alla configurazione base e del 13% alla configurazione più avanzata, cioè o3-mini-high.
- Il modello Deep Research di OpenAI ha raggiunto una precisione del 26.6%, segnando un miglioramento dell'accuratezza del 183% in meno di 10 giorni, grazie alla capacità di ricerca sul web.
- Mentre il punteggio del 26.6% è notevole rispetto ai precedenti, è ancora basso in termini assoluti.
Questo testo è un riassunto del seguente articolo (eng):
Alternativa in italiano: non pervenuta