Deep Research di OpenAI batte tutti nel test AI più complesso

Ha ottenuto il 26,6% contro i 9,4% di DeepSeek R1.

, and Amir Ati

5 febbraio 2025 . 5:50 AM

1 minuto

Un nuovo test noto come Humanity's Last Exam è stato lanciato meno di due settimane fa e si occupa di misurare la capacità di ragionamento dell'AI con domande estremamente difficili.

Che test è lo Humanity's Last Exam?

Creato dal Center for AI Safety e da Scale AI, il test comprende 3.000 domande che coprono discipline come matematica, scienze naturali e umanistiche. L'obiettivo è misurare se le IA possono raggiungere un livello di ragionamento e conoscenza paragonabile a quello degli esperti umani.

Inizialmente, il modello DeepSeek R1 guidava la classifica con un punteggio di accuratezza del 9.4% basato solo sul testo.
OpenAI ha introdotto ChatGPT o3-mini, che ha ottenuto un punteggio di accuratezza del 10.5% alla configurazione base e del 13% alla configurazione più avanzata, cioè o3-mini-high.
Il modello Deep Research di OpenAI ha raggiunto una precisione del 26.6%, segnando un miglioramento dell'accuratezza del 183% in meno di 10 giorni, grazie alla capacità di ricerca sul web.
Mentre il punteggio del 26.6% è notevole rispetto ai precedenti, è ancora basso in termini assoluti.

Questo testo è un riassunto del seguente articolo (eng):