Salta al contenuto

Deep Research di OpenAI batte tutti nel test AI più complesso

Ha ottenuto il 26,6% contro i 9,4% di DeepSeek R1.

  • Un nuovo test noto come Humanity's Last Exam è stato lanciato meno di due settimane fa e si occupa di misurare la capacità di ragionamento dell'AI con domande estremamente difficili.

Che test è lo Humanity's Last Exam?

Creato dal Center for AI Safety e da Scale AI, il test comprende 3.000 domande che coprono discipline come matematica, scienze naturali e umanistiche. L'obiettivo è misurare se le IA possono raggiungere un livello di ragionamento e conoscenza paragonabile a quello degli esperti umani.

  • Inizialmente, il modello DeepSeek R1 guidava la classifica con un punteggio di accuratezza del 9.4% basato solo sul testo.
  • OpenAI ha introdotto ChatGPT o3-mini, che ha ottenuto un punteggio di accuratezza del 10.5% alla configurazione base e del 13% alla configurazione più avanzata, cioè o3-mini-high.
  • Il modello Deep Research di OpenAI ha raggiunto una precisione del 26.6%, segnando un miglioramento dell'accuratezza del 183% in meno di 10 giorni, grazie alla capacità di ricerca sul web.
  • Mentre il punteggio del 26.6% è notevole rispetto ai precedenti, è ancora basso in termini assoluti.

Questo testo è un riassunto del seguente articolo (eng):

OpenAI’s Deep Research smashes records for the world’s hardest AI exam, with ChatGPT o3-mini and DeepSeek left in its wake
A 183% improvement in less than two weeks

Alternativa in italiano: non pervenuta

Commenti

Più recenti