In breve
In ritardo ma è arrivato, il nuovo modello "pensa" come ChatGPT e DeepSeek e pare che abbia battuto tutti in due benchmark (AIME e GPQA). Grok 3 può cercare sul web e anche su X e a breve rilascerà una modalità voce. Quando Grok 3 sarà stabile, Grok 2 diventerà open source.
Riassunto completo
- Lunedì, xAI ha lanciato il suo nuovo modello Grok 3, e ha rivelato nuove funzionalità per le app Grok su iOS e web.
- Grok 3, che ha richiesto mesi di sviluppo, era previsto per il 2024 ma ha subito un ritardo.
- xAI dichiara che Grok 3 supera altri modelli IA su benchmark importanti come AIME e GPQA.
Cosa sono AIME e GPQA?
AIME (Arithmetic and Inductive Reasoning Measurement) è un benchmark che valuta la capacità di un modello di intelligenza artificiale nel risolvere problemi aritmetici complessi e di ragionamento induttivo, testando la sua abilità nel riconoscere pattern e applicare logica deduttiva.
GPQA (Graduate-Level Problem Solving and Question Answering) invece misura la capacità di rispondere a domande di livello universitario e post-universitario, mettendo alla prova le competenze in diverse discipline con un focus su quesiti che richiedono ragionamenti più strutturati e risposte articolate.
Entrambi sono strumenti utili per misurare fino a che punto un'IA può competere con esseri umani in compiti di problem-solving avanzato.
- I modelli di Grok 3, cioè Grok 3 Reasoning e Grok 3 Reasoning mini, possono essere usati per risolvere domande complesse in matematica e scienza e sono resi disponibili tramite l'app Grok; la modalità "Big Brain" permette di elaborare prompt più complessi.
- La funzione DeepSearch permette a Grok di analizzare informazioni che si trovano sul web e su X.
- A breve, Grok avrà una "modalità voce" e diventerà accessibile tramite un'API aziendale, mentre xAI ha in programma di rendere open source la versione Grok 2, una volta che Grok 3 sarà stabile.
- Inizialmente, i modelli Grok erano noti per essere un po' troppo espliciti e controversi, ma Musk ha espresso l'intenzione di renderli più politicamente neutri, anche se l'efficacia di questa transizione non è ancora chiara.
Questo testo è un riassunto del seguente articolo (eng):

Alternativa in italiano:
