Cosa è successo
Vitruvian-1 è stato sviluppato da una startup romana spendendo poche decine di migliaia di euro ed appoggiandosi a server cloud. Ha ottenuto risultati sorprendenti con i benchmark: risulta terzo (dopo DeepSeek e OpenAI) per l'MMLU SCORE e quarto (dopo i soliti due) per il MATH-500 SCORE.
Riassunto
- Una startup italiana chiamata ASC27 ha sviluppato un nuovo modello di intelligenza artificiale, Vitruvian-1, lavorando con circa 30 persone e spendendo poche decine di migliaia di euro.
- Vitruvian-1 è un modello di "Chain of Thought reasoning" che ha ottenuto punteggi elevati nei benchmark MATH (95,5%) e MMLU (90,2%), simili a modelli internazionali più grandi e costosi.
Cos'è un modello di "Chain of Thought reasoning"?
Un modello di "Chain of Thought reasoning" (o CoT reasoning) è una tecnica usata nell'intelligenza artificiale per migliorare il ragionamento dei modelli di linguaggio. In pratica, invece di dare una risposta diretta, il modello scompone il problema in più passaggi logici, come farebbe un essere umano quando pensa ad alta voce.
Questo aiuta a risolvere problemi complessi, come calcoli matematici, deduzioni logiche o domande che richiedono più livelli di analisi. È utile soprattutto nei LLM (modelli di linguaggio di grandi dimensioni) per ottenere risposte più accurate e spiegabili.
- Classifica mondiale per il benchmark MMLU SCORE:
- DeepSeek-R1 (US), 671B: punteggio 90,8
- OpenAI-o1 (US), 1076B: punteggio 91,8
- Vitruvian-1 (ITA), 14B: punteggio 90,2
- Llama 3.1 – 405B (US), 405B: punteggio 88,6
- DeepSeek-V3 (CN), 671B: punteggio 86,5
- Classifica mondiale per il benchmark MATH-500 SCORE:
- OpenAI-o3-mini (US), 200B: punteggio 97,9
- DeepSeek-R1 (US), 671B: punteggio 97,3
- OpenAI-o1 (US), 1076B: punteggio 96,4
- Vitruvian-1 (ITA), 14B: punteggio 95,5
- OpenAI-o1-mini (US), 300B: punteggio 92,4
Cos'è l'MMLU SCORE?
L'MMLU Score (Massive Multitask Language Understanding) è una metrica che misura la capacità di un modello di intelligenza artificiale di comprendere e rispondere a domande su un'ampia varietà di argomenti. Il test MMLU copre oltre 50 discipline, tra cui matematica, storia, diritto, medicina e informatica, e include domande a scelta multipla di difficoltà crescente.
Cos'è il MATH-500 SCORE?
Il MATH-500 Score è una metrica che misura la capacità di un modello di intelligenza artificiale nel risolvere problemi matematici complessi. Si basa su un sottoinsieme del dataset MATH, che contiene problemi avanzati di matematica da competizione, come algebra, geometria, teoria dei numeri e combinatoria.
- Il modello è stato addestrato utilizzando server cloud a basso costo, un metodo alternativo rispetto ai supercomputer utilizzati dalle grandi aziende di tecnologia.
- ASC27 punta a sviluppare modelli di IA su misura per diversi settori industriali, come il legal e la chimica, concentrandosi su soluzioni efficaci piuttosto che sull'effetto "wow", come detto nell'intervista di Fortune.
- Sebbene ASC27 non abbia ancora formalmente raccolto finanziamenti, è stata contattata da molti investitori, ma accetterà solo offerte significative, sopra i 10 milioni di euro.
- La startup è attiva dal 2020, ha pubblicato diversi lavori di ricerca internazionali e serve già clienti importanti in Italia.
Questo testo è un riassunto del seguente articolo (ita):
