Salta al contenuto

L'azienda AI di Elon Musk svela Grok 1.5 Vision

Il modello, che si basa sulla precedente iterazione Grok, è open source e può essere utilizzato per molte cose.

L'azienda di intelligenza artificiale di Elon Musk, xAI, ha presentato il suo primo modello multimodale, Grok 1.5 Vision.

Secondo l'anteprima, oltre a comprendere il testo, il modello di intelligenza artificiale può lavorare anche con documenti, grafici, diagrammi, screenshot e foto.

Finanziatore di OpenAI in passato, Musk sostiene che l'IA possa aiutare l'umanità in modi inimmaginabili. Tuttavia, a causa di divergenze sulla visione del futuro di OpenAI, lo scorso anno Musk ha fondato xAI con un gruppo di ricercatori di intelligenza artificiale influenti, con l'intento di sviluppare modelli di IA in modo più aperto.

A novembre scorso, l'azienda ha lanciato la prima iterazione del suo modello di intelligenza artificiale, Grok. Inoltre, ha sottolineato il suo impegno per l'apertura rendendo open source i pesi del modello base e l'architettura della rete il mese scorso. Il ritmo di lavoro dell'azienda è evidente: il suo primo modello di intelligenza artificiale multimodale è arrivato a malapena un mese dopo che la sua architettura è stata resa open source.

Che cosa può fare Grok 1.5V?

Secondo il sito web, Grok 1.5V collega il mondo fisico e digitale. L'azienda ha evidenziato sette esempi delle sue capacità per spiegare come funziona il modello multimodale.

Un utente può condividere un'immagine di un flusso di lavoro con Grok e il modello di intelligenza artificiale può tradurlo in codice Python. Semplicemente mostrando l'etichetta nutrizionale di un prodotto, un utente può chiedere quante calorie consumerebbe mangiandone una certa porzione.

Mentre questo potrebbe sembrare un semplice calcolo, il modello di intelligenza artificiale può anche prendere il disegno di un bambino e costruire un'intera storia della buonanotte. Il modello può fare anche il contrario: vedendo un meme spiegherà perché è divertente e fornirà il contesto necessario per comprenderlo.

Il modello di intelligenza artificiale non è pensato solo per il divertimento. Può convertire una tabella in formato CSV o aiutare a correggere un pezzo di codice che potrebbe non funzionare. Ma se avete bisogno di consigli per la riparazione domestica, è sufficiente condividere immagini della zona interessata e il modello è progettato per aiutare anche in questo, come elenca l'azienda sul suo sito web.

xAI ha inoltre rilasciato un nuovo benchmark chiamato RealWorldQA per valutare la comprensione spaziale mostrata dai modelli multimodali. Dagli esempi condivisi dall'azienda, Grok 1.5V può analizzare immagini e distinguere oggetti che sono comparativamente più grandi o fornire consigli di guida.

Secondo i dati dell'azienda condivisi in questo grafico, Grok 1.5V supera nettamente anche altri modelli di intelligenza artificiale su questo benchmark e su altri.

In una recente intervista, Elon Musk ha affermato che si aspetta che l'IA sia più intelligente di qualsiasi essere umano entro la fine del 2025. Di conseguenza, tutti gli occhi sono puntati sui progressi che la sua azienda porterà alla competizione nel campo dell'IA nei prossimi mesi.

xAI ha dichiarato che l'azienda nei prossimi mesi apporterà miglioramenti significativi alle capacità dei suoi modelli in altri settori, come audio, voce e video.

Grok 1.5V sarà presto disponibile per i tester e gli utenti esistenti dell'azienda, ha aggiunto la società nel suo blog.

Commenti

Più recenti