I modelli multimodali sono la nuova frontiera dell'IA, e Grok non vuole essere da meno

May 22, 2024 admin

Grok, I l chatbot IA annunciato da Elon Musk a novembre dell'anno scorso come “progettato per essere un po' ironico“, non vuole stare troppo indietro nella corsa all'IA e starebbe per basarsi su un modello multimodale (a proposito, sapete cos'è l'intelligenza artificiale generativa?).

Questo significa che il modello di xAI, l'azienda fondata da Elon Musk per “capire la vera natura dell'universo”, si sta mettendo alla pari con i concorrenti di Google, Gemelli, OpenAI, GPT-4oe Antropico, Claudio 3. Ma soprattutto sta mostrando un trend nel settore, ovvero come i modelli multimodali siano la nuova frontiera dell'IA.

Cos'è un modello multimodale

Perché, e cosa significa modello multimodale? Pensate a un modello che è stato allenato su una quantità enorme di testi, ed è in grado di rispondere a una domanda testuale con un testo.

Oppure a un altro che è stato allenato su una quantità enorme di immagini, immagini ed è in grado di “comprendere” un testo per produrre un'immagine a partire da esso.

Ora invece pensi a un chatbot in grado di ricevere qualsiasi tipo di ingresso, che sia un'immagine, un testo o un audio, e possa rispondere con diversi output, indipendentemente dalla sorgente. Questo è un modello multimodaleovvero in grado di elaborare le informazioni da diverse modalità.

Per esempio mostrate l'immagine di una torta e l'IA vi fornisce la ricetta, o il contrario. Lo abbiamo visto con Gemelli, che sta mostrando di avere non solo capacità enormemamma potenzialità ancora maggiori.

L'IA multimodale è quindi il passaggio successivo dell'IA generativa, in quanto è un'IA in grado di elaborare diverse modalità ed eliminare le restrizioni su input e output nelle nostre interazioni. Di fatto avvicinandosi ulteriormente utenti e chatbot IA.

Le novità di Grok

Ora questa tecnologia sta per arrivare in Grok, il modello di xAI disponibile per gli utenti che pagano l'abbonamento XPremium Plus.

A marzo, Grok è passato alla versione 1.5 e annuncio aprile è stato introdotto il primo modello multimodale, Grok-1.5 Visione (1,5 V).

Secondo xAI questo aggiornamento consente a Grok di essere competitivo con altri modelli attualmente esistenti (Claudio 3, GPT4V e Gemelli Pro) nell'ONU certo numero di dominidal ragionamento multi disciplinare alla comprensione di documenti, diagrammi scientifici, tabelle, screenshot e fotografie.

Qui sotto potete vedere i risultati, da prendere con le pinze perché questi segno di riferimento sono spesso critici in quanto a volte inclusi nei dati di allenamento, e quindi non rappresentare il valore effettivo di un modello. Nondimeno, possiamo dare a xAI il beneficio del dubbio di aver fatto un buon lavoro, e di essere, almeno sulla cartain linea con i migliori modelli in circolazione.

Nei documenti dedicati agli sviluppatori, è presente uno script Pitone di esempio che è in grado di leggere un'immagine, impostare un prompt di testo e generare una risposta. Di fatto dimostrando come un utente possa utilizzare la libreria di kit di sviluppo softwarexAI per generare una risposta basata sia sul testo che sulle immagini.

Per quanto riguarda i dati di allenamento, xAI ha condiviso solo le informazioni su Grok-1che è stato”pre-addestrato su una varietà di dati di testo da fonti disponibili da Internet fino al terzo trimestre 2023 e set di dati rivisti e curati da tutor AI“, ovvero revisori umani. Non vengono condivise informazioni riguardanti Grok-1.5V.

Stando alle informazioni, il modello sarà presto disponibile per i primi tester e gli utenti Grok attuali.

Source link