Il nuovo modello IA di Microsoft è piccolo ma potentissimo, ed è stato allenato come un bambino

April 29, 2024 admin

Uno degli obiettivi dei giganti del Web è, oltre a sviluppare modelli di intelligenza artificiale sempre più potenti, riuscendo a renderli più piccoli, in modo da poter essere eseguiti non su server potentema direttamente sui nostri dispositivi, telefoni o portatile che siano (sapete cosa sia l'intelligenza artificiale generativa?).

Lo abbiamo visto con Gemelli di Google, con il lancio di Gemelli Nanoma anche Microsoft adesso si butta nella mischia con i nuovi modelli Fi 3. Definiti modelli linguistici di piccole dimensioni (SLM), in contrapposizione ai più noti modelli linguistici di grandi dimensioni (LLM), questi strumenti sono estremamente potente, e sono stati addestrati come i bambini: ascoltando le storie!

Cosa sono i modelli Phi 3

Phi-3 è la nuova famiglia di modelli linguistici di piccole dimensioni (SLM) di Microsoft, creato a partire da un problema, se i modelli linguistici stanno diventando sempre più grandi, quanti parametri sono davvero necessari per costruire un modello che offre un ragionamento di senso comune?

Contro Phi-3la casa di Redmond ha creato un modello con dei migliori rapporti costo-prestazioni di qualsiasi altro modello sul mercato, in grado anche di superare modelli di dimensioni fino a 10 volte superiori.

Il primo esponente della famiglia è Phi-3 Minia cui seguiranno altre versioni, Phi-3 Piccolo (7 miliardi di parametri) e Phi-3 medio (14 miliardi di parametri) più avanti. Con 3,8 miliardi di parametri, Phi-3 Mini è una versione ridotta del modello Phi-2 lanciato a dicembre 2023.

Secondo Microsoft, se alcuni utenti hanno bisogno di modelli grandi, molti potrebbero averne bisogno solo modelli piccoli o di combinare i due strumenti, ed è qui che si inserisce la famiglia Phi-3. In realtà il concetto non è nuovo, e Google, Antropico e Meta hanno tutti simili per l'utilizzo su dispositivi come smartphone e portatili.

Gemma 2B e 7B di Google vanno bene per chatbot e lavori di tipo linguistico. Claude 3 Haiku di Anthropic può leggere articoli di ricerca con grafici e riassumerli rapidamente, mentre Lama 3 8B recentemente rilasciato da Meta può essere utilizzato per chatbot e assistenza nella programmazione.

Le caratteristiche di Phi-3 Minioltre alle dimensioni, sono il fatto che è in grado di competere con modelli come Llama 2 o GPT-3.5, e che è stato creato responsabilmente utilizzando dati sintetici che hanno consentito un livello maggiore di sicurezza.

Addestrati ascoltando le storie, come i bambini

Abbiamo capito come Phi-3 Mini sia stato addestrato in modo diverso rispetto al solito, sviluppando un approccio di formazione innovativo. Il team di ricerca di Microsoft sull'apprendimento automatico si è chiesto quanto potrebbe imparare un modello di intelligenza artificiale usando solo parole comprensibili da un bambino di 4 anni.

Eric Boydvicepresidente aziendale della piattaforma AI di Microsoft Azure, dice che gli sviluppatori hanno addestrato Phi-3 con un “curriculum”ispirandosi a come i bambini imparano dalle storie della buonanotte. Quindi da libri con parole e frasi più semplici per spiegare argomenti complessi.

Il problema è che non ci sono abbastanza libri per bambini per allenare un modello, quindi Microsoft ha preso una lista di più di 3.000 parole e abbiamo chiesto un modello linguistico di grandi dimensioni di fare “libri per bambini per insegnare a Phi“.

Phi-3 si è semplicemente basato su ciò che le iterazioni precedenti hanno imparato. Mentre Phi-1 si è concentrato sulla programmazione e Phi-2 ha iniziato a imparare a ragionare, Phi-3 è più bravo a programmare e ragionare.

Le applicazioni dei modelli Phi-3

Ovviamente, Phi-3 non è pensato per competere con LLM come GPT-4ma per applicazioni particolari come dispositivi con risorse limitate, o comunque sul dispositivo e disconnesso. Non solo, ma anche scenari legati alla latenza in cui i tempi di risposta rapidi sono critici, o casi d'uso in cui c'è bisogno di contenere i costi.

Più comunemente, la nuova frontiera dell'IA sono i modelli che vengono eseguiti a livello locale. Pensiamo ai nuovi IA del PC fortemente voluti da Microsoft o ai nuovi smartphone AI come i Galassia S24 di Samsung.

Limitandoci ai PC, ricordiamo che per essere definito PC AI, Microsoft richiede almeno 40 TOPS (trilioni di operazioni al secondo) per poter funzionare localmente.

Intel ha appena svelato le nuove CPU Lago Lunare di nuova generazione che arrivano a 100 TOP per le attività di intelligenza artificiale, con la sola NPU che arriva 45 TOPS, mentre il nuovo Snapdragon X Elite di Qualcomm ha 45 TOPS di prestazioni NPU.

Queste specifiche consentiranno di eseguire un LLM, ma che dire della maggioranza dei dispositivi più vecchi? D'altronde sono pochi gli utenti che potranno o vorranno cambiare PC. Con nuovi modelli più piccoli, nello specifico Phi-3 Mini, anche loro potranno accedere a strumenti IA soddisfacenti, almeno per alcune applicazioni. Microsoft ha anche tenuto un in diretta su YouTube molto interessante.

Disponibilità dei modelli Phi-3

A partire da oggi, Phi-3-Mini è disponibile su Microsoft Azure AI Studio, Volto che abbraccia e Ollama. Come abbiamo anticipato, Phi-3 Small e Phi-3 Medium arriveranno più avanti.

Source link