I creatori di video su YouTube sono le ultime vittime dell'intelligenza artificiale

July 18, 2024 admin

Dopo gli artista, gli editori, gli scrittori e gli autore di blog, le nuove vittime delle aziende che hanno bisogno di allenare un'intelligenza artificiale sempre più affamata di dati sono i creatori di video su YouTube.

Apple, NVIDIA, Antropico e altre aziende hanno infatti utilizzato i sottotitoli di YouTube per allenare le loro IA, ovviamente senza permesso. Scopriamo perché è un problema, e perché probabilmente non si potrà fare niente per evitarlo.

L'IA è affamata di dati, e le aziende utilizzano quelli che trovano, senza pagare

Partiamo dal problema principale: l'IA ha bisogno di sempre più dati per allenarsi e Internet non basta più. La questione è stata esposta chiaramente da Shalini Kurapati, cofondatore di Clearbox AI Solutions, all'incontro sull'intelligenza artificiale tenutosi all'ISPI Summer Festival dello scorso 4 luglio.

Clearbox AI quindi cosa fa? Crea dati “sintetici” per allenare l'IA, dati che rispettano le più recenti normative sulla privacy (GDPR/CCPI). Clearbox AI non è l'unica azienda di questo tipo, ma evidentemente alle società che sviluppano IA questo non basta, o forse non vogliono pagare.

Ecco quindi che un'inchiesta di Notizie di prova in collaborazione con Cablato ha scoperto che più di 170.000 video di YouTube appartenenti a più di 48.000 canali sono stati utilizzati per allenare l'IA di giganti multimiliardari come Apple, NVIDIA, Antropico e Forza vendita, tra gli altri.

I dati raccolti: la magia dei sottotitoli e il dataset The Pile

Ma che dati sono stati raccolti? Non video lo immagini, ma le trascrizioni, ovvero i sottotitoli, che provengono da un'enorme raccolta di dati chiamata Il mucchioe raccolta dall'organizzazione no profit EleutherAI.

I dati di Il mucchio non contengono solo le trascrizioni di YouTube, ma 800 GB di dati disponibili per chiunque e che rappresentano, secondo l'articolo, una fonte di dati diversificati per migliorare i modelli di linguaggio.

Quindi le aziende non hanno raccolto i dati direttamente, ma hanno usato quelli raccolti da EleutherAI. Il problema è che quei dati, di cui le trascrizioni di YouTube sono una parte, non sono di tutti, ma dei creatori.

Tra i video di YouTube raccolti, appaiono i filmati di SignorBestia, Marchesi Brownlee, Notizie ABC, BBC e New York Times.

Marrone ha subito espresso il suo rammarico su X, spiegando come Apple tecnicamente non ha raccolto i dati, ma che nondimeno questo resta un problema.

Apple ha ottenuto dati per la propria intelligenza artificiale da diverse aziende

Uno di loro ha raschiato tonnellate di dati/trascrizioni da video di YouTube, incluso il mio

Apple tecnicamente evita la “colpa” qui perché non è lei a fare scraping

Ma questo sarà un problema in continua evoluzione per molto tempo Italiano: https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) 16 luglio 2024

Notizie di prova ha persino creato uno strumento che consente di scoprire se un canale è stato utilizzato per allenare l'IA.

I documenti mostrano anche come Apple abbia utilizzato Il mucchio per addestrare ApriELM, un modello rilasciato ad aprile, settimane prima che l'azienda rivelasse la sua Apple Intelligence.

Anche Bloomberg e Mattoni di dati hanno addestrato modelli su The Pile, e persino Antropico, azienda in cui Amazon ha investito 4 miliardi di dollari e che si vanta di non addestrare i suoi modelli su dati pubblici e di promuovere un'IA “sicura”.

Le aziende si giustificano affermando che i dati di Youtube sono solo una piccolissima parte di Il mucchioche comunque sono dati pubblici e quindi il problema è di chi li ha raccolti, ovvero EleutherAI. Ma è una giustificazione valida?

Perché è un problema

Ci siamo già passati.

L'anno scorso, un'analisi di un set di dati chiamato Libri3 ha rivelato che il lavoro di diversi scrittori viene La vita di Margaret Atwood, Michele Pollan e Zadie Smith era stato raccolto per allenare i modelli di intelligenza artificiale.

Gli autori hanno intentato diverse cause contro le aziende per uso non autorizzato del lavoro e violazione del copyright, e la piattaforma che ospita Libri3 lui ha chiuso.

Quindi il problema maggiore riguarda le violazioni del diritto d'autore. Diversi creatori si sono visti derubati, anche perché nessuno ha chiesto loro se potevano usare il loro lavoro, né tanto meno li hanno pagati per farlo. E stiamo parlando di aziende multimiliardarie.

Ma c'è di più. L'IA può essere usata per creare video con gli stessi contenuti, come ha potuto vedere Davide Pakman, di The David Pakman Show, che si è imbattuto in un video su TikTok di Tucker Carlson, ma che riporta esattamente le sue parole.

Non solo, ma c'è anche un problema di contenuti. Gli sviluppatori di Salesforce hanno segnalato che The Pile conteneva anche parolecce e “pregiudizi contro il genere e alcuni gruppi religiosi” e hanno avvertito che potrebbe portare a “preoccupazione e preoccupazioni per la sicurezza“.

Notizie di prova ha trovato migliaia di esempi di parolecce nei sottotitoli di YouTube, nonché casi di insulti razziali e di genere, ma questi dati sono stati utilizzati per allenare l'IA, che quindi li ha appresi.

Cosa succede ora

Se vi state chiedendo cosa succederà ora, molto probabilmente niente. I dati sono già stati appresi dall'IA, e le cause legali hanno insegnato che, nonostante le vittorie, non hanno un gran potere contro i giganti del Web.

YouTube vieta la raccolta automatica di dati dalla piattaforma, e ha affermato che Il mucchio potrebbe violare i suoi termini di uso del servizio, ma non siamo a conoscenza di azioni effettive.

D'altronde, Google lo stesso ha aggiornato i suoi termini di servizio per avere via libera all'utilizzo dei dati per allenare l'IA, persino dai video di YouTube.

Il problema è che YouTube è una miniera d'oro in termini di dati, in quanto i sottotitoli possono aiutare a formare i modelli a replicare il modo in cui le persone parlano e conversano.

Quindi se create un video su YouTube, come qualsiasi altra cosa su Internet, aspettatevi che venga usato per allenare l'IA.