Le aziende che sviluppano intelligenza artificiale stanno incontrando difficoltà nell'ottenere dati di formazione di alta qualità, spingendosi ad esplorare metodi controversi. OpenAI, nella sua ricerca di dati per addestrare GPT-4, avrebbe trascritto oltre un milione di ore di video di YouTube, una mossa ritenuta legalmente discutibile ma giustificata come uso lecito. Questa iniziativa faceva parte della strategia più ampia di OpenAI volta a mantenere la competitività e migliorare la comprensione del mondo da parte dei suoi modelli attraverso set di dati diversificati, inclusi dati pubblici e ottenuti tramite partnership, oltre alla potenziale generazione di dati sintetici.
La questione della scarsità di dati nell'industria è stata evidenziata dal fatto che, entro il 2021, aziende come OpenAI avevano esaurito le fonti di dati di alta qualità disponibili, portandole a considerare contenuti da YouTube, podcast e audiolibri. Questa situazione ha sollevato questioni legali ed etiche, con Google, proprietario di YouTube, che afferma come i suoi termini di servizio proibiscano lo scraping o il download non autorizzato di contenuti. Google stesso ha addestrato modelli su contenuti di YouTube, ma sostiene di farlo in conformità con gli accordi con i creatori.
Un report del New York Times ha anche rivelato che Google e Meta stanno esplorando i limiti di ciò che è possibile fare con i dati dei consumatori, con Google che modifica il linguaggio delle sue politiche per espandere i diritti di utilizzo e Meta che discute l'uso di opere protette da copyright per potenziare i suoi modelli di IA. Questi sviluppi sottolineano la necessità urgente per le aziende di IA di trovare nuove fonti di dati poiché rischiano di esaurire quelle esistenti, con soluzioni come la generazione di dati sintetici e l'apprendimento curricolare che vengono considerate, sebbene non ancora provate. La dipendenza da fonti di dati potenzialmente non autorizzate solleva significative preoccupazioni legali ed etiche, come evidenziato da diverse cause legali intentate contro le aziende di IA.