Wikipedia registra picchi altissimi di traffico dovuto ai crawler AI

In breve:

Da gennaio 2024, Wikimedia ha registrato un +50% di traffico dati, causato in gran parte da bot che scaricano contenuti per addestrare IA. Questi bot generano il 65% del traffico attuale, accedendo a pagine poco visitate e aumentando costi e carico sui server, senza portare visibilità o donazioni. Wikimedia punta ora a regolare l’accesso ai suoi contenuti per garantire una gestione più sostenibile.

Riassunto completo:

Dal gennaio 2024 Wikimedia ha rilevato un aumento del 50% del traffico dati, principalmente a causa di bot (programmi automatici) che scaricano contenuti per allenare modelli di intelligenza artificiale.
Questo fenomeno non deriva da utenti reali che leggono articoli o guardano video, bensì dalla massiccia attività di bot AI che estraggono pagine, immagini e video poco consultati.
Il traffico generato dai bot rappresenta ben il 65% delle risorse di Wikimedia, causando continui problemi al team tecnico che deve intervenire regolarmente per impedire rallentamenti agli utenti reali.
Gli utenti umani normalmente consultano contenuti più comuni o attuali, permettendo di servirli rapidamente tramite sistemi ottimizzati che riducono costi e tempi d'attesa. I bot, invece, accedono a pagine meno richieste, aumentando così il consumo di risorse e costi per Wikimedia.
Wikimedia evidenzia inoltre come questo aumento di traffico è avvenuto senza la sufficiente attribuzione necessaria a far conoscere il progetto presso nuovi utenti e promuovere raccolte fondi, affermando che "il nostro contenuto è gratuito, la nostra infrastruttura invece no".
Per affrontare la situazione, Wikimedia intende definire nuove modalità sostenibili per l'accesso ai contenuti da parte degli sviluppatori e utenti nel prossimo anno fiscale, dato che il fenomeno non mostra alcun segno di rallentamento.

Esiste una regolamentazione dei crawler AI?

I crawler AI sono quei bot che vanno a giro per il web a "nutrirsi" di informazioni e al momento non esiste una regolamentazione unica e specifica per i crawler basati sull'intelligenza artificiale. Generalmente i crawler, cioè programmi automatici che esplorano internet raccogliendo informazioni, sono regolati dalle linee guida definite dai singoli siti nel file chiamato robots.txt, un documento che indica quali contenuti possono essere scansionati e quali no. Tuttavia il file robots.txt può essere facilmente aggirato perché non è una protezione tecnica ma solo una richiesta di "buona educazione" ai crawler. In pratica, un crawler benintenzionato come quello di Google lo rispetta, ma nulla impedisce a un crawler malevolo o non autorizzato di ignorarlo completamente e accedere comunque ai contenuti. Per questo molti siti affiancano il robots.txt a sistemi più robusti come blocchi IP, autenticazione o firewall per proteggersi da traffico indesiderato.

Questo testo è un riassunto del seguente articolo (eng):