Salta al contenuto

Wikipedia registra picchi altissimi di traffico dovuto ai crawler AI

Si parla del 50% in più a partire da gennaio 2024 e Wikipedia sta prendendo provvedimenti per regolare l'accesso.

In breve:

Da gennaio 2024, Wikimedia ha registrato un +50% di traffico dati, causato in gran parte da bot che scaricano contenuti per addestrare IA. Questi bot generano il 65% del traffico attuale, accedendo a pagine poco visitate e aumentando costi e carico sui server, senza portare visibilità o donazioni. Wikimedia punta ora a regolare l’accesso ai suoi contenuti per garantire una gestione più sostenibile.

Riassunto completo:

  • Dal gennaio 2024 Wikimedia ha rilevato un aumento del 50% del traffico dati, principalmente a causa di bot (programmi automatici) che scaricano contenuti per allenare modelli di intelligenza artificiale.
  • Questo fenomeno non deriva da utenti reali che leggono articoli o guardano video, bensì dalla massiccia attività di bot AI che estraggono pagine, immagini e video poco consultati.
  • Il traffico generato dai bot rappresenta ben il 65% delle risorse di Wikimedia, causando continui problemi al team tecnico che deve intervenire regolarmente per impedire rallentamenti agli utenti reali.
  • Gli utenti umani normalmente consultano contenuti più comuni o attuali, permettendo di servirli rapidamente tramite sistemi ottimizzati che riducono costi e tempi d'attesa. I bot, invece, accedono a pagine meno richieste, aumentando così il consumo di risorse e costi per Wikimedia.
  • Wikimedia evidenzia inoltre come questo aumento di traffico è avvenuto senza la sufficiente attribuzione necessaria a far conoscere il progetto presso nuovi utenti e promuovere raccolte fondi, affermando che "il nostro contenuto è gratuito, la nostra infrastruttura invece no".
  • Per affrontare la situazione, Wikimedia intende definire nuove modalità sostenibili per l'accesso ai contenuti da parte degli sviluppatori e utenti nel prossimo anno fiscale, dato che il fenomeno non mostra alcun segno di rallentamento.

Esiste una regolamentazione dei crawler AI?

I crawler AI sono quei bot che vanno a giro per il web a "nutrirsi" di informazioni e al momento non esiste una regolamentazione unica e specifica per i crawler basati sull'intelligenza artificiale. Generalmente i crawler, cioè programmi automatici che esplorano internet raccogliendo informazioni, sono regolati dalle linee guida definite dai singoli siti nel file chiamato robots.txt, un documento che indica quali contenuti possono essere scansionati e quali no. Tuttavia il file robots.txt può essere facilmente aggirato perché non è una protezione tecnica ma solo una richiesta di "buona educazione" ai crawler. In pratica, un crawler benintenzionato come quello di Google lo rispetta, ma nulla impedisce a un crawler malevolo o non autorizzato di ignorarlo completamente e accedere comunque ai contenuti. Per questo molti siti affiancano il robots.txt a sistemi più robusti come blocchi IP, autenticazione o firewall per proteggersi da traffico indesiderato.

Questo testo è un riassunto del seguente articolo (eng):

Wikipedia is struggling with voracious AI bot crawlers
Wikimedia has seen a 50 percent increase in bandwidth used for downloading multimedia content since January 2024 due to AI crawlers taking its content to train generative AI models. It has to find a way to address the problem, because it could slow down actual readers’ access to its pages and assets.

Alternativa in italiano:

Wikipedia è in difficoltà a causa dei crawler IA
La Wikimedia Foundation sta affrontando un aumento senza precedenti di traffico generato da bot IA, con potenziali rischi per gli utenti reali.

Commenti

Più recenti