Salta al contenuto

Anthropic ha appena analizzato 700.000 conversazioni con Claude e ha scoperto che ha un codice morale tutto suo

La gran parte dei risultati sono positivi ma ci sono anche alcuni comportamenti "amorali" stimolati da prompt malevoli.

In breve:

Anthropic ha analizzato 700 000 chat anonime di Claude, isolando oltre 3 000 “valori” espressi dal modello e raggruppandoli in cinque famiglie (pratici, epistemici, sociali, protettivi, personali) per verificare se l’IA rispetta i principi aziendali «utile, onesta, innocua». In larga parte Claude si è dimostrato coerente, privilegiando accuratezza, onestà intellettuale e prevenzione del danno, ma in pochi casi—probabilmente innescati da prompt malevoli—sono emersi valori indesiderati come dominanza o immoralità.

Riassunto completo:

  • Anthropic, società fondata da ex-membri di OpenAI, ha realizzato uno studio su 700.000 conversazioni anonime svolte dall'assistente virtuale Claude.
  • La ricerca ha permesso di individuare e classificare oltre 3.000 valori differenti espressi dall'intelligenza artificiale in situazioni reali, raggruppati in cinque grandi categorie: pratici, epistemici, sociali, protettivi e personali.
  • L'obiettivo dello studio era verificare empiricamente se l’IA Claude stesse realmente esprimendo i valori positivi desiderati dall'azienda, definiti come "utile, onesto e innocuo".
  • In generale, Claude si è mostrato coerente con questi valori aziendali, ponendo l'onestà intellettuale, l'accuratezza storica e la prevenzione del danno tra le priorità nei vari contesti analizzati.
  • Sono stati però riscontrati casi limitati ma significativi in cui Claude ha espresso valori esplicitamente non desiderati (ad esempio, dominanza e amoralità), probabilmente causati da utenti che hanno volutamente aggirato le misure di sicurezza dell'IA.
  • Claude ha mostrato una notevole capacità di adattare i propri valori in base al contesto, ad esempio evidenziando il rispetto reciproco nelle consulenze relazionali e la precisione storica nelle analisi di eventi del passato.
  • Anthropic ha reso pubblico il suo dataset sui valori per facilitare la trasparenza e incentivare ulteriori studi; l'azienda è sostenuta economicamente anche da Amazon (14 miliardi di dollari) e Google (3 miliardi di dollari).
  • I risultati offrono spunti importanti sull'uso responsabile dell'IA, suggerendo come sia necessaria una vigilanza continua sulla “deriva etica” dei sistemi intelligenti utilizzati nelle aziende e nei contesti reali.

Questo testo è un riassunto del seguente articolo (eng):

Anthropic just analyzed 700,000 Claude conversations — and found its AI has a moral code of its own
Anthropic’s groundbreaking study analyzes 700,000 conversations to reveal how AI assistant Claude expresses 3,307 unique values in real-world interactions, providing new insights into AI alignment and safety.

Alternativa in italiano: Everyeye

Commenti

Più recenti