In breve:
Anthropic ha analizzato 700 000 chat anonime di Claude, isolando oltre 3 000 “valori” espressi dal modello e raggruppandoli in cinque famiglie (pratici, epistemici, sociali, protettivi, personali) per verificare se l’IA rispetta i principi aziendali «utile, onesta, innocua». In larga parte Claude si è dimostrato coerente, privilegiando accuratezza, onestà intellettuale e prevenzione del danno, ma in pochi casi—probabilmente innescati da prompt malevoli—sono emersi valori indesiderati come dominanza o immoralità.
Riassunto completo:
- Anthropic, società fondata da ex-membri di OpenAI, ha realizzato uno studio su 700.000 conversazioni anonime svolte dall'assistente virtuale Claude.
- La ricerca ha permesso di individuare e classificare oltre 3.000 valori differenti espressi dall'intelligenza artificiale in situazioni reali, raggruppati in cinque grandi categorie: pratici, epistemici, sociali, protettivi e personali.
- L'obiettivo dello studio era verificare empiricamente se l’IA Claude stesse realmente esprimendo i valori positivi desiderati dall'azienda, definiti come "utile, onesto e innocuo".
- In generale, Claude si è mostrato coerente con questi valori aziendali, ponendo l'onestà intellettuale, l'accuratezza storica e la prevenzione del danno tra le priorità nei vari contesti analizzati.
- Sono stati però riscontrati casi limitati ma significativi in cui Claude ha espresso valori esplicitamente non desiderati (ad esempio, dominanza e amoralità), probabilmente causati da utenti che hanno volutamente aggirato le misure di sicurezza dell'IA.
- Claude ha mostrato una notevole capacità di adattare i propri valori in base al contesto, ad esempio evidenziando il rispetto reciproco nelle consulenze relazionali e la precisione storica nelle analisi di eventi del passato.
- Anthropic ha reso pubblico il suo dataset sui valori per facilitare la trasparenza e incentivare ulteriori studi; l'azienda è sostenuta economicamente anche da Amazon (14 miliardi di dollari) e Google (3 miliardi di dollari).
- I risultati offrono spunti importanti sull'uso responsabile dell'IA, suggerendo come sia necessaria una vigilanza continua sulla “deriva etica” dei sistemi intelligenti utilizzati nelle aziende e nei contesti reali.
Questo testo è un riassunto del seguente articolo (eng):
Anthropic just analyzed 700,000 Claude conversations — and found its AI has a moral code of its own
Anthropic’s groundbreaking study analyzes 700,000 conversations to reveal how AI assistant Claude expresses 3,307 unique values in real-world interactions, providing new insights into AI alignment and safety.

Alternativa in italiano: Everyeye