Oltre l’inglese: intelligenza artificiale e il rischio di omogeneizzazione epistemica

Quando si interroga un modello linguistico di grandi dimensioni, la lingua scelta determina la qualità della risposta. Questo dato, emerso da ricerche condotte da Stanford nel 2025, rivela una disparità sistematica che travalica la mera convenienza linguistica: si tratta di esclusione epistemica strutturale, dove intere comunità culturali risultano escluse dalla rivoluzione dell’intelligenza artificiale, con conseguenze economiche, educationali e cognitive di vasta portata.

Il divario linguistico digitale — definito in letteratura come digital language divide — costituisce uno dei fenomeni meno visibili ma più pervasivi dell’era algoritmica. Come documentato da Andrea Kornai già nel 2013 e confermato da studi successivi, meno del 5% delle circa 7-8.000 lingue parlate nel mondo possiede una rappresentazione significativa nell’infrastruttura digitale globale. Questa disparità non è il risultato di dinamiche naturali di mercato, ma l’effetto di politiche coloniali storiche che continuano a strutturare l’ecosistema tecnologico contemporaneo.

La supremazia linguistica nell’architettura dei modelli

I grandi modelli linguistici attuali, da GPT a Claude, da Llama a Gemini, sono prevalentemente addestrati su corpus di dati in lingua inglese. Questa dominanza non riguarda solamente la quantità di dati disponibili, ma configura un’egemonia epistemica che privilegia modi specifici di categorizzazione del mondo, tipici della tradizione anglo-occidentale. Come osservano critici della tecnologia digitale, l’inglese non è semplicemente una lingua tra le altre nell’ecosistema dell’IA: funge da lingua franca algoritmica che imposta i parametri entro cui il mondo può essere descritto, compreso e generato.

La questione trascende la mera traduzione. Studi condotti su modelli multilinguali rivelano che il bias linguistico persiste anche quando il sistema è formalmente in grado di processare diverse lingue. Una ricerca pubblicata su Ethics and Information Technology nel 2024 introduce il concetto di language modeling bias: la tendenza incorporata nella progettazione tecnologica a rappresentare adeguatamente alcune lingue a scapito di altre. Questo bias si manifesta a livello lessicale, grammaticale e — soprattutto — epistemologico: certi concetti semplicemente non esistono nei registri computazionali delle lingue addestrate su corpus limitati.

Emblematico è il caso dello swahili, una delle lingue africane più diffuse con circa 80 milioni di parlanti. Nonostante questa ampia base, il numero di pagine Wikipedia in swahili equivale a quello del bretone, lingua celtica parlata da circa 200.000 persone nel nord-ovest della Francia. La differenza non sta nella vitalità delle comunità linguistiche, ma nelle politiche di preservazione culturale e negli investimenti tecnologici che favoriscono il centro Europa rispetto all’Africa subsahariana.

Colonialismo algoritmico e violenza epistemica

Il concetto di colonialismo algoritmico, sviluppato da studiosi africani e postcoloniali, descrive come le tecnologie di intelligenza artificiale estendano logiche estrattive e gerarchiche proprie del colonialismo europeo nel dominio digitale. Una ricerca pubblicata su Politikon nel 2025 analizza il caso del Kenya, dove i sistemi di IA non solo generano bias e disinformazione, ma distorcono sistematicamente le lingue e le realtà politiche africane attraverso l’imposizione di categorie concettuali estranee.

La violazione qui operante è di natura epistemologica: si tratta della negazione del diritto di una comunità a produrre, trasmettere e legitimare il proprio sapere secondo modalità culturalmente radicate. La studiosa Gayatri Spivak ha teorizzato questo fenomeno come epistemic injustice — ingiustizia epistemica — che nell’era digitale assume forme nuove attraverso l’omogeneizzazione algoritmica. Quando un sistema di traduzione automatica trasforma concetti filosofici, spirituali o giuridici propri di una cultura africana o asiatica in equivalenti approximativi della tradizione occidentale, non commette un semplice errore tecnico: perpetra una forma di traduzione coloniale che sottomette il sapere locale ai paradigmi dominanti.

Il material making of language, come definito in una recente pubblicazione su AI & Society, rappresenta la continuazione di pratiche di dominazione e controllo globale proprie del colonialismo europeo, ora mediate attraverso infrastrutture tecnologiche. L’addestramento dei modelli linguistici su corpus massicati non è un processo culturale neutrale: incorpora e amplifica i pregiudizi delle società che li producono, normalizzando specifiche gerarchie culturali, razziali e geopolitiche.

Il costo dell’esclusione: più che una questione tecnica

Le conseguenze pratiche del divario linguistico digitale si estendono a molteplici ambiti della vita sociale. Nel settore sanitario, modelli diagnostici addestrati su popolazioni occidentali e in lingue europee producono risultati significativamente meno accurati quando applicati a pazienti africani o asiatici — non per differenze biologiche, ma per la mancata rappresentazione dei sintomi, delle pratiche terapeutiche tradizionali e dei contesti socio-economici nelle basi di addestramento.

L’accesso all’informazione risulta anch’esso profondamente asimmetrico. Parlanti di lingue ad alta risorsa — principalmente l’inglese, ma anche cinese, spagnolo, francese — possono interrogare l’intelligenza artificiale generativa per ottenere risposte fluide, contestualizzate e particolareggiate. Parlanti di lingue a bassa risorsa ricevono invece output approximativi, frequentemente tradotti automaticamente dall’inglese con perdita di sfumature semantiche e culturali. Questa disparità configura una nuova forma di analfabetismo funzionale digitale: la capacità di beneficiare delle tecnologie emergenti dipende dalla propria collocazione nella geografia linguistica globale.

Economicamente, l’esclusione si traduce in opportunità perse. Mercati interi, rappresentati da miliardi di persone, risultano invisibili agli algoritmi di raccomandazione, ai sistemi di credit scoring, alle piattaforme di e-learning ottimizzate per contesti anglofoni. Secondo stime recenti, più del 70% delle interazioni commerciali digitali mediatori da IA avviene in sole cinque lingue, concentrando ricchezza e innovazione in aree geografiche specifiche del globo.

Decolonizzare l’intelligenza artificiale: prospettive e sfide

L’emergenza del problema ha stimolato risposte da parte di istituzioni internazionali e comunità scientifiche. L’UNESCO ha lanciato iniziative specifiche per promuovere la diversità linguistica nell’Africa subsahariana, riconoscendo che la preservazione delle lingue minoritarie è una questione di diritti umani fondamentali. Parallelamente, ricercatori di EleutherAI e Masakhane — quest’ultima una comunità interamente africana — stanno sviluppando corpus linguistici open-source per lingue locali, contestualizzati culturalmente.

La strada verso una IA veramente multilingue e multiculturale richiede tuttavia più che mero aumento dei dati: necessita di un cambiamento paraddimatico nel modo di concepire lo sviluppo tecnologico. Le iniziative di decolonizzazione dell’IA evidenziano l’importanza di processi decisionali partecipativi, dove le comunità interessate non siano semplici fornitori di dati ma agenti attivi nella definizione degli obiettivi e dei valori dei sistemi.

Alcuni ricercatori propongono l’istituzione di agenzie di sovranità AI a livello continentale, capaci di costruire infrastrutture algoritmiche autonome che preservino la sovranità epistemica delle comunità locali. Questa prospettiva, sviluppata nel contesto africano ma estensibile ad altre aree del mondo, riconosce che la digitalizzazione non può essere una forza esterna imposta dall’alto: deve emergere da pratiche culturali radicate e rispettare il principio di autodeterminazione informazionale.

Una sfida particolarmente complessa riguarda la cosiddetta Data’s new civilising mission — la nuova missione civilizzatrice dei dati. Come documentano Mejias e Couldry, le iniziative benintenzionate di “aiutare” le comunità non rappresentate digitalmente rischiano di replicare dinamiche paternalistiche proprie del colonialismo storico. L’imperativo morale non può limitarsi a “portare” la tecnologia verso chi ne è escluso: richiede un’interrogazione profonda sui valori, le priorità e le forme di sapere da dignificare nella progettazione tecnologica.

Conclusione: verso un’ecologia linguistica digitale

Il multilinguismo nell’intelligenza artificiale non è un problema tecnico risolvibile con più dati e modelli più ampi: è una questione politica che interroga le strutture di potere globale. La diversità linguistica rappresenta una forma di patrimonio culturale immateriale che l’era algoritmica rischia di erodere silenziosamente, sostituendola con una babele omogeneizzata dominata da poche lingue egemoni.

Costruire sistemi di intelligenza artificiale rispettosi della pluralità linguistica e culturale richiede uno sforzo collettivo che travalichi i confini disciplinari. Linguisti, antropologi, informatici, attivisti e rappresentanti delle comunità devono cooperare per garantire che le tecnologie del futuro non siano semplici replicanti dell’ordine linguistico esistente, ma strumenti capaci di ospitare e valorizzare forme diversificate di pensiero e espressione.

La posta in gioco supera di gran lunga la sfera tecnologica: riguarda la capacità delle società umane di conservare la capacità di pensare il mondo in modi plurali, dialogare tra prospettive diverse, e resistere alla tentazione di ridurre la complessità della vita a categorie computazionali predeterminate. In un’epoca in cui l’intelligenza artificiale modella sempre più aspetti dell’esperienza umana, garantire che parli più lingue non è un lusso politecnico: è un imperativo etico di giustizia epistemica globale.

Quali conoscenze stiamo perdendo senza nemmeno rendercene conto, e chi ha il diritto di decidere quali voci meritano di essere ascoltate dall’intelligenza artificiale del futuro?

Share this content:

Sono Emanuela Gugnelli, filosofa con il vizio dell'epistemologia. Dal tempo della mia tesi sulla storia delle reti neurali, studio l'Intelligenza Artificiale non solo nelle sue applicazioni concrete, ma come motore di un vero e proprio mutamento epocale. Su Epistemica mi interrogo sulle sue conseguenze etiche e sociali. Quando non traffico con api, token, json, n8n e OpenClaw, mi trovate a pedalare in bicicletta o nei prati incontaminati a raccogliere erbe spontanee da cucinare. (ovviamente quella in foto non sono io :-D)

Commento all'articolo