Racistiske algoritmer favoriserer unge, hvide mænd

De sprogmodeller, der bruges i alt fra Google og Siri til forsikringssager og juridisk sagsbehandling, favoriserer systematisk unge, hvide mænds sprog. Det betyder en diskriminering af især især unge, ikke-hvide mænd. Bias i algoritmer er et reelt problem.

De sprogmodeller, vi bruger i vores hverdag, når vi googler, oversætter, skriver med chatbots og taler med Siri, taler nogle gruppers sprog bedre end andres. Det viser et studie fra Datalogisk Institut på Københavns Universitet, hvor man for første gang har undersøgt, om sprogmodeller favoriserer visse demografiske gruppers sprogbrug – det, man i fagsprog kalder sociolekter.

“Kigger man på tværs af sprogmodellerne, kan vi se en systematisk skævhed. Hvor hvide mænd under 40 år med kort uddannelse er den gruppe, som sprogmodellerne flugter bedst med, flugter de dårligst med det sprog som unge, ikke-hvide mænd taler,” siger Anders Søgaard, professor ved Datalogisk Institut på Københavns Universitet og seniorforfatter til studiet.

Det viser sig at enhver forskel er problematisk, fordi forskellen kryber ind i rigtig mange former for teknologi og det kan få alvorlige følger. “Det kan være i forsikringsbranchen, hvor man bruger sprogmodeller til at gruppere sager og lave risikovurderinger af kunder. Det kan også være i juridiske sammenhænge – fx i offentlig sagsbehandling, hvor man nogle steder bruger modeller til at søge lignende sager frem for at finde præcedens. I de tilfælde kan den lille forskel være udslagsgivende,” fortæller Anders Søgaard.

Den data, der er tilgængelig på nettet og som sprogmodellerne bliver trænet på, er ikke nødvendigvis repræsentativ for os som brugere af teknologien. Wikipedia er et godt eksempel – det er primært skrevet af unge hvide mænd. Og det betyder noget for, hvilket type sprog modellerne lærer.

Hvis vi skal finde en løsning på skrævvridningen, så er det ikke nok bare at fodre modellerne med mere data. “En oplagt løsning er i stedet at træne modellerne bedre. Det kan man gøre ved at ændre algoritmerne, så de i stedet for at behandle al data som lige vigtigt, er særlig omhyggelig med data, der skiller sig ud fra befolkningsgennemsnittet,” slutter Anders Søgaard.

Forskningsartiklen om studiet “Sociolectal Analysis of Pretrained Language Models” er optaget på konferencen Conference on Empirical Methods in Natural Language Processing (EMNLP) 2021 og kan læses her: