Arbetsrapport 2018-1

1 Inledning Denna rapport är utformad för att öka förståelsen för de resultat som gene- reras av maskininlärningsalgoritmer. Något som till en början visar på god träffsäkerhet kan vid närmare undersökning visa sig vara diskriminerande. Analysen påvisar betydelsen av att ha en kausal modell i botten när predik- tiva modeller skattas och tillämpas. Slutsatserna kretsar kring frågor som rör träffsäkerhet och rättssäkerhet och hur dessa i många avseenden mot- verkande storheter är relaterade och kan vägas i förhållande till varandra för att nå effektivitet i exempelvis kontrollarbete. En kontrollmetod kan vara träffsäker, det vill säga att en stor andel av de kontroller som görs innehåller felaktigheter, utan att vara rättssäker. Det händer om exempelvis två grupper gör fel i lika stor utsträckning men endast den ena gruppen följs upp. Denna rapport påvisar denna risk genom exempel. Modeller som bygger på att söka korrelationer mellan ett stort antal vari- abler och ett utfall är också känsliga för så kallad confounding . Det innebär att ett samband mellan två variabler är en chimär. Det uppstår om båda variablerna är påverkade av en tredje variabel. Situationen blir särskilt komplicerad om denna tredje variabel inte kan observeras. Sådana sam- band kan leda till skeva utfall om det inte finns en kausal modell i grunden som har konstruerats för att hantera detta. Sådana effekter har central betydelse för diskussionen i rapporten. Rapporten diskuterar också hur träffsäkra modeller kan testas och vid behov justeras för att garantera rättssäkerheten. Eftersom rapporten utar- betats som en del i ett regeringsuppdrag kring Försäkringskassans använd- ning av urvalsprofiler 1 så refererar diskussionen till Försäkringskassans kontrollarbete. Men metoddiskussionen och slutsatserna är allmängiltiga och går att använda i andra sammanhang där liknande modeller används. 1.1 Bakgrund Användningen av profileringsmodeller har ökat i takt med att tillgången till individdata har ökat. Modellerna används för bland annat kundsegmen- tering, kreditriskbedömning, att upptäcka fusk samt för att bedöma aktie- utveckling och risk för långtidsarbetslöshet. Riskvärden kan beräknas genom att ställa en mängd bakgrundsinformation om enskilda individer mot ett utfall, exempelvis sannolikheten att köpa en viss produkt, kunna betala tillbaka ett lån eller att lämna korrekta uppgifter vid en ansökan. 1 Se ISF (2018).

RkJQdWJsaXNoZXIy NjAyMDA=