Arbetsrapport 2018-1

14 förändras skulle således förändras, men det skulle enligt vår bild av den datagenererande processen inte påverka utfallet . Figur 1. Grafisk representation av sambandet mellan olika individ- karakteristika och sannolikheten att en ansökan är felaktig Det är som sagt som påverkar men har en dubbelriktad verkan. Med en statistisk term är en så kallad confounder som påverkar både risken för att göra fel och inkomsten. Vi antar också att förklarar ytterligare en variabelgrupp som inte är beroende av andra individegenskaper och som inte påverkar utfallet . Det skulle exempelvis kunna vara något standardi- serat test eller någon helt annan beteendevariabel som går att mäta. kan betraktas som en instrumentvariabel, som eventuellt kan utnyttjas för att komma tillrätta med problem med confounding. Utifrån teorin om kausal inferens går det att sluta sig till att det kommer att finnas en korrelation mellan och till följd av att de båda är påverkade av confoundern . Men de förklarar inte varandra! Om påverkas av någon av variablerna eller så kommer inte att förändras. Men efter- som och förklarar så finns risken att någon av dessa också är korre- lerade med trots att de inte har något kausalt samband. Tänk till exem- pel på den tidigare återgivna situationen, att inkomsten är lägre för perso- ner med skrivsvårigheter och att den också är lägre för kvinnor till följd av olika strukturella faktorer på arbetsmarknaden. I data kommer det då att finnas en korrelation utan kausalitet mellan lägre inkomst och felaktigheter vilket gör att personer med lägre inkomst kommer att följas upp oftare. Detta leder i sin tur till att kvinnor också tenderar att följas upp oftare bara för att de har lägre inkomst trots att modellen utesluter att kön påverkar sannolikheten att göra fel. Traditionella forskningsmetoder ställer vanligtvis upp en teori som förklarar hur olika variabler kausalt hänger samman och då minskar risken för fel- aktiga slutsatser till följd av confounding. Variabler som inte förklarar varandra undviks i den statistiska beräkningen. Men när det kommer till maskininlärningsmodeller, där det är vanligt att alla tillgängliga variabler inkluderas i beräkningar av utfall utan att ställa upp en kausal modell, finns risken att korrelationer utan faktiska orsakssamband tillmäts betydelse.