Arbetsrapport 2018-1

23 Genomgående är det problematiskt att inkludera inkomsten i modellen. Snedvridningen av den känsliga variabeln blir stor i varje specifikation. Den mildras av att inkludera den känsliga variabeln, men snedvridningen kvarstår ändå. Att inkludera instrumenten som ersättare för den faktiska orsakvariabeln påverkar träffsäkerheten och i vilken utsträckning personer behandlas lika. En särskilt intressant jämförelse är mellan modellerna c) och l). I modell c) används inkomsten som ensam variabel, och i modell l) de två instrumentvariablerna som ensamma variabler. Träffsäkerheten är densamma i båda modellerna men utfallet för rättsäkerheten är helt olika. En slutsats vi tar med oss ifrån detta är att analytiker som tillämpar modeller av detta slag behöver närma sig modellspecifikationen med en hantverksmässig inställning, där träffsäkerheten måste vägas mot i vilken utsträckning personer behandlas lika. Den frågan behandlas i nästa avsnitt. 4.2 Bredda uppföljning till en vidare krets I en felaktigt specificerad modell, som i förra avsnittet då inkomst och diverse personkarakteristika inkluderades som förklarande variabler fastän de inte hade någon kausalt samband med utfallsvariabeln, tenderar den känsliga variabeln att bli överrepresenterad om inkomsten används som förklarande variabel. Eventuellt skulle snedvridningen kunna förstärkas ytterligare av att ytterligare begränsa uppföljningen till dem med högst riskvärde. För att testa betydelsen att begränsa urvalet på det sättet har vi varierat gränsen för när ett riskvärde leder till en kontroll. Figur 2 illusterar sambandet i de olika specificerade modellerna. Som referenstal utgår vi även nu ifrån den slumpmässiga modellen där träffsäkerheten är 30 procent. Liksom tidigare vet vi att kvinnor utgör 70 procent av popula- tionen och att de gör fel i samma utsträckning som män. Följaktligen ska 70 procent av felen också göras av kvinnor. Den slumpmässiga modellen a) är opåverkad av urvalets storlek, vilket är det förväntade utfallet. Andelen kvinnor är konstant 70 procent och träff- säkerheten även den konstant på 30 procent. Vi bortser ifrån att osäker- heterna kan påverkas av hur stort urvalet faktiskt är och att det finns en slumpvariation kring dessa värden om urvalet är för litet. Användningen av , vilket är modell b), ger en konstant andel kvinnor, men träffsäkerheten minskar med större urval. Det betyder att det skulle vara tillräckligt att ha ett relativt litet urval om modellen kan använda de direkta orsaksfaktorerna för att förklara utfallet. För en stor mängd av modellerna, särskilt de som bygger på inkomst så finns en tydlig sned- vridning vid små urval som medför att kvinnor kommer att följas upp i en oproportionellt hög grad. Andelen som behöver följas upp kan vara så stor som 25 procent för att komma tillrätta med sådana skevheter, vilket då samtidigt minskar träffsäkerheten. Det förefaller vara av stor betydelse för utfallet var brytpunkten sätts för risken för att följas upp. Det finns ett tydligt samband mellan träffsäkerhet och likabehandling. Vissa av modellerna är dessutom mycket känsliga för var gränsen sätts. Att bara välja ut dem med högst värde och dessutom ett litet urval kan ge helt godtyckliga utfall. Genom att bredda urvalet till en större krets behandlas personer lika i större utsträckning, och med rätt