Arbetsrapport 2018-1

21 ner som är mer troliga att lämna in felaktiga ansökningar än andra. Model- len producerar därför ett poängvärde ( score på engelska) för varje person. Ju högre värdet är desto mer lik är personen andra som har visat sig lämna in felaktigheter. Träffsäkerheten är högre ju högre detta poängvärde är. Därför bör urvalet av personer som ska granskas göras från högsta poäng- värde och sedan välja den med näst högsta värde och så vidare till dess att urvalet når den mängd granskningar som det finns resurser att genomföra. Detta ökar träffsäkerheten, men samtidigt kan det skapa nya skevheter i vilka som kontrolleras. I en population med stor andel kvinnor skulle det exempelvis kunna innebära att inga män följs upp. I det följande avsnittet granskas träffsäkerheten och rättssäkerheten. Rättssäkerheten betyder här att personer behandlas lika. Först studeras en uppföljning som bygger på ett litet uppföljningsurval som riktas till personer med högst risk. Träffsäkerheten beräknas och de två rättvise- måtten testas. Därefter diskuteras avvägningen mellan träffsäkerhet och att personer behandlas lika. Avsnittet avrundas med att diskutera alter- nativa urvalsmetoder. 4.1 Uppföljning av 1 procent, med högst sannolikhet för fel I analysen framträder en del intressanta mönster (se tabell 3). För det slumpmässiga urvalet a) återskapas fördelningen som finns i hela data- materialet (endast variabeln visas i tabellen). Detta är förväntat. För- väntad är också träffsäkerheten på nära 30 procent. Det är den effektivitet som uppnås om vi inte använder någon information som relaterar till personegenskaper. Detta tjänar som en benchmark för ML-metoden. Träffsäkerheten för ML-metoden varierar beroende på vilka variabler som inkluderas i beräkningarna. Om det var möjligt att använda den underlig- gande variabeln b) skulle en uppföljning av de 1 procenten med högst sannolikhet medföra en träffsäkerhet på 58 procent. Nästan 6 av 10 upp- följda personer skulle ha en felaktighet, vilket är betydligt högre än för en granskning byggd på ett slumpmässigt urval där träffsäkerheten skulle vara 3 av 10 personer. Men analysen har ett underliggande antagande som innebär att den varia- bel som är den direkta orsaken till varför en ansökan blir fel, , inte är tillgänglig. Analysen genomförs därför med de variabler som finns tillgäng- liga. Genom att systematiskt inkludera och exkludera de olika variabel- grupperna nås en uppfattning om hur variabeln som vi har bedömt är känslig ur ett likabehandlingsperspektiv påverkar utfallet. I de nästföljande fyra beräkningarna inkluderas variabler enligt följande: c) bara , d) , , det vill säga individegenskaper utan confoundern , e) , och , där åter inkluderas, och f) och , där den personegenskap som vi har be- dömt är känslig ur ett likabehandlingsperspektiv exkluderas. Genom att bara inkludera X uppnås en träffsäkerhet på 48 procent. Om X exkluderas och endast personegenskaper såsom kön, ålder, utbildning och erfarenhet tas med så blir träffsäkerheten ungefär lika god som vid det slumpmässiga urvalet. Förklaringen är naturligtvis att dessa variabler inte har någon förklaringsgrad för sannolikheten att göra fel. Om däremot