Arbetsrapport 2018-1

20 4 Analys Syftet i detta kapitel är att tillämpa en maskininlärningsmetod för att identifiera personer som med stor sannolikhet har lämnat in en ansökan med felaktiga uppgifter. Metoden är av typen random forests , vilket är en standardteknik inom området. Genom att inkludera olika variabler vid tillämpningen, både sådana som är direkt relaterade till utfallet och sådana som bara är relaterade genom korrelationer, kan vi jämföra vilka som identifieras med störst risk att lämna in felaktiga ansökningar. Initialt redo- visas dock den enklaste tänkbara uppföljningsmetoden, att singla slant över vilka ärenden som ska kontrolleras. Detta motsvarar de slumpmässiga kontroller som Försäkringskassan redan i dag gör, exempelvis inom den tillfälliga föräldrapenningen. I det följande kommer värdet för variabeln (som redovisas i tabell 1) att användas som referens och motsvarande information redovisas från några maskininlärningsprocedurer där vi systematiskt inkluderar eller exkluderar variablerna som ingår i den datagenererande processen. De modeller som specificeras är: a) = ä b) = ( ) c) = ( ) d) = ( , ) e) = ( , , ) f) = ( , ) g) = ( , , , ) h) = ( , ) i) = ( , , , ) j) = ( , , ) k) = ( , , ) l) = ( ) där alltså anger inkomsten, inkluderar personegenskaper som inte bedömts viktiga ur ett likabehandlingsperspektiv och de variabler som kan användas som approximationer till . En väsentlig fråga i sammanhanget gäller också hur många som följs upp. Huvudsyftet med prediktiva modeller är att försöka förutsäga vilka perso-

RkJQdWJsaXNoZXIy NjAyMDA=