Arbetsrapport 2018-1

15 Personer med olika egenskaper skulle under sådana omständigheter inte behandlas lika och metoden inte vara självklart rättssäker. 3.1 Modelldata Genom att utgå ifrån den graf och de kausalitetssamband som figur 1 beskriver och sätta siffror på de numeriska sambanden kan vi skapa ett konstgjort datamaterial som gör det möjligt att studera hur korrelationerna mellan de olika variablerna ser ut. 11 Dessa data bearbetas i nästa avsnitt med en modell för maskininlärning för att se om prognosticerade felaktig- heter fördelas olika på en utvald personegenskap beroende på om den inkluderas eller exkluderas från modellen. 12 Vi kommer att tillämpa meto- den lika förutsättningar. Vi kommer genom att använda ett t-test avgöra om det skattade utfallet är oberoende av om analysen kontstanthåller för det faktiska utfallet . ( ^ ∣ = 0, = 1) = ( ^ ∣ = 1, = 1) I fallet med Försäkringskassans urvalsprofiler skulle testet innebära att: 1) ett slumpmässigt urval av personer som ansökt om ersättning inom en förmån grupperas utifrån om det fanns felaktigheter eller inte 2) urvalet profileras så att varje person får en prognosticerad risk- bedömning 3) andelen prognosticerade felaktiga ansökningar beräknas fördelat på den personegenskap som vi har valt att studera och om ansökan var en faktisk felaktighet eller inte Som komplement redovisas också det alternativa testet likabehandling . Vi utnyttjar de som predicerats vara felaktiga i urvalsprofilen och som faktiskt också är fel för att beräkna genomsnittsvärden för den personegenskap vi har valt att studera. Dessa värden jämförs med det faktiska utfallet i ett slumpmässigt urval av personer som har ansökt om ersättning inom för- månen. Om dessa två mått signifikant avviker från varandra så är inte metoden likabehandlande. ( ∣ ^ = 1, = 1) = ( ∣ ^ = 1, = 1) I de genererade data så kommer variabeln att omfatta variablerna ålder, arbetslivserfarenhet och utbildning. 13 kommer att tolkas som kön och som inkomst. Inkomsten är beroende av ålder, utbildning, arbetslivserfa- renhet och kön, samt läs- och skrivsvårigheter. Vi antar att det är en större andel kvinnor än män som ansöker om ersättning, 70 procent mot 11 Data skapas genom att använda SimCausal-paketet inom det statistiska analys- programmet R (https://cran.r-project.org/package=simcausal) , Sofrygin, van der Laan, och Neugebauer (2015). 12 Genom att tillämpa analysen som presenteras i Hardt, Price, och Srebro (2016) så kan eventuella orättvisor som uppstår i en modell där kausalitetsstrukturen inte är klarlagd identifieras och justeras. Vi fördjupar inte denna diskussion i denna rapport. 13 Ålder, som är en diskrimineringsgrundande variabel, utnyttjas i modellen som en viktig variabel för att hantera både erfarenhet i arbetslivet och som mått på produktivitet.

RkJQdWJsaXNoZXIy NjAyMDA=