Arbetsrapport 2018-1

18 Tabell 1. Deskriptiv statistik för simulerade data fördelat på om ansökan innehåller felaktigheter eller inte 0,30 0 1 0,70 0,70 0,70 40 40 40 12 12 12 24,5 24,5 24,5 28 600 30 600 23 900 0,50 0,43 0,67 1,00 0,86 1,33 -1.00 -0,86 -1,34 Tabell 2. Korrelationer mellan variabler i simulerade data 1,000 0,005 -0,003 0,000 -0,003 -0,205 0,001 -0,007 0,003 0,005 1,000 0,002 -0,004 0,002 -0,806 0,504 -0,498 0,379 -0,003 0,002 1,000 0,000 0,990 -0,116 0,004 -0,002 0,006 0,000 -0,004 0,000 1,000 -0,138 0,336 -0,001 0,004 -0,005 -0,003 0,002 0,990 -0,138 1,000 -0,161 0,005 -0,003 0,007 -0,205 -0,806 -0,116 0,336 -0,161 1,000 -0,407 0,403 -0,308 0,001 0,504 0,004 -0,001 0,005 -0,407 1,000 -0,250 0,188 -0,007 -0,498 -0,002 0,004 -0,003 0,403 -0,250 1,000 -0,185 0,003 0,379 0,006 -0,005 0,007 -0,308 0,188 -0,185 1,000 3.2 Övervakad maskininlärning Innan analysen genomförs är det viktigt att understryka betydelsen av att de utfallsdata som ligger till grund för modellen motsvarar ett helt slump- mässigt urval av den skapade befolkningen. Det finns otaliga exempel på där maskininlärningsmodeller tränas, det vill säga lär sig de mönster som sedan används i prediktionerna, på ett icke slumpmässigt urval av data. Ett sådant exempel är de modeller som använts av polisen för att förutsäga risken att en given person begår ett brott. 18 Data har då byggt på faktiska processer där personer gripits och sedan antingen friats eller inte friats. Men sannolikheten att gripas är redan från början snedvriden till följd av att polisresurserna har fördelats olika i olika områden. Så även om sannolik- heten att en person begår brott skulle vara oberoende av var personen bor så kommer sannolikheten att gripas vara större inom vissa områden. En inlärningsmodell skulle då också riskera att fortsätta att peka ut dessa områden, vilket kan medföra att resurserna koncentreras ytterligare, med självförstärkande processer som följd. 18 För en genomgång se exempelvis FRA (2011) eller Perry m.fl. (2013).

RkJQdWJsaXNoZXIy NjAyMDA=