Arbetsrapport 2018-1

5 Beroende på riskvärdet kategoriseras och grupperas sedan respektive person i beslutsgrupper. Idén att riskbedöma och kategorisera är i sig inget nytt. Innan det fanns tillgång till en stor mängd data var det i stället enskilda handläggare som gjorde bedömningen eller så riktades erbjudanden till bredare grupper av personer. I fallet med myndighetsutövning har handläggarna ett regelverk att luta sig mot, men där det finns utrymme för tolkningar finns det också risk för att två i allt väsentligt lika personer ändå bedöms olika, särskilt om de har olika handläggare. Handläggares fördomar kan också leda till att olika grupper av ersättningsmottagare följs upp i olika grad. Konstruerade på rätt sätt har riskbaserade profileringsmodeller förutsättning att minska denna risk. Men beroende på hur profileringsmodellerna är konstruerade finns det osäkerheter som uppmärksammas inom forskningen. En väsentlig kritik riktas mot modeller som bygger på så kallad maskininlärning. Dessa model- ler har ofta hög träffsäkerhet i sina prediktioner, men de saknar vanligtvis en kausalitetsmodell som förklarar vilka ingångsvärden som leder till ett visst utfall. Det finns vetenskapsteoretiker som argumenterar för att det viktiga inte är att förklara ett utfall, utan att träffa så rätt som möjligt. Framväxten av stora datamaterial har, i denna anda, medfört en utveckling av prognosmodeller som inte grundar sig på någon underliggande logisk modell. Det är vanligt att inom tillämpningen av maskininlärning (ML) och användning av så kallade big data , predicera ett utfall med hjälp av alla tillgängliga data, utan att reflektera över orsakssambanden. Många gånger framhålls också att mängden data som används i sig ger trovärdiga resultat, vilket inte är sant annat än i undantagsfall. Möjligen är det ett missförstånd som hänger samman med det som inom statistisk teori kallas den centrala gränsvärdessatsen. Den förutsäger att spridningen runt ett medelvärde kommer att konvergera mot en normalfördelning i stora datamängder. Detta stämmer förstås, men om data är snedvridet i något avseende kommer medelvärdet fortfarande bara avspegla den population som data är hämtat ifrån. Det händer exempelvis om endast ett segment av populationen mäts och om man försöker att uttala sig om grupper som inte ingår i populationen. Antalet observationer eller antalet variabler rättar inte till denna skevhet. 2 En betydande nackdel med dessa metoder är att de underliggande mönster som genererar den goda prediktionen inte är tillgängliga så att de kan beskrivas och värderas. Det försvårar möjligheten att avgöra om det finns ett godtycke i hanteringen mellan människor. Modellen ger ingen informa- tion om huruvida den behandlar människor som är i allt väsentligt likadana (utom kanske på någon i grunden oväsentlig detalj) på samma sätt. Andra vetenskapsteoretiker anser att det är viktigt att förstå varför vi får ett särskilt utfall, även om det oftast är mycket svårt att fastställa helt säkra kausala samband. Inom samhällsvetenskaplig och medicinsk forsk- ning innebär det att en hypotes ställs upp om hur vissa variabler påverkar 2 Sannolikhetsteorins sats ”De stora talens lag” kan också vara en källa till missför- stånd. Den innebär att det aritmetiska medelvärdet av ett stort antal oberoende observationer av en slumpvariabel med stor sannolikhet ligger nära variabelns väntevärde. Men även detta påverkas av om data är snedvridet i något avseende.