Arbetsrapport 2018-1

19 En motsvarande situation skulle kunna uppstå inom Försäkringskassans område, om det exempelvis var så att tips från allmänheten om eventuella fel skulle utgöra datagrunden för urvalsanalysen. Om den sociala kontrollen skiljer sig mellan olika områden, exempelvis beroende på boendestruktur eller demografisk sammansättning, kan anmälningsgraden vara skev. Inom vissa områden blir anmälningarna fler och då hittar Försäkringskassan också en större andel felaktigheter, jämfört med områden där anmälning- arna är färre, trots att felaktigheterna kanske är lika vanliga. Där model- lerna bygger på beprövad erfarenhet, på enskilda handläggares professio- nella bedömning eller genom expertpaneler kan resultatet bli skevt på mot- svarande sätt om erfarenheterna i sig bygger på stereotypa föreställningar och generaliseringar. En besläktad skevhet gäller hur korrekt utfallsvariabeln är mätt och i vilken utsträckning den mäter frågor av centralt intresse. Maskininlärnings-model- ler är inte utformade för att extrapolera data, det vill säga att uttala sig om situationer som sker utanför utfallsramen. Om modellen har tränats på ett specifikt utfall är det också detta som prediceras. Här följer ett specifikt exempel. Anta att Försäkringskassan utnyttjar en urvalsprofil för att identifiera risken att ett ärende är felaktigt, och att utfallet inte gör skillnad på olika typer av felaktighet. Ett ärende som prediceras som felaktigt med mycket hög sannolikhet innebär då inte att felet nödvändigtvis är allvarligare eller större till omfattningen. Kan då modellen användas för att identifiera om ett ärende bör lämnas till kontrollutredning? Nej, en hög sannolikhet kan inte likställas med att det oftare skulle handla om bedrägerier, eftersom modellen inte tränats på den frågan. För att låta urvalsprofilen bedöma även den frågan måste andra utfallsdata användas, det vill säga att modellen måste tränas på data som delar in materialet utifrån om en kontrollutredning bör göras eller inte. Den medvetenheten måste finnas inom de verksamheter som försöker att tillämpa modeller av detta slag. Sammanfattningsvis är det endast i de fall som kontrollen bygger på slumpmässiga uppföljningar, och där utfallet mäts på korrekt sätt, som en maskininlärningsmodell har förutsättning att generera data som inte är snedvridna. Men även under dessa omständigheter kan felaktigt inklu- derade variabler skapa nya skevheter. Det blir uppenbart i nästa avsnitt.

RkJQdWJsaXNoZXIy NjAyMDA=