Arbetsrapport 2018-1

13 3 Modell Vi noterade i inledningen av förra avsnittet att det kan finnas begränsningar i hur individdata får användas. Begränsningarna skulle i vissa fall kunna vara så stora att det inte går att beräkna ett utfall med tillräcklig precision eller utan att det är snedvridet. Men vi ska inte börja resonemanget i den änden. Innan frågan om vilka data som får användas ens behöver ställas är det lämpligt att klargöra betydelsen av den datagenererande processen. Felaktigheter i ansökningar uppstår inte ur data, de uppstår utifrån männi- skors beteende. Hur detta avspeglar sig i data bestäms av den datagenererande processen. Ett tillvägagångssätt för att förstå den datagenererande processen är att utifrån befintlig kunskap och erfarenhet ställa upp en genomtänkt hypotes om hur olika variabler förväntas att hänga samman och samverka. Därefter behöver man analysera tillgången till data som kan användas för att testa hypotesen. Om inte nödvändig data finns tillgänglig så kan ett sätt att gå vidare vara att samla in de data som krävs. Ibland kan det krävas någon form av experimentellt upplägg. Därefter väljs en lämplig metod för att illustrera sambanden. Med en sådan procedur blir det lättare att förstå hur olika samband ska tolkas och att vid behov avgöra vilka insatser som skulle kunna vara lämpliga för att korrigera utfallen på ett framgångsrikt sätt. Detta kan minska risken för att dra slutsatser som inte är rättssäkra ur ett likabehandlingsperspektiv. Den datagenererande processen har historiskt oftast beskrivits matematiskt med en strukturell ekvationsmodell. Men senare års forskning har visat att det både är enklare och mer illustrativt att arbeta med diagram (se figur 1). Mer specifikt används så kallade riktade acykliska grafer (DAG = Directed Acyclic Graphs på engelska). Pilarna anger kausalitetsrikt- ningarna. För analysen som genomförs i denna rapport antas att det finns ett antal variabelgrupper ( , , , , och ) som samvarierar i olika utsträckning. Det finns en utfallsvariabel, , som anger om en ansökan är felaktig eller inte. Denna påverkas i det här exemplet bara av variabeln , som exempelvis skulle kunna vara färdigheter i svenska språket, eller kanske någon form av läs- och skrivsvårigheter. För diskussionens skull antas alla felaktigheter vara en följd av att personen inte lyckas förstå instruktionerna på rätt sätt och därmed gör fel. Vi antar även att denna variabel inte går att observera i data. Vi har också en mängd individegenskaper som fångas i variablerna , och . noterar de variabler som inte får ligga till grund för beslut på individ- nivå, men som ändå har betydelse för vissa utfall på arbetsmarknaden. samlar andra personspecifika egenskaper som inte betraktas som pro- blematiska ur ett likabehandlingsperspektiv och antas vara personens inkomst. och påverkar inkomsten , men ingen av dessa har någon direkt påverkan på . Pilarnas riktning indikerar detta. Om eller skulle