Arbetsrapport 2018-1

17 delat på om det finns felaktigheter eller inte. Ungefär 30 procent av ären- dena är felaktiga, vilket är det villkor som satts i modellen. Alla som har ett värde på som är lägre än antas lämna in en felaktig ansökan. Det innebär att en kontroll som singlar slant om ett utfall kommer att ha rätt i 30 procent av fallen. Det är den träffsäkerhet som slumpmässiga kontroller skulle resultera i och den nivå som det riskbaserade urvalet ska försöka att överträffa. För den fortsatta analysen tar vi även med oss insikten att det inte finns några statistiska skillnader i variablerna , , och mellan de som lämnat korrekta eller felaktiga uppgifter. Däremot finns det som förväntat stora skillnader mellan , och beroende på om ansökan är felaktig eller inte. Det är naturligt eftersom är den variabel som styr utfallet. Men det finns även en stor skillnad i inkomst mellan de som har lämnat in fel- aktiga uppgifter och de som har lämnat in korrekta. Personer som lämnar in felaktiga uppgifter tenderar att ha betydligt lägre inkomst. Att person- egenskaperna , , och är lika mellan de två grupperna trots stora inkomstskillnader är förstås ett direkt utslag av hur vi har specificerat mo- dellen. förklarar både utfallet av om ansökan är korrekt och inkomsten. Fördelningen av variabeln är viktig och den kommer att användas som benchmark för den fortsatta analysen. Stora avvikelser i denna variabel bland de som kontrolleras och upptäcks kan tyda på att urvalsmetoden behandlar grupper olika. Förekomsten av olika sannolikhet för upptäckt bör diskuteras i särskild ordning, och det är dessa olikheter som de olika rättviskriterierna som beskrivs ovan har till uppgift att identifiera och värdera. En användbar slutsats som Miao, Geng, och Tchetgen (2016) drar är att om det inte går att mäta en confounder direkt så kan det under vissa förutsätt- ningar vara möjligt att i stället mäta confoundern genom minst två andra variabler som är direkt påverkade av den. Så om det exempelvis var möj- ligt att inkludera andra variabler vars utfall har påverkats av att en person har svårt med språket, utan att vara påverkad av övriga variabler, så kan dessa användas som approximation till språksvårigheter. Vi kommer även att testa detta i modellen nedan genom att använda . Några intressanta samband kan noteras redan ifrån korrelationstabellen (se tabell 2). Som förväntat är korrelationen starkast mellan de variabler som har en direkt effekt på varandra. Det gäller i förhållande till variablerna , , , och , och det gäller förhållandet mellan och . 17 Detta är förväntat eftersom modellen är specificerad på det sättet. Korrelationerna är låg mellan , , , å ena sidan, och å den andra, vilket också är förväntat. Den riktigt intressanta informationen ligger emellertid i korrela- tion mellan och . Den är relativt hög, , trots att dessa två variab- ler inte kausalt påverkar varandra. En förändring i som är styrd av , , eller påverkar inte , men en modell som försöker förklara föränd- ringar i med skulle hitta stöd för slutsatsen att de påverkar varandra under förutsättning att det inte går att kontrollera för . 17 Att det inte sammanfaller nära på fullständigt beror på att är en binär variabel som är beroende av värdet på den kontinuerliga variabeln , men bara i 30 procent av fallen.