Huvudfynd
Vad mer data finns?
Den extra datan som är mest användbar för oss delar upp sig i två familjer. Den ena består av regionala
X-variabler som går att slå ihop med vår nuvarande länspanel. Den andra består av mer epidemiologiskt
starka utfall eller ojämlikhetsmått som ofta ligger på riksnivå men med fina strata som utbildning,
födelseregion, ålder och kön.
Praktisk konsekvens
Om vi vill bygga vidare snabbt ska vi först förstärka länspanelen med migration, trångboddhet,
inkomstfördelning och transfereringar. Om vi vill nå doktorandnivå ska vi därefter bygga ett separat
ojämlikhetsspår kring livslängdstabeller och stratifierad dödlighet.
Ladda ner först
Rekommenderad ordning
TAB4823 för andel utrikes födda och bättre demografisk kontroll.
TAB5089 för trångboddhet som boende- och exponeringsmått.
TAB1121 för gini, låg ekonomisk standard och inkomstspridning.
TAB1788 för transfereringsberoende och sjukpenningrelaterad utsatthet.
TAB5006 för ett separat ojämlikhets- och mortalitetsspår.
Min rekommendation
Börja med spår B
Spår B är den bästa vägen nu. Det använder vår befintliga regionala modellmiljö, bygger
på data som är relativt enkel att hämta från SCB:s API v2 och ger tillräckligt rik struktur för att AI/ML
ska vara motiverat utan att vi tappar tolkbarhet.
Normalisering
Så bör nästa datasteg räknas om
- Antal blir andelar eller tal per 100 000 med tydlig nämnare.
- Månadstabeller blir årsmedel om de ska in i årsmodeller.
- ULF-dubbelår behålls som intervall, inte som konstgjorda enkelår.
- Surveybaserade andelar sparas ihop med osäkerhetstal.