Nästa steg

Mer SCB-data och tre epidemiologiska spår

Jag har gått igenom vilken ytterligare SCB-data som är mest relevant för vår analys och översatt den till tre konkreta studier på a-, b- och c-nivå. Den viktigaste insikten är att den regionala X-datan och de starkaste epidemiologiska utfallen finns i olika upplösning, vilket styr vilken typ av undersökning som är mest rimlig att göra.

Huvudfynd

Vad mer data finns?

Den extra datan som är mest användbar för oss delar upp sig i två familjer. Den ena består av regionala X-variabler som går att slå ihop med vår nuvarande länspanel. Den andra består av mer epidemiologiskt starka utfall eller ojämlikhetsmått som ofta ligger på riksnivå men med fina strata som utbildning, födelseregion, ålder och kön.

Praktisk konsekvens Om vi vill bygga vidare snabbt ska vi först förstärka länspanelen med migration, trångboddhet, inkomstfördelning och transfereringar. Om vi vill nå doktorandnivå ska vi därefter bygga ett separat ojämlikhetsspår kring livslängdstabeller och stratifierad dödlighet.

Ladda ner först

Rekommenderad ordning

  1. TAB4823 för andel utrikes födda och bättre demografisk kontroll.
  2. TAB5089 för trångboddhet som boende- och exponeringsmått.
  3. TAB1121 för gini, låg ekonomisk standard och inkomstspridning.
  4. TAB1788 för transfereringsberoende och sjukpenningrelaterad utsatthet.
  5. TAB5006 för ett separat ojämlikhets- och mortalitetsspår.

Datainventering

Prioriterade tabeller

Typ Tabell Period Varför viktig Passar bäst Källa
Migration TAB4823Inrikes och utrikes födda efter region, ålder och kön 2000-2024 Ger andel utrikes födda och en bättre demografisk förklaringsbas. A, B, C Metadata
Boende TAB5089Trångbodda personer i flerbostadshus enligt norm 2 2012-2024 Starkt exponerings- och utsatthetsmått med region, ålder, kön och födelseregion. B, C Metadata
Ojämlikhet TAB1121Indikatorer inkomstfördelning efter region 2011-2024 Ger gini, median, låg ekonomisk standard och fattigdomsgap. A, B, C Metadata
Transfereringar TAB1788Transfereringsvariabler efter län och kön 2002-2023 Ger sjukpenning, arbetslöshetsersättning och försörjningsstöd som kontextmått. B, C Metadata
Social utsatthet TAB1386Helårsekvivalenter med sociala ersättningar och bidrag 2014M01-2025M12 Högfrekvent serie som kan aggregeras till årsmedel eller användas i separata korttidsmodeller. B, C Metadata
Arbetsmarknad TAB3200Arbetsmarknadsstatus, årligt register 2020-2024 Ger sysselsättning, arbetslöshet och sjuka i modern regional upplösning. B, C Metadata
Arbetsmarknad TAB6666Preliminär månadsstatistik med utbildningsnivå 2020M01-2026M02 Ger högfrekvent arbetsmarknadsstatus med utbildning och födelseregion. B, C Metadata
Mortalitet TAB5006Ettårig livslängdstabell efter utbildningsnivå och födelseregion 2012-2024 Starkaste öppna SCB-tabellen för mortalitetsojämlikhet. C Metadata
Dödsorsaker TAB5559Dödsorsaker för personer 35-84 år efter utbildningsnivå 2020-2024 Ger ett mer epidemiologiskt skarpt sekundärt utfall än total dödlighet. C Metadata
Lång serie TAB6439Längre tidsserier om boende och trångboddhet 1980-2025 Ger lång historisk kontext, men främst på riksnivå och med surveykaraktär. A, C Metadata

Forskningsspår

Tre nivåer av epidemiologisk studie

A-nivå

Regional dödlighet och social gradient

  • FrågaHur samvarierar länsdödlighet med åldersstruktur, utbildning, inkomst, andel utrikes födda och trångboddhet?
  • YDödstal per 100 000 i län och år.
  • XMedianålder, utbildning, inkomst, andel utrikes födda, trångboddhet.
  • MetodDeskriptiva trender, korrelationer och enkel multipel regression.
  • StyrkaPedagogisk, tydlig och direkt byggbar på vår nuvarande panel.
  • SvaghetEkologisk studie med begränsad kausal tolkning.

B-nivå

Förklaring och prediktion av regional dödlighet

  • FrågaHur mycket bättre blir modellen när vi lägger till ojämlikhet, boende, migration och transfereringar?
  • YHelst åldersstandardiserad eller åldersspecifik dödlighet 35-84 år per län och år.
  • XNuvarande panel plus `TAB4823`, `TAB5089`, `TAB1121`, `TAB1788`, eventuellt `TAB1386` och `TAB3200`.
  • MetodElastic Net eller Ridge som bas, gradient boosting som jämförelse, tidsblockerad validering och SHAP.
  • StyrkaBästa balansen mellan tolkbarhet, AI/ML och genomförbarhet.
  • SvaghetOlika tabeller har olika tidshorisont och kräver noggrann harmonisering.

C-nivå

Ojämlikhet i livslängd efter utbildning och födelseregion

  • FrågaHur har dödsrisk och återstående livslängd utvecklats mellan utbildnings- och födelseregionsgrupper, och vad samvarierar med gapen?
  • Y`TAB5006` som primärt utfall, med `TAB5559` som sekundärt dödsorsaksutfall.
  • XTrångboddhet, arbetsmarknadsstatus, transfereringar och lång boendekontext.
  • MetodHierarkisk multilevelmodell eller Bayesiansk modell med ML-stöd för icke-linjära samband.
  • StyrkaHög epidemiologisk relevans och tydligt doktoranddjup.
  • SvaghetKräver mest harmonisering och blir ännu starkare om vi senare kompletterar med andra officiella registerkällor.

Min rekommendation

Börja med spår B

Spår B är den bästa vägen nu. Det använder vår befintliga regionala modellmiljö, bygger på data som är relativt enkel att hämta från SCB:s API v2 och ger tillräckligt rik struktur för att AI/ML ska vara motiverat utan att vi tappar tolkbarhet.

Normalisering

Så bör nästa datasteg räknas om

  • Antal blir andelar eller tal per 100 000 med tydlig nämnare.
  • Månadstabeller blir årsmedel om de ska in i årsmodeller.
  • ULF-dubbelår behålls som intervall, inte som konstgjorda enkelår.
  • Surveybaserade andelar sparas ihop med osäkerhetstal.