Nästa steg

Mer SCB-data och tre epidemiologiska spår

Jag har gått igenom vilken ytterligare SCB-data som är mest relevant för vår analys och översatt den till tre konkreta studier på a-, b- och c-nivå. Den viktigaste insikten är att den regionala X-datan och de starkaste epidemiologiska utfallen finns i olika upplösning, vilket styr vilken typ av undersökning som är mest rimlig att göra.

Till modellstudion Till nästa analys-studion SCB API v2

Huvudfynd

Vad mer data finns?

Den extra datan som är mest användbar för oss delar upp sig i två familjer. Den ena består av regionala X-variabler som går att slå ihop med vår nuvarande länspanel. Den andra består av mer epidemiologiskt starka utfall eller ojämlikhetsmått som ofta ligger på riksnivå men med fina strata som utbildning, födelseregion, ålder och kön.

Praktisk konsekvens Om vi vill bygga vidare snabbt ska vi först förstärka länspanelen med migration, trångboddhet, inkomstfördelning och transfereringar. Om vi vill nå doktorandnivå ska vi därefter bygga ett separat ojämlikhetsspår kring livslängdstabeller och stratifierad dödlighet.

Ladda ner först

Rekommenderad ordning

TAB4823 för andel utrikes födda och bättre demografisk kontroll.
TAB5089 för trångboddhet som boende- och exponeringsmått.
TAB1121 för gini, låg ekonomisk standard och inkomstspridning.
TAB1788 för transfereringsberoende och sjukpenningrelaterad utsatthet.
TAB5006 för ett separat ojämlikhets- och mortalitetsspår.

Datainventering

Prioriterade tabeller

Typ	Tabell	Period	Varför viktig	Passar bäst	Källa
Migration	TAB4823Inrikes och utrikes födda efter region, ålder och kön	2000-2024	Ger andel utrikes födda och en bättre demografisk förklaringsbas.	A, B, C	Metadata
Boende	TAB5089Trångbodda personer i flerbostadshus enligt norm 2	2012-2024	Starkt exponerings- och utsatthetsmått med region, ålder, kön och födelseregion.	B, C	Metadata
Ojämlikhet	TAB1121Indikatorer inkomstfördelning efter region	2011-2024	Ger gini, median, låg ekonomisk standard och fattigdomsgap.	A, B, C	Metadata
Transfereringar	TAB1788Transfereringsvariabler efter län och kön	2002-2023	Ger sjukpenning, arbetslöshetsersättning och försörjningsstöd som kontextmått.	B, C	Metadata
Social utsatthet	TAB1386Helårsekvivalenter med sociala ersättningar och bidrag	2014M01-2025M12	Högfrekvent serie som kan aggregeras till årsmedel eller användas i separata korttidsmodeller.	B, C	Metadata
Arbetsmarknad	TAB3200Arbetsmarknadsstatus, årligt register	2020-2024	Ger sysselsättning, arbetslöshet och sjuka i modern regional upplösning.	B, C	Metadata
Arbetsmarknad	TAB6666Preliminär månadsstatistik med utbildningsnivå	2020M01-2026M02	Ger högfrekvent arbetsmarknadsstatus med utbildning och födelseregion.	B, C	Metadata
Mortalitet	TAB5006Ettårig livslängdstabell efter utbildningsnivå och födelseregion	2012-2024	Starkaste öppna SCB-tabellen för mortalitetsojämlikhet.	C	Metadata
Dödsorsaker	TAB5559Dödsorsaker för personer 35-84 år efter utbildningsnivå	2020-2024	Ger ett mer epidemiologiskt skarpt sekundärt utfall än total dödlighet.	C	Metadata
Lång serie	TAB6439Längre tidsserier om boende och trångboddhet	1980-2025	Ger lång historisk kontext, men främst på riksnivå och med surveykaraktär.	A, C	Metadata

Forskningsspår

Tre nivåer av epidemiologisk studie

A-nivå

Regional dödlighet och social gradient

FrågaHur samvarierar länsdödlighet med åldersstruktur, utbildning, inkomst, andel utrikes födda och trångboddhet?
YDödstal per 100 000 i län och år.
XMedianålder, utbildning, inkomst, andel utrikes födda, trångboddhet.
MetodDeskriptiva trender, korrelationer och enkel multipel regression.
StyrkaPedagogisk, tydlig och direkt byggbar på vår nuvarande panel.
SvaghetEkologisk studie med begränsad kausal tolkning.

B-nivå

Förklaring och prediktion av regional dödlighet

FrågaHur mycket bättre blir modellen när vi lägger till ojämlikhet, boende, migration och transfereringar?
YHelst åldersstandardiserad eller åldersspecifik dödlighet 35-84 år per län och år.
XNuvarande panel plus `TAB4823`, `TAB5089`, `TAB1121`, `TAB1788`, eventuellt `TAB1386` och `TAB3200`.
MetodElastic Net eller Ridge som bas, gradient boosting som jämförelse, tidsblockerad validering och SHAP.
StyrkaBästa balansen mellan tolkbarhet, AI/ML och genomförbarhet.
SvaghetOlika tabeller har olika tidshorisont och kräver noggrann harmonisering.

C-nivå

Ojämlikhet i livslängd efter utbildning och födelseregion

FrågaHur har dödsrisk och återstående livslängd utvecklats mellan utbildnings- och födelseregionsgrupper, och vad samvarierar med gapen?
Y`TAB5006` som primärt utfall, med `TAB5559` som sekundärt dödsorsaksutfall.
XTrångboddhet, arbetsmarknadsstatus, transfereringar och lång boendekontext.
MetodHierarkisk multilevelmodell eller Bayesiansk modell med ML-stöd för icke-linjära samband.
StyrkaHög epidemiologisk relevans och tydligt doktoranddjup.
SvaghetKräver mest harmonisering och blir ännu starkare om vi senare kompletterar med andra officiella registerkällor.

Min rekommendation

Börja med spår B

Spår B är den bästa vägen nu. Det använder vår befintliga regionala modellmiljö, bygger på data som är relativt enkel att hämta från SCB:s API v2 och ger tillräckligt rik struktur för att AI/ML ska vara motiverat utan att vi tappar tolkbarhet.

Öppna nästa analys-studion

Normalisering

Så bör nästa datasteg räknas om

Antal blir andelar eller tal per 100 000 med tydlig nämnare.
Månadstabeller blir årsmedel om de ska in i årsmodeller.
ULF-dubbelår behålls som intervall, inte som konstgjorda enkelår.
Surveybaserade andelar sparas ihop med osäkerhetstal.