Medscape lär ut hur man bör bedöma
vetenskapliga publikationer. Även om en studie finns i en
vetenskaplig tidskrift, där man använder granskare insatta i
aktuell vetenskap (sk
peer review), garanteras inte
nödvändigtvis studiens kvalitet. Man hänvisar bl a till denna
studie.
Det är viktigt att studierna är bra och att de slutsatser som dras
är så vetenskapligt riktiga som möjligt. Det händer ofta att
studier rapporteras i pressen med ganska dramatiska budskap som sedan
inte visar sig vara fullt så dramatiska, ibland kanske betydelselösa
och i en del fall felaktiga. Artikeln är skriven av
Stephen
B Soumerai m fl. Soumerai är professor i populationsmedicin vid
Harvard och är internationellt känd för arbeten med hur hälso-
och vårdriktlinjer och metoder påverkar och förbättrar vårdens
kvalitet.
Man skriver om hur man granskar en
studies validitet. Vad är då validitet? Man kan säga att en
studie med god validitet är en studie som verkligen mäter,
undersöker det den skall mäta. Det finns flera olika sätt att
bedöma validiteten.
Ett sätt är att titta på
innehållsvaliditeten. Detta kan enkelt göras genom att be
personer som är väl insatta i problematiken uttala sig om studien.
Det är vad man gör med en peer review och det är alltså
inte tillräckligt.
Ett annat sätt är att bedöma
samtidig validitet, vilket innebär att man tittar på andra
undersökningar som undersökt samma ämnesområde med andra
metoder. Har de kommit fram till ett liknande resultat. Om dessa
resultat stödjer varandra stärker det validiteten, dvs att man
verkligen undersökt det man säger sig ha undersökt.
Konstruktions vadliditet är
en tredje bedömningmetod. Exempel:Man har mätt blodvärdet i en
undersökning och samtidigt haft ett frågeformulär där man frågat
om individernas upplevda energinivå. Om det visar sig att lågt
blodvärde (blodbrist) är kopplat till höga upplevda energinivåer,
talar det för att det man mätt inte är blodvärde eller också
var det fel på frågan om upplevd energinivå Ett annat exempel
skulle kunna vara att man undersöker en bromsmedicin mot MS med att
mäta antal nya skov per år och antal nya lesioner med
magnetkamera. Om det då är exempelvis flera nya skov men det
kanske inte syns något nytt på magnetkameran kan det minska det
studiens validitet. Är antal nya skov och nya lesioner samstämmiga
stöder det studiens validitet. Mot varandra talande resultat
stödjer inte validiteten, att man verkligen undersökt det man
rapporterat att man undersökt.
Kommunikativ validitet. Det
är också viktigt att forskaren i sin rapport kan beskriva hur hans
undersökning gått till, vilka metoder man använt. Viktigt är
också att man beskriver bortfallet i undersökningen vilket
påverkar resultatet. Om det i en undersökning bortfallit personer
som haft biverkningar av ett medel, eller att medlet inte haft någon
effekt kan detta ha stor betydelse för resultatet. Det kan oclså
vara så att de som haft effekt av ett medel blivit bättre och
därför slutat med medlet. Det kan göra att medlet i studien visar
mindre effekt än den verkliga. En bortfallsanalys är viktig för
validiteten. Detta, som handlar om forskarnas förmåga att berätta
och beskriva sitt arbete, kallas kommunikativ
validitet.
Sedan finns pragmatisk
validitet, vad kan forskningen användas till. Vid
grundforskning kan det tyckas att detta inte finns men det är
viktigt att i rapporten beskriva möjliga framtida
tillämpningsområdet.
Här är ett exempel på hur olika
undersökningar kan göra att synen på en behandling kan växla
under året lopp. Det gäller hormonbehandling till kvinnor som
genomgått menopaus ( menstruationerna har upphört). Under 50-talet
talade forskningen då för att höga doser av hormonbehandling ( mot
övergångsbesvär och osteoporos) kunde vara skadligt och speciell
öka risken för livmodercancer. De följande åren kom ny forskning
som talade för att det fanns goda effekter av sådan behandling bl a
gynnsam effekt mot hjärtsjukdomar. Man skrev mycket om detta i
tidningarna och det var ett stort tryck på att sådan behandling
skulle göras, vilket ledde till att i mitten av 90-talet hade
hälften av USAs kvinnor i icke fertil ålder sådan behandling. 2003
kom en stor kontrollerad studie som visade att det med sådan
behandling fanns en liten riskökning för bröstcancer och ökade
risker för hjärtattacker och stroke, risker som var mycket tyngre
än de eventuella minskningar av frakturer som kunde ske. Det finns
flera sådana fall.
Varför
motsade de här studierna varandra? De tidiga experiment- och
kontrollgrupperna hade inte varit jämförbara. Det hade mindre att
göra med hormonbehandlingarna än hur studierna var designade. Hade
man tittat på om kontrollgrupper var jämförbara? Fanns data för
hur personerna i grupperna mått innan man gjorde de ”manipulationer”
som studien innebar. I fallet med hormonbehandling var det så att
de kvinnor som var ”hälsomedvetna” som valde att ta behandling
för nyttan för hälsan skilde sig från de som inte gjorde det.
Fastän de flesta observationsstudierna visade en ”fördel” med
hormonbehandling, var inte resultaten tillförlitliga pga att
grupperna inte gick att jämföra.
Dessa viktiga komponenter i studierna rapporterades inte i massmedia.
Detta är också en förklaring till att behandlingrutiner tycks gå
i vågor. Under min livstid och under min läkartid gick exempelvis
råden om behandling mot blodfetter fram och tillbaka och det har
funnits många andra liknande trender.
Det
brukar vara så att tidiga studier av en viss ny behandling tenderar
också att visa starka goda hälsoeffekter , men dessa tenderar att
minska eller till och med försvinna då man gör större och mer
strikta undersökningar. Samtidigt som de positiva effekterna minskar
kan skadliga effekter växa fram. Trots denna utveckling är det ofta
de tidiga studierna som blir mest kända trots att de tenderar
blåsa upp fördelarna och undervärdera biverkningar. En ytterst
noggrann studiedesign där man undersöker detaljerna med guldvåg är
viktigt och önskvärt.
Det
samma gäller när man skapar policyprogram, nationella riktlinjer
för hälsovård. Dessa är i grunden experiment i den verkliga
världen skriver man i utbildningsartikeln på Medscape. Sådana
riktlinjer kan I USA påverka miljontals människor ( I Sverige 100
000-tals) och enligt artikeln vet man ganska lite om risker,
kostnader och fördelar med sådana riktlinjer speciellt för
patienter. I de så kallade Cochranundersökningarna ( som försöker
att väga samman studier för att få fram övergripande resultat)
brukar man få ta bort 50-75 procent av studierna därför att de
inte uppfyller de vetenskapliga kraven på design. Min anmärkning är
där att alla Cochranstudier inte heller är tillfyllest och metoden
har svagheter).
Utbildningsartikeln
vill fokusera på frågan: Vilka typer av hälsostudier är mest att
lita på. Med andra ord vilken studiedesign är mest immun mot
systematiska fel (på engelska bias) och alternativa förklaringar
som kan ge opålitliga resultat. Huvudfrågan är om den undersökta
hälsoeffekten av insatserna ( som kan vara mediciner, tekniker,
hälso- eller säkerhetsprogram) skiljer sig från vad som skulle
ha hänt oberoende av insatsen ( vad som hände med kontrollgruppen).
I
Det
första fallet man går igenom är studier av influensavaccinering.
Det handlar om urvalet till experimentgruppen och urvalet till
kontrollgruppen; var de jämförbara i allt utom just det som
experimentgruppen genomgick. Man tittade på något som kallas
healthy user bias , vilket innebär att de som är
hälsomedvetna är mer benägna att göra något för att förbättra,
bibehålla sin hälsa än de icke hälsomedvetna. Är det då så att
de hälsomedvetna hamnar i experimentgruppen och de som är mindre
intresserade av sin hälsa i kontrollgruppen kan det bli fel om man
inte på något sätt kan kontrollera denna skillnad. Det kan ju
vara så att de hälsomedvetna gör många andra saker som påverkar
deras hälsa positivt och att det ger utslag i undersökningen, ett
utslag som man tolkar som beroende av vad man gjort i undersökningen.
I studierna av influensavaccinering gick man först igenom en
undersökning som fann att influensavaccinering minskade antalet
sjukhusinläggningar och dödsfall. Man när man i en annan studie
undersökte samma sak men gick tillbaka i tiden fann man att de
positiva effekterna man påvisat fanns redan innan
influensavaccineringen gjorts, människorna i experimentgruppen hade
mindre risk att dö eller hamna på sjukhus. Resultatet var en följd
av att grupperna inte var jämförbara. Experimentgruppen tillhörde
den hälsomedvetna gruppen.
Samma
faktor- den hälsomedvetna gruppen- har påverkat många studier
skriver man. Dessa kohortstudier
har varit vanliga i studier av behandlingar. Om de inte tar hänsyn
till vad försökspersonerna gjort tidigare i hälsobefrämjande
syfte är risken stor att man blåser upp de goda effekterna och
minskar biverkningarna.
II
I
ett andra exempel tar man upp studier som handlar om sjukvårdens
användning av nya teknologier , nya vårdprogram och
informationsprogram. Där tenderar det vara så att välkända
sjukhus som är i framkanten hamnar i den grupp som använder ”det
nya” medan de som inte använder det nya befinner sig i en annan
sits med mindre resurser och liknande. När man jämför resultatet i
form av exempelvis hälsa hos patienter är grupperna inte
jämförbara, patienterna är ofta friskare och resursstarkare,
läkarna och personalen har mer tillgång till andra resurser och
liknande. I en sådan studie där man jämförde användare av
datoriserade journaler kontra pappersjournal fanns bl a följande
skillnader: I gruppen som använde datoriserade journaler var det
större läkargrupper mer än sju, medan det i den andra gruppen var
upp till tre läkare per grupp, vidare var det betydligt fler som
undervisade i gruppen med datoriserad journal mot i andra gruppen
vidare var också läkarna med datoriserade journaler i genomsnitt
yngre än i andra gruppen. Det som skulle kunna ge bättre hälsa
hos patienterna kunde med andra ord bero på betydligt fler faktorer
än att man hade datoriserad journal.
RCT-
ett sätt att komma till rätta med systematiska fel
För
att komma till rätta med sådana systematiska fel använder man så
kallade randomiserade kontrollerade försök, som i engelsk
förkortning heter RCT och används även i svenskan. Dessa försök
innebär att man har den totala gruppen som skall undersökas och
från denna utväljer man med hjälp av slumpen ( som när man kastar
slant men man har mer enkla sätt att göra det) den grupp som skall
undersökas, gruppen där man skall göra någon intervention. På
samma sätts utväljs kontrollgruppen. Om då det är ett stort antal
i respektive grupperna anses att man kan betrakta grupperna som
likvärdiga förutom interventionen. Säkerheten i resultatet beror
på hur stora grupperna är och det finns statistiska metoder att
bedöma detta. Men slumpen kan fortfarande påverka resultatet.
I
en undersökning använde man denna metod för att jämföra olika
hälsocenter beträffande om man använde datorstöd för att finna
risker med medicinering då man använde flera mediciner. Påverkar
medicinerna varandras verkan kallas detta interaktion och detta kan
många gånger vara risker. Man undersökte om de centra som använde
sådant datorstöd hade färre fall avseende risker. Det visade sig
att det inte var fallet trots att grupperna hade randomiserats och
kunde bedömas likvärdiga.
En
studie hur god den än är ger ej det definitiva svaret
För
att åstadkomma mer säkerhet i studierna sammanför man studierna i
översikter och ser hur resultaten sammanfaller. Innan man gör denna
resultatsammanfattning gör man bedömningar av de enskilda
studierna, deras design- cohort, RCT, fallstudier, metastudier och
plockar bort de som inte fyller kvalitetskraven. En risk med detta är
att där kan det innovativa och briljanta falla bort.
Det
här var några de punkter som tas upp- det finns betydligt fler.