Medscape lär ut hur man bör bedöma
vetenskapliga  publikationer. Även om en studie finns i en
vetenskaplig tidskrift, där man använder granskare insatta i
aktuell vetenskap (sk 
peer review), garanteras inte
nödvändigtvis  studiens kvalitet. Man hänvisar bl a till denna
studie.
Det är viktigt att studierna är bra och att de slutsatser som dras
är så vetenskapligt riktiga som möjligt. Det händer ofta att
studier rapporteras i pressen med ganska dramatiska budskap som sedan
inte visar sig vara fullt så dramatiska, ibland kanske betydelselösa
och i en del fall felaktiga. Artikeln är skriven av 
Stephen
B Soumerai m fl. Soumerai är professor i populationsmedicin vid
Harvard och är internationellt känd  för arbeten med hur hälso-
och vårdriktlinjer och metoder  påverkar och förbättrar vårdens
kvalitet.
Man skriver om hur man granskar en
studies validitet. Vad är då validitet? Man kan säga att en
studie med god validitet är en studie som verkligen mäter,
undersöker det den skall mäta. Det finns flera olika sätt att
bedöma validiteten.
- 
 Ett sätt är att titta på
 innehållsvaliditeten. Detta kan enkelt göras genom att be
 personer som är väl insatta i problematiken uttala sig om studien.
 Det är vad man gör med  en peer review och det är alltså
 inte tillräckligt. 
- 
 Ett annat sätt  är att bedöma
 samtidig validitet, vilket innebär att man tittar på andra
 undersökningar som undersökt  samma ämnesområde med  andra
 metoder. Har de kommit fram till ett liknande resultat. Om dessa
 resultat stödjer varandra stärker det validiteten, dvs att man
 verkligen undersökt det man säger sig ha undersökt. 
  
- 
Konstruktions vadliditet är
 en tredje bedömningmetod. Exempel:Man har mätt blodvärdet i en
 undersökning och samtidigt haft ett frågeformulär där man frågat
 om individernas upplevda energinivå. Om det visar sig att lågt
 blodvärde (blodbrist) är kopplat till höga upplevda energinivåer,
 talar det för att det man mätt inte är blodvärde eller också
 var det fel på frågan om upplevd energinivå  Ett annat exempel
 skulle kunna vara att man undersöker en bromsmedicin mot MS med att
 mäta antal nya skov per år och antal nya lesioner med
 magnetkamera. Om det då är exempelvis flera nya skov men det
 kanske inte syns något nytt på magnetkameran kan det minska det
 studiens validitet. Är antal nya skov och nya lesioner samstämmiga
  stöder det studiens validitet. Mot varandra talande resultat
 stödjer inte validiteten, att man verkligen undersökt det man
 rapporterat att man undersökt. 
- 
Kommunikativ validitet. Det
 är också viktigt att forskaren i sin rapport kan beskriva hur hans
 undersökning gått till, vilka metoder man använt. Viktigt är
 också att man beskriver bortfallet i undersökningen vilket
 påverkar resultatet. Om det i en undersökning bortfallit personer
 som haft biverkningar av ett medel, eller att medlet inte haft någon
 effekt kan detta ha stor betydelse för resultatet.  Det kan oclså
 vara så att de som haft effekt av ett medel blivit bättre och
 därför slutat med medlet. Det kan göra att medlet i studien visar
 mindre effekt än den verkliga.    En bortfallsanalys är viktig för
 validiteten. Detta, som handlar om forskarnas förmåga att berätta
 och beskriva  sitt arbete, kallas kommunikativ
 validitet. 
- 
 Sedan finns pragmatisk
 validitet, vad kan forskningen användas till. Vid
 grundforskning kan  det tyckas att detta inte finns men det är
 viktigt att i rapporten beskriva möjliga framtida
 tillämpningsområdet. 
  
Här är ett exempel på hur olika
undersökningar kan göra att synen på en behandling kan växla
under året lopp.  Det gäller hormonbehandling till kvinnor som
genomgått menopaus ( menstruationerna har upphört). Under 50-talet
talade forskningen då för att höga doser av hormonbehandling ( mot
övergångsbesvär och osteoporos) kunde vara skadligt och speciell
öka risken för livmodercancer. De följande åren kom ny forskning
som talade för att det fanns goda effekter av sådan behandling bl a
gynnsam effekt mot hjärtsjukdomar. Man skrev mycket om detta i
tidningarna och det var ett stort tryck på att sådan behandling
skulle göras, vilket ledde till att i mitten av 90-talet hade
hälften av USAs kvinnor i icke fertil ålder sådan behandling. 2003
kom en stor kontrollerad studie som visade att det med sådan
behandling fanns en liten riskökning för bröstcancer och ökade
risker för hjärtattacker och stroke, risker som var mycket tyngre
än de eventuella minskningar av frakturer som kunde ske. Det finns
flera sådana fall. 
Varför
motsade de här studierna varandra?  De tidiga experiment- och
kontrollgrupperna hade inte varit jämförbara. Det hade mindre att
göra med hormonbehandlingarna än hur studierna var designade. Hade
man tittat på om kontrollgrupper var jämförbara? Fanns data för
hur personerna i grupperna mått innan man gjorde de ”manipulationer”
som studien innebar. I fallet med hormonbehandling  var det så att
de kvinnor som var ”hälsomedvetna” som valde att ta behandling
för nyttan för hälsan skilde sig från de som inte gjorde det.
Fastän  de flesta observationsstudierna visade en ”fördel” med
hormonbehandling, var inte resultaten  tillförlitliga pga att
grupperna inte gick att jämföra.
Dessa viktiga komponenter i studierna rapporterades inte i massmedia.
Detta är också en förklaring till att  behandlingrutiner tycks gå
i vågor. Under min livstid och under min läkartid gick exempelvis
råden om behandling mot blodfetter fram och tillbaka och det har
funnits många andra liknande trender.
 Det
brukar vara så att tidiga studier av en viss ny behandling tenderar
också att visa starka goda hälsoeffekter , men dessa tenderar att
minska eller till och med försvinna då man gör större och mer
strikta undersökningar. Samtidigt som de positiva effekterna minskar
kan skadliga effekter växa fram. Trots denna utveckling är det ofta
de tidiga studierna som  blir mest  kända trots att de tenderar
blåsa upp fördelarna och undervärdera biverkningar. En ytterst
noggrann studiedesign där man undersöker detaljerna med guldvåg är
viktigt och önskvärt.
Det
samma gäller när man skapar policyprogram, nationella riktlinjer
för hälsovård. Dessa är i grunden experiment i den verkliga
världen skriver man i  utbildningsartikeln på Medscape. Sådana
riktlinjer kan I USA påverka miljontals människor ( I Sverige 100
000-tals) och enligt artikeln vet man  ganska lite om risker,
kostnader och fördelar med sådana riktlinjer speciellt för
patienter. I de så kallade Cochranundersökningarna ( som försöker
att  väga samman studier för att få fram övergripande resultat)
brukar man få ta bort 50-75 procent av studierna därför att de
inte uppfyller de vetenskapliga kraven på design. Min anmärkning är
där att alla Cochranstudier inte heller är tillfyllest och metoden
har svagheter).
Utbildningsartikeln
vill fokusera på frågan: Vilka typer av hälsostudier är mest att
lita på. Med andra ord vilken studiedesign är mest immun mot
systematiska fel (på engelska bias)  och alternativa  förklaringar
som kan ge opålitliga resultat. Huvudfrågan är om den undersökta
hälsoeffekten av insatserna ( som kan vara mediciner, tekniker,
hälso- eller säkerhetsprogram)  skiljer sig  från vad som skulle
ha hänt oberoende av insatsen ( vad som hände med kontrollgruppen).
I
Det
första fallet man går igenom är studier av influensavaccinering.
Det handlar om urvalet till experimentgruppen och urvalet till
kontrollgruppen; var de jämförbara i allt utom just det som
experimentgruppen genomgick. Man tittade på något som kallas
healthy user bias , vilket innebär att de som är
hälsomedvetna är mer benägna att göra något  för att förbättra,
bibehålla sin hälsa än de icke hälsomedvetna. Är det då så att
de hälsomedvetna hamnar i experimentgruppen  och de som är mindre
intresserade av sin hälsa i kontrollgruppen kan det bli fel om man
inte på något sätt kan  kontrollera denna skillnad. Det kan ju
vara så att de hälsomedvetna gör många andra saker som påverkar
deras hälsa positivt och att det ger utslag i undersökningen, ett
utslag som man tolkar som beroende av vad man gjort i undersökningen.
 I studierna av influensavaccinering gick man först igenom en
undersökning som fann att influensavaccinering minskade antalet
sjukhusinläggningar och dödsfall.  Man när man i en annan studie
undersökte samma sak men gick tillbaka i tiden fann man att de
positiva effekterna man påvisat fanns redan innan
influensavaccineringen gjorts, människorna i experimentgruppen hade
mindre risk att dö eller hamna på sjukhus. Resultatet var en följd
av att grupperna inte var jämförbara. Experimentgruppen tillhörde
den hälsomedvetna gruppen.  
Samma
faktor- den hälsomedvetna gruppen- har påverkat många studier
skriver man. Dessa kohortstudier
 har varit vanliga i studier av behandlingar. Om de inte tar hänsyn
till vad försökspersonerna gjort tidigare i hälsobefrämjande
syfte är risken stor att man blåser upp  de goda effekterna och
minskar biverkningarna. 
II
I
ett andra exempel tar man upp studier som handlar om sjukvårdens
användning av nya teknologier , nya vårdprogram och
informationsprogram. Där tenderar det vara så att välkända
sjukhus som är i framkanten hamnar i den grupp som använder ”det
nya” medan de som inte använder det nya befinner sig i en annan
sits med mindre resurser och liknande. När man jämför resultatet i
form av exempelvis hälsa hos patienter är grupperna inte
jämförbara, patienterna är ofta friskare och resursstarkare,
läkarna och personalen har mer tillgång till andra resurser och
liknande.  I en sådan studie där man jämförde användare av
datoriserade journaler kontra pappersjournal fanns bl a följande
skillnader: I gruppen som använde datoriserade journaler var det
större läkargrupper mer än sju, medan det i den andra gruppen var
upp till tre läkare per grupp, vidare var det betydligt fler som
undervisade i gruppen med datoriserad journal mot i andra gruppen
vidare var också läkarna med datoriserade journaler  i genomsnitt
yngre än i andra gruppen.  Det som skulle kunna ge bättre hälsa
hos patienterna kunde med andra ord bero på betydligt fler faktorer
än att man hade datoriserad journal.
 
RCT-
ett sätt att komma till rätta med systematiska fel 
 
För
att komma till rätta med sådana systematiska fel använder man så
kallade randomiserade kontrollerade försök, som i engelsk
förkortning heter RCT och används även i svenskan. Dessa försök
innebär att man har den totala gruppen som skall undersökas och
från denna utväljer man med hjälp av slumpen ( som när man kastar
slant men man har mer enkla sätt att göra det) den grupp som skall
undersökas, gruppen där man skall göra någon intervention. På
samma sätts utväljs kontrollgruppen. Om då det är ett stort antal
i respektive grupperna anses att man kan betrakta grupperna som
likvärdiga förutom interventionen. Säkerheten i resultatet beror
på hur stora grupperna är och det finns statistiska metoder att
bedöma detta. Men slumpen kan fortfarande påverka resultatet.
I
en undersökning använde man denna metod för att jämföra olika
hälsocenter beträffande om man använde datorstöd för att finna
risker med medicinering då man använde flera mediciner. Påverkar
medicinerna varandras verkan kallas detta interaktion och detta kan 
många gånger vara risker. Man undersökte om de centra som använde
sådant datorstöd hade färre fall avseende risker. Det visade sig
att det inte var fallet trots att grupperna hade randomiserats och
kunde bedömas likvärdiga.
En
studie hur god den än är ger ej det definitiva svaret
För
att åstadkomma mer säkerhet i studierna sammanför man studierna i
översikter och ser hur resultaten sammanfaller. Innan man gör denna
resultatsammanfattning  gör man bedömningar av de enskilda
studierna, deras design- cohort, RCT, fallstudier, metastudier och
plockar bort de som inte fyller kvalitetskraven. En risk med detta är
att där kan det innovativa och briljanta falla bort.
Det
här var några de punkter som tas upp- det finns betydligt fler.