Kapitel 12. Virkningsevaluering (Thomas Bredgaard, Julia ... · 1 Under udgivelse i T. Bredgaard,...
Transcript of Kapitel 12. Virkningsevaluering (Thomas Bredgaard, Julia ... · 1 Under udgivelse i T. Bredgaard,...
1
Under udgivelse i T. Bredgaard, red. ”Evaluering af offentlig politik og organisationer”, Hans
Reitzels forlag (udkommer primo 2016)
Kapitel 12. Virkningsevaluering (Thomas Bredgaard, Julia Salado-Rasmussen og Stella Mia Sieling-Monas)
Kært barn har mange navne: Virkningsevaluering, realistisk evaluering, teori-baseret evaluering og
virkelighedsnær evaluering. Værktøjet til at foretage denne form for evaluering har ligeledes
forskellige betegnelser: Programteorier, logiske modeller, interventionsteorier, indsatsteorier og
forandringsteorier. I det følgende benytter vi betegnelserne virkningsevaluering og
programteorier, som er de mest anvendte begreber, navnlig i den danske evalueringslitteratur.
Virkningsevaluering blev introduceret på socialområdet i danske lærebøger i 2000ernes
begyndelse (jf. Dahler-Larsen & Krogstrup, 2003; Krogstrup, 2003) og har siden spredt sig og
anvendes nu på mange forskellige politikområder. Den danske version af virkningsevaluering
bygger på ældre udenlandske evalueringstraditioner, særlig teori-baseret evaluering og realistisk
evaluering (jf. Schuman, 1967; Wholey, 1987; Chen, 1990; Rogers, 2000; Pawson & Tilley 1997;
Pawson, 2013).
Formålet med en virkningsevaluering er at undersøge og dokumentere, hvad der virker for hvem,
under hvilke omstændigheder. Virkningsevalueringer tilstræber, at åbne indsatsers (politikkers,
interventioners eller programmers) ”sorte boks” og ikke blot undersøge om indsatser virker, men
også hvorfor og hvordan de virker. Ambitionen er at koble viden om indsatser og processer
sammen med viden om resultater og effekter. Det er en ambition, der går på tværs af den
faseopdeling af evalueringsmodellerne vi har anvendt i bogens tidligere kapitler.
Men er det overhovedet nødvendigt at åbne indsatsers ”sorte boks”? Er det ikke tilstrækkeligt, at
vi undersøger om indsatser virker efter hensigten og har opnået de forventede resultater og
effekter? Vi kender fx argumentet om, at kunden er ligeglad med hvordan bilen er produceret, så
længe den kører godt. I offentlig politik og administration forholder det sig imidlertid anderledes.
Her er tilblivelsen af ”produktet” sjældent ligegyldig. Offentlige indsatser har ”indre værdi”, hvilket
indebærer at måden, hvorpå målet opnås (processen) ofte er af lige så stor betydning som,
hvorvidt målet er nået (effekten). De færreste forældre vil fx acceptere, at en skolelærer anvender
fysisk afstraffelse af eleverne, og nøjes med, at interessere sig for elevernes præstationer ved
eksamen i matematik og dansk. Det andet argument for at åbne den ”sorte boks” er, at
forbedringer og revisioner af programmer og politikker er et væsentligt formål med evaluering,
hvilket som regel ikke er muligt med mindre der gennemføres evaluering af hvorfor og hvordan
programmet fungerer (jf. Chen, 1994). Virkningsevaluering har derfor til formål:
2
”At undersøge betingelserne for programmers implementering og de mekanismer som
forbinder processer og effekter som middel til at forstå hvornår og hvordan
programmer virker” (Weiss 2007: 68).
Vi starter med at beskrive virkningsevalueringens teoretiske baggrund og udvikling. Derefter
diskuteres, hvorvidt virkningsevaluering er i stand til at indfri ambitionen om, at bygge bro mellem
procesevaluering og effektevaluering. Vi bruger derefter lidt ekstra kræfter på at præsentere
”realistisk evaluering”, som efter vores vurdering er det hidtil mest overbevisende bud på en solid
teoretisk og metodisk tilgang til virkningsevaluering. Herefter giver vi forslag til hvordan
programteorier kan konstrueres og testes. Kapitlet afsluttes med at skitsere nogle af de
væsentligste udfordringer, som karakteriserer virkningsevaluering.
Virkningsevalueringens rødder og udvikling
Virkningsevaluering er blevet den foretrukne danske betegnelse for den type evaluering, som
anvender program- eller forandringsteorier til at undersøge, hvad der virker for hvem, under
hvilke omstændigheder. Virkningsevaluering udspringer af ”teori-baseret evaluering” og ”realistisk
evaluering” fra den engelsksprogede litteratur. Carol Weiss (2007) nævner, at begrebet ”teori-
baseret evaluering” opstod blandt evalueringsforskere i begyndelsen af 1990erne. Men selve
ideen om at anvende ”programteorier” til at forstå hvorfor og hvordan programmer virker, er
endnu ældre. I det følgende tager vi på en kort rundtur i virkningsevalueringens fortid og nutid.1
En af de første til eksplicit at anvende begrebet ”programteori” var Edward Schuman (1967), som
diskuterede to årsager til at programmer mislykkedes: (1) Implementeringsfejl og (2) teorifejl.
Implementeringsfejl betegner en manglende evne til at gennemføre de intenderede aktiviteter i
programmet, imens teorifejl betegner aktiviteternes manglende evne til at medføre de ønskede
effekter. Vi vender tilbage til denne vigtige sondring senere.
I 1972 argumenterede Carol Weiss som den første for, at evalueringer skulle bygge på
programteorier. Weiss anskueliggjorde det i forhold til forskellige teorier indbygget i et program
for læreres hjemmebesøg.
Siden fulgte Joe Wholey’s (1987) arbejde med ”evaluerbarhed” (evaluability assessment) som
understregede behovet for at undersøge, hvorvidt et programs underliggende teori gav mening.
Wholeys idé var at man forud for den egentlige evaluering foretog en vurdering af hvorvidt det
logiske ræsonnement som forbinder programmers input med output er meningsfuldt, samt om
det er sandsynligt at målene kan realiseres.
1 Referencerne til de forskellige bidrag i litteraturen om ”teori-baseret evaluering” og programteori kan
findes i Carol Weiss oversigtsartikel fra 2007 (Weiss, 2007). Sue C. Funnell & Patricia J. Rogers har en næsten tilsvarende gennemgang af programteoriers idehistorie (jf. Funnell & Rogers, 2011: 16ff.).
3
I slutningen af 1980erne var ”teori-baseret evaluering” efterhånden blevet en ganske populær ide,
omend der fortsat ikke var så mange praktiske eksempler på anvendelsen af tilgangen. Der var i
perioden en kraftigt akademisk opblomstring af diskussionerne om ”teori-baseret evaluering” og
programteori. Eksempelvis udkom der i hhv. 1987 og 1990 temanumre af tidsskriftet ”New
Directions for Program Evaluations” som var tilegnet diskussionen af ”teori-baseret evaluering” og
programteori. I år 2000 fulgte et tredje temanummer af tidsskriftet som var tilegnet diskussionen
om programteorier i evaluering (jf. Rogers m.fl., 2000).
Huey-Tsuh Chen og Peter Rossi videreudviklede ideerne i en række publikationer i 1980erne og
begyndelsen af 1990’erne. Deres bidrag var især at påpege, at programteori skulle indeholde
samfundsvidenskabelig teori og ikke blot en række logiske ræsonnementer. Chen skelnede
eksempelvis mellem ”normativ teori” og ”kausalteori”, hvor førstenævnte giver vejledning om
hvilke mål og resultater som bør forfølges eller undersøges, imens sidstnævnte er antagelserne
om hvorvidt og hvordan programmet virker. De fleste evaluatorer som anvender
virkningsevaluering og programteori benytter kausalteori, nærmere bestemt den såkaldte
”generative kausalteori” (jf. senere afsnit om kausalitet i virkningsevaluering).
I slutningen af 1990erne kommer et markant bidrag til teoriudviklingen med Ray Pawsons og Nick
Tilleys bog om ”realistisk evaluering”, der præsenterer et solidt videnskabsteoretisk og
evalueringsteoretisk alternativ til eksperimentelle evalueringsmetoder (Pawson & Tilley, 1997).
Ray Pawson arbejder efterfølgende videre med begreberne og introducerer den ”realistiske
syntese” som alternative til ”systematiske forskningsoversigter” (Pawson, 2006) og har senest
udfoldet (realistisk) evaluering som en selvstændig form for anvendt videnskab (Pawson, 2013). Vi
beskriver realistisk evaluering mere udførligt nedenfor.
Det seneste årti har ifølge Weiss (2007: 70) handlet om at anvende og praktisere ”teori-baseret
evaluering”. Begreberne er efterhånden blevet ”mainstream” indenfor evaluering og er inkluderet
i de fleste nyere tekstbøger om evaluering (jf. fx Rossi, Freeman & Lipsey, 1999; Vedung, 2009;
Dahler-Larsen, 2013). Ray Pawson nævner i sin nyeste bog, at han har fundet mere end 100
videnskabelige studier, som hævder, at være realistiske evalueringer (Pawson, 2013: 13). Dertil
kommer evalueringer som bruger andre betegnelser som ”teori-baseret evaluering”,
programteorievaluering osv.
I Danmark blev evalueringstraditionen præsenteret i begyndelsen af 2000-tallet og fik som nævnt
samlebetegnelsen ”virkningsevaluering” (jf. Dahler-Larsen & Krogstrup, 2003). Den danske udgave
af virkningsevaluering blev udviklet og afprøvet i forbindelse med et projekt om udvikling af
evalueringsmodeller under Socialministeriets evalueringsprogram i perioden 2001-2003. Selve
betegnelsen virkningsevaluering understreger dels ”at virke” (proces) og ”virkning” (effekten) og
udtrykker således bestræbelsen på at bygge bro mellem processer og effekter (jf. Dahler-Larsen &
Krogstrup, 2003). I et senere værk forklarer Peter Dahler-Larsen hvordan den nye betegnelse
”virkningsevaluering” samtidig gav ham mulighed for at udvikle evalueringsmodellen i andre
4
retninger end den gængse indenfor ”teori-baseret” evaluering (Dahler-Larsen, 2013: 115). Dahler-
Larsen ønskede nemlig, at kombinere virkningsevaluering med konstruktivisme i stedet for med
kritisk realisme.
Den store interesse for virkningsevaluering har efterhånden skabt en stor variation og
mangfoldighed – nogle vil måske kalde det forvirring - i de anvendte betegnelser samt i måden
hvorpå programteorier repræsenteres og anvendes (jf. Funnell & Rogers, 2011: 23).
Virkningsevalueringens popularitet kommer også til udtryk ved, at organisationer og
bevillingsgivere ligefrem er begyndt at forlange, at forslag til programmer, projekter eller politikker
skal indeholde en logisk model eller programteori før påbegyndelse. Programteorier anvendes
med andre ord til både planlægning, styring og evaluering af projekter (jf. Rogers, 2007).
Virkningsevaluering som brobygger
Det er ikke så svært at forstå virkningsevalueringens popularitet, idet den tilstræber af forene det
bedste fra begge verdener. Virkningsevaluering søger at integrere procesevaluering og
effektevaluering og at kombinere kvalitative og kvantitative metoder. Dog adskiller
virkningsevaluering sig også fra både procesevaluering og effektevaluering, hvilket vi skal se i det
følgende. Vi har skitseret de væsentligste forskelle mellem de tre evalueringstilgange nedenfor.
5
Tabel 12.1. Virkningsevaluering som brobygger
Effektevaluering Virkningsevaluering Procesevaluering
Undersøgelses-
spørgsmål
Virker det? Hvad virker for hvem,
hvorfor, under hvilke
omstændigheder?
Hvordan opleves og
opfattes virkningerne?
Fokus Effekter Effekt og proces Processer
Metode Kvantitative metoder Multi-metodologisk:
Anvender både
kvantitative og
kvalitative metoder
Kvalitative metoder
Teori om
forbindelse mellem
indsats og effekt
Successionistisk
kausalteori
Generativ kausalteori Logisk teori
Viden Kontekstuafhængig
Global viden
Kontekstafhængig, men
overførbar viden
Kontekstafhængig
Lokal viden
Beslutningsproces Antager at
beslutningstagere
foretager rationelle
valg mellem de mest
effektive midler til at
opnå mål
Evaluator søger at
informere praktikere,
deltagere og
beslutningstagere samt
udvikle deres
programteorier
Evaluator vægter
lydhørhed overfor de
berørte interesser og at
informere
beslutningstagere om
hvordan interventioner
opleves og anvendes
Kilde: Udvirket med inspiration fra Pawson & Tilley (1997: kapitel 1).
Formålet med en effektevaluering er at undersøge om en given indsats, intervention eller program
virker eller ikke virker (jf. kapitel 10). Effektevalueringer stammer fra den eksperimentelle
tradition, som søger kontekstuafhængig og universel viden (evidens) gennem kontrollerede forsøg
af interventioners og programmers effekter (jf. også kapitel 3). Traditionen opstod i USA i
efterkrigstiden, hvor der var en stor styringsoptimisme ift. at løse grundlæggende
samfundsproblemer gennem videnskabelige metoder og rationelle beslutningsprocesser (f.eks.
illustreret ved Lyndon B. Johnsons forestillinger om ”The Great Society” og erklæringer om ”War
on Poverty) (jf. Albæk, 1988). Politik blev i den forstand en slags ”social ingeniørkunst” (jf. Vedung,
2010 og kapitel 2). Eksperimentel evaluering bygger på såkaldt ”successionistisk kausalteori”, dvs.
forsøg på at ekskludere enhver tænkelig kausal agent fra eksperimentet bortset fra
interventionen, således at der til sidst blot er en sikker (evident og automatisk) kausal forbindelse
mellem indsats og effekt tilbage. Ambitionen er at opnå kontekstuafhængig og global viden om
hvorvidt interventioner virker eller ikke virker, for derefter at kunne informere beslutningstagere
om hvilke interventioner som virker bedst og mest effektivt. Beslutningstagere antages for sin del
at agere rationelt og benytte de mest effektive og virksomme indsatser, imens ikke-virksomme
6
eller ineffektive indsatser bør nedlægges. Dette er ligeledes essensen i den ”evidensbevægelse”,
som igennem en årrække er skyllet ind over de fleste vestlige lande (jf. Vedung i kapitel 2 og
Krogstrup og Baadsgaard i kapitel 3).
Kritikere fremhæver dog, at ”evidensbevægelsen” og især randomiserede kontrollerede forsøg
(RCT) har vanskeligt ved at indfri løfterne om universel og sikker viden. Kritikere fremhæver, at
eksperimentelle design ikke kan favne komplekse interventioner og at metoden dermed giver
forsimplede løsninger på problemstillinger, som ikke kan forstås løsrevet fra kontekst (jf. Dahler-
Larsen & Krogstrup, 2003; Dahler-Larsen, 2013). Eksperimentelle evalueringer har samtidig
vanskeligt ved at adressere spørgsmålet om, hvorfor og hvordan interventioner virker og har
sjældent produceret konsistente resultater (jf. Pawson & Tilley, 1997: kapitel 2). Det gør det
vanskeligt for politiske beslutningstagere, at omsætte evalueringsresultaterne til praktisk politik og
beslutninger. Dertil kommer at ”evidensbevægelsen” undervurderer beslutningsprocessers
grundlæggende politiske natur (jf. Foss Hansen i kapitel 4 og Dahler-Larsen i kapitel 14), hvilket
indebærer at selv når evidensen for et givent tiltag er entydig kan der være gode politiske grunde
at handle anderledes (fx kompromisser, studehandler, værdier, holdninger osv.).
Procesevalueringer adresserer nogle af begrænsningerne ved effektevaluering (jf. kapitel 7 af
Rasmussen og Rasmussen). Vi bruger her ”procesevaluering” som en samlebetegnelse for de
forskellige evalueringstilgange, der interesserer sig for indsatsers aktiviteter, processer og
implementering (fx responsiv evaluering, interessentevaluering, kompetenceevaluering,
empowermentevaluering, brugerevaluering og implementeringsevaluering, jf. ligeledes kapitel 8
og 9). Et væsentligt formål med disse evalueringsformer er at opnå en dybere indlevelse i
interventionernes karakter samt deltagernes, praktikernes og beslutningstagernes oplevelser,
vurderinger og erfaringer. Der sker således en naturlig forskydning fra det kvantitative studie af
effekter til det kvalitative studie af processer. Procesevaluering søger ikke efter årsagsforklaringer
på om interventioner virker, men interesserer sig for hvordan de virker og opleves at virke af
deltagere, brugere, medarbejdere og andre interessenter. Der anvendes således ikke kausalteori
som i effekt- og virkningsevaluering, men ”logisk teori” som ud fra deltagernes/brugernes
perspektiv undersøger indsatsernes konsekvenser. Evalueringsresultaterne kan derefter anvendes
til at informere beslutningstagere om hvordan ”berørte interessenter” oplever programmers og
interventioners virkninger. Procesevalueringer er ikke nødvendigvis eksplicit ”teori-drevne” og
søger ikke nødvendigvis at generalisere evalueringsresultaterne udover den specifikke kontekst,
hvori de er opstået.2
2 Der kan udover virkningsevaluering også identificeres andre evalueringspositioner imellem effektevaluering og procesevaluering. Pawson og Tilley (1997: kapitel 1) har eksempelvis ”eksperimentel evaluering” og ”konstruktivistisk/naturalistisk evaluering” i hver sin ende af skalaen (tilsvarende det vi benævner ”effektevaluering” og ”procesevaluering”). I mellem disse placerer Pawson og Tilley den ”pragmatiske/politiske evaluering” og den ”pluralistiske” tilgang (Pawson & Tilley 1997: kapitel 1).
7
Virkningsevaluering kan opfattes som en brobygger mellem effektevaluering og procesevaluering.
For at besvare det grundlæggende spørgsmål i en virkningsevaluering om, hvad der virker for
hvem, under hvilke omstændigheder skal der fokuseres på både effekter og processer og
anvendes både kvantitative og kvalitative metoder. Målet med en virkningsevaluering er i sidste
ende at udvikle bedre og mere evidensbaserede programteorier (meso-teorier) med henblik på at
kvalificere beslutningsgrundlag og praksis.
Virkningsevaluering kan være et supplement til effektevaluering i de situationer, hvor man ønsker
at undersøge hvorfor og hvordan effekterne opstod. Men virkningsevaluering kan også være et
alternativ til effektevaluering. Som en særlig aftapning af virkningsevaluering er den form for
evaluering vi beskriver i det følgende, den realistiske evaluering, hovedsageligt, men ikke
udelukkende, ment som en kritik af den eksperimentelle evalueringstradition, der anvender
randomiserede kontrollerede forsøg.
Realistisk evaluering
Realistisk evaluering er som nævnt udviklet af Ray Pawson og Nick Tilley og er formuleret som et
opgør med og alternativ til eksperimentelle evalueringsmodeller (Pawson & Tilley, 1997). Den
realistiske evaluering har et solidt videnskabsteoretisk fundament i ”kritisk realisme”.3 Det
grundlæggende spørgsmål som undersøges i en realistisk evaluering er, hvad der virker for hvem,
under hvilke omstændigheder.
Formålet med realistiske evalueringer er at konstruere, teste og forfine programteorier. Disse
programteorier er forestillinger om forbindelser mellem årsag og virkning, som identificeres
gennem såkaldte CMO-konfigurationer:
Context (C) + Mechanism (M) = Outcome (O).
Indsatser virker (dvs. har succesfulde outcomes) når de introducerer de rette ideer og muligheder
(mekanismer) til grupper eller personer under de rette sociale og kulturelle omstændigheder
(kontekst) (Pawson & Tilley 1997: 57). I det følgende præciseres, hvad der forstås ved
nøglebegreberne: Mekanismer, kontekst og outcomes. Desuden tilføjer vi begrebet moderator,
introduceret af Peter Dahler-Larsen (2001).
3 Som videnskabsteori indtager realisme en position imellem ”positivisme” og ”relativisme/fænomenologi”. Realismen søger i modsætning til positivismen, at finde ”generative mekanismer” frem for ”kausale mekanismer”. Det antages i modsætning til relativismen, at ”virkeligheden” er observerbar og ikke blot består af ”sociale konstruktioner”. I Ray Pawsons seneste bog er der en detaljeret indføring i den realistiske evaluerings filosofiske, epimistologiske og metodologiske rødder (jf. Pawson, 2013: kapitel 1).
8
Hvad er mekanismer? For at forstå hvordan programmer virker, må vi undersøge de
underliggende mekanismer, som forbinder indsats og effekt, dvs. de indre forhold som virker
under den observerbare overflade. Mekanismer er ofte skjulte eller latente ”agenter” som skaber
forandring. Det er gennem ideen om disse mekanismer, at man kan tage skridtet fra at spørge om
et program virker, til at forstå hvad det er ved et program som får det til at virke. Pawson og Tilley
(1997: 65) bruger et eksempel med et ur. Vi bliver ikke i stand til at forstå hvordan et ur virker ved
at studere urets overflade og visernes bevægelser. Vi må skille det ad og undersøge hvad der sker
under overfladen i selve urværket. Mekanismer virker på samme måde under den synlige
overflade og kan ikke ses med det blotte øje. Mekanismen er ifølge Pawson og Tilley en
regularitet, altså forklaringen eller hypotesen om, hvorvidt og hvorfor der er forbindelse mellem
indsats og effekt. Astbury og Leeuw (2010) fremhæver følgende kendetegn ved en mekanisme: (1)
de er ofte skjulte, (2) de er følsomme overfor variationer i konteksten og (3) de skaber (genererer)
effekter (outcomes). I Pawson (2013: kapitel 6 og 7) er der flere eksempler på hvordan både
sociale programmer og kliniske interventioner ved hjælp af disse ”usynlige” mekanismer er i stand
til at skabe adfærdsændringer.
Hvad er kontekst/moderatorer? Relationen mellem mekanismer og effekter er ikke fastgjort på
forhånd, men kontingent, dvs. afhænger af den pågældende kontekst. Om potentialet i en
mekanisme bliver til effekter afhænger af, hvorvidt den pågældende kontekst formår at aktivere
mekanismerne. Vi ved eksempelvis at en gnist kan få krudt til at eksplodere. Men det er kun under
bestemte betingelser, at det faktisk sker (fx når krudtet er tørt og kompakt pakket). Konteksten er
således en slags antændingsmekanisme, der bestemmer, hvorvidt mekanismer virker eller ikke. En
bestemt mekanisme virker måske i en kontekst, men ikke i en anden kontekst. Det er imidlertid
ofte vanskeligt i praksis at afgrænse og fokusere, hvilke af de mange forhold i programmers
omgivelser, som øver afgørende indflydelse på mekanismerne. Til det formål har Dahler-Larsen
(2003: 102ff) introduceret begrebet moderator (jf. også Dahler-Larsen 2001).4 Man kan tænke på
moderatorer som betingelser, der enten aktiverer eller deaktiverer mekanismen mellem årsag og
virkning. Det er forhold som kausalt regulerer et andet kausalforholds styrke og retning (Dahler-
Larsen 2003: 103).5
4 Dahler-Larsen (2001) nævner i den sammenhæng tre typer af moderatorer, som indvirker på programteoriers sandhedsværdi: ”Tragiske” moderatorer kan (ubevidst) ødelægge betingelserne for programmets virkning, ”magiske” moderatorer er positive, selvopfyldende profetier og ”konkurrerende” moderatorer kæmper for at påvirke en moderator, som er afgørende for flere programmer. 5 Når et kausalforhold skal forklares inden for metodologien skelnes tilsvarende mellem ”medierende” og ”modererende” variable. En ”medierende” variabel intervenerer direkte i relationen mellem årsag og virkning (og er således tilsvarende det vi betegner ”mekanismer”) imens en ”modererende” variabel betinger relationen mellem årsag og virkning (og dermed svarer til de vi betegner ”moderator” eller ”kontekst”).
9
Hvad er effekter? Kombinationen af mekanismer og kontekst (moderatorer) skaber bestemte
udfald (effekter eller ”outcomes”). En effekt er de (såvel intenderede som uintenderede)
resultater som skabes, når en indsats (program/intervention) fører til faktiske forandringer.
Effekter er ikke de umiddelbare eller kortsigtede resultater af en indsats, disse betegnes i
evalueringslitteraturen som ”præstationer” (output). Effekter er derimod de mellemsigtede og
langsigtede resultater (outcomes) (jf. også kapitel 1). At unge kontanthjælpsmodtagere deltager i
et kommunalt aktiveringsprojekt er eksempelvis det kortsigtede resultat (præstation). At de
gennemfører en ordinær uddannelse eller kommer i beskæftigelse er det mellemsigtede og
langsigtede resultat (effekt).
Forskningsdesignet i realistisk evaluering er ikke anderledes end i mange andre videnskabelige
undersøgelser. Teorier formuleres abstrakt og omhandler identifikationen og forklaringen af
regulariteter (outcomes). I forhold til realistisk evaluering formuleres teori som antagelser om
hvordan mekanismer (M) aktiveres i kontekster (C) som skaber bestemte outcomes (O). Specifikke
hypoteser udledes dernæst af teorierne og angiver, hvornår og hvordan regulariteter kan findes.
Hypoteserne er en specificering af hvordan programmer forventes at skabe forandring. Det tredje
skridt er at teste hypoteserne gennem observationer af forskellig art. Der findes ikke en bestemt
metode, som har forrang i den realistiske evaluering, idet metodevalget afhænger af
evalueringsspørgsmålet og hypotesernes karakter. Observationerne fører derefter til
programspecifikationer, altså konkrete udsagn om hvad der virker for hvem, under hvilke
omstændigheder.6 Faserne i gennemførslen af en realistisk evaluering er skitseret nedenfor.
6 Hvis der er tale om interventioner karakteriseret ved konflikt og konkurrerende programteorier, hvilket ofte er tilfældet indenfor offentlig politik og forvaltning, er den såkaldte ”teori-baserede stakeholderevaluering” en velegnet metode (jf. Hansen & Vedung, 2010).
10
Figur 12.1. Den realistiske evalueringscyklus
Kilde: R. Pawson & M. Tilley (1997: 85): ”Realistic evaluation”, London: Sage.
I sidste ende er målet at afkræfte, bekræfte, forfine, præcisere eller fokusere den pågældende
programteori. Den realistiske evaluering søger specifikationer af programteorierne frem for
universelle og kontekstuafhængige generaliseringer.
Realistisk evaluering har efterhånden opnået en sådan popularitet og udbredelse, at Ray Pawson
har følt sig foranlediget til at lave en kritisk gennemgang af udvalgte studier, som hævder at være
realistiske evalueringer, for at præcisere, hvad der vil sige at foretage realistisk evalueringer (jf.
Pawson & Manzano-Santella, 2012; Pawson, 2013: kapitel 2). Det er vores erfaring, at de samme
kritikpunkter er relevante i forhold til måden virkningsevaluering og især programteorier anvendes
i danske evalueringer. Pawson fremhæver tre typer af fejl, som ofte forekommer i gennemførslen
af realistiske evalueringer:
(1) Manglende forklaringer: Nogle evalueringer, som hævder at være realistiske evalueringer,
giver ikke en ordentlig forklaring på, hvorfor interventioner virker for hvem, under hvilke
omstændigheder. De nøjes i stedet med statistiske korrelationer eller beskrivelser af
aktiviteter. Statistiske beregninger kan være et vigtigt første trin til at afdække variationer i
programmers resultater. Men statistiske korrelationer må ikke forveksles med kausale
mekanismer og skal derfor underbygges med forklaringer.
(2) Anvendelse af én enkelt metode: Nogle evalueringer, som hævder at være realistiske
evalueringer, begår den fejl, at de anvender den samme metode til at konstruere og teste
programteorien. De arbejder ikke multimetodologisk og får derfor ofte ikke testet deres
programteori. Realistiske evalueringer søger, som nævnt, at bygge bro mellem
procesevaluering og effektevaluering og mellem kvalitative og kvantitative metoder.
Hypoteser
Hvad forventes at virke for
hvem, under hvilke
omstændigheder
Observationer
Multiple metoder
og analyse af
C,M,O
Program specifikation
Hvad virker for, hvem
under hvilke
omstændigheder
Teori
Kontekst (C)
Mekanismer (M)
Outcome (O)
11
Identificering af ”mekanismer” i offentlige interventioner forudsætter eksempelvis kvalitative
metoder, observationer af ”outcomes” er ofte baseret på kvantitative metoder, imens
inddragelse af ”kontekst” ofte vil forudsætte komparative og til tider historiske data. Ved at
kombinere metoderne undgår man at producere ”gode nyhedshistorier”, hvor man gentager
deltagernes eller medarbejdernes positive forhåbninger om, at programmer vil virke uden at
teste om de rent faktisk virker.
(3) Lange ingredienslister og kataloger: Den sidste fejl Pawson fremhæver, er at nogle
evaluatorer producerer lange ”ingredienslister” eller kataloger af kontekster, mekanismer og
”outcomes”. I mange ”realistiske evalueringer” forveksles programaktiviteter ofte med
mekanismer. CMO-konfigurationer er ifølge Pawson forholdsvis snævre og begrænsede
hypoteser om, at programmer skaber virkninger (outcomes) på grund af en underliggende
årsag (mekanismer), som kun fungerer under bestemte betingelser (kontekst). Programmer
eksisterer ikke i forudbestemte ”klumper” eller ”kasser” der kaldes kontekster, mekanismer
og ”outcomes”. Begreberne har derimod deres mening i deres funktion i den realistiske
forklaring og deres rolle i testningen af disse forklaringer.
Vi vil dog indvende, at Ray Pawson og kollegaer er delvist selvforskyldte i at evaluatorer ind i
mellem har svært ved at leve op til forskrifterne i realistisk evaluering. Det skyldes, at forskrifterne
til tider er uklare, tvetydige og ukonkrete. Der mangler efter vores erfaring en mere operationel
metodologi til hvordan man som evaluator kan gennemføre realistiske evalueringer. Dette kan vi
ikke tilbyde indenfor rammerne af dette kapitel, men vi vil i det følgende bestræbe os på at være
så konkrete og operationelle som muligt, når vi beskriver hvordan programteorier kan konstrueres
og evalueres.
Konstruktion af programteorier
En programteori er eksplicitte antagelser om, hvad der forbinder en given intervention (indsats,
projekt, program) overfor en bestemt målgruppe med bestemte resultater i en given kontekst.
Programteorier har forskellige betegnelser i litteraturen, fx interventionsteorier (Vedung, 2009),
CMO-konfigurationer (Pawson & Tilley, 1997; Pawson, 2013), logiske modeller (Funnell og Rogers,
2011), programteorier (Dahler-Larsen & Krogstrup, 2003; Dahler-Larsen 2013; Bredgaard m.fl.,
2011), indsatsteorier (jf. Danmarks Evalueringsinstitut) eller forandringsteori (jf. Rambøll, 2010;
Arbejdsmarkedsstyrelsen m.fl., 2011). Vi benævner dem ”programteorier” forstået som eksplicitte
antagelser om, hvad der virker for hvem, under hvilke omstændigheder. Programmer forstår vi
som en bred kategori, der kan indeholde offentlige indsatser, interventioner, politikker,
programmer og projekter. I det følgende beskriver vi, hvordan programteorier kan konstrueres og
præsenteres.
Programteorier kan anvendes som redskab til at forbedre planlægningen af programmer. En
forholdsvis simpel grafisk fremstilling af programteorier (jf. nedenfor) er velegnet til at visualisere
12
formålet med nye eller igangværende indsatser samt interessenternes ”bedste” antagelser om
hvorfor og hvordan indsatserne forventes at virke. Programteorier kan således anvendes til at
synliggøre den ofte ”usynlige” (tavse) faglige praksisviden og erfaring, som programmedarbejdere
har om hvorfor og hvordan indsatser virker og for hvem.
Programteorier kan også anvendes som styringsredskab. De medvirker til at skærpe antagelser om
hvorfor og hvordan en indsats forventes at virke og flytte fokus fra hvordan igangværende
aktiviteter faktisk implementeres, til hvordan de burde implementeres. Programteorier viser hvad
der er væsentligt ved en given indsats eller intervention og kan anvendes til at finde indikatorer og
indsamle data om progression frem mod slutmålet, dvs. som en slags resultatsyringssystem.
Endelig kan programteorier anvendes som evalueringsredskab, dvs. som eksplicitte hypoteser om,
hvad der virker for hvem, under hvilke omstændigheder. Gyldigheden og rækkevidden af disse
antagelser (hypoteser) skal testes gennem en evaluering af programteorien (det vender vi tilbage
til, når vi har beskrevet hvordan programteorier kan konstrueres).
Forandringsteori og implementeringsteori
En god programteori indeholder både konsistent(e) teori(er) om, hvordan programmet skaber
forandring for de individer som deltager og gør det muligt at implementere denne teori i
overensstemmelse med hensigterne. Hvis programmet ikke virker efter hensigten kan det skyldes
at der er enten teorifejl eller implementeringsfejl. Der er en afgørende forskel mellem de to fejl,
idet implementeringsfejl kan repareres (fx flere ressourcer, uddannelse af medarbejdere) imens
teorifejl ikke kan repareres.
Når man konstruerer en programteori, er det nyttigt at udforme både en forandringsteori og en
implementeringsteori (jf. Funnell & Rogers, 2011). Forandringsteori er de(n) generelle drivere eller
processer, der skaber forandring hos deltagerne og får dem til at ændre adfærd.
Forandringsteorien kan stamme fra en formel videnskabelig teori, men også en uformel og uudtalt
forståelse af, hvordan programmet virker.
Implementeringsteorien forklarer hvordan programmer er konstruereret for at aktivere disse
forandringsteorier. Der er mange forskellige ”forandringsteorier” indenfor forskellige fagdiscipliner
om hvad der skaber adfærdsændringer, som det ikke er muligt at gennemgå her (se i stedet
Funnell & Rogers, 2011: kapitel 11; Pawson, 2013: kapitel 6). Det samme gælder forskellige typer
af indsatser og programmer. Her skelner Vedung (2009, 2000) fx imellem
informationsprogrammer (”prædiken”, der virker gennem viden om fordele, ulemper og
13
konsekvenser), regulative programmer (”pisk”, der virker gennem tvang og sanktioner) og
økonomiske programmer (”gulerødder”, der virker gennem økonomiske belønning eller straf).7
I praksis udledes de to typer af teori ofte samlet. Fordelen ved analytisk at dele dem op er, at det
bliver tydeligt, at en programteori indeholder en generel teori om, hvad der skaber forandring hos
evaluanden (forandringsteorien) og en konkret teori om, hvilke instrumenter, som skal skabe
denne forandring i interventionen (implementeringsteorien). Denne opdeling giver mulighed for at
skelne mellem teorifejl og implementeringsfejl, når programteorien skal evalueres (jf. nedenfor).
Kilder til programteori
En programteori kan bygge på mange forskellige kilder afhængigt af formålet, fx en systematisk
litteraturgennemgang, observationer, fagligt materiale, en projektbeskrivelse, politiske
udmeldinger og logisk ræsonnement (Dahler-Larsen, 2013: 121, Funnell & Rogers, 2011: 108).
Programteorien kan udledes både deduktivt og induktivt. De to tilgange er ikke gensidigt
udelukkende og overlapper ofte i praksis.
1. Deduktiv tilgang: Programteorien opstilles deduktivt på baggrund af formelle og uformelle
dokumenter om interventionen. Det kan både være retningslinjer, tidligere rapporter og
evalueringer samt mere generel litteratur og teori om genstandsfeltet. På baggrund af den
indsamlede litteratur kan evaluator lave et logisk ræsonnement om hvordan interventionen
virker. Evaluator indfører en antagelse (if-then) om, at interventionsteorien er rationelt
begrundet og spørger sig selv: ud fra beskrivelsen af interventionen i sin rå form, hvad skal så
foreligge i teorien for at den skal være sammenhængende instrumentel? Hvilke årsags-
virknings-relationer er eksempelvis underforstået? Evaluator skal syntetisere
sammenhængende relationer mellem mål og midler, som ikke er fuldt artikulerede i den rå
interventionsteori, men som vi med god grund kan hævde ligger i nærheden af sandheden.
2. Induktiv tilgang: Med denne tilgang udleder evaluator sin programteori fra praksis. Det
inkluderer typisk observation, interview med fagpersonale og deltagere. Ved denne tilgang
ræsonneres der ikke frem til de usynlige mekanismer, de afsøges i stedet i feltet. Evaluator bør
i denne proces overveje hvilke interessenter der inddrages og hvordan modstridende eller
divergerende forestillinger skal håndteres. Skal der udarbejdes flere programteorier eller én
samlet? Og har evaluator mandat til at beslutte hvilke forestillinger der skal med? De relevante
interessenter vil typisk være fagpersonalet og ledelsen, politikere og bidragsydere, vigtige
samarbejdspartnere, målgruppen for interventionen og dem der forventes at nyde godt af
programmet. En udvidelse af denne forståelse er at lade interessenterne (fx
programmedarbejdere eller faglige ledere) selv udarbejde deres egne programteorier.
7 Funnell & Rogers (2011: kapitel 12) betegner disse for ”program-arketyper” og tilføjer desuden sagsbehandling, lokal kapacitetsopbygning og direkte serviceydelser.
14
Programteorier anvendes i så fald som et redskab til intern evaluering og faglig dialog. Det er
således ikke en ekstern evaluator som har ansvar for at konstruere programteorien, om end de
kan anvendes som proceskonsulenter og undervisere. En programteori der udledes induktivt
kan være selve produktet af evalueringen (Funnell & Rogers 2011: 102), men den kan også
gøres til genstad for evaluering. Evalueringen kan afsløre uoverensstemmelser mellem teorien
og implementeringen af interventionen, samt mellem interessenternes forestillinger og
udtalelser om hvad de gør og det, som de gør i praksis.
Funnell og Rogers (2011) påpeger at det er nødvendigt, at vurdere hvilken type problem
evalueringen skal håndtere, særligt når det kommer til at beslutte, om programteorien skal
opstilles på baggrund af dialog med interessenter og i så fald hvem og hvor mange. Her skelner
Funnell og Rogers (2011) mellem simple, komplicerede og komplekse problemer. Ved et simpelt
problem, fx at bage en kage, hersker der lav usikkerhed om, hvordan man opnår det ønskede
resultat (følg opskriften) og begrænset uenighed om målet (en chokoladekage skal smage af
chokolade). I disse tilfælde kan det være tilstrækkeligt at have dialog med en lille kreds af
interessenter, fx fagpersonale og brugere. Ved komplicerede problemer hersker der stor
usikkerhed om midler, men enighed om målet (fx at sende en raket til månen) eller sikkerhed om
midler, men uenighed om målet (fx abort). Ved komplekse problemer er der både usikkerhed om
midler og uenighed om målet (fx opdrage et barn). Når problemet er enten kompliceret eller
komplekst anbefaler Funnell og Rogers (2011), at der er dialog med en bredere kreds af
interessenter. Formålet hermed er at skabe legitimitet bag evalueringen, få divergerende
forestillinger frem og skabe rum for vidensdeling.
Visuel præsentation
Når kildematerialet til programteorien er indsamlet er der ofte en god ide at lave en visuel
præsentation af programteorien. En god fremstilling af en programteori er hverken for detaljeret
eller for overfladisk og skal kunne fungere som et redskab i evalueringen. Der er imidlertid en
afvejning imellem at konstruere programteorier som detaljerede ”virkelighedsbeskrivelser” og
samtidig anvende dem som evalueringsværktøj. Jo mere virkelighedsnære og genkendelige
programteorier bliver for programmets interessenter, desto vanskeligere bliver de at evaluere. Og
omvendt, jo mere simple og evaluerbare programteorierne er, desto mere abstrakte og fjerne vil
de forekomme i forhold til den ofte komplekse sociale virkelighed de beskriver. Der er ikke nogle
simple løsninger på dette dilemma, men der er forskellige visuelle ”skabeloner” i litteraturen som
kan håndtere varierende grader af kompleksitet.
Den grafiske eller sproglige fremstilling af programteorien er et redskab til at evaluere de udvalgte
dele af kausalforholdene, man ønsker at undersøge. Der må derfor ved konstruktionen af
programteori tages højde for, hvor lang en kausalkæde som er hensigtsmæssig, samt hvor
detaljeret den bør være. På den ene side kritiseres programteorier for at være forsimplende, men
15
på den anden side er et landkort i størrelsesforholdet 1:1 ubrugeligt (Dahler-Larsen 2013: 124).
Udformningen af programteorien vil uundgåeligt være en proces med tilvalg og fravalg. Det er
derfor en øvelse, som skal gøres med omtanke og som bliver bedre med erfaring og gentagne
revisioner.
“Måden hvorpå vi tænker om programteori påvirker hvordan vi repræsenterer den og
måden hvorpå vi repræsenterer programteori påvirker hvordan vi tænker på den”
(Funnell og Rogers, 2011: 241).
Konstruktion af programteori indeholder en dualitet. Den måde vi tænker på programmet
influerer på, hvordan vi visualiserer programteorien, men når programteorien først er visualiseret,
så vil den efterfølgende påvirke den måde vi tænker på programmet. Programteorien bliver
derved styrende for evalueringen.
Programteorier fremstilles ofte i det, der kaldes en logisk model. En logisk model kan tage mange
forskellige former, men i evalueringslitteraturen anvendes typisk pilediagrammer, rutdiagrammer,
udfaldskæder eller realistiske matricer (Funnell & Rogers 2011: 32, 243f).
Pilediagrammer visualiserer interventionen som en række sammenhængende kasser med pile
imellem. Interventionen visualiseres trin for trin fra input, indsats, output til outcome. I eksemplet
nedenfor bruger vi Funnell og Rogers ”æbleeksempel”, hvor der leveres gratis æbler til studerende
for at forbedre sundhedstilstanden: ”An apple a day keeps the doctor away”. Her kan en
programteori synliggøre, under hvilke omstændigheder udlevering af æbler leder til forbedret
helbred. Teorien bag interventionen er, at uddeling af æbler giver deltagerne bedre adgang til frisk
frugt og at deres helbred forbedres, når de spiser æblerne pga. C-vitamin.
Figur 12.2. Programteori som pilediagram
Pilediagrammets styrke er, at den er simpel og giver et godt overblik over interventionen.
Modellen kan udbygges med flere kausale kæder, hvis interventionen eksempelvis indeholder
flere aktiviteter. Den minder imidlertid mere om en implementeringsteori end om en
programteori. Den indeholder eksempelvis ikke antagelser om mekanismer og moderatorer, som
er afgørende for at gennemføre en virkningsevaluering (jf. Funnell & Rogers, 2011: 24ff.).
Input
- Gratis æbler på skolerne
Indsats
- Elever spiser et æble hver dag
Resultat
- Eleverfår tilskud af Vitamin C i kroppen
Effekt
- Eleverfår bedre helbred
16
Udfaldskæder (outcome chains) består ligesom pilediagrammer af en række kasser, men til forskel
fra pilediagrammerne består hver kasse af et udfald (outcome). Indsatsen bliver derved ikke
beskrevet som en selvstændig kasse, men indgår som en del af beskrivelsen af et udfald.
Udfaldskæder minder om pilediagrammer, men er mere udbyggede og bedre egnede til at
indfange hvordan en intervention virker, herunder forandrings- og implementeringsteorien.
Modellen er derfor også velegnet til at visualisere de variable som skal medtages i evalueringen
(Funnell & Rogers 2011: 245f).
Figur 12.3. Programteori som udfaldskæde (outcome chain)
I æble-eksemplet bliver det muligt, at visualisere flere forskellige udfald – eller nærmere hypoteser
om hvorfor indsatsen forventes at virke. Det er således muligt, at årsagen til de studerendes
forbedrede helbred ikke (kun) skyldes et højere niveau at vitamin C i kroppen, men at de
studerende, som spiser et æble er mindre sultne, hvorfor de spiser mindre junkfood og dermed får
bedre BMI.
En tredje mulighed er realistiske matricer som blev introduceret af Ray Pawson og Nick Tilley
(1997) og visualiserer programteorien som CMO-konfigurationer. I forhold til de to andre
visualiseringer er fordelen ved den realistiske matrice at konteksten tydeliggøres.
17
Figur 12.4. Programteori som realistisk matrice
Kontekst (C) + Mekanisme (M) = Outcome (O)
Skoler med mange overvægtige børn
+ Æbler indeholder C-vitamin + Æbler erstatter usunde fødevarer + Undervisning om sund levestil
= Elever får bedre helbred Skoler med få overvægtige børn
Skoler i storbyer
Skoler på landet
Vi undersøger i æble-eksemplet om indsatsen virker forskelligt på skoler i forskellige kontekster
(skoler med mange/få ovevægtige børn og skoler i storbyer/landet). Vi kan også undersøge hvilke
mekanismer, der er kausalt forbundet med effekten (at æbler indeholder C-vitamin, at æbler
erstatter usunde fødevarer eller om undervisning om sund levestil er mest virksomt). Pawson og
Tilleys (2013) idé bag den realistiske matrice er, at der altid vil være flere hypoteser i spil. Ved at
opstille CMO-konfigurationen i en tabel, bliver det muligt at opliste forskellige hypoteser om
sammenhængen mellem kontekster, mekanismer og outcomes.
En sidste grafisk illustration vi ønsker at præsentere er en vi selv har anvendt i forbindelse med
forskellige virkningsevalueringer. Modellen inkorporerer input, aktivitet, output og outcome fra
pilediagrammet med mekanismer og kontekst/moderatorer fra den realistiske matrice. I kasserne
ved hvert af programteoriens begreber har vi indsat spørgsmål, som er væsentlige at besvare for
at konstruere programteorien.
18
Figur 12.5. Programteori som rutediagram
Kilde: Tilpasset efter T. Bredgaard m.fl. (2011): Hvad virker i aktiveringsindsatsen? Beskæftigelsesregion
Nordjylland.
Rutediagrammet stammer fra projektet ”Hvad virker i aktiveringsindsatsen?”, hvor det blev brugt
til at konstruere og evaluere programteorier for forskellige typer af beskæftigelsesindsatser (jf.
Bredgaard m.fl. 2001). Fordelen er, at dette rutediagram synliggør de mekanismer som får
indsatsen til at virke, samt de moderatorer – eller kontekstforhold – som er en forudsætning.
Derved bliver det også tydeligt, hvilke variable der skal indgå i testningen af programteorien.
En programteori kan ligeledes fremstilles sprogligt. Fordelen ved en sproglig fremstilling af
programteorien er, at den kan være lettere at forstå end en visuel præsentation for
udefrakommende. Kasserne og pilene i den grafiske fremstilling efterlader ofte mange spørgsmål
og er ikke altid intuitiv for dem der ikke selv har været med til at udarbejde den. Det kan derfor
være en fordel både at have en grafisk og sproglig fremstilling af programteorien (Funnell &
Rogers 2011: 249f). Den sproglige fremstilling kan enten være skrevet som et narrativ eller som en
antagelse ”if-then”. Inspireret af Funnell og Rogers (2011) og Dahler-Larsen (2013) kunne
programteorien for æble-projektet se således ud (”If-then”) (Funnell & Rogers, 2011: 122; Dahler-
Larsen, 2013: 122):
Hvis der leveres gratis æbler til skolerne
Som stilles frem i spisefrikvarteret
Og eleverne ser æblerne
Og spiser dem
19
Og dermed undlader at spise deres normale mellemmåltid (fx usundt snack)
Så vil det forbedre deres niveau af C-vitamin og deres BMI
Hvorved de opnår bedre heldbred.
Der er således flere muligheder for at illustrere programteorier. Det væsentligste er at
programteorien synliggør antagelser om, hvad der virker for hvem, under hvilke omstændigheder.
Det er gyldigheden og rækkevidden af disse antagelser som testes, når programteorien
efterfølgende skal evalueres.
Evaluering af programteorier
Et væsentligt formål med at konstruere en programteori, er at teste om programmet faktisk virker
som antaget. Derfor skal den gode programteori være testbar – altså kunne efterprøves empirisk.
Man efterprøver programteoriens gyldighed og rækkevidde, ved at teste antagelserne empirisk
ved brug af forskellige dataindsamlingsmetoder. Efterprøvningen af teori kan antage mange
former, hvorfor det er nødvendigt at gøre sig en række overvejelser, om det evalueringsdesign og
de metoder, som sættes i spil. I det følgende beskriver vi først hvilke typer af kilder og metoder,
som er velegnede i evaluering af programteorier og dernæst, hvordan man i evalueringen kan
skelne mellem eventuelle teori- og implementeringsfejl. Til sidst redegør vi for hvordan man i
virkningsevaluering behandler det kontrafaktiske spørgsmål om, hvad der ville være sket, hvis
programmet ikke eksisterede og hvilke metoder der kan anvendes til undersøge forbindelserne
mellem årsag og virkninger.
En multimetodologisk tilgang
Formålet med at evaluere en programteori, er, som nævnt, at blive i stand til at afkræfte,
bekræfte, revidere, specificere eller forfine antagelserne om programmets virkninger. Pawson &
Tilley (1997) påpeger, at der er tale om en cirkulær proces, hvori man under evaluering bevæger
sig fra teori henover hypotesedannelse og empirisk test, for til sidste at blive i stand til at
specificere sine programteoretiske antagelser.
At der ikke er én bestemt type metode, som har forrang i virkningsevaluering, betyder at
metodevalget i stedet afhænger af evalueringsspørgsmålet og af de opstillede hypotesers
karakter. Man søger at anvende de metoder, som findes mest adækvate til at teste lige netop det
led i programteorien, som man ønsker at undersøge. Det kan således være en fordel at inddrage
forskellige metoder, til at belyse forskellige dele af en programteori, alt efter hvilket spørgsmål,
som ønskes besvaret. Om en effektevaluering eksempelvis er relevant, afgøres alene af
forskningsspørgsmålet. Det er ikke fordelagtigt at forlange så sikre effektmålinger at designet
ødelægger interventionen, eller at man opnår metodisk og praktisk handlingslammelse. Det
20
afgørende er en praktisk dømmekraft, som overskygger på forhånd fastlagte metoderegler
(Dahler-Larsen, 2013: 171).
I det følgende ser vi nærmere på, hvordan et evalueringsdesign konkret og metodisk kan bygges
op omkring et eksempel på en programteori. I figur 12.6 præsenteres et skelet til en simpel
programteori for en indsats overfor sygemeldte borgere. Målet med interventionen er at gøre de
sygemeldte i stand til at genoptage deres daglige arbejde. Programteorien er illustreret ved et
rutediagram, der beskriver indsatsens målgruppe, aktiviteter, mekanismer, samt del- og slutmål.
For at begrænse kompleksiteten præsenteres blot en enkelt aktivitet og et enkelt bud på en
virksom mekanisme (for en mere detaljeret programteori, se Sieling-Monas & Bredgaard, 2015).
Figur 12.6. Programteori for sygedagpengeindsats
Hvis vi skal opbygge et design som kan teste ovenstående programteori, må vi se nærmere på de
enkelte dele for at vurdere, hvilke metoder det vil være hensigtsmæssigt at anvende. Hvis vi
eksempelvis gerne vil teste hvorvidt aktiviteten har ført til den ønskede effekt (altså hvorvidt fysisk
træning medvirker til hurtigere tilbagevenden til arbejdet), kan dette lade sig gøre ved hjælp af en
effektmåling på fx survey- eller registerdata. Er vi derimod interesserede i at undersøge, om
deltagerne oplever færre smerter (resultat) som følge af træningen (aktivitet), kunne det være en
idé at gennemføre eksempelvis interview eller en spørgeskemaundersøgelse før og efter
interventionen. På den måde afhænger valg af metoder af, hvilke led i en programteori vi vil teste,
og som følge heraf hvilke spørgsmål vi ønsker besvaret.
Virkningsevaluering fokuserer på at undersøge programteoriens virkninger og ikke nødvendigvis
brugernes eller deltagernes tilfredshed eller oplevelser med indsatsen (jf. Pawson & Tilley,
1997:159). Når man i virkningsevaluering ofte plæderer for vigtigheden af at inddrage
programdeltagerne, skyldes det at brugerne kan være oplagte kilder til at belyse programteoriens
antagelser, snarere end et ønske om at høre dem ud fra normative standarder (Dahler-Larsen
2013: 136). Et eksempel på ovenstående er, at de sygemeldte deltagere på genoptræningskurset
ikke i udstrakt grad vil blive bedt om at beskrive, hvordan de har oplevet deres deltagelse, eller om
de har fundet udbyttet af kurset ”godt” eller ”dårligt”. Snarere vil de blive adspurgt, hvilke
funktioner de er blevet i stand til at varetage, hvordan deres smerteoplevelse har udviklet sig
undervejs, eller hvilke aktiviteter de har været i stand til at udføre henholdsvis før og efter
deltagelsen. Man leder således efter indikationer på virkninger af indsatsen, fremfor holdninger,
Målgruppe
- Sygemeldte
Aktivitet
- Fysisk træning
Mekanisme
- Genoptræn skade
Resultat
- Færre smerter
Effekt
- Tilbage til arbejde
21
meninger og bedømmelser. Det forventes at de involverede i et program vil have en forståelse af
og viden om værdifulde aspekter, men ikke at de nødvendigvis kan abstrahere og generalisere
disse opfattelser i relation til spørgsmålet om, hvad der virker for hvem (Pawson & Tilley,
1997:161).
Evalueringskriterierne i en virkningsevaluering defineres således igennem programteorien. Det er
ikke altid muligt, eller ønskværdigt, at teste hele den programteori, som er blevet formuleret i
forbindelse med en indsats. Det kan i stedet været en fordel, eller en nødvendighed, at udvælge
de dele af programteorien som er særligt centrale, eller som man har en særlig interesse i at få
efterprøvet. Funnell & Rogers (2011) argumenterer i denne forbindelse for, at man må tage stilling
til, hvilke aspekter af en indsats som er mest centrale for evalueringen, samt hvilke effekter og
indikationer, som det er vigtigst at belyse (Funnell & Rogers, 2011:426)
Teorifejl og implementeringsfejl
En af de ofte fremhævede styrker ved at arbejde programteoretisk, er muligheden for at skelne
imellem de såkaldte teorifejl og implementeringsfejl. Når vi evaluerer et program og vurderer
resultaterne, sker det som bekendt også at de forventede virkninger udebliver. I disse situationer
vil vi være interesserede i at vide, hvorfor dette er tilfældet. Er der tale om en fejl i vores teori
omkring programmets virkninger? Eller er der snarere tale om en fejl i måden hvorpå programmet
blev implementeret? Teorifejl angiver det forhold, at en indsats ikke virker som forventet,
hvorimod implementeringsfejl angiver, når indsatsen ikke udføres som planlagt (Dahler-Larsen,
2013: 125). Sondringen mellem de to fejltyper, er illustreret i tabellen.
Tabel 12.2. Spørgsmål til evaluering af programteori
Blev interven-
tionen imple-
menteret som
planlagt?
Var der
tilstrækkeligt
engagement,
deltagelse og
efterlevelse?
Blev kort- og
mellem-
sigtede mål
(resultater)
opnået?
Blev
langsigtede
mål (effekter)
opnået?
Fortolkning af resultater
Nej Nej Nej Nej Implementeringsfejl
Ja Nej Nej Nej Fejl i programmets evne til at
skabe engagement eller
efterlevelse
Ja Ja Nej Nej Teorifejl (tidligt i
kausalkæden)
Ja Ja Ja Nej Teorifejl (senere i
kausalkæden)
Ja Ja Ja Ja Teorien bestyrket
22
Ja Ja Nej Ja Teorifejl (anden mekanisme
end forventet forklarer
resultaterne)
Kilde: Funnell og Rogers (2011): Purposeful Program Theory, Jossey-Bass (s. 478).
Som det ses ovenfor, kan manglende resultatopnåelse skyldes at interventionen ikke blev
implementeret efter hensigten. Det er også muligt, at interventionen blev implementeret korrekt,
men ikke evnede at engagere deltagerne eller sikre deres efterlevelse af interventionens
målsætninger, eksempelvis hvis deltagerne fandt interventionen uinteressant, gammeldags eller
krænkende. Hvis det lykkes at implementere interventionen korrekt og engagere deltagere kan
manglende målopfyldelse skyldes teorifejl.
Der er tre typer teorifejl: (1) Teorifejl tidligt i kausalkæden, hvis kort- eller mellemsigtede
resultater udebliver, (2) teorifejl senere i kausalkæden, hvis langsigtede resultater (effekter)
udebliver, og endelig, (3) teorifejl, hvor de langsigtede resultater opnås, men skyldes andre
mekanismer end de forventede. Endelig er der muligheden at programteorien kommer bestyrket
ud af evalueringen, hvis evalueringsresultaterne er kongruente med programteorien.
I tillæg til denne model har Dahler-Larsen (2013) følgende bud på en ramme for fortolkningen af
henholdsvis teori- og implementeringsfejl.
Tabel 12.3. Teori eller implementeringsfejl?
Resultatet indtraf Resultatet indtraf ikke
Implementering af indsatsen
var i orden
1. Tiltro til programteori
styrket
2. Teorifejl
Implementeringen af
indsatsen var ikke i orden
3. Andre forklaringer end
programteorien gælder
4. Implementeringsfejl,
muligvis teorifejl
Kilde: Dahler-Larsen (2013): Evaluering af projekter - og andre ting, som ikke er ting, Syddansk
Universitetsforlag (s. 125).
Det bemærkes at felt 1 og 2 som regel muliggør de simpleste konklusioner, imens felt 3 og 4 giver
anledning til diskussion af såvel teorien (resultater er opstået af andre årsager end indsatsen) og af
implementeringen (med herpå følgende mulighed for teorifejl) (Dahler-Larsen, 2013:125). Selvom
virkeligheden som oftest vil være langt mere kompleks, er sondringen alligevel velegnet til at
kunne specificere, under hvilke omstændigheder en programteori er virksom.
Kausalitet i virkningsevaluering
Et hovedspørgsmål i evaluering generelt og specifikt i forhold til evaluering af programteorier er
spørgsmålet om kausalitet, altså hvordan man undersøger og påviser om observerede effekter
skyldes programmet eller andre faktorer. Det kaldes det kontrafaktiske problem, altså hvad der
23
ville være sket, hvis programmet ikke eksisterede, og er et centralt problem i al form for
evaluering (jf. også kapitel 10 om effektevaluering).
Der kan være en tendens til at krybe udenom kausalitetsspørgsmålet og det kontrafaktiske
problem. Det skyldes dels, at det er udfordrende at besvare, dels at nogle evaluatorer, som
benytter virkningsevaluering har en forkærlighed for mere kvalitative metoder og måske har
konstrueret ganske detaljerede programteorier, som er præcise ”virkelighedsbeskrivelser”, men
vanskelige at teste.
I så fald bliver programteorien et værktøj til planlægning, implementering og styring, men ikke
evaluering af programmer. Hvis man ønsker at vide om programteorien faktisk virker som antaget
og har de ønskede effekter, er der ingen vej udenom at teste programteoriens kausale
forbindelser.
Den klassiske løsning på kausalitetsspørgsmålet er tilfældig lodtrækning og randomiserede
kontrollerede eksperimenter (jf. kapitel 10). Der er i evalueringslitteraturen forslag til hvordan
kausale forklaringer kan findes ved at kombinere programteorier med traditionelle
eksperimentelle og kvasi-eksperimentelle designs (jf. Cook 2000; Davidson 2000).
Indenfor litteraturen om virkningsevaluering er der dog mange, som ikke accepterer
lodtrækningsforsøg som den eneste eller bedste form for evidens (Pawson & Tilley, 1997; Pawson,
2006, 2013; Funnell & Rogers, 2011; Donaldson, 2000). Der advokeres i stedet for at anvende
”mixed” metoder og forskellige datakilder afhængigt af problemstillingens og evaluerings formål
og karakter.
Programteorier gør det også muligt at undersøge, om der er kausal sammenhæng mellem
programmet og effekterne i de situationer, hvor tilfældig lodtrækning ikke er mulig eller ønskelig
(hvilket i parentes bemærket ganske ofte er tilfældet, når det gælder evaluering af offentlig politik
og administration). Når den kontrafaktiske situation ikke kan etableres, kan programteorier
bidrage til at undersøge om programmet opnåede kort- og mellemsigtede resultater, om der er
alternative forklaringer på effekter og finde mønstre i data (såkaldt ”pattern matching”). I disse
tilfælde udvikles hypoteser, som testes med ikke-eksperimentelle metoder (jf. Pawson & Tilley,
1997; Donaldson, 2000; Funnell & Rogers, 2011).
Pawson har i flere værker foretaget en grundig diskussion af kausalitet og teori i realistisk
evaluering (jf. Pawson & Tilley 1997; Pawson 2006; Pawson 2013). I stedet for såkaldt
”successionistisk kausalteori” benytter den realistisk evaluering såkaldt ”generativ kausalteori”,
som antager at der er en virkelig (ikke bare statistisk) forbindelse mellem begivenheder, som er
forbundet kausalt. Pawson og Tilley giver følgende eksempler på generative mekanismer:
24
”Vi siger, at krudtet eksploderede, vi siger at økonomien gik ind i en lavkonjunktur, vi
siger at en indsat i et fængsel blev rehabiliteret. Når vi forklarer disse forandringer,
peger vi ofte på en ekstern observerbar årsag (så som en gnist, en oliekrise, en
disciplineringslejr). Men en del af forklaringen beror også på interne karakteristika ved
det som er forandret (så som den kemiske sammensætning af krudtet, økonomiens
struktur, den indsattes natur og karakter). Disse interne tilbøjeligheder eller kræfter er
vigtige i videnskabelig såvel som i dagligdags forklaringer fordi de giver mening i de
tilfælde, hvor den kausale forbindelse er fraværende (som når gnisten ikke antænder
krudtet der ikke er kompakt presset sammen, når en oliekrise ikke berører
olieproducerende lande eller udviklingslande eller når en disciplineringslejr blot hærder
den i forvejen hærdede kriminelle)” (Pawson & Tilley 1997: 33).
Generativ teori anser således kausalitet som både intern og ekstern i forhold til det pågældende
program som evalueres. Kausalitet beskriver fænomeners potentiale for forandring. Kritikken af
den eksperimentelle evaluerings såkaldt ”successive” teori om kausalitet er, at dens fokus på det
observerbare og kontrollerbare får den til at overse de tilbøjeligheder, kræfter og potentialer som
sociale programmer og programdeltagere besidder. Et program producerer således ikke effekter
automatisk (successionistisk), men tilbyder muligheder som enten kan eller ikke kan udløse
handling via deltagernes kapacitet til at foretage valg (Pawson & Tilley 1997: 38).
I andre dele af litteraturen skelnes mellem variansbaserede og procesbaserede tilgange til
evaluering (jf. Gering, 2005). Peter Dahler-Larsen betegner effektevaluering som variansbaseret,
imens virkningsevaluering betegnes som en procesbaseret tilgang til effektevaluering (Dahler-
Larsen, 2013). I virkningsevaluering handler udsagnskraften ifølge Dahler-Larsen ikke om
variationer i en uafhængig variabel eller antallet af observationer, men af observationernes logiske
kvaliteter i forhold til evalueringens hypotese (Dahler-Larsen 2013:138).
En ikke-eksperimentel metode, som kan anvendes til at finde kausalitet i virkningsevaluering er
den såkaldte ”modus operandi” metode (jf. Scriven, 1974). Metoden anvender ”detektiv-
metaforen” til at beskrive måden hvorpå potentielle kausale forklaringer kan identificeres og
testes. Scriven beskriver hvordan kæder af kausale begivenheder efterlader ”signaturer” (beviser),
som evaluator kan efterspore ved at bevæge sig op og ned i kausalkæden. Hvis man starter med
de kausale effekter (sporene) kan man bevæge sig op i kausalkæden og undersøge hvad der kan
have forårsaget dem. I den modsatte retning kan man starte med selve programmet (den
mistænkte) og eftersøge ned i kausalkæden hvilke konsekvenser programmet har haft og igennem
hvilke mekanismer. Hvis ”beviserne” er i overensstemmelse med de forventede spor fra en
kausalkæde, så har vi større tiltro til at kausalkæden indeholder den korrekte kausale forklaring.
Beviser der ikke er i overensstemmelse med det forventede spor eliminerer programmet som den
kausale forklaring. Manglende beviser gør forklaringen mere tvivlsom. Der er ifølge Scriven to
konkrete metoder til at finde kausalitet med ”modus operandi” metoden:
25
1. Årsagslister: Denne metode forudsætter at vi har en liste over alle mulige årsager til den
observerede effekt. Hvis effekten indtræffer og kun en af de mulige årsager indtræffer
samtidig, så er det højeste sandsynligt den rigtige årsag.
2. Følgeslutninger: Hvis mere end én af de mulige årsager indtræffer, men kun en af de
karakteristiske kausalkæder (modus operandi) var til stede for én af årsagerne, så er det
sandsynligvis den rigtige årsag.
Der er også andre kriterier, som kan anvendes til at opbygge kausalforklaringer. De første tre
kriterier i tekstboksen nedenfor er foreslået af filosoffen David Hume (citeret i Donaldson, 2000; jf.
også Dahler-Larsen, 2003, 2014) de øvrige stammer fra Huberman & Miles (1998).
Der er her tale om logiske følgeslutninger, som både kan underbygges med kvalitative og
kvantitative data. Der er med andre ord ingen simple løsninger på det vanskelige spørgsmål om
kausale forbindelser mellem program og effekter.
Afrunding
Virkningsevaluering er ikke et mirakelmiddel, som kan anvendes ukritisk til ethvert
evalueringsspørgsmål. Men, hvis man som evaluator ønsker at undersøge hvorfor og hvordan
programmer virker, kan virkningsevaluering være det rette valg. Som det formentlig allerede står
klart for læseren er virkningsevaluering ikke en simpel evalueringsmodel, som der findes en klar
opskrift på hvordan bedst udformes. Alt efter temperament er dette både en fordel og en ulempe.
En fordel fordi virkningsevaluering rejser komplekse og væsentlige evalueringsspørgsmål og graver
dybere for at finde svarene. Virkningsevaluering er med Ray Pawsons ord en ”never-ending
journey”, men heldigvis en spændende og lærerig rejse. En ulempe, hvis man er på jagt efter den
”bedste” evalueringsmodel og bare vil have klaret jobbet hurtigst muligt. Så kan
virkningsevaluering forekomme forvirrende og frustrerende.
Logiske følgeslutninger til at identificere kausalitet:
1. Præcedens i tid (A før B)
2. Vedvarende sammentræf (når A, altid B)
3. Indbyrdes påvirkning (en plausibel mekanisme forbinder A med B).
4. Forbindelsens styrke (meget mere af B sammen med A end med de andre årsager)
5. Biologisk hældning (hvis mere af A, således også mere af B)
6. Kohærens (forbindelsen mellem A og B passer med eksisterende viden om A og B)
7. Analogi (A og B minder om det velkendte mønster vi kender for C og D).
26
Referencer
Albæk, E. (1988): Fra sandhed til information: Evalueringsforskning i USA – før og nu, Akademisk
Forlag.
Antoft, R., M.H. Jacobsen, A. Jørgensen & S. Kristiansen (2007), red: Håndværk og Horisonter -
Tradition og nytænkning i kvalitativ metode, Syddansk Universitetsforlag.
Arbejdsmarkedsstyrelsen (2011): Kogebog i forandringsteori, Arbejdsmarkedstyrelsen,
Beskæftigelsesregion Midtjylland og Mploy.
Astbury, B. & Leeuw, F.L. (2010). Unpacking Black Boxes: Mechanisms and Theory Building in
Evaluation. American Journal of Evaluation, 31, 363–381.
Bickman, L., 1989. Barriers to the use of program theory. Evaluation and Program Planning, 12,
387–390.
Bredgaard, T., H.H. Jørgensen, R. Madsen, M.R. Dahl & C. Hansen (2011): Hvad virker i
aktiveringsindsatsen?, Beskæftigelsesregion Nordjylland.
Chen, H.-T. (1990). Theory-driven evaluations, London: Sage.
Chen, H.-T., 1994. Theory-driven Evaluations: Need, Difficulties, and Options. American Journal of
Evaluation, 15, 79–82.
Cook, T.D. (2000). The false choice between theory-based evaluation and experimentation. New
Directions for Evaluation, 2000, 27–34.
Davidson, E.J., 2000. Ascertaining causality in theory-based evaluation. New directions for
evaluation, 17–26.
Dahler-Larsen, P. (2001): From Programme Theory to Constructivism: On Tragic, Magic and
Competing Programmes. Evaluation, 7(3), 331-349.
Dahler-Larsen, P. (2013): Evaluering af projekter – og andre ting, som ikke er ting, Syddansk
Universitetsforlag.
Dahler-Larsen, P. & H.K. Krogstrup (2003): Nye veje i evaluering, Systime Academic.
Davidson, E.J. (2000). Ascertaining causality in theory-based evaluation. New directions for
evaluation, 17–26.
27
Funnel, S.C & P.J. Rogers (2011): Purposeful Program Theory - Effective Use of Theories of Change
and Logic Models, Jossey-Bass.
Gerring, J. (2005): Causation: A Unified Framework for the Social Sciences. Journal of Theoretical
Politics, 17, 163-198.
Hansen, M. B., & Vedung, E. (2010): Theory-Based Stakeholder Evaluation. American Journal of
Evaluation, 31(3), 295-313.
Krogstrup, H.K. (2003): Evalueringsmodeller – Evaluering på sociale område, Aarhus: Systime.
New Insight m.fl. (2011): Håndbog i virkningsevaluering indenfor beskæftigelsesområdet,
Udarbejdet af New Insight, Center for Arbejdsmarkedsforskning og Forskningscenter for
Evaluering for Beskæftigelsesregion Nordjylland.
Pawson, R. (2006): Evidence-based Policy – A Realist Perspective, London: Sage.
Pawson, R. (2013): The Science of Evaluation – A Realist Manifesto, London: Sage Publications.
Pawson, R. & N. Tilley (1997): Realistic Evaluation. London: Sage Publications.
Pawson, R. & Manzano-Santaella, A. (2012): A realist diagnostic workshop, Evaluation, 18(2), 176-
191.
Rambøll (2010): Manual til udarbejdelse af forandringsteori – workshops i jobcentrene, Rambøll for
Arbejdsmarkedsstyrelsen.
Rogers, P. m.fl. (2000). Program Theory Evaluation : Practice , Promise , and Problems. New
Directions for Program Evaluation, 5–14.
Rogers, P.J. (2007). Theory-Based Evaluation: Reflections Ten Years On. New Directions for
Evaluation, 63–67.
Rossi, P.H., M.W. Lipsey & H.E. Freeman (1999): Evaluation – A Systematic Approach, London: Sage
Publications (7. udgave, 2004).
Schuman, E. (1967). Evaluative research, New York: Russell Sage Foundation.
Scriven, M. (1974). Maximizing the Power of Causal Investigations: The Modus Operandi Method.
In Evaluation in Education: Current Applications, 68–84.
28
Sieling-Monas, S.M. & T. Bredgaard (2015): Er der evidens for antagelserne i
beskæftigelsesindsatsen for sygedagpengemodtagere, Tidsskrift or Arbejdsliv, 17(1), 28-43.
Vedung, E. (2000): Public Policy and Program Evaluation, Brunswick, New Jersey: Transaction
Publishers.
Vedung, E. (2009): Utvärdering i politik och förvaltning, Studentlitteratur (3. oplag).
Vedung, E. (2010): Four waves of evaluation diffusion, Evaluation, 16(3), 263-277.
Weiss, C.H. (2007). Theory-Based Evaluation: Past, Present, and Future. New directions for
evaluation, 114, 68 – 81.
Wholey, J.S. (1987). Evaluability Assessment: Developing Program Theory. New Directions for
Program Evaluation, 33, 77–92.