Post on 12-Feb-2016
description
1
Testování a hodnocení
Martina Hulešová (AJAT)16. května 2014
2Téma 1: Základní pojmy a principy jazykového testování(validita, reliabilita, spravedlivost)
Téma 2: Vývoj testuÚčel; význam a smysl specifikace, specifikační tabulka
Téma 3: Referenční úrovně A1, A2, B1 dle SERRJ
Téma 4: Tvorba úloh a sestavení testuTvorba úloh obecně; typy úloh a doporučení pro jejich tvorbu
Téma 5: Administrace, bezpečnost
Téma 6: Skórování, vyhodnocení, interpretace výsledků
Téma 7: Monitorování a revize
3
Cíle vs. omezeníCo zvládneme:
• Ukázat kroky, které vedou k vývoji testu, se kterým budou uživatelé spokojeni
• Ukázat základní zásady platné pro tvorbu a revizi úloh
• Naznačit, jak lze/je třeba sestavit test
Co se nestihne do hloubky, ačkoli je třeba vědět/dodržet:
• Dodat hlubší teoretický vhled do tématu „kvality“ testů
• Dát podrobnou zpětnou vazbu k úlohám a testu z pohledu revidenta
• Zabývat se teoreticky validitou, spolehlivostí, opakovatelností, spravedlivostí evaluačního nástroje - testu
4
Test je dobrý sluha, ale špatný pán.
5
Téma 1: Principy jazykového testování
6ReliabilitaSouvisí s přesností, důvěryhodností a
konzistentnostíTaké se spravedlivostí skórů Je mých 35 bodů v maturitě z ČJ stejných jako tvých 35
bodů?Dnes jsem dostala z testu 20 bodů, předevčírem 30 ze stejného testu.
Možné ovlivňující faktory:- Studenti Hodnotitelé Administrace Test sám- podvádění, motivace, hádání, únava, stres, nepohodlí- Inter- a intra-rater reliabilita; nezájem; záměr, nevhodná
kritéria…- Nedostatečně vyškolený personál, nestejné podmínky,
nevhodné prostory, kopírování…- Neznámý obsah, formulace úloh, konstruktově irelevantní
nebo nerezprezentativní, čas…
7Validita (interní a externí)
Není vlastností testu nebo úloh, nýbrž se vztahuje ke smysluplné interpretaci výsledků
Měřím skutečně (a jen) to, co chci měřit?
Mohu na základě skórů učinit smysluplná a spravedlivá rozhodnutí?
8Validita (interní a externí)
Konstruktová (int.)Test je podložen teorií nebo existuje definovaný konstrukt měření (důkazy)Obsahová (int.)Reprezentativnost a relevance obsahu vzhledem k účelu testování, testovaní dělají skutečně to, co je předmětem měřeníValidita odpovědí (int.) – do jaké míry testovaní odpovídají dle očekávání Souběžná validita (ext.) – korelace skórů s jiným testem (shoda konstruktů)Predikční validita (ext.) – do jaké míry skóry v testu predikují schopnost testovaného dělat/konat…. V jiné oblasti (př. OSP)Face validita (int./ext.) – do jaké míry se „zdá“ test jako adekvátní danému účelu, použití, obsahu…
9
Autenticita
Přirozenost/Propojenost s mimotestovou situací
Tematická relevance a smysluplnost úkolů
Situační autenticita
Interakční autenticita (testová úloha – strategie – dovednosti – znalosti – úkol…)Washback
Vliv testu na výuku, přípravu, společnost…
10
Praktičnost
NárokyFinančníLidské zdroje (kolik, dostupnost…)Časové (vývoj, realizace – logistika, hodnocení, sdělování výsledků)
VyužitelnostUdržitelnostHodnota zjištěných informací
SpravedlivostSoučástí validitySpolečenské (žádoucí i nežádoucí) dopady testuZměny priorit, výuky, učení se…
Code of Ethics, Good Practice…
11
Některé faktory ovlivňující validitu, reliabilitu…Kvalita a počet úlohObtížnost a diskriminační schopnost úlohPoužité testovací techniky a jejich počet
ČasKvalita instrukcíPoužití testuDefinice a výběr obsahuDefinice a uchopení konstruktu
Obeznámenost testovaných s použitými test. TechnikamiÚroveň dovedností testovanýchPostoj k testu (motivace, zájem, duševní rozpoloženíPostoj k hádání
12
Některé faktory ovlivňující validitu, reliabilitu…
Konzistentnost při administraciKvalita pokynů pro zadavateleMíra interakce mezi zadavateli a testovanýmiNačasování administraceProstředí a vybavení pro testování
Přesnost a úplnost klíčeinter- a intra-rater reliabilita OMR nebo ruční vytěžování ZA
13
Téma 2: Vývoj testuÚčel; význam a smysl specifikace, specifikační tabulka
14
Účel testu
- Každý test musí mít jasně stanovený účel – nemá smysl testovat „bezúčelně“.
151. Druhy testů podle účelua způsobu využití výsledkůhttp://www.teachers-corner.co.uk/four-types-of-tests/
Placement – Rozřazovací Pro zařazení do skupiny, třídy podle úrovněObsah testu = potřeby nebo obsah výukyMohou, ale nemusí být postaveny na základě sylabůKlíčové jevy následné výukyInterpretace výsledků:- podle ranku (percentilu) – př. nejlepších 10 % dostane, zařadí se… ,- podle dosažené úrovně v jednotlivých dovednostech (různé kurzy) - bodyhttp://jalt.org/pansig/2007/HTML/Nakamura.htm
Diagnostic – DiagnostickéSilné a slabé stránky, oblasti, kde je problémRůzná míra podrobnosti (Která ze čtyř dovedností je nejslabší /Co z mluvení dělá problémy? Obecně za třídu vs. Jednotlivci…)- Test musí obsahovat dostatečný počet položek na pozorovaný jev – „nepraktické“ - jen málo testů je čistě diagnostických- vyžaduje vysokou míru specificity, což ohrožuje validitu interpretace výsledků
162. Druhy testů podle účelu a způsobu využití výsledkůProficiency – test schopností, zjišťování úrovně výkonubez vazby na konkrétní výukový program/sylabus; často založeny na analýze potřeb (LSP testy, EAP, testy FCE); lze využít pro diagnostikuOrientován na predikci, výkon mimo test – kritérium
Achievement – měření úrovně výkonu; Vázány na vzdělávací procesna konci vzdělávacího cyklu (maturita) nebo v průběhu (progress tests portfolio assessment, observation); lze využít též pro diagnostiku a formativní hodnoceníRůzné přístupy ke kritériu: a) Obsah založen pouze na sylabu, na obsahu kurzub) Postaven na vzdělávacích cílech, očekávaných výstupech
Maturita ? PET,FCEcíle vzdělávání (a) obecné, využívají can do statements ze SERRJ (b), zároveň sylabus je vázán na externí standard a ten na mimotestové situace, není tedy možné říci, zda proficiency, či achievement.Je ALE rozdíl ve formě/formátu, v administraci, vyhodnocení, vážení, skórování, interpretaci. Jak porovnat skóry?
173. Druhy testů podle způsobu administrace
Papír-tužka
Computer-based
Computer-adaptive
Školní vs. standardizované
Časově ne/omezené
184. Druhy testů podle využití procesu testování
Formativní – ověření pokroku, stupně zvládnutí a vyvození důsledků pro další vzdělávací kroky
Sumativní – výstupní zhodnocení dosažených výstupů, i to lze využít jako formativní
Test minimální úrovně – negativa: náhodnost v tom, co je minimum a jak stanovit cut score.
Sebehodnocení
Alternativní metody – portfolio, hodnocení v páru, rozhovory, pozorování (v podstatě další z forem achievement testů)
195. Druhy testů podle metody testování
Přímé – obvykle pro psaní, mluvení+: přímočaré, snáze se vytvoří podmínky pro ověření dovednostiPřímočaré hodnocení, nácvik na test = nácvik dovedností-: čas, zdroje, rozsah možných úloh a situací
Nepřímé – obvykle pro čtení, poslech, lze i psaní, výslovnost apod. (př. Correction, pairing…)-: obtížný výběr reprezentativních úloh zastupujících dobře ověřovanou dovednost, testových formátů-: obtížný transfer z nepřímého ověřování na skutečný výkon mimo testovou situaci+: čas, zdroje, standardizace, objektivita, variabilita
206. Druhy testů podle skórování a typů úloh
Objektivně skórované
Subjektivně skórované
Jednotlivé úlohy
Integrované úlohy kombinující více dovedností
217. Druhy testů podle dopadu na testovaného
Podle míry, do jaké výsledky testů ovlivní „život“ testovaných
High-stakes testsLow-stakes tests
22
NR CRBez hodnoticích prvků – prostý střed
Odlišnosti v obsahu, v hloubce, v interpretaci výkonu, v obtížnosti úloh a v očekávaném výkonuU stejného testu: Vliv kohorty (NR) - Porovnatelné výsledky (CR)
Porovnání s průměrným výkonem – medián = 50. percentil)(IQ, SAT, přijímačky)
překonání/dosažení stanovené hranice, úrovně(řidičák, medicína, FCE, ANO-NE rozhodování)
8. Druhy testů podle způsobu interpretace
23
SPECIFIKACE testu a její zásadní význam
explicitní popis testu- Proč- Co- Jak- K čemu
Informace pro všechny uživatele výsledků testů
Základ pro vývoj paralelních forem testů
Podklad pro validaci testů a s nimi souvisejících procesů
24
Specifikace testu
Stanovují společný standard pro všechny verze zkoušky, případně podklad pro porovnání výsledků, pokud se zkouška změní
Řídí vývoj testu a interpretaci výsledků
Popisují, jak má být test použit /pro koho, kdy a proč) a jak mají být interpretovány jeho výsledky
Jsou užitečné pro „validátory“ testu – externí posuzovatele
Ředitelé škol mohou využívat informace, pokud budou na základě testů činěna rozhodnutí
Čím přesnější, tím méně prostoru pro nežádoucí kreativitu
25Co má specifikace testu obsahovatSpecifikace + spec. tabulkaInformace o testu, jeho účelu, použití a interpretaci výsledků
Různá míra podrobnosti (často interní, pro autory a hodnotitelům)
Komu je specifikace určenaZjednodušený dokument pro učitele, žáky, rodičeDokument pro uživatele výsledků zkoušekOdborný materiál dokumentující zkoušku (výzkumníci)Specifikační tabulka pro autory přípravných materiálů apod.Ne vždy veřejný materiál!
26
Specifikační tabulka
oblast váha
cíle
27
Charakteristika testovanýchNutně ovlivňuje obsah, formu a další charakteristiky testu
1. Věk2. Pohlaví3. Stávající úroveň znalostí a dovedností4. Relevantní demografické údaje, sociální statut, předchozí vzdělání
5. Proč se testování účastní6. Zájmy apod.,
Otázka:Jaká je populace u vašich zkoušek?Jaká je např. populace maturantů?
Pozn.: Do budoucna: etnický a jazykový původ, SVP apod.
28
Konstrukt testu
Vymezení toho, co je přesně testem ověřováno1. Úroveň2. Obsah3. Teoretické vydefinování4. Intepretace výsledků
Př. Konstrukt : Test ověřuje psaní na úrovni B1, což je úroveň, které má žák dosáhnout v prvním cizím jazyce na SOŠ. Měl by umět… Podle dosaženého skóre bude… Skór 65 % je dolní hranicí B1 úrovně v tomto testu.
29
Struktura, obsah a administrace testu
1. Zastoupené dovednosti (+úroveň, očekávané operace, komunikační situace, témata, typy a rozsah textů)
2. Jejich váha3. Počet částí4. Formáty úloh5. Jazyk instrukcí a pokynů6. Typy a zdroje textů, jejich délka7. Bodování – body za úlohu, za část; jak probíhá vyhodnocení8. Čas vymezený na řešení9. Způsob administrace
30
Hodnocení testu
1. Hraniční skóre či popis použité škály, očekávaný výkon
2. Hodnotitelé a požadavky na ně kladené3. Ukázky testů4. Ukázky výkonů5. Ukázky hodnocení
31
Pretesty (školní test)
1. KolegovéKlíčNejasnostiInstrukce…
2. Skupina žáků s podobnými charakteristikamiadministracečas, instrukce, jazykpřesnost a úplnost klíčefunkčnost hodnoticí škály
Nelze odhadovat obtížnost testu a položek!
32
Tvorba paralelních verzí
- Postavena na základě shodné specifikace
- Obsahová analýza
- Stejný průměr, SD, rozptyl, chyba…
- Pretest na stejných studentech- Kotvicí úlohy a IRT analýzy- Banka úloh
33
Téma 3: Referenční úrovně A1, A2, B1 de SERRJ
34
Téma 4: Vlastní tvorba testu/úlohTvorba testu vs. tvorba úloh
Celek je víc než součet částí
Tvorba a moderace úloh
Specifikace testu – a specifikační tabulka
Proč a k čemu je test potřebný?
Školní běžné testy vs. přijímačky, srovnávací a výstupní testy…
Try-out a pretest
Školení hodnotitelůAnalýza úloh a testu a zpětná vazbaInformační a podpůrné materiály
35
Jaký formát úloh potřebuji?
Otevřené úlohy Uzavřené úlohyse stručnou odpovědí dichotomické
s výběrem odpovědi (m-ch)se širokou odpovědí (ÚZ a PP) uspořádací
přiřazovacís vícenásobným přiřazením (m-m)Přenos informacíOprava chybGap-fillingCloze
Binárně skórované Částečně skórovanéObjektivně skórované Subjektivně skórované
Samostatné úlohy Svazky podúloh Části
36
Jak budu úlohy a celý test hodnotit?
Co vyjadřuje bodování úloh? Jaký má význam různé bodové
ohodnocení úloh? Úloha vs. test? Je každá úloha „novým startem“?
37
Jak by měla vypadat testová úloha?
Instrukce Výchozí text
je-li nutný pro řešení Kmen úlohy (otázka, tvrzení, nedokončené tvrzení)
relevantní informace, jednoduchý jazyk Alternativy (správná odpověď a distraktory)
struktura, uspořádání, vnitřní jednota, smysluplnost, atraktivita pro skupiny žáků
Správné řešení, klíčStandardizace, pretest, posouzení ostatními…
38
Dichotomické úlohyKmenem úlohy je tvrzení, které žák (zpravidla na základě přečteného textu) posuzuje ze 2 hledisek (pravda – nepravda)
úlohy by měly mířit ke stejnému specifickému cíli Neměly by to být „falešné“ mutiple-choice úlohy
Riziko 50% uhádnutí správné odpovědiJejich tvorba je rychlá a snadná jen zdánlivě!
39
Dichotomické úlohy - bodováníSvazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…
Nebo samostatné úlohy10 úloh v části: 1 úloha = 1 bod (všechny úlohy po 1
bodu)
40
Dichotomické úlohy1. Děti s vysokým IQ mají vždy ve škole lepší známky. vždy, nikdy, všichni, (pouze) – tendence být NEPRAVDA odhadnutelnost odpovědí 2. Pokud letadlo spadne na mexicko-americké hranici, polovina
pozůstalých bude pohřbena v M, polovina v USA.• Tricky, možná kritické čtení, ne test3. Petr neříká, že nemá peníze. Kdo nepřijde včas, nedostane
výplatu.• Mnoho negací, zajícova smrt.4. Paní R. tvrdí, že dosud nepoznala člověka, se kterým by si upřímně
popovídala. Snad ok, pokud s textem.5. Děti by měly chodit do školy včas. Názor nebo fakt?6. Testování se začalo rozvíjet po roce 1960 v USA a v současné době se
od něj ustupuje. Mnoho informací, mnoho zajíců. A kdo to tvrdí?7. Září má v přestupném roce jeden den navíc. Varianta (dopsat správnou info Únor nebo odkázat na text)
41Dichotomické úlohy – diskuse
42
Přiřazovací úlohy Přiřazovací úlohy jsou tvořeny 2 skupinami
jevů/textů: úlohami (X) a alternativami (Y). Přiřazujeme Y k X, přičemž Y je o ?? více než X. 5:7; 4:5; 3:4; 6:8 Bodování? Srovnatelnost? Přiřazujeme-li Y několikrát k X = úlohy
s vícenásobným přiřazením (multiple-matching: 12 úloh:5 textů; alternativ je méně než úloh)
43
Přiřazovací úlohy - bodování
Při počtu 5:7; 4:5; 3:4; 6:8Bodování: (n)_n-1_n-2_n-3…
Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…
6:8; 5:7; 5:12; úloha = 1 bod (všechny úlohy po 1 bodu)Problém vzájemné podmíněnosti řešení u přiřazovacích úloh?
44
Přiřazovací úlohy – co je špatně?Přiřaď A a B:1. Lincoln2. Nixon3. Whitney4. Ford5. Bell6. King7.
Washington8. Roosevelt
a)Prezident ve 20. stoletíb)Vynalezl telefon.c)Vyhlásil zrušení otroctví.d)Poslední prezident, který
rezignoval na svůj úřad.e)Bojovník za lidská práva.f) Vynalezl čističku bavlny.g)Náš první prezident.h)Jediný prezident zvolený pro
více než dvě období.
45
Přiřazovací úlohy – co je špatně? Porušená homogenita (snazší eliminace, jiné
než požadované dovednosti a strategie řešení: prezidenti, vynálezci, bojovník…)
Prohozené sloupce (ztráta času) Snadné hádání (8:8; 3 navíc – 1:4 nebo
vícenásobné přiřazení) Instrukce nicneříkající (Sloupec A obsahuje…,
sloupec B obsahuje…. Přiřaďte k .x. .y. tak, že napíšete/spojíte…)
Více správných řešení: a) = Nixon, Ford (Gerald), Roosevelt
Dvojznačné seznamy: Franklin nebo Teddy Roosevelt? Henry nebo Gerald Ford?
46
Uspořádací úlohyÚkolem žáka je uspořádat rozdělený text,
fakta, informace, pojmy podle explicitně řečeného pravidla.
Musí existovat právě jedna správná možnost uspořádání.
Doporučení pro tvorbu jsou v podstatě stejná jako u předchozích formátů úloh.
Nevýhoda pro některé oblasti - náročné na analytické vyhodnocení, pokud nás zajímá vztah dvojic, trojic, první a poslední pozice apod.
47Uspořádací úlohy - bodování
5:7; 4:5; 3:4; 6:8Bodování: (n)_n-1_n-2_n-3…
Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…
Problém vzájemné podmíněnosti řešení uspořádacích úloh
48
Uspořádací ulohy
49
Úlohy s výběrem odpovědiPočet alternativ se pohybuje od 3 do 5.Dle některých výzkumů je učitelé často
hodnotí jako obtížnější, než jak je ve skutečnosti řeší (jejich) studenti.
50
Úlohy s výběrem odpovědi
51
Příklady úloh s výběrem odpovědiVzdělávací/Výukový cíl:
Student rozliší mezi prezidenty USA, kteří byli ve funkci těsně před, během a po Občanské válce.
52
Příklady úloh s výběrem odpovědiÚlohy se stimuly nutí studenty pracovat na vyšších kognitivních úrovních (tedy pokud jsou stimuly skutečně potřeba pro řešení!)
53Přečti si text a vyřeš následující úkoly.
Dear Peter, My Grandpa´s house is in the country. I stay there during the school holidays. There aren´t many cars, and I ride my bike a lot. I go for long walks with Grandpa´s dog. I like Grandpa´s country home. During the school term, I live with Mum and Dad in a flat in Liverpool. It´s a big city. When I´m there, I go shopping with Mum. I go to the cinema with Dad. There are lots of cars so I don´t ride my bike in the city. I play computer games. Please write soon. Love, Amy
1. Vyhledej v textu, s kým chodí Amy na procházku. Vyznač vhodný obrázek.
A □ B □ C □
2. Označ, čemu se Amy věnuje ve volném čase.A □ She goes for long walks with Grandpa´s dog.B □ She plays the piano.C □ She draws pictures.D □ She plays computer games.
Řešení: 1C; 2A, D;
54
+Eliminace hádání, podvádění Není třeba distraktorů - poněkud snazší tvorba-Problém s úplností a přesností klíčeMíchání produkce do receptivních dovednostíPokud je třeba posuzovat správnost odpovědí, pak je ohrožena spolehlivost či validita hodnoceníHodnocení trvá déleVíce hodnotitelů
Úlohy typu Short answer (gap fill),Summary, Information Transfer, Cloze…
55
U všech:Text nebo jednotlivé úlohy?Odpověď česky nebo anglicky?Jedno slovo nebo věta?Jak hodnotit? (počet bodů, částečně správné odpovědi, pravopis…) – jedinečnost správné odpovědi
Pravidla pro tvorbu jsou v podstatě stejná jako u ostatních.
Pozor na úroveň
56
While they were watching television, there was a sudden bang outside.a) wereb) watchingc) were watching
Vyloučí se alternativní struktury, které by pravděpodobně testovaný mohl/chtěl použít; nápověda je velmi silná – co to testuje? – spíše SZ?
57
A: What will he do? B. I think he ___ resign.A: I wonder who that is. B: It __ be the doctor.
Mnoho možností (will, might, may, could…)Možná by částečně pomohlo – v některých případech - dodat kontext, který omezí množství řešení: How can you be so certain?
58
Information transfer
Slyšený či psaný text + tabulka, nekompletní shrnutí, obrázky, k nimž se doplňují informace, apod.
Ko tōku whānau 1Kia ora. Ko Tama tōku ingoa. He kōrero poto tēnei mō tōku whānau. Ko au te tama a Hēmi rāua ko Maria. Tokotoru ā rāua tamariki. Kotahi te tamāhine, tokorua ngā tama tāne. Ko au te tuatahi o ā rāua tamariki, arā, ko au te mātāmua o te whānau. Ko Hine taku tuahine. Ko ia te tamaiti tuarua. Ko Hōne te pōtiki o te whānau. Ko ia taku teina.
Ko tōku whānau 1 – ngā whakautu
Hēmi Maria
Tama Hine Hōne
59
Cloze a C-tests (a případné modifikace)
Založeny na teorii o podvědomé rekonstrukci textuMechanické vymazání slov (s nabídkou nebo bez nabídky) – na rozdíl od gap-fill (většinou u izol. vět)
Skórování – a) přesné slovo nebo b) Přibližné slovo+Lze vytvořit velké množství úlohSnadná tvorba a snadné skórování (metoda a)-Obtížné vybrat text vhodný pro danou úroveň obtížnosti.Metoda b je zdlouhavá.Srovnatelnost verzí je zpochybnitelná.
60
Cloze tests (s případnými modifikacemi)
61
C-tests
Každé druhé slovo je v textu jen poloviční
Representativnější; více úloh, přitom časově méně náročnýmetoda a) - objektivnější
62
Přímé testování
Psaní:„Travel broadens the mind.“ Discuss the topic.
Mluvení:Pohovořte o vzdělávacím systému USA a porovnejte jej s českým.
63Xtero pro tvůrce úloh/testů nebo pro kritické posouzení testůNezapomínejte si sestavit specifikaci testu (cíl/účel testu a jeho propojení s výukou; co chci testem zjistit; co do testu dám za obsah; jaké formáty úloh použiju; co mi budou říkat výsledky; jak budu skórovat…)Na co si dát pozor při tvorbě úloh/testu:1. Ptejte se, co se z testu dozvíte o schopnostech testovaného.2. Poskytujte dostatek kontextu pro řešení.3. Omezte „svobodu“ řešení kvalitními instrukcemi a jasným cílem
úlohy.4. Jasné a kvalitní instrukce mohu přispět k větší spolehlivosti testu.5. Nepoužívejte v testu neznámé formáty6. Zkuste si test vyřešit bez výchozích textů.7. Ověřte si, že jazyk a formulace úloh není těžší než text samotný.8. Omezte příliš dlouhé a složité pokyny.
64Xtero pro tvůrce úloh/testů nebo pro kritické posouzení testů1. Úlohy formulujte stručně, srozumitelně a jednoznačně; bez
nadbytečných či zavádějících informací a formulací apod.2. Zvažte (v CJ), zda a do jaké míry využívat mateřský jazyk.3. Pokud musíte použít zápor, zvýrazněte ho.4. Ověřujte pouze dovednosti, které odpovídají dané úrovni a které
mohli žáci získat ve škole. Odpověď nesmí být (pouze) postavena na mimooborové nebo životní zkušenosti žáka.
5. Pamatujte na vyváženost a přiměřenost úloh (gender, kultura, obor, věk…).
6. Úlohy musí být z pohledu řešení nezávislé.7. Formulujte úlohy tak, aby bylo možné jen jedno správné řešení. 8. Zkontrolujte, že jsou alternativy konstrukčně jednotné.9. Vyhýbejte se zavádějícím slovům, např. často, zřídka, málokdy,
někdy, několik, občas, lepší, málo…10. Kritéria hodnocení/skórování by měla být jasná předem.11. NIKDO NENÍ PERFEKTNÍ AUTOR - NECHTE SI SVÉ ÚLOHY STRHAT
NĚKÝM, KDO TYTO ÚLOHY NETVOŘIL!
65
Než test zadáte žákům:1. Musí projít revizí a ideálně i pretestem2. Revidenti by měli zkusit i říci, co úloha ověřuje3. Porovnejte to se specifikací4. Ptejte se, zda v testu něco důležitého nechybí5. Udělejte si test jako žák (kromě svých vlastních úloh).6. Dejte test kolegům k posouzení a buďte připraven na jejich kritiku.7. Máte-li možnost, zeptejte se pár žáků (před nebo po ostrém
testování), proč volili tu kterou odpověď a jak k ní došli. Vytipujte si žáky dobře.
Když máte v ruce výsledky, čtěte je kriticky
66Téma 6: Skórování, vyhodnocení, interpretace výsledků
67
Jak jsou výsledky testu reportovány
Percentily: 50. percentil: průměr v kohortě nebo předem
stanovený průměr 80. percentil: tento student je lepší než 80 % ostatních
v dané kohortě nebo populaci (scaled test results) pořadí, ne skóry; o schopnostech nevíme nic
Úspěšnost, procentuální úspěšnost
Body
Umístění na škále
68
Porovnávání a inference Do jaké míry popisné statistiky popisují populaci nebo jiný
soubor dat? Do jaké míry jsou zjištěné rozdíly náhodné a do jaké míry
jsou dány nějakým systematickým faktorem?
Porovnávání - průměrů- četností- korelačních koeficientů vůči nule.
Statisticky významný rozdíl a významnost (na hladině .001, .01, .05) – statisticky významný výsledek = pravděpodobnost, že je to náhodné, je .1%; 1%, 5%.Reálný nebo náhodný rozdíl, výsledek… Platí pro vzorek, nikoli pro celou populaci!
69
studentID 73 28 48 66 76 90 120 99 101 115totscore
totscore%
8 0 1 0 1 1 0 0 0 0 0 2 0,220 1 0 1 0 0 0 0 0 0 0 2 0,2
5 1 0 1 0 0 0 1 0 0 0 3 0,311 1 1 0 1 1 0 0 0 0 0 3 0,312 1 1 0 0 0 1 0 0 0 0 3 0,313 1 1 0 0 0 0 0 0 0 0 3 0,317 0 0 0 1 0 1 0 1 0 0 3 0,3
2 1 1 0 0 0 1 0 1 0 0 4 0,43 1 1 1 0 1 0 0 0 0 0 4 0,46 0 0 1 1 0 1 0 1 0 1 4 0,4
14 1 1 1 0 0 0 0 0 0 0 4 0,418 1 0 0 0 1 1 0 0 0 0 4 0,419 0 0 1 1 1 1 0 0 1 0 4 0,4
4 1 1 1 1 0 0 1 0 0 0 5 0,57 1 1 0 1 0 1 1 0 0 0 5 0,59 1 1 1 1 1 0 0 0 1 0 5 0,51 1 1 1 1 1 0 0 1 0 0 6 0,6
10 1 1 1 1 1 1 0 0 0 0 6 0,615 1 1 0 0 1 1 1 0 0 0 6 0,616 0 0 1 0 1 1 1 0 1 0 6 0,6
FV 0,75 0,65 0,55 0,5 0,5 0,5 0,25 0,2 0,15 0,0520 20 20 20 20 20 20 20 20 2015 13 11 10 10 10 5 4 3 1
Úspěšnost studentů, obtížnost úloh, vzorce odpovědí
70
Funkčnost alternativ, diskriminace úloh
ANSWER OPTION
ITEM
A B C D blank check total
FV DI
T 1 1 0 4 0 6 28 M 0 0 0 8 0 8 65% 0.5 B 3 1 1 1 0 6 T 0 5 1 0 0 6
48 M 2 3 2 1 0 8 55% 0.33 B 1 3 1 1 0 6 T 1 2 3 0 0 6 50% -0.33
66 M 1 4 3 0 0 8 B 1 4 1 0 0 6 T 1 0 5 0 0 6 75% 0.33
73 M 0 0 7 1 0 8 B 0 2 3 1 0 6
DI: rozdíl mezi počtem správných odpovědí u nejlepších (T) a u nejslabších (B) ku celkovému počtu osob ve skupině nejlepšíchDI Item 28 = (Tcorrect – Bcorrect)/Ttotalnumber = (4-1)/6 = 0.5
Diskriminace (jedna z možností)
71Co by měl sdělovat poskytovatel standardizovaných testů (údaje z pretestů a/nebo ostré analýzy)Pokud budete test opakovaně používat, bude se vám hodit:Počet účastníků: 59 Kvalita vzorku – směrodatnost údajůPočet úloh: 22 Souvislost s reliabilitouMax. možné skóre: 44.0 Min. možné skóre: 0.0 Max. dosažené skóre: 38.0 Min. dosažené skóre: 6.0 Čistá úspěšnost: 52.7% (Min. = 0; pak ČÚ = prům. skóre/max. možné skóre)Hrubá úspěšnost: 52.7% Bin. skór. úlohy = čistá a hrubá je totéž (úloha i test) Průměrné skóre: 23.2 Medián skóre: 24.0 Směr. odchylka skóre: 5.7 indikátor variability skórů, míra rozptylu skórů od průměru (prům. odchylka od
průměru). Při normálním rozdělení je 68 % populace +-1 SD od průměru.Průměrná diskriminace: 35.2% Průměrná vynechanost: 5.1% Průměrná nečtenost: 0.7% nedosaženostReliabilita: Cronb. alfa: 0.547 KR-20: 0.556 vnitřní konsistence/ homogenita testu (nad. .80)
72
Šikmost a špičatost – volba vhodných analýz
73
Histogramy, grafy apod.
74
Diskriminace vs. úspěšnost
90:10080:9070:8060:70 09 08
50:60 03 05 01 12
40:50 02 13 17a 07
30:40 11c
15a,15b,17b,17d
10 16c,16d
20:30
14a,14c 06 04 ,1
5d 16b 17c
10:20
11a,16a 15c 14b
0:10 11b
0:10 10:20
20:30
30:40
40:50
50:60
60:70
70:80
80:90
90:100
75
Různé přístupy k interpretaci výsledků
Test složený z více částí – kombinovaný skór nebo jedno číslo…
Příklad můj TOEFL a hypoteticky NSZ
Chyba měřeníhttp://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf
76
Co o mně víte?Jak ale můžu být pro každého jinak zajímavá…
http://www.italki.com/p/oet.htm
http://www.ets.org/s/toefl/pdf/supplementary_comparison_tables.pdf
http://www.ets.org/toefl/institutions/scores/compare/
Můj výsledek TOEFL 2010: 93 bodů
Reading Listening Speaking Writing0
5
10
15
20
25
30
77
78http://www.britishcouncil-ieltsforusa.com/sg-en/compare_IELTS_and_TOEFL.html
IELTSOverall Band
Score
CommonEuropean
FrameworkLevel Descriptor
© Council of Europe TOEFL IBT
8.5 – 9.0
8.0C2
Can understand with ease virtually everything heard or read. Can summarise information from different spoken
and written sources, reconstructing arguments and accounts in a coherent presentation. Can express
him/herself spontaneously, very fluently and precisely.
Cannotmeasure
at C2 level
7.0 – 7.56.5 C1
Can understand a wide range of demanding, longer texts, and recognise implicit meaning. Can express him/herself
fluently and spontaneously without much obvious searching for expressions. Can use language flexibly and
effectively for social, academic and professional purposes. Can produce clear, well-structured, detailed text on
complex subjects.
110 - 120
5.5 – 6.05.0 B2
Can understand the main ideas of complex text on both concrete and abstract topics, including technical
discussions in his/her field of specialisation. Can interact with a degree of fluency and spontaneity that makes
regular interaction with native speakers quite possible without strain for either party. Can produce clear, detailed
text on a wide range of subjects.87 - 109
4.0 – 4.5 B1Can understand the main points of clear standard input on
familiar matters regularly encountered in work, school, leisure, etc. Can deal with most situations likely to arise
whilst in an area where the language is spoken. Can produce simple connected text on topics, which are
familiar, or of personal interest.57 - 86
3.0 A2
Can understand sentences and frequently used expressions related to areas of most immediate relevance (e.g. very basic personal and family information, shopping,
local geography, employment). Can communicate in simple and routine tasks requiring a simple and direct
exchange of information on familiar and routine matters. 40 - 56
2.0 A1
Can understand and use familiar everyday expressions and very basic phrases aimed at the satisfaction of needs of a concrete type. Can introduce him/herself and others and can ask and answer questions about personal details
such as where he/she lives, people he/she knows and things he/she has. Can interact in a simple way provided the other person talks slowly and clearly and is prepared
to help
No data availab
79
Test z matiky měl 48% úspěšnost, takže 52 % žáků neuspělo! No to je hrůza!
Test z matiky byl těžší než test z češtiny
Z matiky propadlo 50 % žáků, z češtiny 20 %, celkem na naší škole neuspěla polovina žáků!
Test měl 40% úspěšnost, takže ho 60% žáků neudělalo!
Je tam cut-off score 44%, ale test z češtiny měl úspěšnost jen 40%, takže neuspěl nikdo!
Často se objevující výroky
80
Hodnocení široce otevřených úloh je subjektivní
Je třeba akceptovat fakt, že hodnotitelé se lišíNení pravda, že učitelé hodnotí lépe než centrální hodnotitelé
Holistická vs. Analytická kritéria – výhody a nevýhody
Je ale třeba a možné odlišnosti do určité míry eliminovat nebo objektivizovat
ŠkoleníŠkály a deskriptoryMonitoringAnalýzy (korelace, inter- a intra- rater reliability/consistency; decision consistency)Úpravy hodnoceníPřísnost nebo mírnost vs. Nekonzistentnost
81
Dosud zveřejňované výsledky analýzCTT: Vše doposud řečené = Klasická teorie testů
IRTMěření skryté proměnnéStejná škála pro měřenou proměnnou (jazykové dovednosti) a úlohy, pomocí nichž je proměnná měřena-pozorována (obtížnost)
Schopnost Beta a obtížnost Theta
Pravděpodobnost správné odpovědi na položku dané obtížnosti Theta při schopnostech testovaného Beta.Logits
82
K plošnému hodnocení vzdělávacího systému a efektivity vzdělávání
Výsledné skóry ovlivněny:(1) Obsahem a způsobem výuky(2) Přirozenými intelektuálními schopnostmi (různé typy inteligence)(3) Mimoškolními aktivitami(4) Často zmiňovanou přidanou hodnotou školy(5) Praktickými omezeními (jen selekce úloh z celku, typ analýz,
kvalita pretestů)… Relativní efektivita úloh: psychometrika vs. obsah vs. Účel, NR vs.
CR…
Co (standardizované) testy naopak umí: Porovnávat žáky vzájemně Porovnávat míru zvládnutí vymezeného obsahu/vůči kritériu Diagnostikovat slabé a silné stránky (vzhledem k vymez. kritériu) Měřit pokrok v čase Rozřadit podle úrovně
K čemu je dobré testovat? A k čemu (standardizované testy) neslouží?
83
POUŽITÁ A DOPORUČENÁ LITERATURA: American Educational Research Association (AERA), American Psychological Association (APA), & National Council on Measurement in Education (NCME). (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford: OUP.
Cizek, H. J. (ed) (2001). Setting performance standards. Concepts, methods, perspectives. NJ. Lawrence Erlbaum Associates, Inc., Publishers.
Brown, J. D. (1988). Understanding research in second language learning: A teacher's guide to statistics and research design. Cambridge: Cambridge University Press.
Cizek, G. J. & Bunch, M. B. (2007) Standard setting. A guide to establishing and evaluating performance standards on tests. Thousand oaks, CA: Sage Publications, Ltd.
84
POUŽITÁ A DOPORUČENÁ LITERATURA:
ALTE (1998). Multilingual glossary of language testing terms. Cambridge: Cambridge University Press.
Kubiszyn, T., & Borich, G. (2000). Educational testing and measurement. Classroom Application and Practice. New York: John Wiley & Sons, Inc.
Alderson, J.C., Clapham, C. and Wall, D. (1995). Language test construction and evaluation. Cambridge: Cambridge University Press. Bachman, L. F. (2004). Statistical analyses for language assessment. Cambridge: Cambridge University Press. Brown, J.D. & Hudson, T. (2002). Criterion-referenced language testing. Cambridge: Cambridge University Press. Chapelle, C. (2012). Validity argument for language assessment: The framework is simple... Language Testing 29, 19-27.
85
POUŽITÁ A DOPORUČENÁ LITERATURA:
Council of Europe. (2001). Common european framework of reference for languages: learning, teaching, assessment. Cambridge: Cambridge University Press. De Veaux, R.D., Velleman, P.F. & Bock, D.E. (2008), Stats. Data and models. Pearson Education. Downing, S. M. & Haladyna, T. M. (eds) (2006). Handbook of test development. NJ. Lawrence Erlbaum Associates, Inc., Publishers.
Ebel, R. L. & Frisbie, D. A. (1991). Essentials of educational measurement. New Jersey: Prentice Hall. Jenkinson, C. (1991). Why are we weighting? Critical examination of the use of item weights in a health status measure. Social Science & Medicine 32, 1413-1416. Khalifa, H. & Weir, C. (2009). Examining reading. Cambridge: Cambridge University Press.
86POUŽITÁ A DOPORUČENÁ LITERATURA:
Khan, A. & Rayner, G.D. (2003). Robustness to non-normality of common tests for the many-sample location problem. Journal of Applied Mathematics and Decision Sciences 7(4): 187–206.
Pallant, J. (2007). SPSS survival manual - 3th edition. McGraw-Hill Education. Pižorn, K. & Nagy, E. (2009). The politics of examination reform in Central Europe. In Alderson, J. Ch. (Ed.). The Politics of Language Education: Individuals and Institutions. Bristol: Multilingual Matters. Rotou, O., Headrick, T.C & Elmore, P.B. (2002). A proposed number correct scoring procedure based on classical true-score theory and multidimensional item response theory. International Journal of Testing 2(2), 131-141. Sim, J. & Wright, Ch.C. (2005). The Kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Therapy 85, 257-268.
87
POUŽITÁ A DOPORUČENÁ LITERATURA:
Standards for educational and psychological testing. (2001). (Klimusová, H. Trans.). AERA, APA & NCME. (Original work published in 1999). Verhelst, N. & Hulešová, M. (2011). Standard setting in the national examination of English in the Czech Republic. Retrieved November, 13, 2012, from www.promz.cz/download/1404034454/?at=1 Xi, X. (2007). Methods of test validation. In E. Shohamy & Hornberger, N. H. (Eds.), Encyclopedia of Language and Education, 2nd Edition, Volume 7: Language Testing and Assessment (pp. 177-196). Springer Science & Business Media LLC. Zieky, M. (2006). Fairness reviews in assessment. In Downing, S. M. & Haladyna, T. M. (Eds.), Handbook of test development (pp. 359-376). Mahwah, N.J.: Lawrence Erlbaum
88POUŽITÁ A DOPORUČENÁ LITERATURA:
Kunnan, A. J. (2008). Large-scale language assessments. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of Language and Education, 2nd Edition, Volume 7: Language Testing and Assessment (pp. 135–155). Springer Science & Business Media LLC. Kunnan, A. J. (2010). Test fairness and Toulmin's argument structure. Language Testing 27(2), 183-189. Manual for language test development and examining. (2011). Council of Europe. Retrieved December 12, 2012, from http://www.coe.int/t/dg4/linguistic/ManualtLangageTest-Alte2011_EN.pdf McCornack, R. L. (1956). A criticism of studies comparing item-weighting methods. The Journal of Applied Psychology 40(5), 343- 344. Messick, S. (1995). Validity of Psychological Assessment. Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist 50(9), 741-749.