Inhaltsverzeichnis
QFM11 Testgütekriterien
Modul-Icon | QFM11 |
---|---|
Veranstaltung | Seminar Quantitative Forschungsmethoden |
Thema | Testgütekriterien |
Autoren | Christian Matheisen, Felix Wenzel |
Bearbeitungsdauer | 45 Minuten |
Präsentationstermin | 29.01.2015 |
Letzte Bearbeitung | 26.02.2015 |
Status | Finalisiert |
Lernziele für die Lehre
Dieses Wiki wird in der Lehre angewendet. Je nach Veranstaltung sollen nach dem Erarbeiten des Wikis unterschiedliche Kenntnisse erworben werden:
Lehrveranstaltung | Lernziel |
---|---|
PS Forschungsmethoden 2 | - Welche Hauptgütekriterien gibt es? - Welchem Zweck dienen diese jeweils? |
Einleitung
Laut Lienert und Raatz (1998) ist ein Test ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Generell gilt, dass jedes Testergebnis eigentlich dem wahren Ausprägungsgrad des untersuchten Merkmals entspricht, jedoch von Messfehlern überlagert werden kann. Um die Aussagekraft der durch den Test erfassten Merkmalsausprägungen möglichst genau zu halten, bedarf es der Berücksichtigung von essentiellen Kriterien vor, während und nach einer Testdurchführung, welche einen Einfluss auf die wissenschaftliche Qualität eines Tests ausüben. Zusammenfassend kann an dieser Stelle die Testtheorie nach Bortz (2006) angeführt werden:
„Die Frage der Anforderungen, denen ein Test genügen muss, um aufgrund eines Testergebnisses auf die Ausprägung des getesteten Merkmals schließen zu können“ (Bortz, 2006, S. 189).
Grundsätzlich unterscheidet man bei Gütekriterien eines Tests zwischen Haupt- und Nebengütekriterien als bedingte Anforderung an die Testdurchführung (vgl. Lienert & Raatz, 1998, S. 7).
Abb. 1: Testgütekriterien (Hauptgütekriterien). Eigene Darstellung (in Anlehnung an http://wirtschaftslexikon.gabler.de/graphs/67/57491_compact_preview.jpg)
verfasst von
Christian Matheisen und Felix Wenzel
Hauptgütekriterien
Die Hauptgütekriterien stellen eine essentielle Voraussetzung jeder wissenschaftlichen Testung dar. Die Nichtbeachtung dieser Kriterien führt zu dem sofortigen Verlust der wissenschaftlichen Qualität.
Ein Test weist eine hohe Qualität auf, wenn er als Hauptgütekriterien folgende drei Forderungen erfüllt:
- Objektivität
- Reliabilität
- Validität
1. Objektivität
Unter der Objektivität eines Tests versteht man den Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind. Ein Test ist demnach vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen gelangen (vgl. Lienert & Raatz, 1998, S. 7).
Die Objektivität lässt sich hierbei in drei zeitliche Aspekte gliedern, je nachdem welche Phase der Testdurchführung betrachtet wird:
- Durchführungsobjektivität
- Auswertungsobjektivität
- Interpretationsobjektivität
- zu 1: Durchführungsobjektivität:
Die Durchführungsobjektivität beschreibt die Unabhängigkeit der erhobenen Testergebnisse von dem Einfluss der Verhaltensvariationen des Testleiters auf das Verhalten des Probanden während der Untersuchung.
Um die Qualität der Durchführungsobjektivität zu erhöhen, muss die Untersuchungssituation so weit wie möglich standardisiert werden und die Instruktion an den Probanden so genau wie möglich festgelegt sein.
Hierbei ist die soziale Interaktion zwischen Testleiter und Probanden auf ein Minimum zu reduzieren (vgl. Lienert und Raatz, 1998, S.8).
- zu 2: Auswertungsobjektivität:
Die Auswertungsobjektivität bezieht sich auf die Einordnung der erhobenen Testergebnisse in eine Ergebniskategorie (z.B. richtig/falsch, gelöst/nicht gelöst), sowie im Anschluss daran auf die Zuordnung zu Werten (z.B. Punktwerte, Summenwerte).
Um die Auswertungsobjektivität zu garantieren, muss die Auswertung der erhobenen Daten regelgeleitet erfolgen (Lienert & Raatz, 1998, S.8).
Sie wird erreicht, wenn eine eindeutige Zuordnung der Leistungsdaten in eine Kategorie möglich ist. In diesem Fall sind die Testaufgaben so konstruiert, dass die erfasste Leistung des Probanden einfach zu beobachten ist und präzise einer Kategorie zugeordnet werden kann. Bei Leistungstest oder Fragebögen mit freier Aufgaben- oder Fragenbeantwortung ist die Auswertungsobjektivität geringer, da der Testleiter subjektiv entscheiden muss, in welche Kategorie die Leistung des Probanden einzuordnen ist.
- zu 3: Interpretationsobjektivität:
Die Interpretationsobjektivität betrifft den Grad der Unabhängigkeit der Interpretation der erfassten Testergebnisse von dem Interpretierenden.
Sie ist vollkommen gegeben, wenn identische Ergebnisse von verschiedenen Probanden immer zu der gleichen Interpretation/den gleichen Schlüssen führen. Hilfreich hierbei ist, wenn es sich um normierte Leistungstests oder Fragebögen handelt, in denen die Auswertung der Daten einen numerischen Wert liefert, der die Position des Probanden entlang einer Testskala festlegt (vgl. Lienert & Raatz, 1998, S.8).
2. Reliabilität
Die Reliabilität oder Zuverlässigkeit eines Tests gibt den Grad der Messgenauigkeit eines Instrumentes, mit dem es „ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht“ (Lienert&Raatz, 1998, S.9), an.
Sie beschreibt also das Ausmaß, in welchem das Testergebnis frei von Messfehlern ist.
Eine Optimale Reliabilität liegt vor, wenn der Test „in der Lage ist, den wahren Wert […] ohne jeden Messfehler […] zu erfassen“ (Bortz&Döring, 2009, S. 196). Ein vollständig reliabler Test muss nach wiederholter Anwendung bei denselben Probanden zu exakt den gleichen Ergebnissen führen. In diesem Fall beschreiben die erzielten Ergebnisse die Leistung des Probanden genau, d.h. fehlerfrei. Weichen die Ergebnisse voneinander ab, so werden die bei der Messung aufgetretenen Messfehler dafür verantwortlich gemacht.
Der Grad der Reliabilität wird durch den Reliabilitätskoeffizienten bestimmt (Lienert&Raatz, 1998, S. 9). An dieser Stelle kann folgender Link verwendet werden, um nachzuschauen, welche Werte der Reliabilitätskoeffizient annehmen kann und was dies jeweils für die Messgenauigkeit einer Testung bedeutet: http://www.lern-psychologie.de/diagnostik/zuverlaessigkeit.htm.
Bei der Einschätzung der Reliabilität eines Tests sind nach Lienert und Raatz (1998, S. 9) Methoden zu unterscheiden, mit denen der Reliabilitätkoeffizient des Tests bestimmt werden kann:
- Paralleltestreliabilität
- Retestreliabilität
- Testhalbierungsreliabilität
- Interne Konsistenzprüfung
- zu 1: Paralleltestreliabilität:
Die Ermittlung der Paralleltest-Reliabilität (Äquivalenz) eines Tests wird bestimmt, indem eine Stichprobe von Probanden zwei vergleichbare (fast identische) Tests (Paralleltests) vorgelegt bekommt. Im Anschluss werden die Ergebnisse miteinander korreliert.
„Je ähnlicher die Ergebnisse beider Tests ausfallen, um so weniger Fehlereffekte sind offensichtlich im Spiel […]“ (Bortz&Döring, 2009, S. 197). Die innere Konsistenz (siehe Punkt 3) der Tests gibt hierbei Aussage darüber, inwiefern die einzelnen Testteile der Paralleltests auch wirklich das Gleiche messen.
Abb. 2: Testdesign (Modell) Paralleltestreliabilität. Eigene Darstellung
- zu 2: Retestreliabilität:
„Zur Bestimmung der Retestreliabilität (Stabilität) wird derselbe Test derselben Stichprobe zweimal vorgelegt […]“ (Bortz&Döring, 2009, S. 196). Anschließend wird die Übereinstimmung der Ergebnisse ermittelt und als Korrelation ausgedrückt.
Die beiden Tests dürfen nicht direkt hintereinander erfolgen, da ein Lerneffekt bei den Probanden der Stichprobe auftreten kann und somit das Ergebnis verfälscht wird.
Abb. 3: Testdesign (Modell) bei der Retestreliabilität. Eigene Darstellung.
- zu 3: Testhalbierungsreliabilität
Mit der Methode der Testhalbierung gewinnt man eine Aussage über die Halbierungsreliabilität und innere Konsistenz eines Tests.
Bei diesem Vorgehen wird einer Stichprobe ein Test einmalig vorgelegt und durchlaufen/bearbeitet. Anschließend werden die Aufgaben (Items, Elemente, Aufgabenstellungen) des Tests in „zwei gleichwertige Hälften geteilt und das Testergebnis eines einzelnen Probanden für jede Testhälfte gesondert ermittelt“ (Lienert&Raatz, 1998, S. 10).
Die Ergebnisse der beiden Testhälften werden korreliert und der daraus entstehende Reliabilitätskoeffizient wird so aufgewertet, dass er repräsentativ für den kompletten Test gilt. Mit wachsender Itemzahl nähert sich die Reliabilität asymptotisch einem Präzisionsmaximum (Bortz&Döring, 2009, S. 198).
Abb. 4: Testdesign (Modell) Testhalbierungsreliabilität. Eigene Darstellung.
- zu 4: Interne Konsistenzprüfung
Die internen Konsitenzberechnungen stellen die genauste Beurteilung der Reliabilität dar. Hierbei knüpft die Methode an die Methode der Testhalbierung an, zerlegt den Test jedoch nicht nur in zwei Hälften, sondern in jene Anzahl, die der Testitemanzahl entspricht. Die Korrelationen zwischen den Items spiegeln dann die tatsächliche Varianz wieder. Sie kann über die Kuder-Richardson-Formel berechnet werden (Bortz&Döring, 2009, S. 198). http://de.wikipedia.org/wiki/Kuder-Richardson-Formel
3. Validität
Die Validität (Gültigkeit) eines Tests gibt den Grad der Gültigkeit an, mit welchem ein Test in der Lage ist, genau jene Leistung des Probanden zu messen, was er zu messen vorgibt (Bortz&Döring, 2009, S. 200).
Die Validität eines Tests ist erfüllt, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad der zu erfassenden Leistung des Probanden zulassen (Lienertz&Raatz, 1998, S. 10). Laut Bortz und Döring (2009, S. 200) ist die Validität das wichtigste Gütekriterium eines Tests.
Im Vergleich zu der Objektivitäts- und Reliabilitätsprüfung eines Tests ist die Überprüfung der Validität sehr viel aufwendiger. Man unterscheidet hierbei drei Hauptarten von Validität:
- Inhaltliche Validität
- Konstruktvalidität
- Kriterienbezogene Validität (Bortz&Döring, 2009, S. 200).
- zu 1: Inhaltliche Validität
Es liegt eine inhaltliche Validität (Augenscheinvalidität, logische Validität) vor, wenn der Test selbst das optimale Kriterium für die zu testende Leistung stellt. Dies ist gegeben, wenn der Inhalt des Testitems den zu messenden Wert in seinen wichtigsten Aspekten erschöpfend erfasst (Bortz&Döring, 2009, S. 200).
- zu 2: Konstruktvalidität
Die Konstruktvalidität gibt an, ob und wie genau mit einem Test eine abgeleitete Hypothese bestätigt werden kann. Ein Test ist somit konstruktvalide, wenn aus dem zu messenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können.
- zu 3: Kriterienbezogene Validität
Bei der kriterienbezogenen Validität werden die Testergebnisse einer Stichprobe von Probanden mit sogenannten korrespondierenden Merkmalen (Außenkriterien) einer anderen Testung (gleiches Untersuchungsziel) korreliert. Je größer die Gemeinsamkeit des von Test und Außenkriterium erfassten Mermalsanteils, desto größer ist die kriteriumsbezogene Validität eines Tests (Raatz&Döring, 1998, S. 11).
verfasst von Christian Matheisen
Zusammenhänge der Reliabilität und der Validität
Mittels folgender Abbildung wird dargestellt, inwieweit die beiden Hauptgütekriterien Reliabilität und Validität in Verbindung stehen. Es wird deutlich, dass eine Testung erst dann als wissenschaftlich fundiert und diagnostisch geeignet erscheint, wenn ein Test sowohl eine hohe Reliabilität als auch eine hohe Validität aufweist. Beispielsweise können die Messwerte einer Messung/Testung vollkommen reliabel sein, weichen aber vom wahren Testwert ab und weisen somit eine geringe Validität auf.
Abb. 5: Zusammenhänge der Reliabilität und der Validität. Eigene Darstellung (in Anlehnung an http://marktforschung.wikia.com/wiki/Reliabilit%C3%A4t)
verfasst von Felix Wenzel
Nebengütekriterien
Die Nebengütekriterien stellen neben den Hauptgütekriterien weitere Qualitätsmerkmale einer wissenschaftlichen Testung dar.
Je nach Literatur unterscheidet man bei den Nebengütekriterien zwischen vier oder mehreren verschiedenen Unterpunkten. Im Rahmen dieses Wikimoduls werden die vier wichtigsten Nebengütekriterien fokusiert und erläutert:
- Normierung
- Vergleichbarkeit
- Ökonomie
- Nützlichkeit
1. Normierung
Unter dem Gütekriterium der Normierung versteht man, dass über einen Test Angaben vorliegen sollen, die als Bezugssystem für die Einordnung des individuellen Testergebnisses dienen können (vgl. Lienert & Raatz, 1998, S. 11).
Man schafft sich somit ein planmäßiges, stichprobenunabhängiges Messsystem mit dem man die Ergebnisse verschiedener Tests gegenüberstellen kann, denn das Ziel jeder Testung ist es, das Testergebnis einer Person mit dem anderer Personen zu vergleichen. Zu jedem sogenannten Testrohwert gehört dann ein bestimmter Teststandardwert, der die Position eines Probanden innerhalb einer Population eindeutig fixiert. Erst wenn zum Beispiel der Intelligenztestwert eines Schülers im Vergleich zur Normalbevölkerung besonders hoch ausfällt, spricht man von Hochbegabung (vgl. Heene, 2010).
Die Normierung liefert demnach eine Art Bezugsrahmen, der erhobene Testscores vergleichend zu anderen, größeren Stichproben einzuordnen erlaubt.
2. Vergleichbarkeit
Laut Bortz (2006) erscheint ein Test dann als vergleichbar, wenn:
- ein oder mehrere Paralleltestformen vorhanden sind.
- validitätsähnliche Tests verfügbar sind.
Die Parallelform des Tests ermöglicht einen Vergleich des Tests mit sich selbst. Sie gestattet gewissermaßen eine intraindividuelle Reliabilitätskontrolle, indem man Probanden mit beiden Testformen untersucht und anschließend die Ergebnisse vergleicht (vgl. Lienert & Raatz, 1998, S. 12). Interindividuell würde bedeuten, dass man Testergebnisse zwischen verschiedenen Probanden beziehungsweise Individuen betrachtet und vergleicht.
Testungen mit ähnlichem Gültigkeitsbereich prüfen dasselbe oder ein nahe verwandtes Persönlichkeitsmerkmal. Wenn nun die Korrelation, also die Wechelbeziehung zwischen zwei validitätsähnlichen Tests bekannt ist, kann man eine intraindividuelle Validitätskontrolle durchführen, indem man den gleichen Probanden mit beiden Tests untersucht und die Ergebnisse vergleicht (vgl. Lienert & Raatz, 1998, S. 12).
Die Vergleichbarkeit überprüft demnach die Existenz von Paralleltestformen oder Tests mit ähnlichem Gültigkeitsbereich
3. Ökonomie
Grundsätzlich ist ein Test ökonomisch, wenn er alle oder die wichtigsten folgender Bedingungen erfüllt (Heele, 2010):
- eine kurze Durchführungszeit
- geringer Materialverbrauch
- einfache Handhabung
- Gruppentesttauglichkeit
- schnelle und bequeme Auswertung
Im Optimalfall sollte ein Test einen hohen Erkenntnisgewinn mit geringen finanziellen und zeitlichen Ressourcen erzielen.
4. Nützlichkeit
Ein Test ist dann nützlich, wenn er ein Persönlichkeitsmerkmal, Kennwerte oder -größen misst, für deren Untersuchung ein praktisches Bedürfnis besteht. Laut Lienert & Raatz (1998, S. 13) hat ein Test demgemäß eine hohe Nützlichkeit, wenn er in seiner Funktion durch keinen anderen Test vertreten werden kann, und er hat eine geringe Nützlichkeit, wenn er ein Persönlichkeitsmerkmal, einen Kennwert oder eine andere Größe prüft, die mit einer Reihe anderer Tests ebenso gut untersucht werden könnten.
Generell sollte für eine Messung ein praktisches Bedürfnis bestehen.
Es ist einleuchtend, dass ein Test, der zwar die Hauptgütekriterien erfüllt, aber beispielsweise nicht genormt oder vergleichbar ist, keine oder nur eine sehr geringe diagnostische Brauchbarkeit besitzt, auch wenn er als Forschungsinstrument durchaus geeignet erscheint (vgl. Lienert & Raatz, 1998, S. 12).
verfasst von Felix Wenzel
Zusammenfassung
In diesem Wikimodul wurden zum einen die drei Hauptgütekriterien, zum anderen die vier wichtigsten Nebengütekriterien einer Testplanung und -durchführung vorgestellt. Doch warum ist es so wichtig zu wissen wie ein Test entwickelt beziehungsweise konstruiert werden muss, damit er den Anforderungen, sprich den Gütekriterien entspricht?
Testverfahren werden in der Forschung, insbesondere in den Anwendungsbereichen der Psychologie, der Medizin sowie der Sozial- und Wirtschaftswissenschaften eingesetzt. Für viele Fragestellungen existieren bereits Testverfahren, doch für viele andere Bereiche sind keine oder wenige Testverfahren verfügbar, vor allem dann, wenn sehr spezifische Fragestellungen oder Testkonstruktionen zu beantworten beziehungsweise zu entwickeln sind (vgl. Bühner, 2011, S. 18). Das folgende Video bietet eine ausführliche Zusammenfassung der drei Hauptgütekriterien mit adäquat gewählten Beispielen, wobei nicht nur die Bedeutungen der einzelnen Kriterien erläutert, sondern auch, wie sowie die Reliabilität, als auch die Validität bestimmt und berechnet werden.
Forschungsmethodik - Lektion 5: Prüfung der Gütekriterien in der quantitativen Forschung https://www.youtube.com/watch?v=H854CWC58wA
verfasst von Felix Wenzel
Fragen
- Unter welcher Gegebenheit spricht man von einer optimalen Reliabilität eines Tests?
<spoiler | Antwort>
Eine Optimale Reliabilität liegt vor, wenn der Test „in der Lage ist, den wahren Wert […] ohne jeden Messfehler […] zu erfassen“ (Bortz&Döring, 2009, S. 196). Ein vollständig reliabler Test muss nach wiederholter Anwendung bei denselben Probanden zu exakt den gleichen Ergebnissen führen. In diesem Fall beschreiben die erzielten Ergebnisse die Leistung des Probanden genau, d.h. fehlerfrei.
</spoiler>
- Durch welche Maßnahme kann die Auswertungsobjektivität eines Tests garantiert werden und wodurch wird sie letztendlich erreicht?
<spoiler | Antwort>
Um die Auswertungsobjektivität eines Tests zu garantieren, muss die Auswertung der erhobenen Daten regelgeleitet erfolgen (Lienert & Raatz, 1998, S.8).
Sie wird erreicht, wenn eine eindeutige Zuordnung der Leistungsdaten in eine Kategorie möglich ist. In diesem Fall sind die Testaufgaben so konstruiert, dass die erfasste Leistung des Probanden einfach zu beobachten ist und präzise einer Kategorie zugeordnet werden kann.
</spoiler>
- Welche beiden Kriterien müssen bei dem Nebengütekriterium Vergleichbarkeit eines Tests beachtet werden, sodass ein Test den Anforderungen gerecht wird und inwieweit kann man in diesem Zusammenhang die Begriffe intraindividuell und interviduell unterscheiden?
<spoiler | Antwort>
Laut Bortz (2006) erscheint ein Test dann als vergleichbar, wenn ein oder mehrere Paralleltestformen vorhanden und validitätsähnliche Tests verfügbar sind.
intraindiduell: Ein Proband wird mit beiden Testformen (Parallelform des Tests) untersucht. Anschließend kann man beide individuellen Untersuchungsergebnisse eines Probanden miteinander vergleichen.
interindividuell: Der Vergleich von individuellen Untersuchungsergebnissen zwischen mehreren, verschiedenen Probanden innerhalb einer Population.
</spoiler>
Literatur
- Bortz, J. & Döring, N. (2009). Forschungsmethoden und Evaluation (4. Aufl.). Heidelberg: Springer.
- Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation. Heidelberg: Springer.
- Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.
- Heene, M. (2010). Psychologische Testverfahren: Haupt- und Nebengütekriterien. Zugriff am 09.01.2015 unter http://www.uni-graz.at/dips/Heene/Haupt_Nebeng%FCtekrit_Wdh.pdf.
- Lienert, G. & Raatz, U. (1998). Testaufbau und Testanalyse. Weinheim: Psychologie Verlags Union.
Medienquellen
Abbildungsverzeichnis
- Abbildung 1: Eigene Darstellung Testgütekriterien. In Anlehnung an: http://wirtschaftslexikon.gabler.de/graphs/67/57491_compact_preview.jpg, Zugriff am 18.01.2015
- Abbildung 2: Testdesign (Modell) Paralleltestreliabilität. Eigene Darstellung.
- Abbildung 3: Testdesign (Modell) Pretestreliabilität. Eigene Darstellung.
- Abbildung 4: Testdesign (Modell) Testhalbierungsreliabilität. Eigene Darstellung.
- Abbildung 5: Zusammenhänge der Reliabilität und der Validität. Eigene Darstellung. In Anlehnung an: http://marktforschung.wikia.com/wiki/Reliabilit%C3%A4t, Zugriff am 20.01.2015
Bewertung des Wiki-Moduls
Kategorie | Matheisen | Wenzel | Anmerkungen |
---|---|---|---|
Inhalt (max. 10) | 08 Pkt | 08 Pkt | Praxisbezug und etwas kreativere Aufarbeitung wünschenswert |
Form (max. 5) | 05 Pkt | 05 Pkt | gute Übersichtlichkeit, Abbildungen unterstützen Verständnis |
Bonus (max. 2) | 0 Pkt | 0 Pkt | - |
Summe | 13 Pkt | 13 Pkt | 26 Pkt |
Einzelbewertung | 13/15=87% | 13/15=87% | 26/30 = 87% |