Inhaltsverzeichnis

QFM11 Testgütekriterien

QFM11 Testgütekriterien

Modul-Icon	QFM11
Veranstaltung	Seminar Quantitative Forschungsmethoden
Thema	Testgütekriterien
Autoren	Christian Matheisen, Felix Wenzel
Bearbeitungsdauer	45 Minuten
Präsentationstermin	29.01.2015
Letzte Bearbeitung	26.02.2015
Status	Finalisiert

Lernziele für die Lehre

Dieses Wiki wird in der Lehre angewendet. Je nach Veranstaltung sollen nach dem Erarbeiten des Wikis unterschiedliche Kenntnisse erworben werden:

Lehrveranstaltung	Lernziel
PS Forschungsmethoden 2	- Welche Hauptgütekriterien gibt es? - Welchem Zweck dienen diese jeweils?

Einleitung

Laut Lienert und Raatz (1998) ist ein Test ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Generell gilt, dass jedes Testergebnis eigentlich dem wahren Ausprägungsgrad des untersuchten Merkmals entspricht, jedoch von Messfehlern überlagert werden kann. Um die Aussagekraft der durch den Test erfassten Merkmalsausprägungen möglichst genau zu halten, bedarf es der Berücksichtigung von essentiellen Kriterien vor, während und nach einer Testdurchführung, welche einen Einfluss auf die wissenschaftliche Qualität eines Tests ausüben. Zusammenfassend kann an dieser Stelle die Testtheorie nach Bortz (2006) angeführt werden:
„Die Frage der Anforderungen, denen ein Test genügen muss, um aufgrund eines Testergebnisses auf die Ausprägung des getesteten Merkmals schließen zu können“ (Bortz, 2006, S. 189).

Grundsätzlich unterscheidet man bei Gütekriterien eines Tests zwischen Haupt- und Nebengütekriterien als bedingte Anforderung an die Testdurchführung (vgl. Lienert & Raatz, 1998, S. 7).

Abb. 1: Testgütekriterien (Hauptgütekriterien). Eigene Darstellung (in Anlehnung an http://wirtschaftslexikon.gabler.de/graphs/67/57491_compact_preview.jpg)

verfasst von Christian Matheisen und Felix Wenzel

Hauptgütekriterien

Die Hauptgütekriterien stellen eine essentielle Voraussetzung jeder wissenschaftlichen Testung dar. Die Nichtbeachtung dieser Kriterien führt zu dem sofortigen Verlust der wissenschaftlichen Qualität.
Ein Test weist eine hohe Qualität auf, wenn er als Hauptgütekriterien folgende drei Forderungen erfüllt:

Objektivität
Reliabilität
Validität

1. Objektivität

Unter der Objektivität eines Tests versteht man den Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind. Ein Test ist demnach vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen gelangen (vgl. Lienert & Raatz, 1998, S. 7).
Die Objektivität lässt sich hierbei in drei zeitliche Aspekte gliedern, je nachdem welche Phase der Testdurchführung betrachtet wird:

Durchführungsobjektivität
Auswertungsobjektivität
Interpretationsobjektivität

zu 1: Durchführungsobjektivität:

Die Durchführungsobjektivität beschreibt die Unabhängigkeit der erhobenen Testergebnisse von dem Einfluss der Verhaltensvariationen des Testleiters auf das Verhalten des Probanden während der Untersuchung.
Um die Qualität der Durchführungsobjektivität zu erhöhen, muss die Untersuchungssituation so weit wie möglich standardisiert werden und die Instruktion an den Probanden so genau wie möglich festgelegt sein.
Hierbei ist die soziale Interaktion zwischen Testleiter und Probanden auf ein Minimum zu reduzieren (vgl. Lienert und Raatz, 1998, S.8).

zu 2: Auswertungsobjektivität:

Die Auswertungsobjektivität bezieht sich auf die Einordnung der erhobenen Testergebnisse in eine Ergebniskategorie (z.B. richtig/falsch, gelöst/nicht gelöst), sowie im Anschluss daran auf die Zuordnung zu Werten (z.B. Punktwerte, Summenwerte).
Um die Auswertungsobjektivität zu garantieren, muss die Auswertung der erhobenen Daten regelgeleitet erfolgen (Lienert & Raatz, 1998, S.8).
Sie wird erreicht, wenn eine eindeutige Zuordnung der Leistungsdaten in eine Kategorie möglich ist. In diesem Fall sind die Testaufgaben so konstruiert, dass die erfasste Leistung des Probanden einfach zu beobachten ist und präzise einer Kategorie zugeordnet werden kann. Bei Leistungstest oder Fragebögen mit freier Aufgaben- oder Fragenbeantwortung ist die Auswertungsobjektivität geringer, da der Testleiter subjektiv entscheiden muss, in welche Kategorie die Leistung des Probanden einzuordnen ist.

zu 3: Interpretationsobjektivität:

Die Interpretationsobjektivität betrifft den Grad der Unabhängigkeit der Interpretation der erfassten Testergebnisse von dem Interpretierenden.
Sie ist vollkommen gegeben, wenn identische Ergebnisse von verschiedenen Probanden immer zu der gleichen Interpretation/den gleichen Schlüssen führen. Hilfreich hierbei ist, wenn es sich um normierte Leistungstests oder Fragebögen handelt, in denen die Auswertung der Daten einen numerischen Wert liefert, der die Position des Probanden entlang einer Testskala festlegt (vgl. Lienert & Raatz, 1998, S.8).

2. Reliabilität

Die Reliabilität oder Zuverlässigkeit eines Tests gibt den Grad der Messgenauigkeit eines Instrumentes, mit dem es „ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht“ (Lienert&Raatz, 1998, S.9), an.
Sie beschreibt also das Ausmaß, in welchem das Testergebnis frei von Messfehlern ist.
Eine Optimale Reliabilität liegt vor, wenn der Test „in der Lage ist, den wahren Wert […] ohne jeden Messfehler […] zu erfassen“ (Bortz&Döring, 2009, S. 196). Ein vollständig reliabler Test muss nach wiederholter Anwendung bei denselben Probanden zu exakt den gleichen Ergebnissen führen. In diesem Fall beschreiben die erzielten Ergebnisse die Leistung des Probanden genau, d.h. fehlerfrei. Weichen die Ergebnisse voneinander ab, so werden die bei der Messung aufgetretenen Messfehler dafür verantwortlich gemacht.
Der Grad der Reliabilität wird durch den Reliabilitätskoeffizienten bestimmt (Lienert&Raatz, 1998, S. 9). An dieser Stelle kann folgender Link verwendet werden, um nachzuschauen, welche Werte der Reliabilitätskoeffizient annehmen kann und was dies jeweils für die Messgenauigkeit einer Testung bedeutet: http://www.lern-psychologie.de/diagnostik/zuverlaessigkeit.htm. Bei der Einschätzung der Reliabilität eines Tests sind nach Lienert und Raatz (1998, S. 9) Methoden zu unterscheiden, mit denen der Reliabilitätkoeffizient des Tests bestimmt werden kann:

Paralleltestreliabilität
Retestreliabilität
Testhalbierungsreliabilität
Interne Konsistenzprüfung

zu 1: Paralleltestreliabilität:

Die Ermittlung der Paralleltest-Reliabilität (Äquivalenz) eines Tests wird bestimmt, indem eine Stichprobe von Probanden zwei vergleichbare (fast identische) Tests (Paralleltests) vorgelegt bekommt. Im Anschluss werden die Ergebnisse miteinander korreliert.
„Je ähnlicher die Ergebnisse beider Tests ausfallen, um so weniger Fehlereffekte sind offensichtlich im Spiel […]“ (Bortz&Döring, 2009, S. 197). Die innere Konsistenz (siehe Punkt 3) der Tests gibt hierbei Aussage darüber, inwiefern die einzelnen Testteile der Paralleltests auch wirklich das Gleiche messen.

Abb. 2: Testdesign (Modell) Paralleltestreliabilität. Eigene Darstellung

zu 2: Retestreliabilität:

„Zur Bestimmung der Retestreliabilität (Stabilität) wird derselbe Test derselben Stichprobe zweimal vorgelegt […]“ (Bortz&Döring, 2009, S. 196). Anschließend wird die Übereinstimmung der Ergebnisse ermittelt und als Korrelation ausgedrückt.
Die beiden Tests dürfen nicht direkt hintereinander erfolgen, da ein Lerneffekt bei den Probanden der Stichprobe auftreten kann und somit das Ergebnis verfälscht wird.

Abb. 3: Testdesign (Modell) bei der Retestreliabilität. Eigene Darstellung.

zu 3: Testhalbierungsreliabilität

Mit der Methode der Testhalbierung gewinnt man eine Aussage über die Halbierungsreliabilität und innere Konsistenz eines Tests.
Bei diesem Vorgehen wird einer Stichprobe ein Test einmalig vorgelegt und durchlaufen/bearbeitet. Anschließend werden die Aufgaben (Items, Elemente, Aufgabenstellungen) des Tests in „zwei gleichwertige Hälften geteilt und das Testergebnis eines einzelnen Probanden für jede Testhälfte gesondert ermittelt“ (Lienert&Raatz, 1998, S. 10).
Die Ergebnisse der beiden Testhälften werden korreliert und der daraus entstehende Reliabilitätskoeffizient wird so aufgewertet, dass er repräsentativ für den kompletten Test gilt. Mit wachsender Itemzahl nähert sich die Reliabilität asymptotisch einem Präzisionsmaximum (Bortz&Döring, 2009, S. 198).

Abb. 4: Testdesign (Modell) Testhalbierungsreliabilität. Eigene Darstellung.

zu 4: Interne Konsistenzprüfung

Die internen Konsitenzberechnungen stellen die genauste Beurteilung der Reliabilität dar. Hierbei knüpft die Methode an die Methode der Testhalbierung an, zerlegt den Test jedoch nicht nur in zwei Hälften, sondern in jene Anzahl, die der Testitemanzahl entspricht. Die Korrelationen zwischen den Items spiegeln dann die tatsächliche Varianz wieder. Sie kann über die Kuder-Richardson-Formel berechnet werden (Bortz&Döring, 2009, S. 198). http://de.wikipedia.org/wiki/Kuder-Richardson-Formel

3. Validität

Die Validität (Gültigkeit) eines Tests gibt den Grad der Gültigkeit an, mit welchem ein Test in der Lage ist, genau jene Leistung des Probanden zu messen, was er zu messen vorgibt (Bortz&Döring, 2009, S. 200).
Die Validität eines Tests ist erfüllt, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad der zu erfassenden Leistung des Probanden zulassen (Lienertz&Raatz, 1998, S. 10). Laut Bortz und Döring (2009, S. 200) ist die Validität das wichtigste Gütekriterium eines Tests.
Im Vergleich zu der Objektivitäts- und Reliabilitätsprüfung eines Tests ist die Überprüfung der Validität sehr viel aufwendiger. Man unterscheidet hierbei drei Hauptarten von Validität:

Inhaltliche Validität
Konstruktvalidität
Kriterienbezogene Validität (Bortz&Döring, 2009, S. 200).

zu 1: Inhaltliche Validität

Es liegt eine inhaltliche Validität (Augenscheinvalidität, logische Validität) vor, wenn der Test selbst das optimale Kriterium für die zu testende Leistung stellt. Dies ist gegeben, wenn der Inhalt des Testitems den zu messenden Wert in seinen wichtigsten Aspekten erschöpfend erfasst (Bortz&Döring, 2009, S. 200).

zu 2: Konstruktvalidität

Die Konstruktvalidität gibt an, ob und wie genau mit einem Test eine abgeleitete Hypothese bestätigt werden kann. Ein Test ist somit konstruktvalide, wenn aus dem zu messenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können.

zu 3: Kriterienbezogene Validität

Bei der kriterienbezogenen Validität werden die Testergebnisse einer Stichprobe von Probanden mit sogenannten korrespondierenden Merkmalen (Außenkriterien) einer anderen Testung (gleiches Untersuchungsziel) korreliert. Je größer die Gemeinsamkeit des von Test und Außenkriterium erfassten Mermalsanteils, desto größer ist die kriteriumsbezogene Validität eines Tests (Raatz&Döring, 1998, S. 11).

verfasst von Christian Matheisen

Zusammenhänge der Reliabilität und der Validität

Mittels folgender Abbildung wird dargestellt, inwieweit die beiden Hauptgütekriterien Reliabilität und Validität in Verbindung stehen. Es wird deutlich, dass eine Testung erst dann als wissenschaftlich fundiert und diagnostisch geeignet erscheint, wenn ein Test sowohl eine hohe Reliabilität als auch eine hohe Validität aufweist. Beispielsweise können die Messwerte einer Messung/Testung vollkommen reliabel sein, weichen aber vom wahren Testwert ab und weisen somit eine geringe Validität auf.

Abb. 5: Zusammenhänge der Reliabilität und der Validität. Eigene Darstellung (in Anlehnung an http://marktforschung.wikia.com/wiki/Reliabilit%C3%A4t)

verfasst von Felix Wenzel

Nebengütekriterien

Die Nebengütekriterien stellen neben den Hauptgütekriterien weitere Qualitätsmerkmale einer wissenschaftlichen Testung dar. Je nach Literatur unterscheidet man bei den Nebengütekriterien zwischen vier oder mehreren verschiedenen Unterpunkten. Im Rahmen dieses Wikimoduls werden die vier wichtigsten Nebengütekriterien fokusiert und erläutert:

Normierung
Vergleichbarkeit
Ökonomie
Nützlichkeit

1. Normierung

Unter dem Gütekriterium der Normierung versteht man, dass über einen Test Angaben vorliegen sollen, die als Bezugssystem für die Einordnung des individuellen Testergebnisses dienen können (vgl. Lienert & Raatz, 1998, S. 11).
Man schafft sich somit ein planmäßiges, stichprobenunabhängiges Messsystem mit dem man die Ergebnisse verschiedener Tests gegenüberstellen kann, denn das Ziel jeder Testung ist es, das Testergebnis einer Person mit dem anderer Personen zu vergleichen. Zu jedem sogenannten Testrohwert gehört dann ein bestimmter Teststandardwert, der die Position eines Probanden innerhalb einer Population eindeutig fixiert. Erst wenn zum Beispiel der Intelligenztestwert eines Schülers im Vergleich zur Normalbevölkerung besonders hoch ausfällt, spricht man von Hochbegabung (vgl. Heene, 2010).

Die Normierung liefert demnach eine Art Bezugsrahmen, der erhobene Testscores vergleichend zu anderen, größeren Stichproben einzuordnen erlaubt.

2. Vergleichbarkeit

Laut Bortz (2006) erscheint ein Test dann als vergleichbar, wenn:

ein oder mehrere Paralleltestformen vorhanden sind.
validitätsähnliche Tests verfügbar sind.

Die Parallelform des Tests ermöglicht einen Vergleich des Tests mit sich selbst. Sie gestattet gewissermaßen eine intraindividuelle Reliabilitätskontrolle, indem man Probanden mit beiden Testformen untersucht und anschließend die Ergebnisse vergleicht (vgl. Lienert & Raatz, 1998, S. 12). Interindividuell würde bedeuten, dass man Testergebnisse zwischen verschiedenen Probanden beziehungsweise Individuen betrachtet und vergleicht.
Testungen mit ähnlichem Gültigkeitsbereich prüfen dasselbe oder ein nahe verwandtes Persönlichkeitsmerkmal. Wenn nun die Korrelation, also die Wechelbeziehung zwischen zwei validitätsähnlichen Tests bekannt ist, kann man eine intraindividuelle Validitätskontrolle durchführen, indem man den gleichen Probanden mit beiden Tests untersucht und die Ergebnisse vergleicht (vgl. Lienert & Raatz, 1998, S. 12).

Die Vergleichbarkeit überprüft demnach die Existenz von Paralleltestformen oder Tests mit ähnlichem Gültigkeitsbereich

3. Ökonomie

Grundsätzlich ist ein Test ökonomisch, wenn er alle oder die wichtigsten folgender Bedingungen erfüllt (Heele, 2010):

eine kurze Durchführungszeit
geringer Materialverbrauch
einfache Handhabung
Gruppentesttauglichkeit
schnelle und bequeme Auswertung

Im Optimalfall sollte ein Test einen hohen Erkenntnisgewinn mit geringen finanziellen und zeitlichen Ressourcen erzielen.

4. Nützlichkeit

Ein Test ist dann nützlich, wenn er ein Persönlichkeitsmerkmal, Kennwerte oder -größen misst, für deren Untersuchung ein praktisches Bedürfnis besteht. Laut Lienert & Raatz (1998, S. 13) hat ein Test demgemäß eine hohe Nützlichkeit, wenn er in seiner Funktion durch keinen anderen Test vertreten werden kann, und er hat eine geringe Nützlichkeit, wenn er ein Persönlichkeitsmerkmal, einen Kennwert oder eine andere Größe prüft, die mit einer Reihe anderer Tests ebenso gut untersucht werden könnten.

Generell sollte für eine Messung ein praktisches Bedürfnis bestehen.

Es ist einleuchtend, dass ein Test, der zwar die Hauptgütekriterien erfüllt, aber beispielsweise nicht genormt oder vergleichbar ist, keine oder nur eine sehr geringe diagnostische Brauchbarkeit besitzt, auch wenn er als Forschungsinstrument durchaus geeignet erscheint (vgl. Lienert & Raatz, 1998, S. 12).

verfasst von Felix Wenzel

Zusammenfassung

In diesem Wikimodul wurden zum einen die drei Hauptgütekriterien, zum anderen die vier wichtigsten Nebengütekriterien einer Testplanung und -durchführung vorgestellt. Doch warum ist es so wichtig zu wissen wie ein Test entwickelt beziehungsweise konstruiert werden muss, damit er den Anforderungen, sprich den Gütekriterien entspricht?
Testverfahren werden in der Forschung, insbesondere in den Anwendungsbereichen der Psychologie, der Medizin sowie der Sozial- und Wirtschaftswissenschaften eingesetzt. Für viele Fragestellungen existieren bereits Testverfahren, doch für viele andere Bereiche sind keine oder wenige Testverfahren verfügbar, vor allem dann, wenn sehr spezifische Fragestellungen oder Testkonstruktionen zu beantworten beziehungsweise zu entwickeln sind (vgl. Bühner, 2011, S. 18). Das folgende Video bietet eine ausführliche Zusammenfassung der drei Hauptgütekriterien mit adäquat gewählten Beispielen, wobei nicht nur die Bedeutungen der einzelnen Kriterien erläutert, sondern auch, wie sowie die Reliabilität, als auch die Validität bestimmt und berechnet werden.

Forschungsmethodik - Lektion 5: Prüfung der Gütekriterien in der quantitativen Forschung https://www.youtube.com/watch?v=H854CWC58wA

verfasst von Felix Wenzel

Fragen

Unter welcher Gegebenheit spricht man von einer optimalen Reliabilität eines Tests?

<spoiler | Antwort> Eine Optimale Reliabilität liegt vor, wenn der Test „in der Lage ist, den wahren Wert […] ohne jeden Messfehler […] zu erfassen“ (Bortz&Döring, 2009, S. 196). Ein vollständig reliabler Test muss nach wiederholter Anwendung bei denselben Probanden zu exakt den gleichen Ergebnissen führen. In diesem Fall beschreiben die erzielten Ergebnisse die Leistung des Probanden genau, d.h. fehlerfrei. </spoiler>

Durch welche Maßnahme kann die Auswertungsobjektivität eines Tests garantiert werden und wodurch wird sie letztendlich erreicht?

<spoiler | Antwort> Um die Auswertungsobjektivität eines Tests zu garantieren, muss die Auswertung der erhobenen Daten regelgeleitet erfolgen (Lienert & Raatz, 1998, S.8). Sie wird erreicht, wenn eine eindeutige Zuordnung der Leistungsdaten in eine Kategorie möglich ist. In diesem Fall sind die Testaufgaben so konstruiert, dass die erfasste Leistung des Probanden einfach zu beobachten ist und präzise einer Kategorie zugeordnet werden kann. </spoiler>

Welche beiden Kriterien müssen bei dem Nebengütekriterium Vergleichbarkeit eines Tests beachtet werden, sodass ein Test den Anforderungen gerecht wird und inwieweit kann man in diesem Zusammenhang die Begriffe intraindividuell und interviduell unterscheiden?

<spoiler | Antwort> Laut Bortz (2006) erscheint ein Test dann als vergleichbar, wenn ein oder mehrere Paralleltestformen vorhanden und validitätsähnliche Tests verfügbar sind.
intraindiduell: Ein Proband wird mit beiden Testformen (Parallelform des Tests) untersucht. Anschließend kann man beide individuellen Untersuchungsergebnisse eines Probanden miteinander vergleichen.
interindividuell: Der Vergleich von individuellen Untersuchungsergebnissen zwischen mehreren, verschiedenen Probanden innerhalb einer Population. </spoiler>

Literatur

Bortz, J. & Döring, N. (2009). Forschungsmethoden und Evaluation (4. Aufl.). Heidelberg: Springer.
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation. Heidelberg: Springer.
Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.
Heene, M. (2010). Psychologische Testverfahren: Haupt- und Nebengütekriterien. Zugriff am 09.01.2015 unter http://www.uni-graz.at/dips/Heene/Haupt_Nebeng%FCtekrit_Wdh.pdf.
Lienert, G. & Raatz, U. (1998). Testaufbau und Testanalyse. Weinheim: Psychologie Verlags Union.

Medienquellen

https://www.youtube.com/watch?v=H854CWC58wA

Abbildungsverzeichnis

Abbildung 1: Eigene Darstellung Testgütekriterien. In Anlehnung an: http://wirtschaftslexikon.gabler.de/graphs/67/57491_compact_preview.jpg, Zugriff am 18.01.2015
Abbildung 2: Testdesign (Modell) Paralleltestreliabilität. Eigene Darstellung.
Abbildung 3: Testdesign (Modell) Pretestreliabilität. Eigene Darstellung.
Abbildung 4: Testdesign (Modell) Testhalbierungsreliabilität. Eigene Darstellung.
Abbildung 5: Zusammenhänge der Reliabilität und der Validität. Eigene Darstellung. In Anlehnung an: http://marktforschung.wikia.com/wiki/Reliabilit%C3%A4t, Zugriff am 20.01.2015

Bewertung des Wiki-Moduls

Kategorie	Matheisen	Wenzel	Anmerkungen
Inhalt (max. 10)	08 Pkt	08 Pkt	Praxisbezug und etwas kreativere Aufarbeitung wünschenswert
Form (max. 5)	05 Pkt	05 Pkt	gute Übersichtlichkeit, Abbildungen unterstützen Verständnis
Bonus (max. 2)	0 Pkt	0 Pkt	-
Summe	13 Pkt	13 Pkt	26 Pkt
Einzelbewertung	13/15=87%	13/15=87%	26/30 = 87%

indexmenu_n_11