Testtheorie und Fragebogenkonstruktion (3. Aufl., 2020)
ISBN
978-3-662-61531-7

Inhaltsübersicht

 

Kapitel 1: Einführung und zusammenfassender Überblick

Konstruktionsgesichtspunkte

 

Kapitel 2: Qualitätsanforderungen an Tests und Fragebogen („Gütekriterien“)

Kapitel 3: Planungsaspekte und Konstruktionsphasen von Tests und Fragebogen

Kapitel 4: Itemkonstruktion und Antwortverhalten

Kapitel 5: Antwortformate und Itemtypen

Kapitel 6: Computerbasiertes Assessment

Kapitel 7: Deskriptivstatistische Itemanalyse und Testwertbestimmung

Kapitel 8: Testwertverteilung

Kapitel 9: Testwertinterpretation, Testnormen und Testeichung

Kapitel 10: Standards für psychologisches Testen

Kapitel 11: Standards für pädagogisches Testen

 

Testtheorien

 

Kapitel 12: Testtheorien im Überblick

Kapitel 13: Klassische Testtheorie (KTT)

Kapitel 14: Klassische Methoden der Reliabilitätsschätzung

Kapitel 15: Modellbasierte Methoden der Reliabilitätsschätzung

Kapitel 16: Einführung in die Item-Response-Theorie (IRT)

Kapitel 17: Interpretation von Testwerten in der Item-Response-Theorie (IRT)

Kapitel 18: Überblick über Modelle der Item-Response-Theorie (IRT)

Kapitel 19: Parameterschätzung und Messgenauigkeit in der Item-Response-Theorie (IRT)

Kapitel 20: Computerisiertes adaptives Testen

 

Validität und Möglichkeiten ihrer Überprüfung

 

Kapitel 21: Validität von Testwertinterpretationen

Kapitel 22: Latent-Class-Analyse (LCA)

Kapitel 23: Exploratorische Faktorenanalyse (EFA)

Kapitel 24: Konfrmatorische Faktorenanalyse (CFA)

Kapitel 25: Multitrait-Multimethod-Analysen (MTMM-Analysen)

Kapitel 26: Latent-State-Trait-Theorie (LST-Theorie)

Kapitel 27: Konvergente und diskriminante Validität über die Zeit: Integration von Multitrait-Multimethod-Modellen (MTMM-Modellen) und der Latent-State-Trait-Theorie (LST-Theorie)

 

Kapitel 1: Einführung und zusammenfassender Überblick

 

Erläutert werden die Zielgruppen sowie die dreiteilige Gliederung in Teil I „Konstruktionsgesichtspunkte“, Teil II „Testtheorien“ und Teil III „Validität“. Teil I behandelt in zehn Kapiteln die Themen Gütekriterien, Planung und Konstruktion von Items und Antwortformaten, computerbasiertes Assessment, Itemanalyse, Testwertverteilungen und -interpretation sowie psychologische und pädagogische Teststandards. Teil II behandelt in neun Kapiteln die Klassische Testtheorie sowie klassische und modellbasierte Methoden der Reliabilitätsschätzung; es folgen die Item-Response-Theorie und ihre verschiedenen Modelle, einschließlich Parameterschätzung und -interpretation, sowie Vorteile des adaptiven Testens. Teil III widmet sich in sieben Kapiteln Verfahrensweisen zur Überprüfung der Validität, den Methoden Latent-Class-Analyse, exploratorische und konfirmatorische Faktorenanalyse, Multitrait-Multimethod-Analyse und Latent-State-Trait-Theorie sowie deren Integration. Hinweise auf lernergänzende Materialien schließen das Kapitel ab.

 

zurück zur Inhaltsübersicht

 

 

Konstruktionsgesichtspunkte

 

Kapitel 2: Qualitätsanforderungen an Tests und Fragebogen („Gütekriterien“)

 

Ein Test/Fragebogen ist umso wissenschaftlicher, je mehr Qualitätsanforderungen („Gütekriterien“) bei einer Konstruktion erfüllt werden. Die Berücksichtigung folgender „allgemeiner“ Gütekriterien erfordert keine besonderen testtheoretischen Kenntnisse: Durchführungs-, Auswertungs- und Interpretationsobjektivität, aber auch weitere Aspekte wie Ökonomie, Nützlichkeit, Zumutbarkeit, Fairness und Unverfälschbarkeit. Für wissenschaftliche Tests/Fragebogen sind zudem die „speziellen, testtheoriebasierten“ Gütekriterien der Reliabilität und Validität relevant. Sie setzen testtheoretische Grundlagen und Betrachtungen voraus. Die Reliabilität befasst sich mit der Überprüfung der Messgenauigkeit und die Validität mit der Frage, ob ein Test das Merkmal, das er messen soll, auch wirklich misst, und vor allem, ob die auf einem Testergebnis aufbauenden Interpretationen und Schlussfolgerungen belastbar sind. Hierbei ist besonders die Kriteriumsvalidität bedeutsam für die Berechtigung extrapolierender Schlussfolgerungen sowie die Konstruktvalidität für die Struktur und Dimensionalität der untersuchten Merkmale.

 

zurück zur Inhaltsübersicht

 

Kapitel 3: Planungsaspekte und Konstruktionsphasen von Tests und Fragebogen

 

Psychologische Tests und Fragebogen haben das Ziel, für Merkmalsträger (Testpersonen) hinsichtlich ihrer Merkmalsausprägungen eine metrisch vergleichende Beurteilung zu ermöglichen. Vor und während der Konstruktion eines Tests sind zahlreiche Aspekte zu berücksichtigen, um testtheoretisch basierte psychometrisch-statistische Maße zu gewinnen, die es erlauben, Merkmalsausprägungen zu quantifizieren. Dieses Kapitel bietet einen Überblick über den Entwicklungsprozess von Tests und Fragebogen, angefangen von der ersten Testplanung, über die Testkonstruktion bis hin zur Erprobung einer vorläufigen Version (Pilotstudie), ihrer Revision sowie der Normierung der Testwerte. Die Kenntnis der in diesem Prozess relevanten Aspekte ist nicht nur für Testkonstrukteure von Bedeutung; vielmehr ist sie auch für Testanwender von Nutzen, wenn sie vor dem Problem stehen, verschiedene Testverfahren hinsichtlich ihrer Qualität sowie ihrer Anwendungs- und Aussagemöglichkeiten zu vergleichen und adäquat zu beurteilen.

 

zurück zur Inhaltsübersicht

 

Kapitel 4: Itemkonstruktion und Antwortverhalten

 

Die Itemgenerierung verfolgt das Ziel, repräsentative, inhaltsvalide Operationalisierungen des interessierenden Merkmals zu finden und diese in entsprechenden Aufgaben/Items abzubilden. Dazu wird auf typische Vorgehensweisen eingegangen sowie auf wichtige Aspekte, die bei der Formulierung der Items beachtet werden müssen, vor allem auf die sprachliche Verständlichkeit, die Eindeutigkeit des Iteminhalts und die Vermeidung bestimmter Iteminhalte. Basierend auf der Erörterung von typischen kognitiven und motivationalen Prozessen bei der Itembeantwortung werden verschiedene potentielle Störvariablen im Antwortverhalten (Response-Bias, Antwortstil, Antworttendenz, Soziale Erwünschtheit, Akquieszenz, Tendenz zur Mitte und Effekte der Itemreihenfolge) näher erläutert. Diese Störvariablen sollen bereits bei der Itemgenerierung mitberücksichtigt werden, da sie das Ergebnis von Tests und Fragebogen verfälschen können; Möglichkeiten zur Verringerung ihres Einflusses werden diskutiert.

 

zurück zur Inhaltsübersicht

 

Kapitel 5: Antwortformate und Itemtypen

 

Dieses Kapitel befasst sich mit verschiedenen Möglichkeiten, wie die Antworten der Testpersonen auf die Testaufgaben/Fragen erfasst und kodiert werden können („Antwortformate“). Daraus ergeben sich verschiedene Itemtypen. Unter Beachtung von Vor- und Nachteilen wird das freie Antwortformat dem gebundenen Antwortformat gegenübergestellt. Bei Letzterem sind vor allem Ordnungs- und Auswahlaufgaben sowie kontinuierliche und diskrete Beurteilungsaufgaben als Itemtypen weitverbreitet. Unter Heranziehung zahlreicher Beispiele werden viele praktische Konstruktionsaspekte thematisiert und unter Bezug auf verschiedene Zielvorgaben diskutiert. Entscheidungshilfen für die Wahl des Aufgabentyps runden das Kapitel ab.

 

zurück zur Inhaltsübersicht

 

Kapitel 6: Computerbasiertes Assessment

 

Das Kapitel gibt einen Überblick, wie mit Hilfe von Computern im weiteren Sinne Tests und Fragebogen realisiert und dabei die Möglichkeiten von klassischen Papier-und-Bleistift-Verfahren erweitert bzw. deutlich überschritten werden können. Dies betrifft beispielsweise die Entwicklung computerbasierter Items mit innovativen Antwortformaten und multimedialen Stimuli sowie die automatische Bewertung des gezeigten Antwortverhaltens. Des Weiteren ermöglicht der Computer eine flexiblere Testzusammenstellung, d. h., Items können automatisch unter Berücksichtigung inhaltlicher und statistischer Kriterien sequenziert werden. Das Kapitel behandelt außerdem die Frage, wie durch Logfiledaten das Analysepotential gesteigert und durch die automatische und zeitnahe Rückmeldung von Testdaten beispielsweise das Lernen unterstützt werden kann. Das Kapitel schließt mit Hinweisen auf einschlägige und frei zugängliche Softwarelösungen für Assessmentzwecke.

 

zurück zur Inhaltsübersicht

 

Kapitel 7: Deskriptivstatistische Itemanalyse und Testwertbestimmung

 

In diesem Kapitel wird beschrieben, wie eine erste empirische deskriptivstatistische Evaluation der generierten Testitems vorgenommen werden kann. Die Items werden einer Erprobungsstichprobe von Testpersonen vorgelegt und das Antwortverhalten wird zur Gewinnung von Itemwerten numerisch kodiert. Im Anschluss können durch Aufsummierung der Itemwerte (vorläufige) Testwerte ermittelt werden, die zusammen mit den empirisch festgestellten Itemschwierigkeiten, Itemvarianzen und Itemtrennschärfen Auskunft darüber geben, ob die Items ihrer Aufgabe gerecht werden, die angezielten Differenzierungen zwischen den Testpersonen bezüglich des interessierenden Merkmals zu leisten. Basierend auf diesen Ergebnissen kann eine Itemselektion vorgenommen werden. Danach müssen die Kennwerte und Testwerte neu bestimmt werden.

 

zurück zur Inhaltsübersicht

 

Kapitel 8: Testwertverteilung

 

Dieses Kapitel zeigt, wie vorläufige (und mit bestimmten Annahmen verbundene) Testwerte Y einer Erprobungsstichprobe zusammengefasst und mit deskriptivstatistischen Kennwerten (z. B. Maßen der zentralen Tendenz, Streuungsmaßen) beschrieben werden können. Die empirisch vorgefundene Verteilungsform gibt (erste) Auskünfte darüber, ob die Testwerte einer theoretisch erwarteten Verteilung (z. B. Normalverteilung) entsprechen. Eine Verteilungsabweichung kann in stichhaltig zu begründenden Fällen durch eine sog. „nichtlineare Transformation“ in eine erwartete Verteilung überführt werden. Ein solcher Vorgang ist beispielsweise die Normalisierung, die eine schiefe empirische Verteilung in eine Normalverteilung transformiert.

 

zurück zur Inhaltsübersicht

 

Kapitel 9: Testwertinterpretation, Testnormen und Testeichung

 

In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den „Testnormen“) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden.

 

zurück zur Inhaltsübersicht

 

Kapitel 10: Standards für psychologisches Testen

 

Teststandards sind vereinheitlichte Leitlinien, in denen sich allgemein anerkannte Zielsetzungen zur Entwicklung und Evaluation (Testkonstruktion), Übersetzung und Anpassung (Testadaptation) sowie Durchführung, Auswertung und Interpretation (Testanwendung) psychologischer Tests widerspiegeln. Verschiedene nationale und internationale Teststandardkompendien haben mit unterschiedlicher Schwerpunktsetzung solche Teststandards zusammengetragen. Die Überprüfung der Einhaltung der Standards bei der Testentwicklung und -evaluation erfolgt in Deutschland unter Berücksichtigung der DIN 33430 mit dem Testbeurteilungssystem des Testkuratoriums (TBS-TK), das die standardisierte Erstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkatalogs vorsieht. Um die Standards bei der Testanwendung sicherzustellen, wurden vom Testkuratorium im Auftrag der Föderation Deutscher Psychologenvereinigungen Personenlizenzierungen nach DIN 33430 eingeführt.

 

zurück zur Inhaltsübersicht

 

Kapitel 11: Standards für pädagogisches Testen

 

Die „Standards for Educational and Psychological Testing“ bieten eine umfangreiche Darstellung von über 240 Standards, die zur Entwicklung, Durchführung und Evaluation pädagogischer und psychologischer Tests praktische Handlungsempfehlungen geben. Zur Berücksichtigung der Besonderheiten der Zielsetzung und Entwicklung pädagogischer Tests können die Standards insbesondere zu Fragen der Validität einen Beitrag leisten. Weitere Implikationen aus den Standards für Anforderungen pädagogischen Testens lassen sich u. a. zum Standardsetting, zur Fairness, zur Transparenz des Untersuchungsgegenstands und Interpretation, zu Formen der Diagnostik, zum Feedback sowie zum Datenmanagement finden. Zusätzlich zu den Standards gibt die American Educational Research Association (AERA) mit dem „Code of Ethics“ Richtlinien zu Fragen der Forschungsethik heraus, denen auch beim pädagogischen Testen aktuell eine immer größere Bedeutung zukommt.

 

zurück zur Inhaltsübersicht

 

Testtheorien

 

Kapitel 12: Testtheorien im Überblick

 

Die Klassische Testtheorie (KTT) und die Item-Response-Theorie (IRT) sind die am häufigsten verwendeten Testtheorien bei der Konstruktion und Interpretation von ein- und mehrdimensionalen Testverfahren zur Messung individueller Merkmalsausprägungen. Die KTT ist primär für Testitems mit kontinuierlichem Antwortformat konzipiert und konzentriert sich auf die Gewinnung von Testwerten zur Schätzung der True-Scores sowie deren Reliabilität und Validität. Die IRT hingegen wurde primär für Testitems mit dichotomen (und polytom geordneten) Antwortkategorien entwickelt und hat ihren Schwerpunkt auf der Schätzung latenter Personenparameter und Itemparameter, um Rückschlüsse auf interessierende Merkmalsausprägungen und Itemcharakteristika zu ziehen. Zwischen der KTT und der IRT bestehen inzwischen viele Gemeinsamkeiten; sie weisen aber immer noch einige charakteristische Unterschiede auf, sodass beide Theorien ihre eigenständige Berechtigung haben. Mit der KTT und der IRT liegen somit zwei Testtheorien vor, die sich vorteilhaft ergänzen.

 

zurück zur Inhaltsübersicht

 

Kapitel 13: Klassische Testtheorie (KTT)

 

Die Klassische Testtheorie (KTT) bietet theoretische Grundlagen zur Konstruktion von Testverfahren und zur Interpretation von Testwerten. Für die meist messfehlerbehafteten manifesten Itemvariablen lassen sich anhand der KTT Messmodelle formulieren, um den Anteil der wahren Werte vom Anteil der Fehlerwerte zu trennen und darauf aufbauend individuelle Testwerte zu bestimmen und die Reliabilität der Testwertvariablen zu schätzen. Die Items eines Tests können unterschiedliche Messeigenschaften aufweisen und lassen sich daher hinsichtlich ihrer Messäquivalenz beschreiben. Die Messäquivalenz kann anhand verschiedener Messmodelle überprüft werden, die auf unterschiedlich restriktiven, testbaren Annahmen basieren. Abhängig von der gegebenen Messäquivalenz können verschiedene Reliabilitätskoeffizienten geschätzt werden, die zusätzlich durch ein Konfidenzintervall ergänzt werden sollten. Neben eindimensionalen Modellen werden auch mehrdimensionale Ansätze, z. B. die Generalisierbarkeitstheorie, behandelt, die auf der KTT aufbauen und explizit mehrere latente Variablen als systematische Varianzquellen berücksichtigen.

 

zurück zur Inhaltsübersicht

 

Kapitel 14: Klassische Methoden der Reliabilitätsschätzung

 

Die klassischen Methoden der Reliabilitätsschätzung nutzen die Varianz-/Kovarianzinformationen beobachteter Messwerte (Itemwerte) einer Stichprobe, um für Testwerte das Verhältnis der erklärten Varianz zur Gesamtvarianz abzuleiten. Diese Schätzmethoden werden in der empirischen Forschungspraxis häufig verwendet, da sie in gängiger Statistiksoftware standardmäßig implementiert und somit meist direkt verfügbar sind. Die klassischen Reliabilitätsmaße implizieren jedoch Messmodelle mit strengen Modellannahmen und stellen nur dann adäquate Schätzungen der Reliabilität dar, wenn diese Modellannahmen tatsächlich zutreffen. Das Zutreffen der Modellannahmen kann anhand der konfirmatorischen Faktorenanalyse (CFA) überprüft werden. Die strengen Voraussetzungen der klassischen Methoden der Reliabilitätsschätzung sind in der empirischen Praxis häufig nicht erfüllt. Stattdessen sollten modellbasierte Reliabilitätsschätzungen Verwendung finden, die auf weniger strengen Modellannahmen beruhen.

 

zurück zur Inhaltsübersicht

 

Kapitel 15: Modellbasierte Methoden der Reliabilitätsschätzung

 

Die modellbasierten Methoden der Reliabilitätsschätzung verwenden die konfirmatorische Faktorenanalyse (CFA) zur Schätzung der Reliabilitätskoeffizienten und beruhen im Vergleich zu den klassischen Methoden auf realitätsnäheren, weniger strengen Annahmen. Ein weiterer Vorteil besteht darin, dass modellbasiert auch die Reliabilität mehrdimensionaler Tests geschätzt werden kann und dass bei allen Maßen korrelierte Messfehler berücksichtigt werden können. Anhand eines empirischen Beispiels werden verschiedene Omega-Koeffizienten zur Schätzung der Reliabilität ein- und mehrdimensionaler Tests erläutert. Diese Koeffizienten können als Punktschätzungen vorteilhaft durch Intervallschätzungen ergänzt werden. Für mehrdimensionale Tests werden Koeffizienten sowohl für den Gesamttest als auch für die Subskalen vorgestellt und Empfehlungen für die Praxis gegeben.

 

zurück zur Inhaltsübersicht

 

Kapitel 16: Einführung in die Item-Response-Theorie (IRT)

 

In diesem Kapitel erfolgt eine Einführung in die Item-Response-Theorie (IRT). Die grundlegende testtheoretische Idee der IRT besteht darin, die Wahrscheinlichkeit eines gezeigten Antwortverhaltens („Response“) einer Person bei einem Item (z. B. das Bejahen/Nichtbejahen einer Aussage in einem Einstellungstest bzw. das Lösen/Nichtlösen einer Aufgabe in einem Leistungstest) in Form einer (zumeist einfachen) Wahrscheinlichkeitsfunktion zu beschreiben. Das Kapitel beginnt mit verschiedenen Grundüberlegungen zu dichotomen Itemformaten und ihren Zusammenhängen. Danach erfolgt eine Einführung in die Latent-Trait-Modelle in Abgrenzung zu Latent-Class-Modellen. Das dichotome Rasch-Modell (1PL-Modell) bildet ein sehr grundlegendes Modell der IRT. Hier werden Konzepte der Rasch-Homogenität, Itemcharakteristische Funktionen (IC-Funktionen), Joint Scale, Interpretationen von Item- und Personenparametern, Parameternormierung, Spezifische Objektivität, Parameterschätzung und Modellpassung behandelt. Das 2PL-Modell und 3PL-Modell nach Birnbaum und ihre Eigenschaften werden danach vorgestellt. Abschließend wird ein Ausblick auf weitere IRT-Modelle gegeben.

 

zurück zur Inhaltsübersicht

 

Kapitel 17: Interpretation von Testwerten in der Item-Response-Theorie (IRT)

 

Im vorliegenden Kapitel geht es um die Anwendung von IRT-Modellen im Rahmen der empirischen Bildungsforschung. Bei großen Schulleistungsstudien werden spezifische Vorteile der IRT genutzt, um beispielsweise das Matrix-Sampling von Testaufgaben, die Erstellung paralleler Testformen und die Entwicklung computerisierter adaptiver Tests zu ermöglichen. Ein weiterer wesentlicher Vorteil von IRT-Modellen ist die Möglichkeit der kriteriumsorientierten Interpretation IRT-basierter Testwerte. Diese wird durch die gemeinsame Verortung von Itemschwierigkeiten und Personenfähigkeiten auf einer Joint Scale durchführbar. Bei Gültigkeit des Rasch-Modells können individuelle Testwerte durch ihre Abstände zu Itemschwierigkeiten interpretiert werden. Auf dieser zentralen Eigenschaft von Rasch-Modellen bauen auch sog. „Kompetenzniveaus“ auf. Zur leichteren Interpretation wird die kontinuierliche Skala in Abschnitte (Kompetenzniveaus) unterteilt, die dann als Ganzes kriteriumsorientiert beschrieben werden. In diesem Kapitel werden an einem gemeinsamen Beispiel die Definition und Beschreibung von Kompetenzniveaus anhand eines Vorgehens mit Post-hoc-Analysen der Items und die Verwendung von A-priori-Aufgabenmerkmalen veranschaulicht.

 

zurück zur Inhaltsübersicht

 

Kapitel 18: Überblick über Modelle der Item-Response-Theorie (IRT)

 

Dieses Kapitel widmet sich dem Überblick über einige exemplarische Modelle (vor allem bei polytomen, d. h. mehrkategorialen Itemantworten), die häufig Anwendung finden. Ziel dieses Kapitels ist es aufzuzeigen, dass die vorgestellten Modelle eine gewisse Verwandtschaft zueinander aufweisen und sich durch eine bestimmte Parametrisierung, d. h. die spezifischen Ausgestaltung der sog. „Category Response Functions“, Spezialfälle ergeben, die unterschiedliche Modelltypen definieren. Da in den vergangenen Jahrzehnten eine unüberschaubare Zahl von IRT-Modellen entwickelt wurde, sind die Darstellungen dieses Kapitels nicht erschöpfend, sondern bieten nur einen exemplarischen Überblick über Modelle polytomer Itemantworten (bei eindimensionalen Merkmalen) und über Modelle multidimensionaler Merkmale. Die konkrete Schätzung der Modelle wird hier nicht beschrieben. Diese wird im nachfolgenden Kapitel behandelt.

 

zurück zur Inhaltsübersicht

 

Kapitel 19: Parameterschätzung und Messgenauigkeit in der Item-Response-Theorie (IRT)

 

In der Item-Response-Theorie (IRT) existieren verschiedene Verfahren der Item- und Personenparameterschätzung, wobei sich grundsätzlich Maximum-Likelihood- (ML-) und Bayes’sche Schätzverfahren unterscheiden lassen. Innerhalb beider Verfahrensklassen gibt es wiederum verschiedene Schätzalgorithmen mit unterschiedlichen Eigenschaften. Die wichtigsten werden in diesem Kapitel am Beispiel ein- und zweiparametrischer IRT-Modelle dargestellt. Unter den ML-Verfahren werden die unbedingte, die bedingte und die marginale ML-Schätzung erläutert. Zur Einführung in Bayes’sche Schätzverfahren werden zunächst kurz die Grundlagen der statistischen Inferenz in der Bayes-Statistik dargestellt, wobei näher auf die zentrale Bedeutung der A-priori- und der A-posteriori-Verteilung bei der Parameterschätzung eingegangen wird. Nachfolgend, werden nicht simulationsbasierte und simulationsbasierte Bayes-Schätzer erläutert. Der Metropolis-Hastings-Algorithmus (MH-Algorithmus) und der Gibbs-Sampler werden als Beispiel der zunehmend populären simulationsbasierten Markov-Chain-Monte-Carlo-Verfahren (MCMC-Verfahren) dargestellt. Item- und Personenparameter werden oft (aus gutem Grund) nicht simultan, sondern separat geschätzt. In einem eigenen Abschnitt zur Personenparameterschätzung in der IRT werden der ML-Schätzer, der gewichtete ML-Schätzer, der Expected-a-posteriori- (EAP-), der Maximum-a-posteriori-Schätzer (MAP-Schätzer) und die Plausible Values (VP) als Schätzer für die latente Personenvariable erläutert. Da die Reliabilität in der IRT in Abhängigkeit der zu schätzenden Personenparameter variiert, gibt es streng genommen nicht nur einen Wert der Reliabilität für einen Test. Aus diesem Grund wurden marginale, d. h. durchschnittliche Reliabilitätskoeffizienten als Gütemaß der Messgenauigkeit eines Tests entwickelt. Die Berechnung und Interpretation der marginalen Reliabilitäten für die verschiedenen Personenparameterschätzer bilden den Abschluss dieses Kapitels.

 

zurück zur Inhaltsübersicht

 

Kapitel 20: Computerisiertes adaptives Testen

 

Computerisiertes adaptives Testen ist ein spezielles Vorgehen zur computerbasierten Messung individueller Merkmalsausprägungen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items am vorherigen Antwortverhalten der Testperson orientiert. Der Grundgedanke besteht darin, keine starre Abfolge von Items vorzugeben, sondern nur solche Items, die möglichst viel diagnostische Information über die individuelle Ausprägung des zu messenden Merkmals liefern. Dieses Anliegen wird durch die Spezifikation von sechs elementaren Bausteinen umgesetzt. Es handelt sich dabei um den Itempool, die Art den Test zu beginnen, die Schätzung der individuellen Merkmalsausprägung, die Itemauswahl, die Berücksichtigung nicht statistischer Einschränkungen (z. B. die Kontrolle relativer Anteile vorgegebener Items je Inhaltsfacette des gemessenen Merkmals) und die Art, den Test zu beenden. Für alle Bausteine liegen mehrere Optionen vor, die je nach Anforderung der Testsituation in bestmöglicher Weise miteinander kombiniert werden können. Der Hauptvorteil des computerisierten adaptiven Testens im Vergleich zum nicht adaptiven Testen besteht in einer Messeffizienzsteigerung, die in den meisten Fällen beträchtlich ausfällt. Darüber hinaus sind positive Auswirkungen auf die Validität der adaptiv erhobenen Testergebnisse zu verzeichnen. Um unerwünschte Effekte beim computerisierten adaptiven Testen zu vermeiden, sollte die Funktionsweise eines adaptiven Tests im Rahmen der Instruktion transparent erläutert werden. Die Konstruktion eines computerisierten adaptiven Tests ist aufwendig. Neben der Erstellung und Kalibrierung eines geeigneten Itempools, sind präoperationale Simulationsstudien durchzuführen, sodass ein dem Gegenstand und Einsatzbereich angemessener adaptiver Algorithmus spezifiziert werden kann.

 

zurück zur Inhaltsübersicht

 

Validität und Möglichkeiten ihrer Überprüfung

 

Kapitel 21: Validität von Testwertinterpretationen

 

Das Gütekriterium der Validität ist ein zentrales Qualitätskriterium. Es ist den Gütekriterien Objektivität und Reliabilität übergeordnet. Validität bezieht sich darauf, inwieweit Interpretationen von Testwerten und beabsichtigte Verwendungen von Tests gerechtfertigt sind. Das Verständnis von Validität hat sich in den letzten Jahrzehnten deutlich weiterentwickelt. Während sich im vergangenen Jahrhundert zunächst eine wenig praktikable Vielzahl „verschiedener Validitäten“ herausgebildet hatte, wird Validität inzwischen als einheitliches Qualitätskriterium betrachtet, das Informationen aus verschiedenen Quellen integriert. Zudem wurde Validität früher als Eigenschaft eines Tests betrachtet, heute bezieht sie sich auf die Interpretation von Testwerten. Ein Test kann demnach nicht als solcher valide sein, vielmehr erfordert jede intendierte Testwertinterpretation eine separate Validierung. Im Kontext aktueller internationaler Forschung wird die Validierung von Testwertinterpretationen im Rahmen des sog. „argumentationsbasierten Ansatzes“ beschrieben. Dabei muss zunächst die zu validierende Testwertinterpretation präzise formuliert werden. Dann werden empirische überprüfbare Grundannahmen der Testwertinterpretationen identifiziert. Hierauf wird empirische Evidenz gesammelt, anhand derer die Grundannahmen widerlegt oder vorläufig gestützt werden können. Wichtige Evidenzquellen sind die Testinhalte, die bei der Testbeantwortung ablaufenden kognitiven Prozesse, die interne Struktur der Testdaten und die Beziehungen der Testwerte zu anderen Variablen. Bei der abschließenden zusammenfassenden Bewertung wird eine Testwertinterpretation dann als valide betrachtet, wenn keine der zugrunde liegenden Annahmen widerlegt werden konnte. Die argumentationsbasierte Validierung gleicht theoriegeleiteter und hypothesenbasierter Forschung und erfolgt spezifisch für jede intendierte Testwertinterpretation. Der Abschluss eines Validierungsprozesses hat einen vorläufigen Charakter, da zukünftige Befunde eine Testwertinterpretation hinsichtlich einer oder mehrerer Grundannahmen widerlegen und damit infrage stellen können.

 

zurück zur Inhaltsübersicht

 

Kapitel 22: Latent-Class-Analyse (LCA)

 

Während Latent-Trait-Modelle auf der Annahme beruhen, dass es sich bei dem zu messenden latenten Personenmerkmal um eine quantitative Variable handelt, sind Latent-Class-Modelle immer dann geeignet, wenn das latente Personenmerkmal qualitativer Natur ist (beispielsweise die Zugehörigkeit zu einem bestimmten Persönlichkeitstyp). Mit einer LCA kann die Wahrscheinlichkeit ermittelt werden, mit der eine Person, die auf Items ein Antwortmuster produziert, einer bestimmten latenten Klasse angehört. Die Anzahl der latenten Klassen in der Population ist unbekannt und muss theoriegeleitet vorgegeben oder empirisch über einen Vergleich mehrerer Modelle mit unterschiedlicher Klassenanzahl ermittelt werden. Alle anderen Modellparameter können empirisch aus den Daten geschätzt werden. Im Sinne der Modellannahmen wird Folgendes vorausgesetzt: 1. Die Antwortwahrscheinlichkeiten auf den m Items müssen für alle Personen innerhalb einer latenten Klasse identisch sein, 2. innerhalb einer latenten Klasse muss die lokale stochastische Unabhängigkeit erfüllt sein und 3. die latenten Klassen müssen disjunkt und exhaustiv sein. Die Anwendung einer LCA ist insbesondere dann sinnvoll, wenn 1. das Ziel der Analyse die Klassifikation von Personen ist, 2. es nicht möglich oder sinnvoll ist, über Items hinweg Summenwerte zu bilden, sondern lediglich die Antwortmuster (Profile) auszuwerten, oder 3. das Ziel der Analyse darin besteht, ein bestimmtes typologisches Modell zu testen (z. B. ob die Unterschiede im Antwortverhalten der Testpersonen auf die theoretisch vermuteten Persönlichkeitstypen rückführbar sind). Die Güte eines LCA-Modells kann mithilfe eines Likelihood-Ratio-Tests, eines „klassischen“ χ2-Tests, eines Bootstrap-Verfahrens oder anhand von Informationskriterien beurteilt werden. Einem LCA-Modell können bestimmte Restriktionen (z. B. Fixierungs-, Gleichheits- oder Ordnungsrestriktionen) auferlegt werden. In diesem Fall wird aus der „exploratorischen“ LCA eine „konfirmatorische“ LCA. Im Fall von geschachtelten Modellen („nested models“) kann ein restringiertes Modell eines Likelihood-Ratio-Tests direkt gegen ein unrestringiertes Modell getestet werden.

 

zurück zur Inhaltsübersicht

 

Kapitel 23: Exploratorische Faktorenanalyse (EFA)

 

In diesem Kapitel wird auf die wichtigsten Aspekte bei der Durchführung einer EFA eingegangen. Es wird mit der allgemeinen Modellvorstellung in der Faktorenanalyse begonnen (Fundamentaltheorem), sodann wird die darauf basierende Varianzzerlegung in durch gemeinsame Faktoren erklärte und unerklärte Anteile dargestellt. Anschließend werden die zentralen Begriffe in der EFA eingeführt, d. h. die Eigenwerte der Faktoren sowie die Kommunalität und Spezifität der Items. Die wichtigsten Extraktionsmethoden, d. h. die Hauptachsenanalyse (Principal Factor Analysis, PFA) und Maximum-Likelihood-EFA (ML-EFA), sowie Rotationskriterien (orthogonal vs. oblique) werden diskutiert, bevor auf weitere Aspekte wie die Beurteilung der Modellgüte, alternative Schätzverfahren und die Berechnung von Faktorwerten eingegangen wird.

 

zurück zur Inhaltsübersicht

 

Kapitel 24: Konfirmatorische Faktorenanalyse (CFA)

 

Das Kapitel bietet eine Einführung in die Grundlagen der konfirmatorischen Faktorenanalyse (CFA). Im Rahmen der modernen Testkonstruktion stellt die CFA ein wichtiges Instrument zur Überprüfung der Dimensionalität und damit der faktoriellen Validität eines Tests dar. So können die theoretischen Annahmen eines Modells wie die Anzahl der Faktoren und die Zuordnung der Testitems zu den Faktoren explizit als Hypothesen aufgestellt und getestet werden. In diesem Kapitel werden theoretische Bezüge der CFA zur Klassischen Testtheorie (KTT) hergestellt, praktische Aspekte der Hypothesenbildung, Modellspezifikation und -identifikation behandelt sowie ein kurzer Überblick über Schätzverfahren und Gütekriterien zur Modellevaluation gegeben. Die CFA wird für ausgewählte ein- und mehrdimensionale Modelle an einem empirischen Beispiel vorgestellt. Der Einsatz der CFA zur Überprüfung der Messäquivalenz von Items, die für die Reliabilitätsschätzung von Bedeutung ist, werden ebenso besprochen wie Möglichkeiten des Modellvergleichs, der Modellmodifikation und der Überprüfung der Messinvarianz eines Tests über verschiedene Gruppen oder Messzeitpunkte hinweg.

 

zurück zur Inhaltsübersicht

 

Kapitel 25: Multitrait-Multimethod-Analysen (MTMM-Analysen)

 

Jede Messung setzt sich aus einer systematischen Trait-Methoden-Einheit und einem unsystematischen Fehleranteil zusammen, sodass nicht nur der zu messende Trait, sondern darüber hinaus die verwendete Messmethode als Bestandteil des Messwertes berücksichtigt werden muss. Konstruktvalidität liegt dann vor, wenn einerseits Messungen desselben Konstrukts mit verschiedenen Messmethoden zu einer hohen Übereinstimmung führen (konvergente Validität) und andererseits eine Diskrimination zwischen inhaltlich unterschiedlichen Konstrukten, sowohl innerhalb einer Messmethode als auch zwischen den Methoden, nachgewiesen werden kann (diskriminante Validität). Beim korrelationsbasierten MTMM-Nachweis der Konstruktvalidität werden die Korrelationskoeffizienten in der MTMM-Matrix durch systematische Vergleiche deskriptiv dahingehend beurteilt, ob die Kriterien der konvergenten und der diskriminanten Validität erfüllt sind. Aber erst die konfirmatorische Faktorenanalyse (CFA) macht es möglich, Trait-, Methoden- und unsystematische Messfehleranteile der gemessenen Variablen unabhängig voneinander zu schätzen und die Gültigkeit der zugrunde liegenden Annahmen inferenzstatistisch zu überprüfen. Wird eine der verwendeten Messmethoden als Referenzmethode festgelegt, so können die konvergente und die diskriminante Validität bezogen auf diese gewählte Methode interpretiert werden.

 

zurück zur Inhaltsübersicht

 

Kapitel 26: Latent-State-Trait-Theorie (LST-Theorie)

 

Die Latent-State-Trait-Theorie (LST-Theorie) lässt sich als Erweiterung der Klassischen Testtheorie (KTT) auffassen. Zu mindestens zwei Messgelegenheiten werden Messungen anhand von mindestens zwei Tests, Testhälften oder Items durchgeführt. Bei Gültigkeit der testbaren Modellannahmen erlaubt diese Vorgehensweise eine Varianzdekomposition. Die Gesamtvarianz einer Messung lässt sich zunächst in einen (a) wahren Anteil und (b) einen Messfehleranteil aufteilen. Die wahre Varianz lässt sich wiederum in weitere zwei Bestandteile aufteilen: (a.1) in eine personenspezifische stabile, d. h. zeitlich überdauernde Komponente (z. B. einen Trait als stabile Persönlichkeitsdisposition), (a.2) in eine situationsspezifische, d. h. zur Messgelegenheit gehörige Komponente (die auch die Wechselwirkung von Person und Situation abbildet). Auf Basis dieser Varianzdekomposition lassen sich Kenngrößen quantifizieren (sog. „Koeffizienten“ der LST-Theorie), die in ihrer Summe die Reliabilität der Messung beschreiben. Grundsätzlich lassen sich aus der LST-Theorie verschiedene Modelle ableiten, deren Gültigkeit im Rahmen der konfirmatorischen Faktorenanalyse (CFA) überprüft werden kann. In diesem Kapitel werden das Multistate-Modell, das Multistate-Singletrait-Modell und das Multistate-Multitrait-Modell mit indikatorspezifischen Trait-Faktoren vorgestellt. Diese Modelle werden anhand eines empirischen Beispiels zur Prüfungsangst erläutert, Modellüberprüfungen vorgenommen und die Schätzung der verschiedenen Koeffizienten der LST-Theorie demonstriert.

 

zurück zur Inhaltsübersicht

 

Kapitel 27: Konvergente und diskriminante Validität über die Zeit: Integration von Multitrait-Multimethod-Modellen (MTMM-Modellen) und der Latent-State-Trait-Theorie (LST-Theorie)

 

Ziel dieses Kapitels ist es, zu verdeutlichen, dass Merkmalsausprägungen von Individuen über die Zeit schwanken können, und dass somit auch die konvergente und diskriminante Validität verschiedener Methoden und Konstrukte zeitlichen Veränderungen unterworfen sind. Die Analyse konvergenter und diskriminanter Validität ist Basis jeder diagnostischen Entscheidung. Nur bei gesicherter Qualität der eingesetzten Verfahren können Indikationen für mögliche Interventionen zuverlässig getroffen werden. Besonders bei Kindern, die sich in einem Entwicklungsprozess befinden, aber auch bei Erwachsenen ist es notwendig, die zeitliche Stabilität der gefundenen Testscores zu untersuchen. Nur bei gegebener Stabilität der Messungen kann von einem stabilen Trait ausgegangen werden. Darüber hinaus ist es wichtig, zu analysieren, wie sich die konvergente Validität verschiedener Messmethoden über die Zeit entwickelt. Drei longitudinale multimethodale Modelle für mehrere Traits werden vorgestellt, die es erlauben, die Konvergenz verschiedener Methoden und die diskriminante Validität von Traits und States zu untersuchen. Die empirischen Anwendungen zeigen deutlich, dass implizite Annahmen über die Übereinstimmung verschiedener Methoden prinzipiell überprüft werden müssen.

 

zurück zur Inhaltsübersicht