Homepage von Hermann Schöler - Arbeitsberichte aus dem Forschungsprojekt "Differentialdiagnostik"

Arbeitsberichte aus dem Forschungsprojekt „Differentialdiagnostik"

Hermann Schöler

Bericht Nr. 11

Sprachleistungsmessungen im Schulalter

Ein Überblick

März 2001

Pädagogische Hochschule Heidelberg
Fakultät I - Psychologie in der Fachrichtung Lernbehindertenpädagogik
Keplerstr. 87, D - 69120 Heidelberg
( (06221) 477-426 [-428]
Email: k40@popix.urz.uni-heidelberg.de
Website: http://www.ph-heidelberg.de/wp/schoeler

ISSN 1433-7193

Inhalt

Zusammenfassung

1 Allgemeine Vorbemerkung zu Leistungsmessungen

2 Zur Erfassung und Prüfung von Sprachleistungen
2.1 Die Bedeutsamkeit sprachlicher Fähigkeiten
2.2 Zur Messung sprachlicher Leistungen

3 Spezielle Verfahren
3.1 Allgemeine Sprachentwicklungstests
3.1.1 Psycholinguistischer Entwicklungstest
3.1.2 Heidelberger Sprachentwicklungstest
3.2 Tests für Teilbereiche von Sprachleistungen
3.2.1 Prüfung phonologisch-phonetischer Leistungen
3.2.2 Wortschatztests
3.2.3 Grammatiktests
3.3 Schulleistungstests zur Prüfung sprachlicher Leistungen
3.3.1 Allgemeine Schulleistungstests - Mehrfächertests
3.3.2 Deutsch-Schulleistungstests

4 Kurzer Ausblick

Literatur

Sprachleistungsmessungen im Schulalter - Ein Überblick

Zusammenfassung

*Der Bericht ist in leicht modifizierter Form zur Veröffentlichung im Handbuch „Didaktik der deutschen Sprache" vorgesehen, das von Ursula Bredel, Hartmut Günther, Peter Klotz, Jakob Ossner und Gesa Siebert-Ott herausgegeben wird und 2002 im Schöningh-Verlag in der „Großen Reihe UTB" erscheinen soll.
In einer allgemeinen Vorbemerkung wird auf eine der zentralen und verantwortungsvollen Funktionen von Lehrenden, nämlich die Beurteilung und Bewertung von Leistungen von Lernenden hingewiesen. Anschließend wird die Relevanz sprachlicher Fähigkeiten und die Möglichkeiten ihrer Messungen diskutiert.In einem dritten Teil werden schließlich einzelnen Tests vorgestellt, wobei zwischen allgemeinen Sprachentwicklungstests, Tests für Teilbereiche sprachlicher Leistungen und Schulleistungstests unterschieden wird.
1 Allgemeine Vorbemerkungen zu Leistungsmessungen

Leistungsbewertungen (bzw. Leistungsbeurteilungen oder -messungen, die Begriffe werden im Folgenden synonym verwendet) - erfolgen sie nun über allgemeine subjektive Einschätzungen auf irgendeiner impliziten oder expliziten Skala, über informelle Verfahren (wie Prüfungsarbeiten) oder standardisierte Verfahren (wie Tests) - gehören zum Alltagshandeln von Lehrenden. Eine der zentralen und verantwortungsvollsten Funktionen von Lehrerinnen und Lehrern - ob gewollt oder nicht gewollt - besteht dementsprechend auch darin, Leistungen von Schülerinnen und Schülern zu beurteilen. "Seit es Schulen gibt, werden Schulleistungen gemessen. Schulleistungsmessungen haben also eine lange Tradition, die zwar von vielen Reformpädagogen immer wieder in Frage gestellt und von Psychometrikern wegen der Fehleranfälligkeit oft kritisiert wurde, aber für Lehrer, Eltern und Schüler eine manchmal angenehme, manchmal unangenehme Selbstverständlichkeit war und blieb" (Weinert, 2001, S. 5).
Diese Beurteilungen sind nicht nur aktuell auf eine bestimmte schulische Leistung bezogen, beispielsweise einen einzelnen Schulaufsatz, eine einzelne Klassenarbeit, sondern sie entscheiden letztlich auch über die weitere schulische Laufbahn und die Nutzung von Bildungschancen der einzelnen Schülerinnen und Schüler. In diesem Zusammenhang fordert Tent, dass die Zensurengebung notwendig ergänzt werden muss und schreibt: "Weitreichende Entscheidungen ohne das Korrektiv valider Tests zu treffen, ist unverantwortlich" (1998, S. 584). Da diesen Beurteilungen also ein bedeutsamer Stellenwert zukommt, ist es nur allzu verständlich, dass sie möglichst zuverlässig, gültig und wenig fehlerbehaftet sein sollen. Wie schwierig es ist, solche Gütekriterien wie Objektivität, Reliabilität und Validität (zu Testgütekriterien und Testtheorien siehe Lienert & Raatz, 1998; Rost, 1996) von Beurteilungen oder Messungen zu verwirklichen, zeigen viele Studien, in denen beispielsweise die "Fragwürdigkeit der Zensurengebung" (Ingenkamp, 1971) untersucht wurde. Der Wunsch, etwas über die Leistungsmöglichkeiten bzw. Kompetenzen eines Schülers einmal unabhängig vom jeweiligen Lehrer und Klassenverband, sondern auf dem Hintergrund eines Vergleiches mit der durchschnittlichen Leistungsfähigkeit in einem bestimmten Alter oder einer anders definierten Bezugsgruppe, ist verständlich und sinnvoll, um beispielsweise die individuelle Lehrerbeurteilung auf "objektivere" Füße zu stellen. "Weder für Schulleiter noch für die einzelnen Lehrer ist es leicht, sich ein realistisches Bild über den Leistungsstand ihrer Schule oder ihrer Klasse zu machen. Allein vergleichende Leistungsmessungen sind geeignet, diese Defizite in pädagogischen Rückkoppelungsprozessen abzubauen und die subjektiven Erfahrungen der Betroffenen und Beteiligten mit intersubjektiv gültigen Ergebnissen aus vergleichbaren Einrichtungen zu konfrontieren" (Weinert, 2001, S. 364).
Vor dem Hintergrund der problematischen bzw. problematisierten Lehrerbeurteilungen wurden Alternativen gesucht und in der Entwicklung von so genannten standardisierten Verfahren zur Leistungsbeurteilung gefunden, die die zahlreichen informellen Verfahren hinsichtlich dieser Gütekriterien übertreffen und bezüglich der Leistungsbeurteilungen somit ein objektiveres, reliableres und valideres Bild der jeweils zu beurteilenden Leistungen liefern sollten.
Schulleistungstests hatten Konjunktur, eine Vielzahl von Verfahren in allen Schulleistungsbereichen und für alle Klassenstufen wurde entwickelt. Vor allem das Deutsche Institut für Internationale Pädagogische Forschung in Frankfurt sowie Ingenkamp und seine Mitarbeiter entwickelten zahlreiche Schulleistungstests (zu Überblicken siehe Borchert, Knopf-Jerchow & Dahbashi, 1991, Kap. 2; Brickenkamp, 1997, Kap. 1.4; Lukesch, 1998, Kap. 14; siehe auch Ingenkamp, 1985a). Trotz kontinuierlicher Zunahme der Testproduktion bis 1990 "ist der Verkauf der Verfahren (und somit deren Anwendung) seit Mitte der 70er Jahre stark zurückgegangen: 1990 machte der Testumsatz gerade noch 10% des Umsatzes von 1974 aus. Welche Gründe auch immer für diesen Rückgang verantwortlich zu machen sind - irrationale Testaversionen (Ingenkamp 1989) oder mangelnde Qualität der Verfahren -, den Schulleistungstests kommt ein wichtiger Stellenwert bei Fragen der Objektivierung von Wissen zu" (Lukesch, 1998, S. 537).
Anfang/Mitte der 70er Jahre waren Tests und damit auch Schulleistungstests grundsätzlich ins Gerede gekommen. "Diese Kritik war im wesentlichen Gesellschaftskritik, die sich stellvertretend gegen diese selten eingesetzte Form der Leistungskontrolle richtete und die für den Bildungsweg immer noch entscheidende Formen der traditionellen Leistungsbeurteilung und auch die numerus-clausus-Regelung weithin aussparte" (Ingenkamp, 1985a, S. 28). Die bis heute anhaltende Diskussion über die Anwendungsmöglichkeiten und die Relevanz standardisierter Verfahren (Tests) für Leistungsmessungen gipfelte bis hin zu Aussagen, dass man "Menschen nicht messen" könne und man durch Definitionen, Klassifikationen, Zuordnungen schon inhuman, weil "ausgrenzend" agieren würde (vgl. beispielsweise Fornefeld, 1995). Bei aller berechtigter Kritik sowohl an den testtheoretischen Grundlagen als auch den Inhalten vieler Tests drängt sich sehr oft der Eindruck auf, dass sich viel der Kritik zum einen auf falsche Anwendungen von Tests bezieht, was den Tests und Testkonstrukteuren nicht anzulasten ist, und zum anderen wohl aus ungenügender methodischer Kenntnis oder aus ideologischen Gründen resultiert (vgl. dazu Holtz & Schöler, 1998). Viele Kritik kam aus der Sonderpädagogik, die - wie dies Ingenkamp in einer Buchbesprechung formuliert - "vom Trauma jener Sonderschul-Ausleseverfahren beeinflußt ist, in denen mit geringer Kompetenz, unzulänglichem Instrumentarium und unzureichender Zeit schwerwiegende und kaum revidierbare Entscheidungen gefällt wurden" (1985b, S. 196).
Zwei Monate vor seinem plötzlichen Tod hat Weinert die Diskussion um die Leistungsmessung zutreffend und prägnant zusammengefasst, weshalb der Verfasser, auch aus Respekt vor der Lebensleistung von Weinert, diesen ausführlich zitieren möchte:
Fatalerweise ist die vergleichende Leistungsmessung - mehr noch als das Leistungsprinzip als solches - in die bewertende und pauschalierende pädagogische "Entweder-Oder-Klassifikation" geraten, Für manche, die sich selbst als humanistisch und idealistisch oder aber als anti-bürgerlich und fortschritts-skeptisch verstehen, sind Leistungen, Leistungsanforderungen und Leistungsmessungen kinderfeindliche, antireformpädagogische, ökonomisch instrumentalisierbare Kontrollmechanismen zur Disziplinierung von Schulen, Lehrern und Schülern. Leistungen und ihre methodisch zuverlässige Erfassung werden entweder offen als konservative Relikte einer veralteten Pädagogik abgelehnt, oder es werden Leistungsmessungen gefordert, die weder Leistungen enthalten noch Messungen darstellen. Solche Behauptungen werden von leistungsorientiert eingestellten Pädagogen und Bürgern als romantisch, idealistisch oder ideologisch kritisiert.
Für sie bedeutet Leistung die Manifestation eines menschlichen Grundbedürfnisses, eine Möglichkeit der individuellen Selbstverwirklichung durch Erfahrung eigener Selbstwirksamkeit; Leistungsanforderungen werden als individuelle Herausforderungen und als notwendige Bedingungen des sozio-kulturellen Fortschritts verstanden; Leistungsmessungen und die damit verbundenen Möglichkeiten des Leistungsvergleichs zwischen verschiedenen Schülern, Klassen, Schulen, Schulformen und Schulsystemen stellen für sie wichtige Bedingungen der Möglichkeit zur rationalen Begründung bildungspolitischer Entscheidungen, zur Steuerung der Schulentwicklung, zur Verbesserung der Schulqualität und zur reflexiven Vergewisserung des Verhältnisses von Anspruch und Wirklichkeit bei Politikern, Lehrern, Eltern und Schülern dar.
Beide Positionen verfügen über hinreichend viele gesellschaftlich anerkannte Argumente zur Begründung, Rechtfertigung und auch Immunisierung der eigenen Auffassung und zur Infragestellung der jeweils anderen Perspektive. Der Streit kann deshalb mit Unterstellungen über die "eigentlichen Absichten", die "unausgesprochenen Interessen" und die zu befürchtenden langfristigen "pädagogischen Nebeneffekte" geführt werden. Hinter solchen Schwarz-Weiß-Diskussionsstrategien verflüchtigen sich leicht die tatsächlichen Ziele, der wahrscheinliche Nutzen und die möglichen Gefahren bestimmter Leistungsanforderungen und Leistungsmessungen.
Es gibt manche Anzeichen dafür, dass sich die unterschiedlichen Einschätzungen gegenüber vergleichenden Leistungsmessungen in Schulen seit kurzem sogar verstärkt haben. Betonen die einen immer nachdrücklicher die reformpädagogischen Ideen einer "guten entschulten Kindheit" (Gardner, 1993), die Vorteile einer stressfreien Persönlichkeitsentwicklung unter anregenden schulischen Bedingungen, die Autonomie des Lernens in kleinen Gemeinschaften von Lernenden als Grundlage einer "höheren" Form von Leistungstüchtigkeit (obwohl oder gerade weil bestimmte Leistungsdispositionen nicht erworben werden), so beschwören die anderen wachsende globale wirtschaftliche Konkurrenzkämpfe, die Notwendigkeit des schulischen Leistungsprinzips für das Leben in einer Wissensgesellschaft und die Rolle des kollektiven wie des individuellen Leistungsniveaus für das persönliche wie für das gesellschaftliche Wohlergehen. (Weinert, 2001, S. 18f.)
Die schulische Leistungsbeurteilung ist also nach wie vor in der Diskussion - und sie wird es wohl auch immer bleiben, da keine Methode denkbar ist, mit der eine 100%ige Zuverlässigkeit erreichbar sein würde, und auch keine Gesellschaft, in der keine Diskussion der Leistungsbewertungen stattfindet. Dennoch sind die Versuche sinnvoll, die Beurteilungsmethoden immer wieder zur Diskussion und Disposition zu stellen, um neben der notwendigen Anpassung an sich verändernde Normen auch zu einer Weiterentwicklung nach dem jeweiligen Stand der Theorie in einem entsprechenden Entwicklungsbereich beizutragen - wie dem hier zur Diskussion stehenden Sprachleistungsbereich. Obwohl in vielen Leistungsbereichen eine Reihe von Verfahren zur Verfügung stehen, darf dies "jedoch nicht darüber hinwegtäuschen, dass nach wie vor ein hoher Bedarf an neuen, innovativen Verfahren besteht. [...] Vieles ist veraltet oder genügt aus anderen Gründen nicht den Ansprüchen einer verantwortungsbewußten Praxis" (Langfeldt & Tent, 1999, S. 85). Da Leistungsmessungen und faire Leistungsvergleiche "unverzichtbare Komponenten der schulischen Qualitätsentwicklung" (Weinert, 2001, S. 364) sind, sollten diese auch jeweils methodisch und inhaltlich angemessen sein.
Auch für die Einzelfalldiagnostik gerade im Bereich der Sprachleistungen sind eine fundierte, explizite methodische Vorgehensweise und intersubjektiv nachvollziehbare Urteile unverzichtbar, will man verantwortungsvoll diagnostizieren und fördern. So hat auch die Diskussion um die "Ganzheitlichkeit" oder die "Subjektorientiertheit" seltsame Blüten in die diagnostische Landschaft gesetzt und fundamentale Missverständnisse offenbart. In der Diagnostik (wie im übrigen in jeder anderen Lebenssituation auch) kann man nur Ausschnitte aus der Ganzheit betrachten, auf die aufgrund einer bestimmten Fragestellung fokussiert werden muss. Auch systemisches Denken und Urteilen setzt zwingend voraus, dass man an bestimmten Punkten ansetzen muss. Eine nomothetisch orientierte diagnostische Vorgehensweise impliziert nun gar nicht, dass man das Gegenüber nicht als Subjekt oder nicht als Mensch betrachten würde. "Ganzheitliche" Ansätze, die das Erkennen des Subjekts in den Mittelpunkt des diagnostischen Prozesses stellen, können meist den Ansprüchen an eine Differenzialdiagnostik und damit einer angemessenen Förderung im Sinne der Kinder nicht genügen (Schöler, 1999, S. 23ff.).

2 Zur Erfassung und Prüfung von Sprachleistungen

2.1 Die Bedeutsamkeit sprachlicher Fähigkeiten

Die sprachliche Fähigkeit ist ein Bereich der menschlichen Entwicklung, die sicherlich zu den hervorragenden Leistungsbereichen gehört - und zwar sowohl phylo- und ontogenetisch wie auch aktualgenetisch. Sie ist nicht nur sofort für Kommunikationspartner beobachtbar und sozusagen ohrenfällig, wenn etwas nicht stimmt, sondern sie scheint auch mit einer anderen Leistungsfähigkeit sehr eng in der Entwicklung verwoben, dem Bereich des Denkens, der Kognition (vgl. dazu Weinert, 2000). Die Ausbildung der Sprachfunktion, phylogenetisch eine der jüngsten Funktionen, bedeutete auch einen Riesenschritt für den Menschen, der sich dadurch aus seiner Gebundenheit an das Hier und Jetzt lösen und viele Errungenschaften seiner Denktätigkeiten tradieren konnte. Aktualgenetisch positioniert die sprachliche Leistungsfähigkeit sehr häufig eine Person im gesellschaftlichen Kontext. Wer sich beispielsweise sprachlich gut ausdrücken kann, wird meist auch als insgesamt leistungsfähiger eingeschätzt.
Auf diesem Hintergrund ist es sehr verständlich, dass sich Eltern beunruhigt zeigen, wenn das Kind beispielsweise verspätet beginnt zu sprechen. Ein Übriges tun in den letzten Jahren die Horror-Meldungen, die in den Medien verbreitet werden und die besagen, dass in den letzten Jahren ein dramatischer Anstieg an Sprachentwicklungsstörungen von bis zu 30% einer Jahrgangsstufe zu beobachten sei. Auch wenn diese Zahlen sicherlich weit überzogen sind und vor allem die diskutierten Verursachungsfaktoren (wie erhöhter Medienkonsum, Vernachlässigung durch die engen Bezugspersonen) sich als wenig stichhaltig erweisen (vgl. dazu Schöler, 1999), so ist doch davon auszugehen, dass ein nicht unbeträchtlicher Anteil an Kindern mit Auffälligkeiten bei der Sprech- und Sprachentwicklung existiert. Auf dem Hintergrund der oben angesprochenen Relevanz sprachlicher Fähigkeiten für andere Entwicklungsbereiche sowie für die soziale und berufliche Stellung ist eine Früherkennung von Sprachentwicklungsauffälligkeiten und die Einleitung entsprechender Fördermaßnahmen zu deren Minderung angesagt. Dies gilt vor allem auch deshalb, weil in der Grundschule bei einem beträchtlichen Teil der Kinder mit Sprachentwicklungsauffälligkeiten (speziell der sogenannten spezifischen Sprachentwicklungsstörung, vgl. dazu Schöler, Fromm & Kany, 1998) - man geht von mindestens 50-60% aus - Schriftspracherwerbsprobleme auftreten.

2.2 Zur Messung sprachlicher Leistungen

Wie sieht es mit den diagnostischen Möglichkeiten für die Prüfung des Sprachentwicklungsstandes bzw. sprachlicher Leistungen aus? Bis Anfang/Mitte der 60er Jahre gab es - zumindest gilt dies für den deutschsprachigen Raum - so gut wie keine spezifischen sprachdiagnostischen Verfahren. Teilaspekte sprachlicher Leistungen wurden und werden in vielen Intelligenztests miterfasst, auf die in diesem Kontext nicht weiter eingegangen wird.
Ausgelöst durch die neuen psycholinguistischen Theorien begann das Interesse an Sprache und sprachlicher Entwicklung dann rapide zu steigen. Eine zweite Quelle für das Interesse, speziell auch an Fragen der Sprachentwicklung und ihrer Förderung, entstand durch den sogenannten Sputnik-Schock, der den „Westen" um seine Vorherrschaft bangen ließ. Die kindliche Entwicklung stand nun im Blickpunkt und sollte mit vielen Ressourcen sowie mit viel Eifer und Anstrengung auch in Leistungsbereichen wie Sprache und Denken frühzeitig gefördert werden (vgl. die head-start-Programme in den U.S.A.). Es entstanden Programme u. a. zur vorschulischen Förderung des Schriftspracherwerbs und auch zur Förderung der Sprachkompetenz. In der BRD wurde ein umfangreiches Vorschulprogramm mit dem schönen Akronym CIEL (Curriculum der Institutionalisierten Elementarerziehung, Bennwitz & Weinert, 1973) etabliert, in dessen Rahmen auch der Heidelberger Sprachentwicklungstest (Grimm & Schöler, 1978) als Evaluationsinstrument für Sprachcurricula entstand.
Man sieht sich einem wenig einheitlichen Konstrukt Sprache gegenüber und folglich sehr unterschiedlichen Operationalisierungen von sprachlicher Leistung. Zu sprachlichen Leistungen zählen das Verstehen und Produzieren von muttersprachlichen Phonemen, die Produktion von grammatisch-wohlgeformten Äußerungen, ein angemessener Wortschatz, eine situationsangemessene Verwendung von sprachlichen Formen. Betrachtet man diese Leistungsbereiche im Detail, so wird gleich problematisch, wie man Leistungen der einzelnen Bereiche messbar und bewertbar gestalten kann. Wann ist eine Äußerung grammatikalisch wohlgeformt, wann ist ein Laut muttersprachlich angemessen produziert, wann gilt eine Äußerung als situationsangemessen? Wieviel einfacher scheint doch die Leistung in solchen Bereichen wie Rechtschreiben und Lesen zu sein! Auf dem Hintergrund vorgegebener Wörter oder Sätze kann man beurteilen, wie gut eine Reproduktion beim Schreiben oder beim Lesen gelingt. Vielleicht liegt in der Schwierigkeit angemessener Operationalisierungen begründet, dass die Zahl an Tests für die Erfassung des allgemeinen Sprachentwicklungsstandes oder einzelner Teilbereiche der Sprache nach wie vor sehr begrenzt ist.
Die Betrachtung der üblicherweise unterschiedenen Ebenen sprachlicher Leistungen wie Phonologie, Morphologie, Syntax, Semantik und Pragmatik ist im schulischen Kontext verständlicherweise zumeist auf die Betrachtung des Schriftspracherwerbs und seiner Probleme wie Rechtschreib- und Leseschwierigkeiten begrenzt. Für die Prüfung der Lese- und (Recht-)Schreibleistung findet sich folgerichtig auch eine Vielzahl einzelner Leistungstests. Daneben ist in jüngster Zeit die phonologische Bewusstheit in den Fokus des Forschungsinteresses gerückt. Defizite in diesem Bereich wurden als Bedingungsfaktoren für Lese- und Rechtschreibprobleme erkannt (vgl. dazu u. a. Hasselhorn, Schneider & Marx, 2000). Das phonologische Arbeitsgedächtnis bzw. die sogenannte phonetisch-phonologische Schleife als ein Hilfssystem des Arbeitsgedächtnisses (vgl. dazu Gathercole & Baddeley, 1993) spielen sowohl bei der Sprach- wie auch der Schriftsprachentwicklung eine bedeutsame Rolle (Hasselhorn & Werner, 2000). Auf diese Leistungsbereiche wird im Rahmen dieses Berichts nicht eingegangen.
Neben den Leistungen in den oben unterschiedenen sprachlichen Bereichen lassen sich die sprachlichen Leistungen auch in Sprachwissen (know that, auch als metasprachliches Wissen bezeichnet, u. a. Andresen, 1985; Schöler, 1987) und Sprachkönnen (know how) differenzieren (Herrmann & Grabowski, 1994), eine Unterscheidung, die allerdings quer zu den obigen Ebenen liegen dürfte, da auf nahezu allen Ebenen zwischen sprachlichen und metasprachlichen Leistungen (zumindest ab einem bestimmten Entwicklungsstand) differenziert werden könnte. Sowohl neuropsychologische Untersuchungen (Friederici & Hahne, 2000) als auch verhaltenspsychologische Studien (u. a. Karmiloff-Smith, 1979; Schöler, 1982) legen nahe, dass in der mittleren Kindheit, sehr häufig mit dem Schuleintrittsalter korrespondierend, eine Veränderung der Sprachverarbeitung stattfindet, die darauf hinweist, dass nun zu der automatisierten Sprachverarbeitung (dem Sprachkönnen) eine neue Funktion hinzukommt, die eine kontrollierte Sprachverarbeitung ermöglicht und metasprachliches Wissen, Sprachwissen auf- bzw. ausbaut. Dem Kind wird möglich, Sprache als einen formalen Problembereich für sich ("formal problem space per se", Karmiloff-Smith, 1979) zu betrachten, losgelöst aus dem Hier und Jetzt. Das Kind kann Sprache aus der Einbindung in Situationen lösen und lernt, sie als formales System zu analysieren. Sprachliches Können und sprachliches Wissen oder auch automatisierte und kontrollierte Sprachverarbeitung sind in vielen Aufgabenstellungen und Testverfahren konfundiert.

3 Spezielle Verfahren

Die Verfahren und Tests im Bereich der Diagnostik von Sprachleistungen sollen nach dem Hauptanwendungsbereich zunächst einmal grob in zwei Kategorien unterteilt werden: (1) Individualtests zur Differenzialdiagnostik bei Sprachauffälligkeiten und (2) Gruppentests zur Prüfung schulischer Sprachleistungen.
(1) Diagnostika, mit denen für spezifische Auffälligkeiten in sprachlichen Leistungsbereichen detailliertere Hypothesen über Bedingungsgefüge für eben diese Auffälligkeiten generiert und geprüft werden sollen, sind als Einzeltests konzipiert. Sprachentwicklungsauffälligkeiten bedürfen professioneller individueller Diagnostik und Therapie. Sie sollte daher in der Regel in den Händen der entsprechenden Experten der beteiligten Disziplinen (Logopädie, Sprachheilpädagogik, Psychologie, Linguistik) verbleiben. Langjährige Erfahrungen in der Logopädie-Ausbildung veranlassen den Verfasser auf einen Umstand bei der Anwendung von Diagnostika hinzuweisen: Ein sachgerechter Einsatz von Diagnostika erfordert in der Regel nicht nur theoretische Kenntnisse über die Zielsetzungen der einzelnen Aufgaben, sondern vor allem auch eine in vivo-Einübung in die Handhabung und Durchführung solcher Tests. Ansonsten ist im Ernstfall, wenn entsprechende Schlussfolgerungen bezüglich Leistungsstand und zu ergreifender Maßnahmen gezogen werden sollen, nicht gewährleistet, dass diese Diagnostika ihrer Zielsetzung entsprechend angemessen eingesetzt werden können.
(2) Diagnostika, die vorwiegend im schulischen Kontext angewandt werden, können sowohl bei der Überprüfung individueller Leistungsfähigkeiten in bezug auf schulische Anforderungen als auch der vergleichenden Leistungsüberprüfung von Schulklassen dienlich sein. Sprachleistungsprüfungen als Einzelfallmessungen sind im schulischen Kontext schwierig handhabbar, sie sind nur zeit- und personalintensiv durchführbar und im Rahmen von Gruppenüberprüfungen (wie Schulklassen) nicht oder zumindest nicht zeitökonomisch einsetzbar.
Des Weiteren lassen sich die Verfahren nach ihrem Geltungsanspruch unterscheiden: (a) Einige Tests beanspruchen, die sprachliche Leistungsfähigkeit bzw. den Sprachentwicklungsstand eher umfassend zu prüfen, (b) andere Tests prüfen lediglich spezifische Teilbereiche wie Wortschatz, Grammatik oder Lautbildung.
Im Folgenden werden zunächst Tests vorgestellt, die den allgemeinen Sprachentwicklungsstand erfassen sollen, anschließend werden Verfahren, die sprachliche Teilleistungen prüfen, und abschließend werden solche Schulleistungstests vorgestellt, in denen ebenfalls Aufgaben zur Prüfung sprachlicher Leistungen enthalten sind. Diese Unterscheidung nach den Hauptanwendungsfeldern (Sprachleistungstests in der Einzelfalldiagnostik und Schulleistungstests mit Schwerpunkten in Sprachleistungen) ist allerdings nicht durchgängig einhaltbar. Es bleibt anzumerken, dass im Rahmen dieses Artikels nicht alle vorhandenen Testverfahren vorgestellt werden können, sondern jeweils eine Auswahl getroffen werden musste. Empfehlenswerte, relativ aktuelle Überblicke über psychologische und pädagogische Tests liegen mit Brickenkamp (1997) und Lukesch (1998) vor.

3.1 Allgemeine Sprachentwicklungstests

Grimm titulierte 1978 den Sprachtest als "ein Stiefkind der Diagnostik". Vor dem Hintergrund der Relevanz sprachlicher Fähigkeiten für die Persönlichkeitsentwicklung und für schulische und außerschulische Leistungen erstaunte damals die geringe Zahl an diagnostischen Verfahren, um frühzeitig Entwicklungsprobleme in diesem Bereich erkennen und Fördermaßnahmen initiieren zu können. In der Zwischenzeit ist es eine gesicherte Erkenntnis, dass ein großer Teil derjenigen Kinder, die im Vorschulalter Probleme beim Lernen ihrer Muttersprache haben, in der Schule ebenfalls Probleme mit dem Schriftspracherwerb zeigen (vgl. dazu Hasselhorn et al., 2000; Schöler et al., 1998). Hat sich die von Grimm beschriebene "Stiefkind"-Situation in den letzten zwei Jahrzehnten entscheidend geändert? In ihrem Beitrag werden u. a. drei allgemeine Sprachentwicklungstests beschrieben, die damals zur Verfügung standen: (a) der Psycholinguistische Entwicklungstest PET (Angermaier, 1974), (b) der Landauer Sprachentwicklungstest für Vorschulkinder LSV (Götte, 1976) und (c) der Heidelberger Sprachentwicklungstest H-S-E-T (Grimm & Schöler, 1978). Schaut man sich den heutigen Markt an, so ist keine nennenswerte Vermehrung dieser Verfahren festzustellen. Im Bereich der Theorieentwicklung haben dagegen eine Reihe von tiefgreifenden Änderungen stattgefunden. An dieser Stelle sei nur auf die sich zum Teil ausschließenden Positionen des Konnektionismus (auch als rationaler Konstruktivismus bezeichnet; siehe u. a. Elman, Bates, Johnson, Karmiloff-Smith, Parisi & Plunkett, 1996; MacWhinney 1999) und des Nativismus (u. a. Pinker, 1996) verwiesen. Geht man davon aus, dass diagnostischen Verfahren eine Theorie des zu prüfenden Gegenstandsbereiches zugrunde liegen sollte - bei entwicklungsdiagnostischen Verfahren ist eine Entwicklungstheorie sogar unabdingbar (vgl. Filipp & Doenges, 1983) -, dann überrascht, dass sich im Bereich der Entwicklung diagnostischer Instrumente für die Prüfung von Sprachleistungen so wenig getan hat (siehe hier aber die oben diskutierte prinzipielle Ablehnung von Tests, die zu einer Stagnation geführt haben könnte; vgl. dazu Schöler, 1999).
Gerade im hier zur Diskussion stehenden Schulalter werden zur Feststellung des allgemeinen Sprachentwicklungsstandes - mangels Alternativen - vor allem die beiden Verfahren PET und H-S-E-T eingesetzt. Es sind zwar einige Verfahren hinzugekommen (z. B. der Psycholinguistische Sprachverständnis- und Sprachentwicklungstest PSST (Wettstein, 1995), der vorwiegend im schweizerischen Raum angewendet wird), aber diese Verfahren sind zum einen auf den Vorschulbereich (z. B. Kindersprachtest für das Vorschulalter KISTE, Häuser, Kasielke & Scheidereiter, 1994) begrenzt, zum anderen sind sie darüber hinaus nur als Screening-Verfahren (z. B. Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen SEV, Heinemann & Höpfner, 1993) konzipiert und erfassen in der Regel nur Teilbereiche der Sprachleistungen. Ist dies darauf zurückzuführen, dass diese Verfahren so umfassend und hervorragend konzipiert waren, dass sie die Entwicklung anderer Verfahren überflüssig gemacht haben? Sind die Normierungen dieser Verfahren heute noch gültig, so dass entsprechende Adaptationen nicht erforderlich sind? Da PET und H-S-E-T nach wie vor zu den am häufigsten in der Diagnostik von Sprachentwicklungsstörungen eingesetzten Verfahren zählen, wie in einer Befragung festgestellt werden konnte (Schöler, Häring & Schakib-Ekbatan, 1996), sollen diese beiden Verfahren hier vorgestellt und diskutiert werden.

3.1.1 Psycholinguistischer Entwicklungstest

Der Psycholinguistische Entwicklungstest PET (Angermaier, 1974) ist eine deutsche Version des Illinois Test of Psycholinguistic Abilities ITPA (Kirk, McCarthy & Kirk, 1968). Er basiert auf dem Kommunikationsmodell von Osgood (1957), in dem kognitiv-kommunikative Funktionen (rezeptiv, verarbeitend und expressiv), Informationskanäle (auditiv-vokal, visuell-motorisch) und das Niveau des funktionellen Ablaufs (automatisch vs. symbolisch repräsentiert) differenziert werden. Die folgenden zwölf Untertests repräsentieren Kombinationen dieser drei Dimensionen: Wortverständnis WV; Bilder deuten BD; Sätze ergänzen SE; Bilder zuordnen BZ; Gegenstände beschreiben GB; Gegenstände handhaben GH; Grammatik-Test GT; Wörter ergänzen WE; Laute verbinden LV; Objekte finden OF; Zahlenfolgen-Gedächtnis ZFG und Symbolfolgen-Gedächtnis SFG. Sprachliche Leistungen im weitesten Sinne werden in den Untertests WV (Fragen müssen mit ja oder nein beantwortet werden wie "Können Berge niesen?" oder "Kann man einen Kreis zuspitzen?"), SE (Sätze müssen ergänzt werden wie "Ein Fuß ist dick, ein Bleistift ist ..." oder "Wasser gefriert, Eis ..."), GB (Vier Gegenstände: Ball, Klötzchen, Briefumschlag, Knopf müssen ausführlich beschrieben werden), GT (verschiedene morphologische Strukturformen, wie Plural- und Steigerungsformen, Kasus, Partizipien, Reflexivpronomen müssen bei Vorlage entsprechender Bilder produziert werden wie "Das ist eine Kamera, das sind zwei ...", "Jedes Kind hat einen Ball. Das ist ihrer; und das ist ..." oder "Die Sonne geht auf, jetzt ist sie ..."), WE (unter Auslassung von Lauten vorgegebene Wörter müssen ergänzt werden wie "Limo - ade" oder "- ei - aschi - e") und LV (sinnvolle und sinnlose Wörter müssen aus isoliert vorgesprochenen Lauten als Wörter erkannt und produziert werden, z. B. "Sch-n-ee" oder "t-a-p-i-k").
Altersnormen für den Bereich von drei bis zehn Jahren liegen in Form von Prozenträngen und T-Werten, jeweils für Quartalsalterstufen für Jungen und Mädchen vor.
Der PET wurde in erster Linie zur Erfassung von Lernstörungen entwickelt und dient als differenzialdiagnostischer Ausgangspunkt zur Gestaltung eines Trainingsprogrammes bei Lernschwierigkeiten, das auf jedes Kind spezifisch abgestimmt werden kann (siehe Psycholinguistisches Sprachförderungsprogramm, Kirk & Kirk, 1976).
Die Testbatterie erweist sich als ausreichend objektiv und reliabel, Schätzungen der internen Konsistenz der Untertests streuen zwischen a =.59 und a = .93. Die einzelnen Untertests interkorrelieren positiv und sehr schwach, bei einer faktorenanalytischen Studie wurden vier Faktoren extrahiert, die insgesamt 60 Prozent der Gesamtvarianz aufklären und die wie folgt interpretiert werden: Faktor 1: Akustisch-sprachliche Automatik im Sinn phonematischer Diskrimination (hohe Ladungen von WE und LV); Faktor 2: Kommunikationsniveau (Ladungen von GT, SE, WV und ZFG); Faktor 3: Sprachlich-gestische Ausdrucksfähigkeit (Ladungen von GH und GB); Faktor 4: Visuelles Verständnis und Wahrnehmungsschnelligkeit (Ladungen von OF und BZ). In einer anderen Studie wurden Extremgruppen in Hinblick auf Rechtschreibleistungen gebildet, wobei sich der PET als valide für die Differenzialdiagnose zwischen diesen Gruppen von rechtschreibschwachen und rechtschreibguten Schülern erwies, denn fünf Untertests trennten beide Gruppen diskriminanzanalytisch signifikant. "Jedoch fehlen auch hier theoretische Erörterungen; die Tatsache, daß fünf beliebige von insgesamt zwölf Untertests zwischen diesen Gruppen diskriminieren, reicht als Hinweis auf den PET als "valides Diagnostikum" keineswegs aus. [...] Die kritische Frage danach, was der PET eigentlich mißt und in welcher Weise er Beziehungen zu dem Osgood'schen Kommunikationsmodell aufweist, bleibt trotz weiterer Studien [...] unbeantwortet" (Filipp & Doenges, 1983, S. 288). Kanonische Korrelationen zeigen, dass der PET mit dem Hamburg Wechsler Intelligenztest für Kinder HAWIK (Hardesty & Priester, 1963) bedeutsamere Überlappungen aufweist als mit dem H-S-E-T (Eberle, Holtz & Schöler, 1982). Der PET kann nach allem nicht als Sprachtest im engeren Sinne verstanden werden, sondern eher als ein Intelligenztest mit starken verbalen Anteilen.

3.1.2 Heidelberger Sprachentwicklungstest

Der Heidelberger Sprachentwicklungstest H-S-E-T (Grimm & Schöler, 1978; 1991; siehe auch 1985) stellt "das am sorgfältigsten konstruierte und theoretisch bestbegründete Instrument dar. Die umfassenden theoretischen Vorarbeiten der Testautoren zielten darauf ab, jene Prinzipien des Spracherwerbs bzw. der Sprachentwicklung zu formulieren, die späterhin im Rahmen der diagnostischen Erfassung der Sprachentwicklung Berücksichtigung finden müssen" (Filipp & Doenges, 1983, S. 285). Unterschieden werden die sprachlich-linguistische und die sprachlich-pragmatische Kompetenz, die sich wechselseitig beeinflussen. Im Altersbereich von drei bis neun Jahren soll der Entwicklungsstandes sprachlicher Fähigkeiten ermittelt werden. Der H-S-E-T enthält dreizehn Untertests, die auf die sprachlichen Operationseinheiten Morphem, Wort, Satz und Äußerung bezogen sind. "Fünf Untertests dienen der Diagnose des Regelerwerbs auf Morphem- und Satzebene; vier Untertests betreffen semantische Zusammenhänge auf Wort- und Satzebene; zur Erfassung interaktiver Bedeutungen wurde ein Untertest auf Wortebene, zwei Untertests auf Äußerungsebene konzipiert. Ein letzter Untertest gilt der Integration von Regeln und Bedeutungszusammenhängen bei der Wiedergabe eines vorgelesenen Textes. Neben der Beachtung der sprachlichen Einheiten und der Unterscheidung von syntaktischen und semantischen Aspekten der Sprachentwicklung versuchen die Testautoren, dem Unterschied zwischen Verstehen und Produzieren von Sinneinheiten Rechnung zu tragen. Dies ist etwa deutlich bei dem Untertest "Verstehen grammatischer Strukturformen (VS)", welcher die Fähigkeit prüfen soll, Subjekt-Objekt-Unterscheidungen in verbalen Instruktionen zu verstehen und ohne verbale Mittel handelnd zu reproduzieren. Der Untertest "Imitation grammatischer Strukturformen (IS)" fordert die sprachliche Wiedergabe gesprochener Sätze, deren Schwierigkeitsgrade durch den Wechsel von Aktiv- und Passivformen der Verben, durch zeitliche Konjunktionen usw. bestimmt werden. Die folgenden drei Untertests beziehen sich auf Fähigkeiten auf der Morphemebene: "Plural-Singular-Bildung (PS)" erfordert die Anwendung von Plural- bzw. Singular-Regeln bei einer Reihe von natürlichen und künstlichen Wörtern, die über Bilder vergegenständlicht werden; "Bildung von Ableitungsmorphemen (AM)" prüft die Fähigkeit, regelhafte Ableitungen von natürlichen und künstlichen Stammwörtern (hier: Verben) vorzunehmen, wobei auch hier Bildmittel unterstützend eingesetzt werden; im Untertest "Adjektiv-Ableitungen (AD)" müssen Komparativ- und Superlativformen von künstlichen Adjektiven gebildet werden. Die zwei nächsten Untertests beziehen sich auf die Wortebene. Der Untertest "Wortfindung (WF)" erfordert, daß zu je drei vorgegebenen Wörtern ein viertes passendes Wort produziert wird; damit soll die semantische Organisation des subjektiven Lexikons erfaßt werden. Beim Untertest "Begriffsklassifikation (BK)" wird ein Klassenbegriff (z. B. Tier oder Spielzeug) vorgegeben, und aus 30 Bildern müssen diejenigen ausgewählt werden, die ein Element der betreffenden Klasse abbilden. In weiteren Untertests werden semantische Aspekte auf der Satzebene angesprochen. "Korrektur semantisch inkonsistenter Sätze (KS)" prüft, ob widersprüchliche Wortkombinationen erkannt werden (z. B. "vor lauter Kummer lacht das Kind") und ob passendere Wörter gefunden werden. Der Untertest "Satzbildung (SB)" prüft, ob das Kind aus zwei bis drei Wörtern jeweils einen sinnvollen Satz oder eine Geschichte bilden kann; die Schwierigkeitsabstufung der einzelnen Items wird dabei durch die semantische Distanz der Wörter manipuliert (z. B. "Apfel - beißen" gegenüber "Sonne - kalt"). Die folgenden Untertests sollen das Testverfahren um den pragmatischen Aspekt der sprachlichen Kommunikation erweitern und setzen auf der Ebene von Äußerungen an. Der Untertest "In-Beziehung-Setzen von verbalen und nonverbalen Informationen (VN)" erfordert, daß das Kind aus vier Bildern von Personen mit unterschiedlichen Gesichtsausdrücken dasjenige Bild ausgewählt, das am ehesten mit dem emotionalen Gehalt einer Äußerung korrespondiert. Im Untertest "Benennungsflexibilität (BF)" geht es um die Fähigkeit, eine Person bezüglich ihrer Familien- oder Rollenposition variabel zu benennen (z. B. Vater und Ehemann). Bei dem Untertest "Enkodierung und Rekodierung gesetzter Intentionen (ER)" wird jeweils das Bild einer Person zusammen mit einer Geschichte über diese Person vorgegeben, und die Testperson muß eine Äußerung formulieren, die die Person an einer bestimmten Stelle der Geschichte ausgesprochen haben könnte. Der Untertest "Textgedächtnis (TG)" verlangt die möglichst genaue Wiedergabe eines Textes, der nach dem Untertest BK vorgelesen worden war und am Ende der gesamten Testbatterie mit Unterstützung durch visuelle Mittel nacherzählt werden muß" (Filipp & Doenges, 1983, S. 285f.).
Der Test erweist sich als ausreichend objektiv und reliabel, die Reliabilitäten der Untertests liegen nahezu alle um a = .90, ausgenommen die Untertests BF und VN, die unbefriedigende Reliabilität erreichen. Die Auswertung erfolgt bei allen Untertests außer bei VS und BK dreistufig (0, 1 oder 2), da neben vollständig korrekten Antworten auch solche Antworten positiv bewertet werden, die als entwicklungsangemessen gelten (z. B. wird die Pluralform Schmetterlings mit einem Punkt bewertet).
Die Altersnormen entstammen einer Stichprobe von 791 Kindern im Alter zwischen drei und neun Jahren. Es wurde kritisiert, dass die ursprüngliche Eichung mehr als zwanzig Jahre zurückliegt (Rosner, 1999). Eine Überprüfung der Normierung des Untertest VS bei 7-9jährigen Kindern im Rahmen einer umfangreichen Studie von Gebhard (2001) ergab überraschenderweise, dass die von den Autoren selbst als vorläufig gekennzeichnete Normierung von 1977 auch im Jahre 2000 noch zutreffend zu sein scheint.
Interkorrelationen der H-S-E-T-Untertests mit dem HAWIK-Verbal-IQ sind positiv aber gering, so dass "mit dem H-S-E-T solche unterschiedlichen Aspekte der Sprachleistung gemessen werden, die mit herkömmlichen sogenannten verbalen Intelligenztests nicht zu erfassen sind" (Grimm & Schöler, 1978, S. 72). Die Brauchbarkeit des H-S-E-T für die Diagnose und Differenzialdiagnose bei Sprachentwicklungsauffälligkeiten, Lernschwierigkeiten und Lese-Rechtschreibproblemen (Legasthenie) ist zwischenzeitlich häufiger unter Beweis gestellt worden.
3.2 Tests für Teilbereiche von Sprachleistungen

Die meisten Tests für die Prüfung von Sprachleistungen erheben nicht den Anspruch, die sprachlichen Leistungen insgesamt zu erfassen, sondern fokussieren auf einen oder zwei Teilbereiche. Neben den hier nicht behandelten Tests zur Erfassung von Lese- und Rechtschreibleistungen liegen Tests zur Prüfung phonologisch-phonetischer Leistungen, des Wortschatzes und der Grammatik vor, wobei letztere allerdings eher spärlich anzutreffen sind.

3.2.1 Prüfung phonologisch-phonetischer Leistungen

Viele Tests zur Prüfung phonologisch-phonetischer Leistungen sind erwartungsgemäß für Vorschulkinder konzipiert. Die Lautdiskriminationsfähigkeit gehört wohl zu den am frühesten erworbenen Kompetenzen, denn bereits ab der 29. Gestationswoche kann der Fötus hören und Laute differenzieren (Hennon, Hirsh-Pasek & Golinkoff, 2000). Mit Schuleintritt sollten in der Regel keine Probleme mehr für das Kind bestehen, die Laute der Muttersprache diskriminieren und bilden zu können. Liegen hier Defizite vor, so sind Schwierigkeiten mit dem Lesen und Schreiben zu erwarten. Neben vielen informellen Verfahren liegen aber wenig standardisierte Tests vor. In der Differenzierungsprobe von Breuer und Weuffen (1997), einem Screening für die Erkennung von Schriftspracherwerbsproblemen, das in den letzten Jahren auch in den alten Bundesländern immer weitere Verbreitung und Anwendung findet, ist eine Aufgabe zur phonematischen Differenzierung enthalten. Im Folgenden werden drei der standardisierten Tests vorgestellt, ein Lautbildungs-, zwei Lautdiskriminationstests sowie ein informelles Verfahren zur Prüfung der auditiven Differenzierungsfähigkeit, das in der Praxis weit verbreitet ist und häufig eingesetzt wird.
Lautbildungstest für Vorschulkinder
Der Lautbildungstest für Vorschulkinder (Fried, 1980a) liegt in zwei Testformen vor und dient dazu, Kinder im Alter zwischen vier und sieben Jahren mit Lautbildungsschwächen zu erfassen. Die Kinder haben die Aufgabe, jeweils den auf vorgelegten Bildkarten dargestellten Begriff zu nennen. Die Testkurzform (LBT, 43 Bildkarten) differenziert zunächst Kinder mit mangelhafter Lautbildungsleistung von Kindern mit einer der Altersnorm entsprechenden Lautbildungsleistung. Gleichzeitig kann mit Hilfe einer profilanalytischen Auswertung festgestellt werden, wie stark die Lautbildungsmängel ausgeprägt sind bzw. welche Lautbereiche insbesondere gestört sind. Die diagnostische Testform (DLBT, 101 Bildkarten) gibt Aufschluss über den Ausprägungsgrad der Lautbildungsschwäche, in welchem Lautbereich die Leistung bedeutsam gemindert ist und welche Fehlerarten vorherrschen. Das Testergebnis soll Hinweise für eine gezielte Förderung liefern.
Der Test ist als Einzeltest in 15 bis 25 Minuten durchführbar. Es liegen Altersnormen in Form von Prozenträngen für zwei Altersstufen (4-5 Jahre und 5-7 Jahre) vor. Die Retestreliabilität nach 6 Wochen ist zufriedenstellend und beträgt r = .85. Die Validität ist logisch bestimmt.
Lautunterscheidungstest für Vorschulkinder
Der Lautunterscheidungstest für Vorschulkinder (Fried, 1980b) liegt ebenfalls in zwei Formen vor und ist als Einzel- oder Gruppentest im Alter von vier bis sieben Jahren einsetzbar. Mit dem Test soll die Lautunterscheidungsfähigkeit geprüft werden, wobei die Kurzform LUT (17 Aufgaben) die Entscheidung ermöglichen soll, ob die Lautunterscheidungsleistung eines Vorschulkindes seiner Altersnorm entspricht oder in entscheidendem Maße abweicht. Gleichzeitig kann so beurteilt werden, ob bei Kindern, deren Lautbildungsleistung mangelhaft ist (Dyslalien), als Teil- oder Hauptursache eine Lautunterscheidungsschwäche vorliegt. Mit der diagnostischen Testform (DLUT, 32 Aufgaben) kann bei Kindern, deren Lautunterscheidungsleistung mangelhaft entwickelt ist, die Lautunterscheidungsleistung systematisch geprüft und somit eine Grundlage zur gezielten Förderung der Mängel gefunden werden. Die Testanweisung erfolgt über Kassette, und die Kinder streichen in einem Testheft den gehörten Begriff an (im Testheft sind immer drei Bilder dargestellt, z. B. Koffer, Käse, Kasse, eines wird über Tonträger genannt und soll dann vom Kind markiert werden).
Die Bearbeitungszeit beträgt insgesamt etwa 30 Minuten, wobei ein Einübungsprogramm am Tag vor der eigentlichen Testung durchgeführt werden sollte, das nochmals ca. 10 Minuten beansprucht. Die interne Konsistenz ist mit a =.98 sehr hoch, die Retestreliabilität liegt bei r = .61 nach sechs Wochen. Der Test gilt als inhaltsvalide.
Bremer Lautdiskriminationstest
Der Bremer Lautdiskriminationstest 2. Klasse BLDT (Niemeyer, 1976) soll Art und Schweregrad mangelhafter Lautdiskrimination im vierten Quartal des zweiten Schuljahres prüfen. Vorgelesene Wortpaare wie "sieben - Süden", "dünn - Tim", "schleifen - Streifen" müssen auf Gleichheit oder Ungleichheit bewertet werden. Der Test ist als Einzel- oder Gruppentest in etwa 20 Minuten durchführbar. Der Test gilt als ökonomisch, objektiv, als ausreichend zuverlässig und inhaltsvalide.
Mottier-Test
Der Mottier-Test ist der Prototyp einer Reihe von in letzter Zeit neu entwickelter Verfahren (Gathercole & Martin, 1996; Hasselhorn & Körner, 1997; Schöler, 1999), deren Bearbeitung Indikatorfunktion für Leistungen des phonetisch-phonologischen Gedächtnisses aufweisen. Diese Verfahren können sehr gut sowohl zwischen Kindern mit bestimmten Sprachentwicklungsstörungen und unauffälligen Kindern als auch zwischen Kindern mit Schriftspracherwerbsproblemen und schriftsprachunauffälligen Kindern diskriminieren.
Der Mottier-Test besteht aus 30 Pseudowörtern zunehmender Länge von zwei bis sechs Silben (z. B. "godu", "dagobilaseta"), die unmittelbar nachgesprochen werden sollen. Der Test war Bestandteil der 1981er Version des Zürcher Lesetests (Linder & Grissemann, 1981). Über Gütekriterien und Normierungen des Tests liegen kaum Angaben vor.

3.2.2 Wortschatztests

In der Frühdiagnostik von Sprachentwicklungsstörungen spielt der Wortschatzumfang eine bedeutsame Rolle. So legen Theorien nahe (u. a. Locke, 1994; 1995), dass bei einer unauffälligen Sprachentwicklung Kinder im Alter von etwa 24 Monaten mindestens über einen Wortschatzumfang von 50 Wörtern verfügen sollte. Ein geringerer Wortschatzumfang gilt als ein hohes Risiko für gestörte Entwicklungsprozesse, speziell für den Erwerb von grammatischem Wissen.
Die Erfassung des Wortschatzes stellt allerdings eine methodisch nicht einfache Aufgabe dar, und jede Operationalisierung wird immer nur Teilaspekte des aktiven und passiven Wortschatzes erfassen können. So können vorgegebene Bilder, die benannt werden sollen (z. B. beim Aktiven Wortschatztest für 3-6jährige Kinder AWST oder beim Fankfurter Test für Fünfjährige - Wortschatz FTF-W, Raatz & Möhling, 1971) immer nur einen Ausschnitt darstellen. Dies gilt auch für die Prüfung des eher passiven Wortschatzes, auch hier werden Wörter vorgegeben, zu denen ein semantisch passendes Wort ausgewählt werden muss (z. B. Wortschatztest für 5. und 6. Klassen WST 5-6), ein Gegensatz oder ein Oberbegriff zu finden ist (z. B. Wortschatzuntersuchung für 4.-6. Klassen WSU 4-6). Der Wortschatzumfang lässt sich so immer nur auf dem Hintergrund der vorgegebenen Bilder oder Wörter hochrechnen, wobei die Repräsentativität dieser Vorgaben gewährleistet sein sollte. Eine Prüfung des Wortschatzes findet sich auch als einzelner Untertest in Sprachentwicklungstests (u. a. LSV, Götte, 1976) und ist häufig integraler Bestandteil von Intelligenztests (u. a. K-ABC, Melchers & Preuss, 1994; HAWIK-R, Tewes, 1993) oder allgemeinen Schulleistungstests (u. a. AST 2, Rieder 1991). Exemplarisch werden im Folgenden die Wortschatztests AWST, WST 5-6 und WSU 5-6 vorgestellt.
Aktiver Wortschatztest für 3-6jährige Kinder
Der Aktive Wortschatztest für 3-6jährige Kinder AWST (Kiese & Kozielski, 1979) will den aktiven Wortschatz erfassen und zur differenzialdiagnostischen Abklärung von Sprachentwicklungsauffälligkeiten beitragen. Dem 3- bis 6jährigen Kind werden insgesamt 82 Bilder vorgelegt, die zur Produktion von 64 Substantiven, 17 Verben und einem Adjektiv anregen und vom Kind entsprechend benannt werden sollen. Der Test lässt sich in etwa einer Viertelstunde als Einzeltest durchführen. Altersnormen liegen in Prozenträngen getrennt für Jungen und Mädchen vor. Der AWST gilt als objektiv und zuverlässig sowie inhaltsvalide. Höhere Interkorrelationen (> r = . 60) mit dem Untertest Wortschatz des LSV (Götte, 1976) und dem FTF-W (Raatz & Möhling, 1971) zeigen, dass die Kinder mit diesen Wortschatztests in eine ähnliche Leistungsfolge positioniert werden können.
Wortschatztest für 5. und 6. Klassen
Mit dem Wortschatztest für 5. und 6. Klassen WST 5-6 (Anger, Bargmann & Hylla, 1965) soll der Wortschatz von Fünft- und Sechstklässlern aus allen Schultypen im Gruppentest erhoben werden. Im Vordergrund soll der im Elternhaus und in der sozialen Interaktion erworbene Wortschatz stehen. Dazu werden 60 Wörter vorgegeben, zu denen ein jeweils semantisch gleiches Wort aus fünf vorgegebenen Alternativen herausgefunden werden muss, z. B. für "lauschen" das passende Wort aus "kaufen - tauschen - schwatzen - horchen - hauchen".
Eine Problematik wird sofort deutlich: Auch wenn für die Hauptschule Anfang der 70er Jahre eine Neunormierung vorgenommen wurde, so werden gerade beim alltäglichen Wortschatz, der ja im Vordergrund stehen soll, erhebliche Veränderungen in diesem Zeitraum aufgetreten sein, so dass die Alters- und Klassennormen sicherlich neu ermittelt werden müssten. Der Test gilt als objektiv, reliabel und inhaltsvalide.
Wortschatzuntersuchung für 4.-6. Klassen
Auch die Wortschatzuntersuchung für 4.-6. Klassen WSU 4-6 (Raatz & Schwarz, 1974) beansprucht, den lebensnah erworbenen Wortschatz für alle Schultypen zu erfassen, wobei Fachwörter nicht und Fremdwörter kaum vorkommen. Der Test besteht aus vier Untertests: (1) Im Untertest Wortgleichheit wird - ähnlich wie im oben genannten WST 5-6 - ein semantisch ähnliches Wort aus vier Alternativen gesucht, z. B. das passende Wort zu "Verdruss" ist "Ärger - Freude - Müdigkeit - Langeweile". (2) Beim Untertest Sammelnamen muss ein Oberbegriff zu zwei Wörtern aus vier Alternativen gesucht werden, z. B. für "Kachel - Tapete" aus "Viereck - Verzierung - Befestigung - Wandverkleidung". (3) Im Untertest Gegensätze muss das Gegenteil ausgewählt werden, z. B. das Gegenteil von "meiden" aus "achten - trauern - gönnen - schenken". (4) Im Untertest Redensarten wird die Bedeutung einer Metapher geprüft, z. B. "Hals über Kopf" heißt "voller Angst - in großer Hast - ohne viel Erbarmen - mit besonders großem Mut".
Der Test ist als Gruppentest durchführbar und dauert etwa eineinhalb Stunden. Für die verschiedenen Klassenstufen und Schultypen liegen T-Wert-Normen vor. Der Test ist objektiv und weist ausreichende Zuverlässigkeiten in den verschiedenen Bezugsgruppen auf. Zur Validität wird eine Korrelation zum oben vorgestellten WST 5-6 in Höhe von r = .68 mitgeteilt.

3.2.3 Grammatiktests

Für die Prüfung der grammatischen Fähigkeiten liegen eigenständige standardisierte Tests so gut wie nicht vor. Grammatische Leistungen werden in den allgemeinen Sprachentwicklungstests wie PET, H-S-E-T und LSV auf Subtestebene miterfasst. Gründe für diesen Mangel an Tests für grammatische Leistungen sind sicherlich auch darin zu sehen, dass die Grammatik eine Domäne der Linguistik darstellt (auch in diesem Fach werden sehr oft große Vorbehalte gegen Tests vorgebracht) und wenn die grammatische Entwicklung betrachtet wird, dann eher beschreibend in Form von sogenannten Profilanalysen wie LARSP (Crystal, Fletcher & Garman, 1976; deutsch: Clahsen, 1986; Clahsen & Hansen, 1992), auf die hier nicht eingegangen wird.
Im Folgenden wird ein Test vorgestellt, der zwar im Namen die grammatische Kompetenz führt (Testbatterie Grammatische Kompetenz), die geprüften Leistungen aber nur im weitesten Sinne morpho-syntaktischen Fähigkeiten zurechenbar sind. Darüber hinaus wird auf eine Methode hingewiesen, die vom Verfasser als ein Königsweg für die Diagnostik und Differentialdiagnostik bei Sprach- und Schriftspracherwerbsproblemen bewertet wird: das Nachsprechen von Sätzen.
Testbatterie Grammatische Kompetenz
Die Testbatterie Grammatische Kompetenz TGK (Tewes & Thurner, 1976) dient der differenzierten Erfassung syntaktischer Aspekte der sprachlichen Kompetenz (Thurner, 1977). Die Testbatterie besteht aus sieben Untertests, die Lern- und Leistungsstörungen im sprachlichen Bereich abklären sollen. Mit den Untertests werden im Einzelnen folgende Leistungen geprüft: (1) Wer ist wer?: Grammatisch komplexe Sätze müssen verstanden werden, um einem Text Namen entnehmen zu können und diese aufzuschreiben, z. B. "Heidi, der von Michaela, die von Inge an der Hand gehalten wird, aus dem Wasser geholfen wird, zittert? Welche ist Heidi? Welche ist Michaela? Welche ist Inge?". (2) Sätze bilden: Wortfolgen aus vier bis fünf Wörtern müssen rasch zu mehreren sinnvollen Sätzen umstrukturiert werden, z. B. "gepflückt - die - wird - Blume" oder "still - gehe - sei - oder - entweder". (3) Wörter trennen: Aneinandergefügte Buchstabenketten sind in Wörter zu segmentieren, das Beispiel zeigt die ersten zwei Zeilen:
VORUNSEREMHAUSWARDERGEHWEG
GEFRORENSCHNELLMACHTENWIREINE.
(4) Was möchtest du haben?: Produktion und Aufschreiben von Wörtern. (5) Wie viele Dinge fallen dir ein?: Dinge sind so rasch wie möglich aufzuschreiben. (6) Wörter mit vier Buchstaben finden: Wörter mit vier Buchstaben sind aus einem Buchstabenblatt herauszufinden, die erste Zeile sieht wie folgt aus:
IBERGNXDORFBUÖLGMONDYUXRÜL.
(7) Wie schnell kannst du schreiben?: Die Abschreibgeschwindigkeit wird als Kontrollvariable erhoben, dazu muss ein auf dem gleichen Blatt angeführter Text abgeschrieben werden. Mit diesen Aufgaben sollen neben dem Verstehen syntaktisch komplexer Sätze und der Produktion von Wortfolgen vor allem die Lesegeschwindigkeit und die Wortflüssigkeit überprüft werden.
Die Testbatterie kann in einer Schulstunde durchgeführt werden. Sie ist für 10- bis 12jährige der Klassen 4 und 5 aller Schultypen konzipiert. Normen liegen nach Geschlecht und Alter getrennt vor. Darüber hinaus werden alters-, geschlechts- und schultypspezifische Erwartungsprofile sowie ein Profil für legasthene Kinder angeboten. Die Testbatterie ist objektiv und genügend zuverlässig. Inhaltsvalidität wird als gegeben erachtet. Interessant sind die angegebenen Korrelationen mit Schulnoten wie Deutsch und Mathematik, die nur gering ausfallen (r variiert zwischen .06 und .30), d. h. mit der TGK werden andere als damals in der Schule geforderte Leistungen überprüft.
Nachsprechen von Sätzen
Abschließend soll noch auf ein Verfahren hingewiesen werden, dass zwar in einer Reihe von Testbatterien (z. B. im Dysgrammatiker-Prüfmaterial, Frank & Grziwotz, 1978; IS des H-S-E-T, siehe auch IDIS, Schöler, 1999) als ein einzelner Untertest integriert ist, aber als eigenständiges standardisiertes Messinstrument nicht vorliegt: das Nachsprechen von Sätzen. Sätze unterschiedlicher Länge, verschiedener syntaktischer Strukturen und unterschiedlichem semantischen Gehalt können gebildet werden, die unmittelbar nach auditiver Vorgabe reproduziert werden sollen. Eine solche Aufgabe lässt sich in Abhängigkeit von der Fragestellung relativ rasch konstruieren, ist zeitökonomisch und erweist sich in bisherigen Untersuchungen als äußerst zuverlässig (vgl. u. a. Schöler, 1999).
Das Nachsprechen von Sätzen bietet nicht nur die Möglichkeit, Erkenntnisse über sprachliches Wissen und Spracherzeugungsprozesse zu gewinnen (Günther, 1981; 1985; Kegel, 1981; Kratzer & Schöler, 1992; Meßing, Günther & Kegel, 1980; Montgomery, Montgomery & Stephens, 1978), sondern gibt gleichzeitig auch Hinweise auf Beeinträchtigungen im auditorischen Bereich (z. B. Marcell, Ridgeway, Sewell & Whelan, 1995). Diese Leistungsbereiche sind zwar konfundiert, diese Konfundierung lässt aber durch die Konstruktion der Sätze dennoch zu, bestimmte grammatische Kompetenzen gezielt zu prüfen. Die Aufgabe ist nicht nur tauglich, um sprachauffällige und sprachunauffällige Kinder zu diskriminieren, sie ermöglicht auch, unterschiedliche Störungsbilder zu differenzieren (Schöler, Fromm, Schakib-Ekbatan & Spohn, 1997). Längsschnittuntersuchungen zeigen darüber hinaus, dass das Nachsprechen von Sätzen selbst 16jährigen Jugendlichen, die im Vor- und Grundschulalter als spezifisch sprachentwicklungsgestört diagnostiziert waren und nun in ihrem Sprachverhalten unauffällig sind, nach wie vor große Probleme bereitet und eine vollständige Diskriminierung zwischen ehemals sprachauffälligen und unauffälligen Jugendlichen erlaubt (Schakib-Ekbatan & Schöler, 1995).

3.3 Schulleistungstests zur Prüfung sprachlicher Leistungen

Den im Folgenden aufgeführten Schulleistungstests (vgl. die rezente Zusammenstellung in Lukesch, 1998, Kap.14) ist gemeinsam, dass sie standardisierte Papier- und Bleistift-Verfahren und insofern zeitökonomisch sind, da sie meist im Rahmen einer Schulstunde als Gruppentests durchgeführt werden können. Die Tests sind nach den Regeln der Kunst konstruiert (basierend auf dem Konzept der klassischen Testtheorie; vgl. Lienert & Raatz, 1998) und genügen häufig den geforderten Gütekriterien wie Durchführungs- und Auswertungsobjektivität sowie Reliabilität. Bezugspopulationen für die Normierung sind Schultypen und Klassenstufen, manchmal auch Altersgruppen. Die meisten Unschärfen und Probleme liegen in der Regel bei der Bestimmung der Gültigkeit, da oft nur die logische Validität deklariert wird.
3.3.1 Allgemeine Schulleistungstests - Mehrfächertests

Die allgemeinen Schulleistungstests enthalten in der Regel auch Aufgaben, mit denen Sprachleistungen überprüft werden sollen. Solche Mehrfächertests oder allgemeine Schulleistungstests wurden unter anderem entwickelt, um bei Fragen der Förderbedürftigkeit eine objektivere Entscheidungsgrundlage als Schulnoten zur Verfügung zu haben. Viele der Tests wurden in den 70er Jahren publiziert, so dass sich neben der Fraglichkeit einer zeitgemäßen Normierung auch die Frage nach der inhaltlichen Gültigkeit dieser Tests stellt. Der Allgemeine Schulleistungstest für 3. Klassen AST 3 soll diese Art von Tests exemplarisch verdeutlichen.
Allgemeiner Schulleistungstest für 3. Klassen
Der Allgemeine Schulleistungstest für 3. Klassen AST 3 (Fippinger, 1991) soll erlauben, die Schulleistungen eines Schülers und einer Klasse objektiv und vergleichbar in der zweiten Hälfte der 3. Klasse festzustellen, und dabei alle Leistungsanforderungen, die an den Schüler einer 3. Klasse gestellt werden, erfassen. Fünf Untertests mit insgesamt 93 Aufgaben sollen die relevanten Sachverhalte aus den drei Schulfächern Deutsch, Mathematik sowie Heimat- und Sachkunde repräsentieren, die in der zweiten Hälfte des 3. Schuljahres bekannt sein sollten. Neben den hier nicht interessierenden Untertests Zahlenrechnen ZR, Textaufgaben TA und Sachkunde SK werden mit den Untertests Sprachverständnis SV und Rechtschreiben RS Leistungen des Unterrichtsfaches Deutsch überprüft. Im Einzelnen geht es dabei um folgende Inhalte: Satzverständnis SV: Satzformen durch Erkennen der passenden Satzzeichen; Leseverständnis durch das Ausfüllen von Lücken in einem Satz; Eigenschaftswörter, die aus mehreren Wortteilen zu suchen sind; Sinnverständnis von Wörtern durch das Erkennen eines Wortes, das nicht in eine vorgegebene Wortgruppe passt; Erkennen eines Satzteils, der in die Lücke eines vorgegebenen Satzes einzufügen ist; Rechtschreiben RS: Fehlererkennung bei kritischen Wörtern in vorgegebenen Sätzen.
Der AST 3 ist als Gruppen- und Einzeltest durchführbar und liegt in zwei Parallelformen vor. Die Gesamttestzeit beträgt 90 Minuten. Für die Interpretation wird eine Profildarstellung in T-Werten angeboten. Die Eichstichprobe gilt als repräsentativ für die alte Bundesrepublik. Die Validität wird über die logische Validität erschlossen, wobei lediglich die Interkorrelationen der Untertests untereinander und mit der Gesamtskala als ein empirischer Beleg vorliegen.
Die curriculare Validität wird leider nicht bestimmt, d. h. weder liegen Expertenurteile vor, noch ist nachvollziehbar, wie die Curricula in den Bundesländern operationalisiert sind. Darüber hinaus fehlen Korrelationen mit Außenkriterien wie beispielsweise Schulnoten. In einer Besprechung des AST 3 resümiert Jäger: "In der vorgelegten Form wird es zunächst den Ansprüchen genügen, zu einer Objektivierung von Schulleistungen beizutragen. Selbst bei den noch fehlenden Daten wird es allemal objektiver sein als das durchschnittliche Lehrerurteil" (1991, S. 204).

3.3.2 Deutsch-Schulleistungstests

Bei Deutsch-Schulleistungstests sind selbstverständlich Tests zur Prüfung des Lesens und Schreibens vorherrschend. Darüber hinaus liegen aber auch eine Reihe von Tests vor, bei denen weitere Aspekte des Faches Deutsch überprüft werden. Im Folgenden wird zunächst der Allgemeine deutsche Sprachtest ADST vorgestellt, der umfassend den Sprachleistungsstand, basierend auf einer linguistisch-didaktischen Taxonomie, über nahezu die gesamte Schulzeit erfassen will. Abschließend wird ein Test dargestellt, dem ein vollständig anderes Konzept zugrunde liegt, das sogenannte C-Prinzip, bei der Lückentexte ergänzt werden müssen, mit denen das Kontextverständnis bzw. die Kontextverständlichkeit geprüft werden. Weitere sogenannte mehrdimensionale Testverfahren zur Prüfung von Sprachkompetenzen im Fach Deutsch finden sich im Überblick von Lukesch (1998, S. 544f.).
Allgemeiner deutscher Sprachtest
Der Allgemeine deutsche Sprachtest ADST (Steinert, 1978) dient der umfassenden Anlayse des Sprachleistungsstandes. Dem Test liegt die linguistisch-didaktische Taxonomie von Messelken (1971) zugrunde, bei der die vier Sprachfertigkeiten Hören, Lesen, Sprechen und Schreiben und die sechs Sprachebenen Textematik, Lexematik, Morphematik, Syntagmatik, Phonematik und Prosodie unterschieden werden. Jede Sprachebene wird mit jeder Fertigkeit kombiniert und für jede Kombination ein Untertest als "Fertigungskomponente" konstruiert, so dass insgesamt 24 Untertests resultieren. Für jede Sprachebene wird im Folgenden beispielhaft eine der Aufgaben dargestellt: (1) Textematik, Schreiben: Konstruktion und Verschriftlichung einer Geschichte auf der Vorlage eines Bildes; (2) Lexematik, Hören: Erkennen grammatischer Fehler in vorgesprochenen Sätzen; (3) Morphematik, Sprechen: Transformation von Tempusformen vom Präsens ins Präteritum; (4) Syntagmatik, Lesen: Erkennen von grammatischen Kongruenz-Fehlern beim Vorlesen; (5) Phonematik, Hören: Diskrimination von Lauten; (6) Prosodie, Schreiben: Einfügen von Satzzeichen in vorgegebenen Sätzen.
Der Test beansprucht etwa vier Schulstunden, um ihn komplett durchzuführen. Er ist als Gruppentest von der 3. Klasse bis zur 10. Klasse des Gymnasiums anwendbar, wobei er für 4. - 6. Klassen als besonders geeignet gilt. Normen sind für jede Klassenstufe und Schulart und die Schichtzugehörigkeit errechnet. Die Testbatterie ist objektiv und ausreichend reliabel. Sie gilt als inhaltlich valide, da sie in Hinblick auf eine wohldefinierte Taxonomie unter eindeutiger lehrplanorientierter Zielsetzung konstruiert wurde. Bei einer Faktorenanalyse wurden zwei Faktoren extrahiert, die insgesamt etwa 62% der Gesamtvarianz erklären, wobei der erste Faktor allein etwa 56% auf sich vereinigt. Dieser Faktor wird als "auditive Perception sowie Differenzieren semantischer und grammatikalischer Aspekte auf der Wortebene", der zweite Faktor als "Diskrimination abstraktester Sprachsegmente sowie begriffliche Abstraktion" bezeichnet.
Schulleistungstest Deutsch für vierte Klassen
Der Schulleistungstest Deutsch für vierte Klassen CT-D4 (Raatz & Klein-Braley, 1992) geht auf das Konzept der cloze procedure (C-Prinzip) zurück, das vor allem in der Fremdsprachdiagnostik eingesetzt wird (zu einem Überblick siehe Raatz & Klein-Braley, 1983; siehe auch Fried, 1986). In einem Text wird zufällig oder systematisch eine bestimmte Anzahl von Wörtern oder Worthälften gestrichen. Aufgabe ist, diese Lücken zu füllen, wobei sprachkompetente Erwachsene solche Lückentexte fast immer komplett rekonstruieren können. Sind die Texte ausreichend lang, so wird angenommen, dass die Textlücken alle Teilbereiche der sprachlichen Leistung repräsentieren und auch repräsentativ für die geprüfte Sprache sind. Einzelne Teilbereiche wie Wortschatz, Syntax oder Morphologie können dabei allerdings nicht überprüft werden, die Sprachleistung wird komplex erfasst. Cloze Tests dienen demnach der Erfassung einer eher globalen Sprachkompetenz. "Das C-Prinzip schafft jedoch durch die Komplexität der Messungen prinzipiell eine Voraussetzung für eine möglichst hohe ökologische Validität. In diesem Zusammenhang könnten seine Vorteile besonders in der Sprachfähigkeits-Diagnostik ausländischer Kinder liegen. Weitere Entwicklungen (und empirische Befunde) in dieser Richtung wären wünschenswert, um ein in der Praxis drängendes Beurteilungsproblem zu mildern" (Langfeldt & Tent, 1999, S. 88).
Obwohl keine Teilbereiche der schriftsprachlichen Leistung (Grammatik, Rechtschreibung, Wortschatz) differenziert werden, wird mit dem CT-D4 der Anspruch erhoben, die allgemeine schriftliche Beherrschung der deutschen Sprache erfassen und prüfen zu können. Im CT-D4 wurde das C-Prinzip dahingehend modifiziert, dass bei den präsentierten Texten nach einem vollständigen Anfangssatz bei jedem zweiten Wort die zweite Worthälfte gestrichen wurde. Jeder Text endet wieder mit einem vollständigen Satz. Der CT-D4 besteht aus insgesamt vier solcher Lückentexte.
Der Test ist objektiv und ausreichend zuverlässig. Die Testleistung korreliert mit der Deutschnote zwischen r = .20 und r = .92 bei einem Median von r = .72, so dass dieses Verfahren zumeist eine recht gute Prädiktion der Deutschnote ermöglicht.
4 Kurzer Ausblick

Der Überblick über die verschiedenen Tests für die Prüfung von sprachlichen Leistungen zeigt deutlich, dass zwar einerseits eine Reihe von Tests vorliegen, diese andererseits aber in vielen Fällen zum einen hinter der Theoriebildung im Bereich der Sprachentwicklung zurückstehen und zum anderen vermutlich veraltete Normen angeben. Nach einem Testboom in den 70er Jahren stagnierte die Weiterentwicklung von Tests, weil zum Teil berechtigte Kritik, zum Teil aber rein ideologische Positionen diesen Forschungszweig so gut wie lahmlegten. Im Interesse der Kinder ist zu hoffen, dass diese schädigenden, sachunangemessenen Einflussnahmen überwunden werden, um die notwendige Verbesserung und Erweiterung diagnostischer Verfahren vorwärts zu bringen. Hoffnungsvolle Weiter- und Neuentwicklungen zeigen sich im Bereich der Früherkennung von Lese- und Rechtschreibschwierigkeiten (vgl. dazu Hasselhorn et al., 2000). Auf der Basis einer soliden theoriegeleiteten Diagnostik können nachfolgend auch angemessene Präventionen und Förderungen entwickelt werden, wie dies Schneider und Mitarbeiterinnen (Schneider, Roth & Küspert, 1999) beeindruckend zeigen konnten.

Literatur

Andresen, H. (1985). Schriftspracherwerb und die Entstehung von Sprachbewußtheit. Opladen: Westdeutscher Verlag.
Anger, H., Bargmann, R. & Hylla, E. (1965). Wortschatztest für 5. und 6. Klassen WST 5-6. Weinheim: Beltz.
Angermaier, M. W. F. (1974). Psycholinguistischer Entwicklungstest PET. Weinheim: Beltz.
Bennwitz, H. & Weinert, F. E. (Hrsg.). (1973). CIEL. Ein Förderungsprogramm zur Elementarerziehung und seine wissenschaftlichen Voraussetzungen. Göttingen: Vandenhoeck & Ruprecht.
Borchert, J., Knopf-Jerchow, H. & Dahbashi, A. (1991). Testdiagnostische Verfahren in Vor-, Sonder- und Regelschulen. Heidelberg: Asanger.
Breuer, H. & Weuffen, M. (1997). Lernschwierigkeiten am Schulanfang. Weinheim: Beltz.
Brickenkamp, R. (1997). Handbuch psychologischer und pädagogischer Tests. Göttingen: Hogrefe.
Clahsen, H. (1986). Die Profilanalyse. Ein linguistisches Verfahren für die Sprachdiagnose im Vorschulalter. Berlin: Marhold.
Clahsen, H. & Hansen, D. (1992). COPROF - ein linguistisches Untersuchungsverfahren für die sprachdiagnostische Praxis. Köln: Eigenverlag.
Crystal, D., Fletcher, P. & Garman, M. (1976). The grammatical analysis of language disability: A procedure for assessment and remediation. London: Arnold.
Eberle, G., Holtz, K. L. & Schöler, H. (1982). Untersuchungen über die korrelativen Beziehungen zwischen dem Hamburg Wechsler Intelligenztest für Kinder (HAWIK), dem Psycholinguistischen Entwicklungstest (PET) und dem Heidelberger Sprachentwicklungstest (HSET). In G. O. Kanter & F. Masendorf (Hrsg.), Brennpunkte der Sprachheilpädagogik und Leseforschung (S. 215-245). Berlin: Marhold.
Elman, J. L., Bates, E. A., Johnson, M. H., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1996). Rethinking innateness. A connectionist perspective on development. Cambridge: MIT Press.
Filipp, S.-H. & Doenges, D. (1983). Entwicklungstests. In K.-J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Band 2: Intelligenz- und Leistungsdiagnostik (S. 202-306). Göttingen: Hogrefe.
Fippinger, F. (1991). Allgemeiner Schulleistungstest für 3. Klassen AST 3. Weinheim: Beltz.
Fornefeld, B. (1995). Das schwerstbehinderte Kind und seine Erziehung. Heidelberg: HVA Edition Schindele.
Frank, G. & Grziwotz, P. (1978). Dysgrammatiker-Prüfmaterial. Ravensburg: Eigenverlag.
Fried, L. (1980a). Lautbildungstest für Vorschulkinder (LBT und DLBT). Weinheim: Beltz.
Fried, L. (1980b). Lautunterscheidungstest für Vorschulkinder (LUT und DLUT). Weinheim: Beltz.
Fried, L. (1986). Zur Diagnose des sprachlichen Entwicklungsstandes unter besonderer Berücksichtigung des Ausländerkindes. In K. Ingenkamp, R. Horn & R. S. Jäger (Hrsg.), Tests und Trends 5 (S. 63-91). Weinheim: Beltz.
Friederici, A. D. & Hahne, A. (2000). Neurokognitive Aspekte der Sprachentwicklung. In H. Grimm (Hrsg.), Enzyklopädie der Psychologie, Serie Sprache, Band 3: Sprachentwicklung (S. 273-310). Göttingen: Hogrefe.
Gardner, H. (1993). Der ungeschulte Kopf. Stuttgart: Kohlhammer.
Gathercole, S. E. & Baddeley, A. D. (1993). Working memory and language. Hove: Erlbaum.
Gathercole, S. E. & Martin, A. J. (1996). Interactive processes in phonological memory. In S. E. Gathercole (Ed.), Models of short-term memory (pp. 73-100). Hove: Erlbaum.
Gebhard, W. (2001). Entwicklungsbedingte Sprachverständnisstörungen bei Kindern im Grundschulalter. Status und Diagnostik im klinischen Kontext. München.
Götte, R. (1976). Landauer Sprachentwicklungstest für Vorschulkinder LSV. Weinheim: Beltz.
Grimm, H. (1978). Sprache. In K.-J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (S. 355-366). Düsseldorf: Schwann.
Grimm, H. & Schöler, H. (1978). Der Heidelberger Sprachentwicklungstest H-S-E-T. Göttingen: Hogrefe. (2. korrigierte Aufl. 1991).
Grimm, H. & Schöler, H. (1985). Sprachentwicklungsdiagnostik. Göttingen: Hogrefe.
Hardesty, F. P. & Priester, H. J. (1963). Handbuch für den Hamburg Wechsler Intelligenztest für Kinder (HAWIK). Bern: Huber.
Günther, H. (1981). Untersuchungen zum Sprachverhalten agrammatischer Kinder mit Ziel- und Modellsatzmethode. Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation der Universität München (FIPKM), 13, 35-59.
Günther, H. (1985). Nachspruch zum Nachsprechen. In I. Füssenich & B. Gläß (Hrsg.), Dysgrammatismus (S. 49-61). Heidelberg: HVA Edition Schindele.
Hasselhorn, M. & Körner, K. (1997). Nachsprechen von Kunstwörtern: Zum Zusammenhang zwischen Arbeitsgedächtnis und syntaktischen Sprachleistungen bei Sechs- und Achtjährigen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 29, 212-224.
Hasselhorn, M., Schneider, W. & Marx, H. (Hrsg.). (2000). Diagnostik von Lese-Rechtschreibschwierigkeiten. Göttingen: Hogrefe.
Hasselhorn, M. & Werner, I. (2000). Zur Bedeutung des phonologischen Arbeitsgedächtnisses für die Sprachentwicklung. In H. Grimm (Hrsg.), Enzyklopädie der Psychologie, Serie Sprache, Band 3: Sprachentwicklung (S. 363-378). Göttingen: Hogrefe.
Häuser, D., Kasielke, E. & Scheidereiter, U. (1994). Kindersprachtest für das Vorschulalter KISTE. Weinheim: Beltz.
Heinemann, M. & Höpfner, C. (1993). Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen (SEV). Weinheim: Beltz.
Hennon, E., Hirsh-Pasek, K. & Golinkoff, R. M. (2000). Die besondere Reise vom Fötus zum spracherwerbenden Kind. In H. Grimm (Hrsg.), Enzyklopädie der Psychologie, Serie Sprache, Band 3: Sprachentwicklung (S. 41-103). Göttingen: Hogrefe.
Herrmann, T. & Grabowski, J. (1994). Sprechen. Heidelberg: Spektrum Akademischer Verlag.
Holtz, K. L. & Schöler, H. (1998). Carl L. Auer & Ernst A. Dölle: Verständnisse und Mißverständnisse über Grundannahmen sonderpädagogischer Theoriebildung. Ein Briefwechsel. In M. Greisbach, U. Kullik & E. Souvignier (Hrsg.), Von der Lernbehindertenpädagogik zur Praxis der schulischen Lernförderung (S. 141-163). Lengerich: Pabst.
Ingenkamp, K. (Hrsg.). (1971). Die Fragwürdigkeit der Zensurengebung. Weinheim: Beltz.
Ingenkamp, K. (1985a). 1955 - 1985: Drei Dekaden Pädagogischer Diagnostik in Deutschland: Entwicklungen, Kontroversen und Perspektiven. In R. S. Jäger, R. Horn & K. Ingenkamp (Hrsg.), Tests und Trends 4 (S. 13-40). Weinheim: Beltz.
Ingenkamp, K. (1985b). Buchbesprechung. In R. S. Jäger, R. Horn & K. Ingenkamp (Hrsg.), Tests und Trends 4 (S. 194-196). Weinheim: Beltz.
Ingenkamp, K. (1989). Diagnostik in der Schule. Weinheim: Beltz.
Karmiloff-Smith, A. (1979). A functional approach to child language: A study of determiners and reference. New York: Cambridge University Press.
Jäger, R. S. (1991). Allgemeiner Schulleistungstest für 3. Klassen AST 3 von Franz Fippinger. Weinheim: Beltz, 1991. In K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und Trends 9 (S. 202-204). Weinheim: Beltz.
Kegel, G. (1981). Zum Einfluß von Syntax und Semantik auf die Nachsprechleistungen agrammatischer Kinder. Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation der Universität München (FIPKM), 13, 61-80.
Kiese, C. & Kozielski, P. M. (1979/2. Aufl. 1996). Aktiver Wortschatztest für 4-6jährige Kinder AWST. Göttingen: Hogrefe.
Kirk, S. A. & Kirk, W. D. (1976). Psycholinguistische Lernstörungen. Weinheim: Beltz.
Kirk, S. A., McCarthy, J. J. & Kirk, W. D. (1968). The Illinois Test of Psycholinguistic Abilities. Urbana.
Kratzer, P. & Schöler, H. (1992). Nachsprechleistungen sprachauffälliger und sprachunauffälliger Kinder im Schulalter (Arbeitsberichte aus dem Forschungsprojekt Dysgrammatismus Nr. 18). Heidelberg: Pädagogische Hochschule.
Langfeldt, H.-P. (1984). Die klassische Testtheorie als Grundlage normorientierter (standardisierter) Schulleistungstests. In K.A. Heller (Hrsg.), Leistungsdiagnostik in der Schule (S. 63-98). Bern: Huber.
Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Band 2: Anwendungsbereiche und Praxisfelder. Göttingen: Hogrefe.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. Weinheim: Beltz.
Linder, M. & Grissemann, H. (1981). Zürcher Lesetest. Bern: Huber.
Locke, J. L. (1994). Gradual emergence of developmental language disorders. Journal of Speech and Hearing Research, 37, 608-616.
Locke, J. L. (1995). Development of the capacity for spoken language. In P. Fletcher & B. MacWhinney (Eds.), The handbook of child language (pp. 278-302). Oxford: Blackwell.
Lukesch, H. (1998). Einführung in die pädagogisch-psychologische Diagnostik. Regensburg: Roderer.
MacWhinney, B. (Ed.). (1999). The emergence of language. Mahwah, N.J.: Erlbaum.
Marcell, M. M., Ridgeway, M. M., Sewell, D. H. & Whelan, M. L. (1995). Sentence imitation by adolescents and young adults with Down's syndrome and other intellectual disabilities. Journal of Intellectual Disability Research, 39, 215-232.
Melchers, P. & Preuss, U. (1994). Kaufman Assessment Battery for Children (K-ABC). Amsterdam: Swets & Zeitlinger.
Messelken, H. (1971). Empirische Sprachdidaktik. Heidelberg.
Meßing, J., Günther, H. & Kegel, G. (1980). Zur Fehleranalyse abweichenden Sprachverhaltens. International Review of Applied Linguistics in Language Teaching (IRAL), 18, 326-334.
Montgomery, M. M., Montgomery, A. A. & Stephens, M. I. (1978). Sentence repetition in preschoolers: effects of length, complexity, and word familiarity. Journal of Psycholinguistic Research, 7, 435-452.
Niemeyer, W. (1976). Bremer Lautdiskriminationstest BLDT. Bremen: Herbig.
Osgood, C. E. (1957). A behavioristic analysis of perception and language as cognitive phenomena. In J. Bruner (Ed.): Contemporary approaches to cognition (pp.75-118). Cambridge: CUP.
Pinker, S. (1996). Der Sprachinstinkt. München: Kindler.
Raatz, U. & Klein-Braley, C. (1982). Der Schulleistungstest Deutsch für vierte Klassen (CT-D4). Weinheim: Beltz.
Raatz, U. & Klein-Braley, C. (1983). Ein neuer Ansatz zur Messung der Sprachleistung. Der C-Test: Theorie und Praxis. In R. Horn, K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und Trends 3 (S. 107-138). Weinheim: Beltz.
Raatz, U. & Möhling, R. (1971). Frankfurter Test für Fünfjährige - Wortschatz (FTF-W). Weinheim: Beltz.
Raatz, U. & Schwarz, E. (1974). Wortschatzuntersuchung für 4.-6. Klassen WSU 4-6. Weinheim: Beltz.
Rieder, O. (1991). Allgemeiner Schulleistungstest für 2. Klassen AST 2. Weinheim: Beltz.
Rosner, R. (1999). Entwicklungsdiagnostik und Entwicklungstests in der Klinischen Entwicklungspsychologie. In R. Oerter, C. von Hagen, G. Röper & G. Noam (Hrsg.), Klinische Entwicklungspsychologie (S. 117-147). Weinheim: Psychologie Verlags Union.
Rost, J. (1996). Lehrbuch Testtheorie, Testkonstruktion. Bern: Huber.
Schakib-Ekbatan, K. & Schöler, H. (1995). Zur Persistenz von Sprachentwicklungsstörungen: Ein 10jähriger Längsschnitt neun spezifisch sprachentwicklungsgestörter Kinder. Heilpädagogische Forschung, 16, 77-84.
Schneider, W., Roth, E. & Küspert, P. (1999). Frühe Prävention von Lese-Rechtschreibproblemen: Das Würzburger Trainingsprogramm zur Förderung sprachlicher Bewusstheit bei Kindergartenkindern. Kindheit und Entwicklung, 8, 147-152.
Schöler, H. (1982). Zur Entwicklung des Verstehens inkonsistenter Äußerungen. Frankfurt: R. Fischer.
Schöler, H. (1987). Zur Entwicklung metasprachlichen Wissens. In Deutsche Gesellschaft für Sprachheilpädagogik (Hrsg.), Spracherwerb und Spracherwerbsstörungen (S.339-359). Hamburg: Wartenberg.
Schöler, H. (1999). IDIS - Inventar diagnostischer Informationen bei Sprachentwicklungsauffälligkeiten. Heidelberg: Edition S im Universitätsverlag C. Winter.
Schöler, H., Fromm, W. & Kany, W. (Hrsg.). (1998). Spezifische Sprachentwicklungsstörung und Sprachlernen. Heidelberg: Edition Schindele im Universitätsverlag C. Winter.
Schöler, H., Fromm, W., Schakib-Ekbatan, K. & Spohn, B. (1997). Nachsprechen. Sein Stellenwert bei der Diagnostik von Sprachentwicklungsstörungen (Arbeitsberichte aus dem Forschungsprojekt Differentialdiagnostik Nr. 2). Heidelberg: Pädagogische Hochschule.
Schöler, H., Häring, M. & Schakib-Ekbatan, K. (1996). Zur Diagnostik bei Sprachentwicklungsauffälligkeiten. Ergebnisse einer Fragebogenerhebung (Arbeitsberichte aus dem Forschungsprojekt Differentialdiagnostik Nr. 1). Heidelberg: Pädagogische Hochschule.
Steinert, J. (1978). Allgemeiner Deutscher Sprachtest. Braunschweig: Westermann.
Tent, L. (1998). Zensuren. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 580-584). Weinheim: Psychologie Verlags Union.
Tewes, U. (1983). Hamburg-Wechsler Intelligenztest für Kinder (HAWIK-R). Bern: Huber.
Tewes, U. & Thurner, F. (1976). Testbatterie Grammatische Kompetenz TGK. Göttingen: Hogrefe.
Thurner, F. (1977). Sprachsystemkompetenz. Braunschweig.
Weinert, F. E. (2001). Vorwort. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 5-7). Weinheim: Psychologie Verlags Union.
Weinert, F. E. (2001). Vergleichende Leistungsmessung in Schulen - eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17-31). Weinheim: Psychologie Verlags Union.
Weinert, F. E. (2001). Perspektiven der Schulleistungsmessung - mehrperspektivisch betrachtet. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 351-365). Weinheim: Psychologie Verlags Union.
Weinert, S. (2000). Beziehungen zwischen Sprach- und Denkentwicklung. In H. Grimm (Hrsg.), Enzyklopädie der Psychologie, Serie Sprache, Band 3: Sprachentwicklung (S. 311-361). Göttingen: Hogrefe.
Wettstein, P. (1995). Psycholinguistischer Sprachverständnis- und Sprachentwicklungstest PSST. Uster: Eigenverlag.