Hochschulranking
 
Eine unsichere Basis für Entscheidungen

Werner Meinefeld, Dr.rer.pol., Privatdozent, Soziologie,
Universität Erlangen-Nürnberg
 
 

 
    Mehr als 220.000 Studienanfänger stehen in Deutschland jedes Jahr vor der Frage, an welcher Hochschule sie ihr Studium aufnehmen sollen. Die meisten entscheiden sich für die Hochschule um die Ecke, so dass die Beziehungen zu Familie und Freunden noch leicht aufrecht- und die Kosten niedrig gehalten werden können. Die Qualität der dort jeweils zu erwartenden Ausbildung (der „Ruf“ der Hochschule) spielt zumeist nur eine untergeordnete Rolle, und einschlägige Informationen waren zumindest früher auch nur schwer zu beschaffen.

    Seit der „Spiegel“ vor zehn Jahren die erste umfassende und breit rezipierte bundesdeutsche Rangliste der Universitäten vorlegte, scheint sich die Situation grundlegend gebessert zu haben, da mittlerweile einige der größeren Zeitschriften regelmäßig Erhebungen zur Qualität der akademischen Ausbildung veröffentlichen. Ihr erklärtes Ziel ist es dabei, einerseits für Studienanfänger eine „verlässliche Entscheidungsbasis“ zu schaffen, andererseits durch Transparenz öffentlichen Druck auf die Hochschulen auszuüben, die lange vernachlässigte Lehre ernst(er) zu nehmen und zu verbessern.

    Das Kernstück dieser Veröffentlichungen besteht in der Präsentation von „Hitlisten“ für die jeweils untersuchten Studienfächer, begleitet von Informationen über die Studienbedingungen und garniert mit Porträts ausgewählter Hochschulen und Studierender. Die Hitlisten beruhen auf Erhebungen, in denen sowohl Daten über die einzelnen Studienfächer (wie z.B. die durchschnittliche Studiendauer, die Zahl der Prüfungen pro Professor etc.) ausgewertet wurden als auch eine Auswahl von Studierenden hinsichtlich ihrer Bewertung ihres Studiums befragt wurde.
     

      Divergenzen zwischen den Ranglisten
       

    Welche Informationen jeweils erfasst werden, variiert zwischen den verschiedenen Erhebungen und führt damit auch zu im Detail unterschiedlichen Ranglisten. Auffällig ist jedoch, dass die kleinen und neuen Universitäten am besten abschneiden, während die großen etablierten Universitäten sich allem Anschein nach auf altem Ruhm ausruhen - sie landen am unteren Ende der Skala, bieten also die schlechteren Ausbildungschancen. Kritik an diesen Studien ließ erwartungsgemäß nie lange auf sich warten, wobei  vorgebracht wurde, dass nicht eigentlich die „Qualität der Lehre“ gemessen, sondern nur „Wohlfühlstudien“ vorgelegt würden, die weder über die inhaltliche Qualität noch über die tatsächlichen Bemühungen der Lehrenden etwas aussagten.

    Dabei ist ohne Einschränkung anzuerkennen, dass in diesen Studien ein bemerkenswerter Erhebungsaufwand betrieben wurde. In den beiden neuesten Veröffentlichungen: „Der Spiegel“  15/1999 und „Start“ 2/1999 (einer Spezialausgabe des „Stern“), wurden u.a. die Studienbewertungen von mehr als 12.000 bzw. von mehr als 33.000 Studierenden analysiert. Hinzu kommt (v.a. in „Start“) die Bereitstellung einer Fülle weiterer Informationen, an denen Studienanfänger ihre Entscheidung ausrichten können.

    Allerdings beginnen hier bereits die Probleme. Zum einen sind diese Informationen nur selten direkt zu vergleichen, stützt sich jede Studie auf etwas andere Daten. Zum anderen kommen Zweifel an der Zuverlässigkeit dieser Angaben auf, wenn diese „Fakt-Informationen“ erheblich variieren. So differiert die in „Spiegel“ und „Start“ angegebene durchschnittliche Studiendauer der Jura-Studenten um bis zu zwei Semester, und entsprechend unterscheiden sich die danach aufzustellenden Ranglisten der Universitäten. Auf analoge Differenzen treffen wir in den beiden anderen Fächern, die ebenfalls in beiden Erhebungen berücksichtigt wurden: in Mathematik und Informatik.

    Eine Entscheidung über die Zuverlässigkeit dieser und aller weiteren „Fakt-Informationen“ ist im Rahmen dieses Beitrags nicht möglich - wohl aber eine Prüfung der Aussagefähigkeit der auf den studentischen Bewertungen beruhenden Ranglisten. Dabei werde ich mich im Folgenden auf den Vergleich der zentralen (und die öffentliche Diskussion bestimmenden) Ranglisten konzentrieren: auf die Gesamtbenotung des jeweiligen Faches im „Spiegel“ bzw. auf das Gesamturteil der Studierenden in „Start“. In der „Spiegel“-Erhebung wird die Note für die einzelnen Fächer aus 16 Einzelbewertungen berechnet, die sich auf das Dozentenverhalten, die Überfüllung von Lehrveranstaltungen, die Inhalte des Studiums und die Ausstattung der Institute (mit PCs etc.) beziehen. In der „Start“-Erhebung dagegen verzichtete man auf eine Zusammenfassung der verschiedenen Informationen, sie werden jeweils in eigenen Ranglisten dargestellt. Eine Entsprechung zur Gesamtnote in der Spiegel-Erhebung finden wir hier am ehesten im „Gesamturteil Studierende“, in dem die Zufriedenheit der Studierenden - „alles zusammen betrachtet“ - erfragt wurde. Vergleichen wir nun diese beiden Listen in „Spiegel“ und „Start“ miteinander, so weichen die Platzierungen etwa der juristischen Fakultäten durchschnittlich um fast 7 Rangplätze voneinander ab, wobei die Differenz bei 10 der 39 Hochschulen 10 und mehr Ränge beträgt (die Plazierung von zwei Universitäten, Saarbrücken und Trier, liegt sogar um 27 bzw. 24 Plätze auseinander - im Prestige sind das Welten!). Unterschiede in derselben Größenordnung bestehen im Fach Informatik, und in Mathematik haben die beiden Listen kaum etwas miteinander gemein.

    Man könnte nun einwenden, dass diese Divergenzen nicht verwunderlich sind, da die Listen ja auf unterschiedlichen Daten beruhen - nur: diese Relativierung ihres Leistungsanspruchs findet sich in keiner der Veröffentlichungen, und so, als eine von mehreren möglichen Bewertungen, werden sie in ihrer öffentlichen Wirkung auch nicht wahrgenommen und nicht eingesetzt.
     

      Was messen die Listen eigentlich?
       

    Dabei lohnt sich durchaus ein Blick auf die Konstruktion dieser Rangskalen, und zwar sowohl unter inhaltlichen als auch unter methodischen Gesichtspunkten. Inhaltlich ist zu konstatieren, dass die Informationen, die in sie eingehen, selektiv sind. Die fachliche Kompetenz der Lehrenden, die Lehrinhalte, die didaktische Aufbereitung des Lehrstoffes oder der Lernerfolg werden gar nicht erfasst, obwohl man doch mit guten Gründen argumentieren kann, dass diesen Kriterien für den Ausbildungserfolg eine mindestens ebenso große Bedeutung zukommt wie den tatsächlich erfassten. Nur ist offensichtlich: ihre Einbeziehung würde einen noch erheblich höheren Aufwand erfordern. Es ist zuzugestehen, dass solche Studien sich notgedrungen auf Kriterien beziehen müssen, die relativ leicht erfasst werden können - dies ist ihnen nicht prinzipiell vorzuwerfen. Die Interpretation hat dann aber zu bedenken, dass damit nur ein Teil der Realität ins Blickfeld gerät. So wie man Professoren kaum allein aufgrund des Seitenumfangs ihrer Veröffentlichungen berufen sollte, so erhält man mit den leicht messbaren Kriterien nur ein unzureichendes Bild der Universitäten.

    In der methodischen Diskussion ist umstritten, inwieweit durch eine Befragung der Studierenden die tatsächlichen Studienbedingungen erfasst werden können, ob nicht auch andere Faktoren die Antworten wesentlich beeinflussen. So gibt es z.B. für die Zufriedenheit mit der Bibliotheksausstattung oder mit dem Lehrangebot keinen absoluten, zwischen Köln und Frankfurt a.d.O. allgemein verbindlichen Maßstab; vielmehr sind solche Bewertungen relativ zum jeweiligen Erfahrungshintergrund und zu den aus anderen Lebensbereichen mitgebrachten Erwartungen. Erinnert man sich nun daran, wo studentische Protestbewegungen in der Vergangenheit ihren Ausgang nahmen, so ist es wohl kein Zufall, dass Eichstätt, Passau oder Greifswald von den Studierenden durchgängig freundlicher beurteilt werden als Berlin, Hamburg oder München. Es ist also zu bedenken, dass die Kritikbereitschaft auf dem Kontinuum zwischen Kleinstadt und Metropole variiert und die weniger traditionell gebundenen, kritischeren Studierenden von den letzteren stärker angezogen werden. Wohlgemerkt: hier geht es nicht um die Behauptung, alle Studierenden hier seien brav und alle Studierenden dort seien kritisch. Bei durchschnittlichen Stichprobengrößen von 23 bzw. 44 Befragten pro Studienfach (bei „Spiegel“ bzw. „Start“) genügen aber 3 oder 4 Personen, die hier sehr positiv und dort sehr negativ werten, um (bei ansonsten gleichen Bewertungen) den Mittelwert um mehr als 20 Rangplätze zu verschieben.
     

     

      Präzision der Ranglisten fiktiv
       

    Ein weiteres methodisches Problem scheint auf den ersten Blick nur für Experten interessant zu sein, doch betrifft es zentral die Aussagekraft der vorgelegten Listen (und zwar völlig unabhängig von den oben aufgeworfenen Fragen nach deren Vergleichbarkeit oder nach der Art der jeweils herangezogenen Bewertungskriterien). In allen Befragungen handelt es sich um Stichproben, deren Ergebnisse mit - statistisch berechenbaren - Unsicherheitsmargen belastet sind. Leider fehlen jedoch in allen Veröffentlichungen die hierzu erforderlichen Angaben über die Stichprobengröße und die Homogenität der Bewertungen in den einzelnen Studienfächern. Angesichts des avisierten Leserkreises ist dies auch verständlich - wer rechnet schon gewohnheitsmäßig Konfidenzintervalle aus, um die Aussagekraft medialer Informationen zu beurteilen? 

    Indem allerdings präzise Mittelwerte mit ein („Start“) bzw. zwei Stellen hinter dem Komma („Spiegel“) zur Grundlage der Rangzuweisungen gemacht werden, wird eine Sicherheit und Genauigkeit des Messinstrumentes suggeriert, die de facto in keiner Weise gegeben sind. Vom „Centrum für Hochschulentwicklung“ in Gütersloh, das für „Start“ die Erhebung durchführte, wurde dieses Problem prinzipiell erkannt. Folgerichtig verzichtete man dort auf eine exakte Rangzuweisung und bestimmte stattdessen unter Berücksichtigung der Homogenität der Antworten die Zugehörigkeit der getesteten Universitäten zur Gruppe der „Spitzenreiter“, zur „Mittelgruppe“ oder zu den „Schlusslichtern“, die jeweils dezent farblich voneinander abgesetzt wurden. Es ist allerdings zu befürchten, dass dieses leise methodische „Caveat“ sich nur den dafür bereits sensibilisierten Lesern erschließt, es zumeist jedoch von der einfachen und vertrauten Rangfolge der ja ebenfalls berichteten Mittelwerte „übertönt“ wird, so dass die Abfolge innerhalb der Gruppen im allgemeinen als Rangfolge verstanden wird. Die oben dargelegte Grundproblematik dieser Zahlen: ihre stichprobenbedingte Unsicherheit, wird nirgends explizit diskutiert.

    Freundlicherweise teilte mir das „Centrum für Hochschulentwicklung“ Stichprobengröße und Homogenität der Antworten für das Gesamturteil der Studierenden im Fach Jura mit. Demnach liegt die oben erwähnte Unsicherheitsmarge z.B. für die Universität Potsdam, die hier die Note 2,8 enthielt (was dem Durchschnittswert aller Universitäten für Jura entspricht), bei plus/minus 0,2, woraus sich ein Notenintervall zwischen 2,6 und 3,0 errechnet. Konkret bedeutet dies: in der vorliegenden Rangliste im Fach Jura kann die Universität Potsdam sowohl den 9. als auch 28. Rang einnehmen - und es ist statistisch in keiner Weise möglich, eine genauere Verortung innerhalb dieser Spannweite zu begründen. Berücksichtigt man in der Interpretation der Ranglisten diese prinzipiell nicht aufhebbare Ungenauigkeit, so mindert dies die Aussagekraft der Listen beträchtlich.
     

      Qualität der Lehre  oder Größe der Fakultät?
       

    Die Auswirkungen eines weiteren methodischen Problems sind schwieriger einzuschätzen und zudem zwischen den verschiedenen Fachrichtungen sehr uneinheitlich. So lässt sich mittels einer statistischen Regressionsanalyse zeigen, dass im Fach Jura mehr als 50 Prozent der Unterschiede zwischen den verschiedenen Rangplätzen auf die einfache Tatsache zurückzuführen sind, dass die Universitäten unterschiedlich viele Studierende zu versorgen haben. Um es an konkreten Zahlen plastisch werden zu lassen: bei den Spitzenreitern im Fach Jura in der „Spiegel“-Erhebung (Düsseldorf, Greifswald, Passau) waren 1997 durchschnittlich 1.225 Studierende immatrikuliert - bei den Schlusslichtern (Bochum, Köln und FU Berlin) studierten dagegen durchschnittlich 4.708 angehende Juristen.

    Diese Abhängigkeit der Bewertung von der Studierendenzahl kann dadurch bedingt sein, dass mit der Zahl der Studierenden bestimmte Rahmenbedingungen verbunden sind, die direkt die Qualität des Studierens betreffen: die Betreuungszeiten pro Student werden kürzer, der Zugang zu Büchern und Arbeitsplätzen wird erschwert, in den Seminaren wird es eng, u.ä.m. Es kann sich aber auch um einen eigenständigen Effekt der Studierendenzahl handeln, unabhängig von den Ausstattungsbedingungen: es ist einfach angenehmer, schnell in einer überschaubaren Gruppe heimisch zu werden, als unter 600 weiteren Erstsemestern neue soziale Beziehungen knüpfen zu müssen; es ist leichter, sich in einer kleinen (und zumeist auch neueren) Campus-Universität zurechtzufinden, als sich die räumliche und funktionale Verteilung einer alten Universität in einer Großstadt zu erschließen und mit ihr im Studienalltag zurechtzukommen.

    Der Zusammenhang von Bewertung und Studierendenzahl bedeutet aber, dass im Fach Jura ein Teil der den Ranglisten zugrunde liegenden Differenzen zwischen den Universitäten gar nicht der Qualität der Ausbildung zuzurechnen ist, sondern eine Rahmenbedingung des Studierens reflektiert, die nur indirekt etwas über die Qualität aussagt. Aus diesem Grund sollte man auch sehr vorsichtig sein mit Aussagen wie: „Zum Studieren in den Osten“, oder: „Die neuen Unis sind die besten“ - in erster Linie sind sie nicht besser, sondern kleiner, und bestenfalls sind sie besser, weil sie kleiner (und neuer) sind. So verschwinden, sobald in einer Regressionsanalyse der Einfluss der Zahl der Studierenden ausgeschaltet wird, alle Unterschiede zwischen Ost- und West-Universitäten; und erstellt man auf der Basis der auf diese Weise vom Einfluss der Studierendenzahlen bereinigten Bewertungen eine neue Rangfolge der Universitäten, so gewinnen die großen Fakultäten in Bonn, Hamburg, Köln, München und Münster jeweils zwischen 14 und 22 Rangplätze (von insgesamt 39 bzw. 40).

    Anders sieht das Bild in den Fächern aus, die über deutlich weniger Studierende verfügen. In Mathematik, Informatik und Physik liegt der Einfluss der Zahl der Studierenden auf die Zufriedenheit bei maximal 26 Prozent (- was im Vergleich der Fächer die Annahme stärkt, dass die Zahl der Studierenden einen eigenständigen Einfluss auf die Bewertung der Studienbedingungen ausübt). Es ist also nicht nur, wie eingangs dargelegt, überhaupt schwierig, die Qualität der Lehre zu messen. Die Beurteilungskriterien variieren außerdem zwischen den Fächern wie auch zwischen den Hochschulen, so dass eine sachgerechte Bewertung der Ausbildungsqualität sowohl Spezifika der einzelnen Fächer als auch strukturelle Besonderheiten der einzelnen Hochschulen in Rechnung stellen muss.
     

      Vorsicht vor Fehlinterpretationen
       

    Skepsis ist daher angebracht gegenüber den schnell erhobenen Forderungen nach wissenschaftspolitischen Konsequenzen, die angeblich von den Ranking-Studien zwingend nahe gelegt würden. Als handele es sich um fraglos gültige Ergebnisse einer einfachen Rechenaufgabe, tritt in der öffentlichen Diskussion die methodische Reflexion über die Grenzen der Aussagefähigkeit dieser Erhebungen völlig hinter die publikumswirksame Forderung nach der längst überfälligen Reform des Hochschulsystems zurück. Erstaunlich und befremdlich ist in diesem Zusammenhang, wie unkritisch die Kultusministerien (als verfügten sie nicht über Fachabteilungen, die die Problematik einer Evaluation kennen) die in den Medien propagierten Schlussfolgerungen und Bewertungen übernehmen - wie ertappte Mittäter, die nun („Haltet den Dieb!“) durch den energischen Nachweis ihrer Handlungsfähigkeit und -bereitschaft die Versäumnisse „der anderen“ zu korrigieren versprechen. 

    In der sich entfaltenden Eigendynamik dieser Kritik wird aus der in den Studien erhobenen Beschreibung der Zustände, wie sie von den Studierenden wahrgenommen werden bzw. wie sie sich in den statistischen Zahlen spiegeln, eine Kritik an den unzulänglichen Bemühungen des akademischen Betriebes und insbesondere natürlich derjenigen Universitäten und Fakultäten, die in der Rangskala im unteren Bereich liegen. Die Krise hat damit einen - und nur einen - Verantwortlichen: das unflexible Hochschulsystem und seine Handlungsträger; die erforderlichen Maßnahmen erhalten eine Richtung, und die Frage nach möglichen anderen und auch in Zukunft wirksamen Ursachen (wie sie, um die „andere“ Seite zu Wort kommen zu lassen, mit den Schlagworten „Untertunnelung des Studentenberges“, „Stagnation des Hochschulausbaus“, „Kürzung der Studienförderung“, etc. zu benennen sind) wird als Schutzbehauptung rückwärtsgerichteter und reformunwilliger Privilegienhalter zur Seite geschoben.
     

      Paradoxe Folgen
       

    So zeichnet sich denn in der Rezeption dieser Bewertungsstudien die Gefahr einer paradoxen Folge ab. Interpretiert man die in ihnen erstellten Ranglisten als gültige Indikatoren für die Lehrleistungen der Universitäten, so scheint die Schlussfolgerung nur logisch, durch eine Umverteilung der finanziellen und personellen Mittel diejenigen Universitäten bzw. Fakultäten zu belohnen, die „gute“ Lehre leisten, und diese Mittel bei den „schlechten“ Fakultäten einzusparen. Damit aber erhalten Fakultäten bzw. Universitäten, die im Verhältnis zur Zahl ihrer Studierenden bereits gut ausgestattet sind und die ihre positive Bewertung wesentlich diesem Umstand verdanken, zusätzliche Mittel, während die Arbeitsbedingungen der anderen weiter verschlechtert werden. Den betroffenen Universitäten wird etwas als Leistung oder als Versagen zugerechnet, worauf sie nur sehr begrenzt Einfluss ausüben konnten.

    Aufgrund unsicherer und zudem falsch interpretierter Informationen würden somit bestehende Ungleichheiten weiter verfestigt und sogar noch verstärkt. Und diese Ungleichheiten sind schon jetzt erheblich: die Spannweite der von einem Professor abzunehmenden Prüfungen lag 1997 im Fach Jura zwischen 1,5 und 30,0 Prüfungen (bei einem Mittel von 18). Möglicherweise liegt hier das eigentliche Verdienst dieser Erhebungen: bestehende Ungleichheiten öffentlich gemacht zu haben - wobei allerdings kritisch zu vermerken ist, dass in der öffentlichen Rezeption  wie auch in der Präsentation der Studien diese Informationen völlig hinter die vordergründige Platzierungsfrage zurücktreten. Würden die Studienanfänger ihre Hochschulwahl in wesentlichem Ausmaß von den Platzierungen auf den Ranglisten abhängig machen, so wäre dies ironischerweise vermutlich der größte (und am schnellsten wirkende) Beitrag zu einer Vereinheitlichung nicht nur der Studienbedingungen, sondern auch ihrer Bewertung in solchen Erhebungen.

    Es ist leicht nachzuvollziehen, dass im Ranking gut platzierte Universitäten die Gunst der Stunde nutzen und sich an der Sonne des „wissenschaftlich abgesicherten“ Nachweises ihrer Lehrqualität wärmen, und entsprechend wurden diese Ergebnisse in der Vergangenheit auch eingesetzt. Der Umgang mit diesen Erhebungen ist ein Beispiel dafür, dass mit der in den letzten Jahren propagierten Konkurrenz der Hochschulen auch ein unvermeidliches Begleitelement jeder Konkurrenz: die Werbung - samt der ihr eigenen Tendenz zur Abkoppelung von realen Verhältnissen - in den Bildungsbereich Einzug gehalten hat. „Klappern“ gehört schon lange nicht mehr nur zum Handwerk, sondern auch zu den Überlebensvoraussetzungen an den Universitäten und für die Universitäten. Inwieweit dies mit einem Zugewinn an Rationalität in den Entscheidungen einhergeht, ist aber vorerst noch eine offene Frage.
     

      Was tun?
       

    Zweifellos: die Hochschulen hätten gut daran getan, das gesellschaftliche Bedürfnis nach Information und Erfolgskontrolle selbst zu befriedigen und in fachinternen Diskussionen Kriterien für die Bewertung der Ausbildungsqualität zu entwickeln. Nun, da im Bereich der Medien - und nach den dort geltenden Regeln für Erfolg - ein Bewertungssystem etabliert worden ist, dessen Ergebnissen öffentliche Aufmerksamkeit sicher ist, müssen sie sich mit dessen Aussagewert auseinandersetzen. Offensichtlich ist, dass sich dies nicht in reiner Abwehr unbequemer Kritik erschöpfen kann, aber es dürfte auch klar sein, dass eine sachlich angemessene Bewertung der akademischen Ausbildung nicht leicht zu haben sein wird: die inhaltlichen Probleme in der Bestimmung der Indikatoren sind durchaus noch offen, und der bei ihrer Realisierung erforderliche Erhebungsaufwand wird mit Sicherheit größer sein, als er in den bisherigen Studien erbracht werden konnte.

    Natürlich gibt es Unterschiede in der Qualität der akademischen Ausbildung, und natürlich differieren die Bemühungen um deren Verbesserung zwischen den Fakultäten. Es ist das unbezweifelbare Verdienst von „Spiegel“, „Start“ u.a., die Diskussion darüber in Gang gebracht und am Leben gehalten zu haben. Fraglich scheint allerdings, ob die dort vorgelegten Ergebnisse bereits eine angemessene Basis für diese Bewertung darstellen. In der bisherigen Bewertungspraxis sind die Hochschulen zu einem Objekt im Profilierungswettkampf der Medien geworden, die diese Erhebungen ja nicht nur aus Sorge um das deutsche Bildungssystem finanzieren. Zweifel sind angebracht, ob eine umfassende und sachangemessene Evaluierung weiterhin privatwirtschaftlicher Initiative und Strukturierung überlassen bleiben kann - hier sollte es möglich sein, aus den Erfahrungen anderer Länder in der Etablierung einer unabhängigen Evaluierungs-Institution zu lernen. Die vorliegenden Studien sind kompetent wissenschaftlich begleitet worden - ihr Rahmen und ihre Präsentation aber sind extern bestimmt, und es ist die Frage, ob diese Formung dem Ziel einer gültigen Evaluierung gut bekommt. 
     
     

Forschung & Lehre 1999