Teaching quality in higher education: Do student evaluation of teaching questionnaires  allow a reliable and valid assessment of teaching quality?

Feistauer, Daniela

🇬🇧

Dissertation

Zusammenfassung

🇬🇧
🇩🇪

Improving teaching quality is a relevant topic in society to nurture the students’ innate potential in the best possible way. One often applied tool for assessing teaching quality in higher education is student evaluations of teaching (SETs) that are used as a criterion for making important decisions in higher education such as employing teachers, distributing funds, and making changes in the curriculum. Despite their effect on decisions it is relatively unclear if SETs are a valid and reliable assessment of teaching quality. Therefore, the current dissertation examines the influence of student characteristics that are not conceptually related to teaching quality in two ways. First the variance of students was estimated through cross-classified multilevel models. This type of analysis allows a direct estimation of variance attributed to the students while separating it from the residual variance. Second selected student characteristics were added as predictors to estimate their effect on SETs and therefore to enhance the interpretation of their validity. In all studies a standardized German questionnaire was applied as the SET instrument.
The first study investigated the reliability of SETs as measurement of teaching quality which was operationalized as interrater reliability calculated from intra-class correlations. It was assessed by comparing the variance components of teachers, courses, and students. The instrument can be considered reliable only when a high proportion of variance is explained by teachers and courses, however not by students. The study revealed that teachers and courses were large sources of variance in different dimensions of the questionnaire. This result suggests that SETs are reliable instruments if a sufficient number of students (at least 24) evaluate a teacher and course. Moreover, the study also revealed students and the interaction of students and teachers as relevant sources of variance. This finding implies that student characteristics and the individual fit between students and teachers can affect SETs and should be considered in the ongoing discussion of the instrument’s validity.
The latter two studies examined the validity of SETs. The second study focused on student’s characteristics, content expectations and prior subject interest. Both variables are theoretically unrelated to teaching quality because they are outside of the teacher’s sphere of influence. Therefore they should not affect SET results. This means that the inclusion of both variables as predictors into cross-classified multilevel models should not lead to significant fixed effects. The second study revealed significant but weak effects of both variables on SETs and thus did not pose strong threats to the validity of SETs.
The third study also addressed the validity of SETs, extending the research of prior subject interest by measuring it twice, once at the beginning of the course and a second time retrospectively at the time of evaluation. Additionally, likability of the teacher perceived by students was measured once at the beginning of the course and a second time at the typical time of evaluation toward the end of the semester. Similar to the results from Study 2 a weak effect was found of prior subject interest on the validity of SETs. However, the likability of teachers had a strong effect on the validity of SETs at both times of measurement. This result was interpreted as a strong effect of likability, which is theoretically unconnected to teaching quality and thus undermines the validity of SETs.
The results of the three studies suggest that SETs are a reliable instrument given a sufficient number of evaluations. Only the likability of the teacher perceived by students strongly affected the SETs and hence was a solid threat to its validity as a measurement of teaching quality. Conclusively, decisions should not be justified solely by SETs.

Die Verbesserung der Lehrqualität ist im Sinne einer bestmöglichen Förderung aller Studierenden ein wichtiges gesellschaftliches Thema. Typischerweise wird universitäre Lehrqualität durch studentische Evaluationsfragebögen erfasst, deren Ergebnisse häufig die Grundlage für Entschei-dungen sind, die das Lehrpersonal, finanzielle Mittelverteilungen und Lehrplanänderungen betreffen. Trotz der Reichweite dieser Entscheidungen ist jedoch unklar, ob die Fragebögen Lehrqualität überhaupt reliabel und valide messen. Hier ansetzend wurde in der vorliegenden Dissertation der Einfluss von studentischen Merkmalen, die eigentlich nichts mit Lehrqualität zu tun haben, auf Evaluationsfragebögen untersucht. Als Erstes wurde die durch Studierende erklärte Varianz durch kreuzklassifizierte Mehrebenenmodelle geschätzt. Dieses Analyseverfahren erlaubt eine Abgrenzung der studentischen Varianz von der unerklärten Varianz. Darauf folgend wurde der Effekt studentischer Merkmale auf Evaluationsfragebögen untersucht, in dem diese als Prädiktoren in die Analysen aufge¬nommen wurden. Die drei folgenden Studien basieren auf demselben in Deutschland häufig eingesetzten standardisierten Evaluationsfragebogen.
In der ersten Studie wurde die Fragebogenreliabilität als Maß der Lehrqualität untersucht. Die Reliabilität wurde als Interrater-Reliabilität auf Basis der Intra-Klassen-Korrelation berechnet. Hierfür wurden die Varianzanteile der Dozierenden, Veranstaltungen und Studierenden berechnet. Ein Evaluationsfragebogen wird dann als reliabel eingestuft, wenn viel Varianz durch Dozierende und Veranstaltungen, nicht jedoch durch Studierende, erklärt wird. Die Ergebnisse dieser Studie zeigten, dass Dozierende und Veranstaltungen in den analysierten Fragebogendimensionen ausreichend Varianz aufklärten, wenn genügend Evaluationen (mindestens 24) pro Veranstaltung vorlagen. Darüber hinaus zeigte die Studie auch eine erhebliche Varianzaufklärung durch die beiden Komponenten Studierende und Interaktion Studierende und Dozierende. Dieser Befund impliziert, dass Studierenden¬merk¬male und die individuelle Passung zwischen Studierenden und Dozierenden die Evaluations¬ergebnisse beeinflussen können.
Auf diesen Befunden aufbauend wurde in den folgenden beiden Studien die Validität der Evaluations¬fragebögen untersucht. In der zweiten Studie wurden die Studierendenmerkmale inhaltliche Vorstellungen über das Studienfach Psychologie und inhaltliches Vorinteresse untersucht. Beide Variablen sind theoretisch unabhängig von Lehrqualität, da sie außerhalb des Einflussbereiches der Dozierenden liegen. Somit sollten sie keinen Effekt auf Evaluations-ergebnisse haben. Die Ergebnisse dieser Studie offenbarten schwache, jedoch signifikante Effekte beider Variablen auf Evaluationsfragebögen. Diese beiden Studierendenmerkmale stellen somit nur eine schwache Bedrohung der Fragebogenvalidität dar.
In der dritten Studie wurden ebenfalls potentiell validitätsgefährdende Studierendenmerkmale betrachtet. Einerseits wurde erneut inhaltliches Vorinteresse betrachtet. Es wurde diesmal zu zwei Zeiten erfasst: 1) zu Beginn der Veranstaltung und 2) wie in Studie 2 zur Evaluationszeit. Darüber hinaus wurde Sympathie den Dozierenden gegenüber, ebenfalls zweimal erfasst, betrachtet. Ähnlich zu den Ergebnissen der Studie 2 zeigte sich ein geringer Effekt des inhaltlichen Vorinteresses. Sympathie offenbarte dagegen einen hohen Einfluss auf die Evaluationsergebnisse und gefährdet somit die Validität der Evaluationsfragebögen.
Die Ergebnisse dieser Dissertation legen nahe, dass Evaluationsfragebögen ausreichend reliabel sind, wenn mindestens 24 Evaluationen vorliegen. Sie sind jedoch keine validen Messinstru¬mente der Lehrqualität, da sie stark durch Sympathieeinschätzungen den Dozierenden gegen¬über beeinträchtigt sind. Daher sollten weitreichende Entscheidungen nicht ausschließlich durch Evaluationsergebnisse begründet sein.

Sammlung(en)

Dissertationen (Allgemeine Psychologie)

Zitieren

BibTex

@phdthesis{urn:nbn:de:hebis:34-2018061855694,
   author={Feistauer, Daniela},
   title={Teaching quality in higher education: Do student evaluation of teaching questionnaires  allow a reliable and valid assessment of teaching quality?},
   school={Kassel, Universität Kassel, Fachbereich Humanwissenschaften, Institut für Psychologie},
   month={06},
   year={2018}
}

0500 Oax
0501 Text $btxt$2rdacontent
0502 Computermedien $bc$2rdacarrier
1100 2018$n2018
1500 1/eng
2050 ##0##urn:nbn:de:hebis:34-2018061855694
3000 Feistauer, Daniela
4000 Teaching quality in higher education: Do student evaluation of teaching questionnaires  allow a reliable and valid assessment of teaching quality? / Feistauer, Daniela
4030 
4060 Online-Ressource
4085 ##0##=u http://nbn-resolving.de/urn:nbn:de:hebis:34-2018061855694=x R
4204 \$dDissertation
4170 
5550 {{Hochschule}}
5550 {{Lehre}}
5550 {{Qualität}}
5550 {{Erwartung}}
5550 {{Evaluierung}}
5550 {{Fragebogen}}
5550 {{Urteilerübereinstimmung}}
5550 {{Reliabilität}}
5550 {{Validität}}
7136 ##0##urn:nbn:de:hebis:34-2018061855694


<resource xsi:schemaLocation="http://datacite.org/schema/kernel-2.2 http://schema.datacite.org/meta/kernel-2.2/metadata.xsd">
2018-06-18T12:42:13Z
2018-06-18T12:42:13Z
2018-06-18
urn:nbn:de:hebis:34-2018061855694
http://hdl.handle.net/123456789/2018061855694
eng
Urheberrechtlich gesch&uuml;tzt
https://rightsstatements.org/page/InC/1.0/
content expectations
interrater reliability
likability
prior subject interest
student evaluations of teaching
validity
variance components
150
Teaching quality in higher education: Do student evaluation of teaching questionnaires  allow a reliable and valid assessment of teaching quality?
Dissertation
Improving teaching quality is a relevant topic in society to nurture the students&rsquo; innate potential in the best possible way. One often applied tool for assessing teaching quality in higher education is student evaluations of teaching (SETs) that are used as a criterion for making important decisions in higher education such as employing teachers, distributing funds, and making changes in the curriculum. Despite their effect on decisions it is relatively unclear if SETs are a valid and reliable assessment of teaching quality. Therefore, the current dissertation examines the influence of student characteristics that are not conceptually related to teaching quality in two ways. First the variance of students was estimated through cross-classified multilevel models. This type of analysis allows a direct estimation of variance attributed to the students while separating it from the residual variance. Second selected student characteristics were added as predictors to estimate their effect on SETs and therefore to enhance the interpretation of their validity. In all studies a standardized German questionnaire was applied as the SET instrument. &#13;
The first study investigated the reliability of SETs as measurement of teaching quality which was operationalized as interrater reliability calculated from intra-class correlations. It was assessed by comparing the variance components of teachers, courses, and students. The instrument can be considered reliable only when a high proportion of variance is explained by teachers and courses, however not by students. The study revealed that teachers and courses were large sources of variance in different dimensions of the questionnaire. This result suggests that SETs are reliable instruments if a sufficient number of students (at least 24) evaluate a teacher and course. Moreover, the study also revealed students and the interaction of students and teachers as relevant sources of variance. This finding implies that student characteristics and the individual fit between students and teachers can affect SETs and should be considered in the ongoing discussion of the instrument&rsquo;s validity. &#13;
The latter two studies examined the validity of SETs. The second study focused on student&rsquo;s characteristics, content expectations and prior subject interest. Both variables are theoretically unrelated to teaching quality because they are outside of the teacher&rsquo;s sphere of influence. Therefore they should not affect SET results. This means that the inclusion of both variables as predictors into cross-classified multilevel models should not lead to significant fixed effects. The second study revealed significant but weak effects of both variables on SETs and thus did not pose strong threats to the validity of SETs.&#13;
The third study also addressed the validity of SETs, extending the research of prior subject interest by measuring it twice, once at the beginning of the course and a second time retrospectively at the time of evaluation. Additionally, likability of the teacher perceived by students was measured once at the beginning of the course and a second time at the typical time of evaluation toward the end of the semester. Similar to the results from Study 2 a weak effect was found of prior subject interest on the validity of SETs. However, the likability of teachers had a strong effect on the validity of SETs at both times of measurement. This result was interpreted as a strong effect of likability, which is theoretically unconnected to teaching quality and thus undermines the validity of SETs.&#13;
The results of the three studies suggest that SETs are a reliable instrument given a sufficient number of evaluations. Only the likability of the teacher perceived by students strongly affected the SETs and hence was a solid threat to its validity as a measurement of teaching quality. Conclusively, decisions should not be justified solely by SETs.
Die Verbesserung der Lehrqualit&auml;t ist im Sinne einer bestm&ouml;glichen F&ouml;rderung aller Studierenden ein wichtiges gesellschaftliches Thema. Typischerweise wird universit&auml;re Lehrqualit&auml;t durch studentische Evaluationsfrageb&ouml;gen erfasst, deren Ergebnisse h&auml;ufig die Grundlage f&uuml;r Entschei-dungen sind, die das Lehrpersonal, finanzielle Mittelverteilungen und Lehrplan&auml;nderungen betreffen. Trotz der Reichweite dieser Entscheidungen ist jedoch unklar, ob die Frageb&ouml;gen Lehrqualit&auml;t &uuml;berhaupt reliabel und valide messen. Hier ansetzend wurde in der vorliegenden Dissertation der Einfluss von studentischen Merkmalen, die eigentlich nichts mit Lehrqualit&auml;t zu tun haben, auf Evaluationsfrageb&ouml;gen untersucht. Als Erstes wurde die durch Studierende erkl&auml;rte Varianz durch kreuzklassifizierte Mehrebenenmodelle gesch&auml;tzt. Dieses Analyseverfahren erlaubt eine Abgrenzung der studentischen Varianz von der unerkl&auml;rten Varianz. Darauf folgend wurde der Effekt studentischer Merkmale auf Evaluationsfrageb&ouml;gen untersucht, in dem diese als Pr&auml;diktoren in die Analysen aufge&not;nommen wurden. Die drei folgenden Studien basieren auf demselben in Deutschland h&auml;ufig eingesetzten standardisierten Evaluationsfragebogen. &#13;
In der ersten Studie wurde die Fragebogenreliabilit&auml;t als Ma&szlig; der Lehrqualit&auml;t untersucht. Die Reliabilit&auml;t wurde als Interrater-Reliabilit&auml;t auf Basis der Intra-Klassen-Korrelation berechnet. Hierf&uuml;r wurden die Varianzanteile der Dozierenden, Veranstaltungen und Studierenden berechnet. Ein Evaluationsfragebogen wird dann als reliabel eingestuft, wenn viel Varianz durch Dozierende und Veranstaltungen, nicht jedoch durch Studierende, erkl&auml;rt wird. Die Ergebnisse dieser Studie zeigten, dass Dozierende und Veranstaltungen in den analysierten Fragebogendimensionen ausreichend Varianz aufkl&auml;rten, wenn gen&uuml;gend Evaluationen (mindestens 24) pro Veranstaltung vorlagen. Dar&uuml;ber hinaus zeigte die Studie auch eine erhebliche Varianzaufkl&auml;rung durch die beiden Komponenten Studierende und Interaktion Studierende und Dozierende. Dieser Befund impliziert, dass Studierenden&not;merk&not;male und die individuelle Passung zwischen Studierenden und Dozierenden die Evaluations&not;ergebnisse beeinflussen k&ouml;nnen. &#13;
Auf diesen Befunden aufbauend wurde in den folgenden beiden Studien die Validit&auml;t der Evaluations&not;frageb&ouml;gen untersucht. In der zweiten Studie wurden die Studierendenmerkmale inhaltliche Vorstellungen &uuml;ber das Studienfach Psychologie und inhaltliches Vorinteresse untersucht. Beide Variablen sind theoretisch unabh&auml;ngig von Lehrqualit&auml;t, da sie au&szlig;erhalb des Einflussbereiches der Dozierenden liegen. Somit sollten sie keinen Effekt auf Evaluations-ergebnisse haben. Die Ergebnisse dieser Studie offenbarten schwache, jedoch signifikante Effekte beider Variablen auf Evaluationsfrageb&ouml;gen. Diese beiden Studierendenmerkmale stellen somit nur eine schwache Bedrohung der Fragebogenvalidit&auml;t dar.&#13;
In der dritten Studie wurden ebenfalls potentiell validit&auml;tsgef&auml;hrdende Studierendenmerkmale betrachtet. Einerseits wurde erneut inhaltliches Vorinteresse betrachtet. Es wurde diesmal zu zwei Zeiten erfasst: 1) zu Beginn der Veranstaltung und 2) wie in Studie 2 zur Evaluationszeit. Dar&uuml;ber hinaus wurde Sympathie den Dozierenden gegen&uuml;ber, ebenfalls zweimal erfasst, betrachtet. &Auml;hnlich zu den Ergebnissen der Studie 2 zeigte sich ein geringer Effekt des inhaltlichen Vorinteresses. Sympathie offenbarte dagegen einen hohen Einfluss auf die Evaluationsergebnisse und gef&auml;hrdet somit die Validit&auml;t der Evaluationsfrageb&ouml;gen.&#13;
Die Ergebnisse dieser Dissertation legen nahe, dass Evaluationsfrageb&ouml;gen ausreichend reliabel sind, wenn mindestens 24 Evaluationen vorliegen. Sie sind jedoch keine validen Messinstru&not;mente der Lehrqualit&auml;t, da sie stark durch Sympathieeinsch&auml;tzungen den Dozierenden gegen&not;&uuml;ber beeintr&auml;chtigt sind. Daher sollten weitreichende Entscheidungen nicht ausschlie&szlig;lich durch Evaluationsergebnisse begr&uuml;ndet sein.
open access
Feistauer, Daniela
Kassel, Universit&auml;t Kassel, Fachbereich Humanwissenschaften, Institut f&uuml;r Psychologie
Richter, Tobias (Prof. Dr.)
H&auml;nze, Martin (Prof. Dr.)
Horz, Holger (Prof. Dr.)
Hochschule
Lehre
Qualit&auml;t
Erwartung
Evaluierung
Fragebogen
Urteiler&uuml;bereinstimmung
Reliabilit&auml;t
Validit&auml;t
2018-04-16
</resource>

Die folgenden Lizenzbestimmungen sind mit dieser Ressource verbunden:

:
Urheberrechtlich geschützt

Öffnen

Datum

Autor

Schlagwort

URI

Metadata