Printer Friendly

Qualites metriques des resultats academiques universitaires.

Introduction

Il existe, dans les ecrits, un interet grandissant pour les mecanismes complexes qui regissent l'evaluation et la transparence dans l'obtention des diplomes afin d'assurer la qualite en enseignement. En particulier, la croissance des curriculums de formation professionnalisants genere des pressions accrues de la communaute scientifique, du public, des medias, des gestionnaires et des acteurs eux-memes (etudiants, enseignants), afin de determiner comment ces programmes permettent d'attester du developpement des competences (Ryan & Cousins, 2009). Dans certaines professions, la certification professionnelle est realisee a posteriori par des organismes externes autres que l'institution de formation. Ces derniers sont responsables de la mise en place d'epreuves valides qui attesteront de la competence des futurs professionnels. Dans d'autres professions, dont l'education, l'admission a l'exercice de la profession repose sur l'obtention par le candidat des credits prevus au programme de formation (Louis, Jutras, & Hensler, 1996).

En parallele, differents organismes d'accreditation sont mis en place tant en Europe, aux Etats-Unis qu'au Canada afin de proceder a l'audit des programmes universitaires de formation en fonction de criteres de qualite (Conseil Superieur de l'Education, 2012). Ces organismes ont des attentes claires face a l'evaluation des retombees de l'apprentissage. Aux Etats-Unis, le Council of Higher Education Accreditation (CHEA) (2003) considere que les institutions et les programmes sont responsables d'etablir des enonces clairs relatifs aux acquis et aux aptitudes des etudiants en fin de cursus et, specifie que des donnees probantes a cet effet doivent etre recueillies et communiquees (voir Lewis, 2011). En Europe, l' European Association for Quality Assurance in Higher Education (2009) a

publie des standards generaux destines a l'enseignement superieur ; le standard 1.3 stipule que les etudiants doivent etre evalues en fonction de criteres, de regles et de procedures qui sont appliques de facon coherente. Au Quebec, le Comite d'Agrement des Programmes de Formation a l'Enseignement (CAPFE, 2010) procede specifiquement a l'audit des programmes de formation des maitres et " reconnait que l'evaluation des competences comporte un niveau certain de difficulte, mais il s'attend [...] a ce que les universites recueillent des donnees et des observations qui temoignent du developpement des douze competences professionnelles chez leurs etudiantes et etudiants " (p. 4). Si certaines politiques institutionnelles explicitent que les evaluations doivent etre equitables, equivalentes, valides et fiables, et en coherence avec les objectifs d'un programme (p. ex., College d'enseignement general et professionnel Marie-Victorin, 2005), des preuves empiriques sont necessaires afin de demontrer que ces criteres sont respectes.

Les resultats academiques ont trois fonctions dans un systeme educatif (Lekholm & Cliffordson, 2008). La fonction premiere est de donner de l'information a l'etudiant quant a l'atteinte des objectifs d'une formation. Ces objectifs peuvent etre varies. Ils sont generalement clairement specifies par ledit programme qui se doit de decliner les produits d'apprentissage attendus au terme de la formation. Ces produits peuvent notamment se decliner en connaissances liees a des contenus consideres essentiels par les experts d'un domaine, ou en des competences, attitudes et comportements particuliers a une profession. Les resultats academiques ont egalement comme fonction de reguler les apprentissages et permettre de selectionner les etudiants pour les formations et meme les emplois ulterieurs. Finalement, ils sont une base d'information utilisee pour evaluer la qualite d'un systeme educatif. Considerant ces trois fonctions essentielles, un systeme educatif qui evalue d'une maniere inadequate les apprentissages realises dans le cadre d'une formation ne peut pas etre considere comme un systeme de qualite. L'ensemble des fonctions se trouve alors compromis.

Or, regulierement depuis 30 ans, les ecrits (Agazzi, 1967; Assessment and Learning Research Synthesis Group, 2004; Pfister, 1975; Smith, 1992) soulignent que les evaluations realisees par les enseignants ont la reputation d'etre peu fiables et sujettes a des biais. De plus, les notes " A " et " B " sont obtenues plus facilement que par le passe (Jewell & McPherson, 2012; Rojstaczer & Healy, 2012). De ce fait, les resultats academiques n'ont plus la meme signification et l'enseignement superieur semble perdre la confiance du public (Caruth & Caruth, 2013).

Dans cette perspective, les programmes de formation doivent demontrer qu'ils prevoient des mesures valides et fiables des connaissances et des competences. Considerant que dans plusieurs systemes educatifs (Lekholm & Cliffordson, 2008), c'est le dossier academique qui permet d'attester formellement de l'atteinte de l'objectif vise grace au cumul des differents credits obtenus, la question fondamentale qui se pose alors est de savoir si ce dossier academique permet de porter un jugement valide et fiable afin d'attester du developpement des competences et des connaissances d'un domaine.

Objectif de la recherche

Notre objectif est de presenter une synthese d'etudes qui permettent de verifier si les resultats obtenus dans le cadre d'une formation universitaire et rapportes au dossier academique sont valides, fiables et en lien avec les objectifs des programmes de formation. Sont passes en revue la validite et la fiabilite des resultats academiques, les indices utilises, les procedures qui emergent, ainsi que les constats au niveau universitaire.

La validite et la fiabilite des resultats academiques universitaires

L'evaluation en contexte de classe est le processus qui consiste a porter un jugement sur les apprentissages, a partir de donnees recueillies, analysees et interpretees, en vue de decisions pedagogiques et administratives (Ministere de l'Education du Quebec (MEQ), 2003). Le jugement de l'enseignant est au centre de ce processus de cueillette, d'analyse et d'interpretation. En ce sens, l'evaluation en contexte de classe n'est pas un processus standard; les conditions de cueillettes, d'analyse et d'interpretation sont sujettes a des changements multiples en fonction des enseignants, des cours, des annees, des etudiants et des institutions. Cette absence de conditions standards lors de l'evaluation ne rend pas obsoletes les questions relatives a la validite et a la fiabilite des resultats academiques. Au contraire, ces etudes sont d'autant plus pertinentes que de multiples sources de variations existent; elles permettent de distinguer ce qui, dans l'evaluation, est coherent et lie a la presence de facteurs pertinents a la formation, de ce qui est attribuable a des fluctuations aleatoires ou non pertinentes a la formation.

Validite

La validite est consideree comme un jugement global porte sur l'ensemble des preuves empiriques et theoriques qui attestent que les interpretations et les actions basees sur les resultats a un test ou a une autre modalite d'evaluation sont adequates (Messick, 1995). Dans cette definition, la validite est un concept unifie, integrant des aspects lies au contenu et a la representativite des evaluations, a la structure et au construit, a des criteres internes et externes, ainsi qu'a la generalisabilite et aux consequences de l'evaluation. De plus, les preuves doivent permettre d'eviter deux menaces importantes a la validite. La premiere est la presence de facteurs non pertinents a l'evaluation. La seconde est la sous-representation du construit qui indique que ce qui est evalue ne couvre pas l'ensemble du concept qui est attendu et, qu'ainsi, la mesure est incomplete. Cette conception de la validite concilie l'apport de considerations theoriques et empiriques, ainsi que les consequences sociales et ethiques de l'utilisation de l'outil sous validation. Cette definition inclut les differentes formes de validite dont la validite de construit et la validite de critere qui sont principalement utilisees pour la validation des resultats academiques. La validite de construit refere a l'adequation entre la structuration attendue des evaluations en lien avec celle empiriquement obtenue.

La validation a partir de criteres externes est egalement largement utilisee. Les criteres externes de reference sont varies. Il peut s'agir d'antecedents academiques, de succes concomitants ou consequents a une formation universitaire. Generalement, la relation avec les antecedents est etudiee a partir de la capacite des etudes anterieures ou de tests varies d'aptitudes a predire le succes a l'universite. Les succes concomitants sont obtenus a partir de resultats a des tests externes qui sont mis en relation avec la moyenne cumulative. Les tests externes sont la plupart du temps des tests de connaissances d'une discipline specifique (p. ex., mathematiques, langue, psychologie, biologie). Dans certains pays tels que la Suede (Lekholm & Cliffordson, 2008) et les Etats-Unis, le succes a des tests nationaux concomitants est egalement rapporte. Les consequents aux etudes universitaires peuvent se mesurer a partir de l'accomplissement dans la carriere ulterieure en termes de prestige occupationnel, de salaire ou par l'obtention de diplomes ulterieurs (Baird, 1985; Pattison, Grodsky, & Muller, 2013).

Borsboom, Mellenbergh et van Heerden (2004) proposent une autre conception de la validite. Ils considerent que les questions liees a la validite sont d'ordre ontologique et liees a l'existence meme d'un attribut et de son lien de causalite avec les resultats des evaluations. Ils considerent qu'un instrument procure une mesure valide d'un attribut lorsqu'il est possible de demontrer que cet attribut existe et que des fluctuations de celui-ci provoquent (dans le sens de causalite) des changements dans les resultats mesures. Cette conception s'avere utile lorsqu'il est possible de manipuler experimentalement certains aspects du curriculum a valider. En ce sens, Goova, Hollett, Tesfay, Gala, Puzziferri, Kehdy et Scott (2008) ont utilise une demarche quasi-experimentale pour valider leur construit mesure lors d'un curriculum en medecine dedie specifiquement au developpement de la competence a suturer des points. A partir de dispositifs technologiques de simulation de taches complexes, la demarche permet d'effectuer un suivi de la progression des etudiants et de la comparer a celles d'experts sur le meme ensemble de taches standardisees.

Fiabilite

La fiabilite refere a la qualite de la mesure (Saupe & Eimers, 2012). Une mesure est fiable lorsqu'elle genere une erreur de mesure faible par rapport a ce qui est mesure. Comme il a ete mentionne auparavant, pour certains acteurs, les resultats academiques sont peu fiables, car ils sont constitues d'une erreur de mesure forte (voir Smith, 1992). Dans cette perspective, le defi est de taille pour les systemes d'assurance de la qualite en enseignement; ils doivent ainsi faire preuve de transparence et demontrer que les evaluations qui sont realisees dans le cadre de leurs formations sont bel et bien fiables.

Les procedures disponibles pour etablir la fiabilite des evaluations sont diverses mais ne sont pas toutes applicables a l'analyse des resultats academiques (Saupe & Eimers, 2012). Certaines requierent l'utilisation de deux mesures telles que l'utilisation de formes paralleles et equivalentes d'un meme test (p. ex, version A vs version B); cette condition n'a pas reellement de sens dans l'etude du resultat moyen (GPA). La procedure test-retest necessite egalement que deux mesures identiques soient realisees avec le meme instrument; cette procedure ne s'applique que si on considere que les resultats moyens d'un trimestre sont comparables a ceux d'un second trimestre. La correlation entre deux trimestres successifs peut alors etre utilisee.

Des procedures alternatives existent et ne necessitent qu'une prise de mesure du test. Elles peuvent ainsi s'appliquer sur les resultats academiques ou il n'y a qu'une prise de mesure (une note unique) a chacun des cours. Ces procedures sont basees sur le calcul de la consistance interne (p. ex., le coefficient alpha de Cronbach), sur la fiabilite fractionnee de l'echelle (correlation d'une moitie de l'echelle avec l'autre) ou sur l'analyse de la variance (p. ex., etude de generalisabilite). Les procedes psychometriques permettent ainsi de distinguer ce qui dans une note est attribuable aux fluctuations individuelles entre les eleves, de ce qui est attribuable aux differences entre les enseignants, les classes, les institutions ou autres facteurs (Brown, 2006; O'Connell & McCoach, 2008).

Les indices consideres

Le dossier academique est le dossier faisant etat des progres d'un etudiant tout au long de sa formation (Ministere de l'Education de l'Ontario, 2000). Il repertorie differents indices de la reussite academique; il n'y a pas cependant de consensus sur celui qui reflete le mieux la reussite des objectifs d'une formation. Les indices les plus souvent utilises sont les resultats aux cours et la moyenne cumulative. Cependant, les resultats dans certains travaux (Mason & Dragovich, 2010), les credits obtenus (Smith, 1992), la graduation, l'attrition ou la persistance dans les etudes, ainsi que l'obtention de mentions speciales sont egalement consideres (Camara & Echternacht, 2000). Dans le cadre de la presente recension, seuls les principaux indices de la reussite academique seront consideres, soit les resultats a certains travaux, la note obtenue dans les cours et la moyenne cumulative.

La moyenne academique cumulee sur l'ensemble des credits obtenus (grade point average, GPA) est largement utilisee dans la documentation pour des fins de validation (Luthy, 1996; Saupe & Eimers, 2012). Le GPA peut etre calcule sur l'ensemble des annees (p. ex., 4 ans) ou sur des periodes de temps plus limitees (un trimestre, la premiere annee ou l'annee la plus recente, etc.). Cependant, cette note unique ne donne que peu d'information en lien avec les trois fonctions visees par les resultats academiques. Ce resultat unique informe peu sur l'atteinte des objectifs d'une formation, ne permet pas de reguler precisement les apprentissages, et ne donne que peu de retroaction aux concepteurs (ou evaluateurs) de programmes.

Ainsi, Mason et Dragovich (2010) considerent que la moyenne cumulative et les notes aux cours sont des scores composes et que ceux-ci ne peuvent pas etre utilises directement pour attester l'atteinte d'un objectif de formation parmi un ensemble. Ces auteurs mentionnent, a titre d'exemple, qu'un score de 80% obtenu dans un cours qui poursuit deux objectifs peut soit attester de l'atteinte de ceux-ci a 80% chez un etudiant ou alternativement, etre obtenu par un etudiant qui n'atteint que difficilement l'un des deux objectifs, mais qui excelle dans l'autre.

Les limites de la moyenne cumulative ne sont pas nouvelles. Dans les annees 70, Pfister (1975) fait egalement valoir qu'il n'est pas possible d'utiliser directement les notes scolaires telles qu'elles sont donnees par les enseignants. Ainsi, la note obtenue dans une classe n'est pas comparable a la meme note obtenue dans une autre classe, car les criteres different d'un enseignant a un autre. Cet auteur, suivant la recommandation de la commission d'etude suisse de l'epoque, a utilise l'ecart a la moyenne de la classe pour l'etude des resultats scolaires au primaire. Cet ecart exprime la distance entre le resultat d'un eleve et celui de sa classe. La demarche de Pfister illustre que les resultats academiques peuvent etre utilises comme substrat a des analyses mais necessitent un traitement psychometrique particulier. A notre connaissance cependant, l'ecart a la moyenne est peu usite en psychometrie. Les dossiers academiques rapportent parfois le rang cinquieme (ou autre rang) et la moyenne du groupe; le seul indice utilise qui effectue une correction de la note individuelle en fonction de l'ecart au groupe est la cote de rendement au college (Conference des recteurs et des principaux des universites du Quebec, 2013) au Quebec. Il n'existe cependant pas d'equivalent au niveau universitaire.

Ainsi, les procedures utilisees dans les ecrits (Harvey, 2012; Lekholm & Cliffordson, 2008; Rexwinkel, Haenen, & Pilot, 2013; Thorsen & Cliffordson, 2012) ne sont pas basees sur la comparaison directe d'un resultat unique d'un contexte a un autre ou sur l'utilisation de l'ecart a la moyenne, mais plutot sur l'extraction des facteurs qui sous-tendent les evaluations. L'extraction des facteurs permet de constituer une mesure formee des composantes communes aux evaluations realisees et permet egalement de corriger cette mesure en tenant compte de l'erreur aleatoire ou de celle specifique au contexte (cours, enseignant, etc.).

Les differentes procedures

Plus specifiquement, l'analyse factorielle (Bourque, Poulin, & Cleaver, 2006; Brown, 2006) est frequemment utilisee afin de valider un construit (Muis & Winne, 2012). L'analyse permet d'inferer la presence d'etats latents. Un etat latent est defini comme un construit non directement observable, mais dont les valeurs peuvent etre estimees a partir de donnees observables. En education et en psychologie, la notion d'etat latent refere tres largement a l'etat interne d'un individu. Griffin (2007) precise qu'il n'y a pas de restriction quant a la nature des variables latentes mesurees que celles-ci soient des connaissances acquises, des attitudes ou des competences (p. ex., Morlaix, 2009). Toujours selon Griffin (2007), il n'y a pas non plus de restriction en ce qui a trait a la nature des taches considerees. Il peut s'agir de tests standardises, mais egalement des performances observees lors de taches en milieu professionnel (p. ex., Harvey, 2009), des folios, des variables associees a la production langagiere, etc.

L'analyse factorielle a deux variantes : les procedures de validation exploratoire et confirmatoire. Par definition, une procedure exploratoire compare un modele de formation obtenu a posteriori a des criteres d'acceptabilite. Le modele obtenu doit notamment etre interpretable a partir du curriculum etudie. En ce sens, la procedure proposee par Rexwinkel et al. (2013) est exploratoire et se decline en cinq etapes : l'examen de l'ensemble des donnees, l'analyse du construit, la fiabilite des echelles de mesure, l'inspection de la matrice de correlations et la verification aupres d'acteurs concernes afin d'assurer la validite apparente (face validity). Lors de l'inspection des resultats scolaires, sur une echelle a 10 echelons (de 1, vraiment faible a 10, excellent), ces auteurs considerent que des cours avec un ecart-type d'environ 0,70 sont acceptables. A l'oppose, des ecartstypes inferieurs a 0,34 et superieurs a 1,40 sont respectivement consideres trop faibles et trop accentues. L'analyse factorielle exploratoire est utilisee pour determiner la nature des construits mesures; une structure factorielle forte, i.e. ou les valeurs propres (eigenvalues) superieures a 1 expliquent plus de 50% de la variance, est recherchee. La fiabilite des resultats scolaires doit egalement etre superieure a 0,60. La matrice de correlation doit presenter des relations positives et significatives entre les cours. Des correlations positives indiquent que des construits communs sont mesures; des correlations nulles sont acceptables dans l'eventualite ou il est prevu, dans le curriculum, que des cours ne mesurent pas de construits communs; finalement, la presence de correlations negatives est problematique, car elles indiquent que ce qui est valorise et mesure dans un cours est devalorise et negativement evalue dans un autre. Toute correlation negative devrait faire l'objet d'explications de la part des responsables de programme.

Finalement, des etudes utilisant des questionnaires permettent de verifier l'opinion des acteurs (etudiants, professeurs) quant a la qualite des resultats academiques. L'ensemble des opinions doit etre favorable et depasser un taux d'acceptation de 50%.

L'approche proposee par Rexwinkel et al. (2013) est interessante dans la perspective ou elle peut etre appliquee a tous les types de programmes. Elle possede egalement une valeur diagnostique puissante en ce qu'elle fournit une information precieuse aux concepteurs de programme; elle permet de porter un jugement sur la contribution de chacun des cours a l'evaluation de construits sous-jacents a la formation. Les cours qui ne contribuent pas tel qu'attendu peuvent ainsi etre revus afin d'apporter des correctifs dans les procedures d'evaluation et d'enseignement.

Un des desavantages de la procedure de Rexwinkel et al. (2013) est que le jugement qui est porte sur la structure factorielle demeure tres relatif. Ainsi, ce n'est pas parce qu'il existe une structure factorielle exploratoire forte que celle-ci correspond a l'intention initiale du programme de formation. Les structures theoriques et empiriques peuvent ne pas etre en adequation. Cette procedure permet de valider la coherence des resultats academiques, mais constitue un test ambigu de l'adequation avec ce qui est prevu au programme de formation.

En complement a une approche exploratoire, il est judicieux de recourir a une approche confirmatoire. Une procedure est confirmatoire lorsqu'un modele de formation existe a priori, que ce modele specifie explicitement les liens qui existent entre les objectifs du programme, les cours et les evaluations realisees et que ce modele est mis a profit lors des etapes de la validation. Une approche confirmatoire verifie l'adequation entre la structuration des evaluations et l'intention du programme. Ce type de procedure est plus restrictif, plus contraignant, et permet d'apporter des preuves supplementaires quant au construit mesure dans le cadre d'une formation. Le modele de formation se doit egalement d'etre fertile et doit permettre de generer de nouvelles hypotheses, qui une fois confirmees, constitueront des preuves supplementaires de la qualite des resultats associes a une formation. Mason et Dragovich (2010), Harvey (2012), Lekholm et Cliffordson (2008) utilisent des procedures confirmatoires.

Principaux constats

Les etudes recensees couvrent des secteurs varies et proviennent principalement de secteurs ou il existe des ordres professionnels ou des organismes externes d'accreditation. Ces etudes couvrent alors des secteurs tels que le genie (Mason & Dragovich, 2010), la psychologie (Smith, 1992), la medecine veterinaire et la physiotherapie (Rexwinkel et al., 2013), les etudes en marketing (Bacon & Bean, 2006) ainsi que l'education (Harvey, 2012). Smith (1992) a egalement considere des disciplines telles que la biologie et les sciences biologiques, la chimie et l'anglais. Quelques etudes (Kuncel, Crede, & Thomas, 2007; Kuncel, Wee, Serafin, & Hezlett, 2010; Luthy, 1996) se sont interessees aux resultats academiques aux etudes avancees.

Validation du construit

Rexwinkel et al. (2013) ont utilise une procedure exploratoire afin d'analyser les evaluations realisees dans les cours en medecine veterinaire et en physiotherapie. En medecine, des correlations positives de faibles (0,09) a moyennes (0,48) ont ete observees entre les cours du programme avec une bonne fiabilite de l'ensemble (alpha de Cronbach de 0,75). De plus, les cours saturent fortement dans trois facteurs qui expliquent plus de 50% de la variance totale. A l'oppose, en physiotherapie, des correlations negatives (-0,20) a faibles (0,17) ont ete observees entre les cours avec un indice de fiabilite insatisfaisant (alpha de Cronbach = 0,20). De plus, les cours saturent faiblement dans trois facteurs et expliquent moins de 50% de la variance totale. A partir des criteres psychometriques etablis, les evaluations realisees dans le cadre du programme de medecine veterinaire ont ete validees, tandis que celles realisees en physiotherapie ne le furent pas.

En education, une etude (Harvey, 2012) suggere qu'un programme d'enseignement secondaire d'une universite quebecoise possede une bonne validite de construit curriculaire, et ce, basee sur une analyse confirmatoire incluant 14 cours de psychopedagogie, dont des stages en milieu professionnel. Ainsi, la matrice de correlation entre les cours revele que 99% (90 sur 91) des coefficients sont soit positivement correles (64%, 58 sur 91) ou non correles (35%, 32 sur 91) entre eux. La fiabilite (alpha de Cronbach) de l'ensemble des cours est de 0,69, superieure au critere de 0,60 fixe par Rexwinkel et al. (2013). Dans l'ensemble, ce curriculum atteint les criteres de qualite fixes par la procedure de Rexwinkel et al. (2013). L'atteinte des objectifs de formation a fait l'objet d'une attention speciale. Ainsi, les resultats academiques ont ete soumis a une analyse factorielle confirmatoire, ou la mesure de quatre groupes de competences est confirmee. Ces groupes sont lies, tel qu'attendu dans le plan de formation, aux fondements de l'education, a l'acte d'enseigner, aux aspects sociaux et au developpement de l'identite professionnelle. L'analyse revele egalement une continuite entre ce qui est evalue dans les cours en institution et les cours de stages en milieu professionnel. Globalement, l'etude suggere que ce curriculum atteint 75% des objectifs vises par le programme. Pour arriver a cet estime, les objectifs vises par chacun des cours en lien avec chacun des groupes de competences attendues ont ete precises puis, utilises comme predicteurs dans une analyse factorielle confirmatoire. De cette analyse, 75% des saturations factorielles attendues se sont averees significatives.

Cependant, l'un des quatre groupes de competences, celui lie au developpement identitaire, contient des saturations polarisees (positives et negatives) qui suggerent des incoherences dans le curriculum quant a la mesure de cette dimension. L'origine de cette polarisation est attribuee a des conceptions differentes de cette composante par differents acteurs de la formation (Chevrier, Gohier, Anadon, & Godbout, 2007). De plus, plusieurs saturations dans les facteurs sont faibles et laissent entrevoir une fiabilite faible de ces dimensions.

L'etude de Mason et Dragovich (2010) permet de tracer l'adequation entre l'evaluation de certains travaux, les objectifs poursuivis dans le cadre des cours, ainsi qu'avec les objectifs de la formation. Le personnel enseignant doit cependant proceder a la specification des liens entre ces trois entites (travaux, objectifs de cours, objectifs de programme). La specification de telles valeurs initiales est complexe et difficile a implanter lorsqu'un programme mobilise un grand nombre de travaux, d'objectifs de cours et de programmes et qu'un grand nombre de ressources professorales interviennent dans le cursus. Elle necessite de plus l'implantation et le maintien de bases de donnees nouvelles et concurrentes avec celles actuellement existantes; il peut alors exister des resistances importantes a l'implantation, au maintien et a l'utilisation de ces bases de donnees.

Validation de critere

Les criteres consideres sont soit lies aux realisations anterieures, presentes, ou futures des etudiants. Ainsi, le succes dans les etudes universitaires peut etre predit a partir des resultats anterieurs et a partir de tests standardises d'aptitudes. Le GPA au secondaire et les tests standardises d'aptitudes (Camara & Echternacht, 2000; DiPerna, 2004; Geiser & Santelices, 2007; Kobrin, Patterson, Shaw, Mattern, & Barbuti, 2008; Komarraju, Ramsey & Rinella, 2013; Pattison et al., 2013; Pike & Saupe, 2002) s'averent de bons predicteurs du succes (GPA) des etudes universitaires. Aux etudes superieures, des metaanalyses confirment la robustesse d'un test d'aptitude et de la moyenne cumulative au premier cycle a predire la moyenne cumulative en gestion des affaires (Kuncel et al., 2007) et d'un test d'admission aux etudes graduees a predire le succes lors d'etudes de maitrise et de doctorat (Kuncel et al., 2010).

La validite concomitante a ete investiguee par Smith (1992) a partir de cinq programmes de premier cycle, par Bacon et Bean (2006) dans un programme de baccalaureat en marketing et par Luthy (1996) aux etudes avancees dans neuf secteurs. Des tests externes ont ete utilises et correles avec le GPA. Dans l'ensemble de ces etudes, des relations positives ont ete observees entre les tests externes et le GPA universitaire.

Le lien entre les resultats academiques universitaires et les consequences ulterieures en termes de realisations professionnelles est controverse. Si dans certains secteurs, il est primordial que les aptitudes a reussir les taches sollicitees en contexte universitaire preparent directement a la realisation des memes taches en milieu professionnel, dans d'autres secteurs, cette relation est beaucoup moins importante. La litterature rapporte regulierement une relation (p. ex., Jones & Jackson, 1990), mais tout secteur confondu, elle est generalement consideree faible (Baird, 1985; Pattison et al., 2013; Wingard & Williamson, 1973).

Il existe par ailleurs une limite importante a tout pronostic a long terme du succes academique. Une etude, celle de Bacon et Bean (2006), rapporte une baisse progressive des correlations entre les facteurs latents (equivalents annuels du GPA) du baccalaureat en marketing et ce, de la premiere annee universitaire versus les annees subsequentes. Ainsi, la capacite predictive des resultats anterieurs diminue avec les annees. Une diminution progressive des correlations a deja ete observee ailleurs (Pfister, 1975). Sa provenance reste encore indeterminee. Elle peut provenir soit du transfert partiel des apprentissages d'une annee a l'autre, de la transformation des competences, de l'impact des conditions creees par le milieu ou de l'ensemble de ces facteurs.

Cette diminution des correlations entre les resultats obtenus en fonction des annees peut constituer un obstacle a la validation d'un construit et plus d'attention devrait y etre accordee. Ainsi, deux cours qui mesurent la meme competence pourraient ne pas etre en correlation et ne pas saturer dans un facteur commun simplement parce qu'ils se situent respectivement en debut et en fin de curriculum. Un curriculum universitaire de premier cycle est generalement offert sur une periode de trois a quatre annees. Durant cette periode, plusieurs changements cognitifs, affectifs, motivationnels, situationnels ou autres peuvent intervenir et ce, qu'ils soient lies ou non aux cours offerts. Notamment, sur le plan cognitif, les competences developpees par les etudiants peuvent evoluer. Cette evolution est d'ailleurs specifiee dans la progression des apprentissages dans certains curriculums, mais n'est cependant pas prise en compte explicitement dans les procedures exposees jusqu'a present. Ces transformations des facteurs cognitifs et non cognitifs peuvent generer une variance non expliquee et affecter les preuves de la validite.

Les correlations peuvent egalement etre affectees par l'attrition du groupe d'etudiants entre le debut et la fin du programme. Lorsque les dossiers academiques des etudiants diplomes sont utilises, seuls les resultats des etudiants qui ont termine sont analyses. Cette attrition contribue a deux phenomenes reduisant la force des correlations : perte de sujets et restriction de l'etendue des cotes (les meilleurs demeurant dans le programme).

Une etude de la validite doit donc prendre en compte cette possible evolution des resultats academiques lorsqu'une formation s'echelonne sur plusieurs annees ainsi que la possible attrition des etudiants.

Fiabilite

Finalement, la documentation (Bacon & Bean, 2006; Saupe & Eimers, 2012) confirme que la fiabilite de la moyenne cumulative (GPA) est excellente et est generalement superieure a 0,80. Cependant, lorsqu'elle est calculee sur des intervalles plus restreints (un ou deux trimestres), elle peut etre inferieure a 0,70 et s'avere alors moins fiable (Saupe & Eimers, 2012).

Tel qu'il a ete mentionne dans l'introduction, un phenomene d'inflation des notes est egalement parfois percu comme une menace a la fiabilite des resultats academiques. L'inflation des notes est definie comme une augmentation des resultats academiques qui n'est pas justifiee par un accroissement de la competence des etudiants. Ce phenomene a ete observe dans differents colleges et universites (Jewell & McPherson, 2012; Rojstaczer & Healy, 2012) et a fait passer les resultats academiques moyens de la note C a B au fil des ans. Ce phenomene d'inflation des notes souleve un probleme d'equite entre les generations; il est une indication que certains diplomes sont plus faciles a obtenir que par le passe. Cependant, sur le plan psychometrique, il n'y a pas en soi d'effet de l'inflation des notes sur la fiabilite de la moyenne cumulative (Millman, Slovacek, Kulick, & Mitchell, 1983). Un changement dans les resultats moyens ne signifie pas qu'une formation n'atteint pas ses objectifs en termes d'evaluation. Selon Pattison et al. (2013), il faut plutot s'interroger sur la valeur informative des diplomes. La valeur informative est la puissance de la moyenne cumulative a envoyer un signal adequat (signalingpower of grades) quant a la qualite des etudiants qui sont diplomes. Une augmentation de la moyenne ne change pas en soi cette valeur informative. Il faut plutot verifier les changements dans la variance des evaluations; changements qui informent que la distance qui separe les excellents etudiants de ceux qui sont soit tres bons, moyens ou mediocres a change avec le temps.

Ce qui est encore plus determinant selon Pattison et al. (2013), ce sont des changements dans les covariations qui existent entre les antecedents des etudiants en termes de reussite et d'efforts et les consequents des evaluations en termes de niveaux d'etudes atteints et de conditions de travail (prestige occupationnel, salaire, etc.). En ce sens, Pattison et al. (2013) n'ont trouve aucune preuve qu'il y a eu une perte dans la valeur informative de la moyenne cumulative (GPA) entre 1972 et 1992 dans les universites americaines. Quoi qu'il en soit, l'inflation des notes au fil des annees reste un phenomene preoccupant pour les programmes universitaires de formation, car cette inflation concerne directement la valeur des diplomes et qu'elle est largement mediatisee. Elle doit faire l'objet d'un suivi par les programmes et les institutions dans une optique de maintien de la qualite (Caruth & Caruth, 2013).

La presence de facteurs non pertinents

La litterature rapporte frequemment des differences dans les resultats academiques attribuables a des facteurs liees au genre (Lekholm & Cliffordson, 2008; Luthy, 1996; Pfister, 1975), a l'age (Luthy, 1996) des etudiants, a des facteurs socio-economiques tels que l'education des parents et le revenu familial (Geiser & Santelices, 2007) ou l'ethnie (Fletcher & Tienda, 2010).

Des differences dans l'attribution des notes existent egalement entre les institutions qui offrent des programmes semblables qui sont liees soit au contexte ou au climat de l'institution (Ma, Ma, & Bradley, 2008). Des differences attribuables a la localisation (nord ou sud) de l'institution, a son caractere public ou prive, ainsi qu'a sa vocation (technique vs non technique) sont aussi rapportees et ne s'expliquent pas par des differences dans les aptitudes des candidats (Rojstacker & Healy, 2012). Devant la multitude de facteurs en presence, ainsi que les ressources en jeu, le defi est de taille pour tout systeme d'education. Tel qu'il a ete mentionne precedemment, le critere de qualite fixe par Rexwinkel et al. (2013) est qu'un programme se doit d'expliquer au moins 50% de la variance dans les resultats academiques a partir de facteurs coherents. En contrepartie, 50% de la variance reste inexpliquee, ce qui laisse amplement de latitude aux facteurs responsables d'iniquites dans les evaluations.

Discussion et conclusion

Avec le foisonnement des programmes par competences et l'instauration a l'echelle mondiale des politiques d'assurance de la qualite, les pratiques d'evaluation subissent des transformations importantes et, dans l'ensemble d'un curriculum, il devient necessaire de documenter les mecanismes d'evaluation des connaissances et des competences professionnelles. En ce sens, cette recension a presente une synthese des etudes qui permettent de verifier si les resultats obtenus dans le cadre d'une formation et rapportes au dossier academique sont valides et fiables et en lien avec les objectifs du programme.

Cette recension a permis de mettre en evidence que les resultats academiques peuvent s'averer valides et fiables tout au long du parcours des etudes universitaires. Dans une perspective d'assurance qualite, il est de la responsabilite de chaque programme et de chaque institution d'en apporter les preuves. Certaines preuves sont associees a la moyenne cumulative (GPA) qui s'avere generalement valide et fiable. Cette moyenne cumulative a cependant une valeur informative limitee et plus d'informations sont necessaires afin de remplir les trois visees d'un dossier academique : information aupres des etudiants, regulation des apprentissages et retroaction aupres des concepteurs de programmes.

Dans cette perspective, des preuves supplementaires doivent provenir des resultats obtenus dans les differents cours d'un programme en lien avec les objectifs vises. A ce titre, les correlations qui existent entre les resultats academiques obtenus dans les cours entre eux sont une preuve essentielle. L'ensemble de ces correlations permet d'attester que les evaluations ne sont pas aleatoires et qu'elles sont en continuite. En ce sens, des correlations qui varient entre faiblement negatives (-0,20) a moyennement positives (environ 0,40) sont recensees.

L'identification des facteurs a partir d'analyses factorielles ajoute a ces preuves et permet de confirmer la mesure de construits communs entre les cours d'un curriculum. Dans la plupart des etudes recensees, trois ou quatre facteurs emergent. Cependant, les facteurs obtenus par analyse exploratoire n'emergent qu'a posteriori et peuvent etre tres differents de ceux projetes par le modele de formation qui lui est determine a priori lors de la conception du programme. L'analyse confirmatoire permet de confronter un modele theorique de formation avec les evaluations realisees. Or, cet exercice est tres contraignant et a ce stade-ci de l'avancement des connaissances, peu d'etudes permettent de con firmer que les evaluations reportees au dossier academique sont clairement en adequation avec le plan initial de formation.

L'utilisation d'epreuves externes a la formation permet de clarifier partiellement cet enjeu. Ainsi, la validation des resultats academiques a partir de criteres externes (Bacon & Bean, 2006; Luthy, 1996; Smith, 1992) constitue une preuve concomitante forte du construit mesure par les enseignants et attendu au terme des etudes.

Par ailleurs, il est difficile de determiner si les reformes des curriculums ont permis d'augmenter la qualite des evaluations qui sont realisees. Aucune etude ne compare la qualite des evaluations realisees avant les reformes (obtenues avant 1990) avec celles obtenues plus recemment et des recherches en ce sens devraient egalement etre entreprises afin d'evaluer l'impact des reformes.

L'evolution des construits mesures dans le temps devrait egalement recevoir plus d'attention dans une perspective d'assurance qualite. Une baisse des correlations entre les resultats de la premiere annee et des annees subsequentes est parfois rapportee et represente une limite a la capacite predictive des resultats academiques (Bacon & Bean, 2006; Pfister, 1975). Une baisse prononcee et non anticipee par les concepteurs d'un programme, constitue une variance non expliquee. Cette variance non expliquee peut alors affecter la validite et la fiabilite des resultats.

Par ailleurs, une limite des etudes recensees est liee a la nature du produit de l'apprentissage evalue. Cette documentation n'effectue pas de distinction entre les notions de connaissances ou de competences. Or, a notre connaissance, au moins un organisme d'accreditation, le CAPFE, exige des preuves en ce sens. En fait, cet aspect est une limite des dossiers academiques, car les produits evalues n'y sont pas distingues. Par consequent, les procedes de validation empiriques ne peuvent suppleer adequatement a cette lacune. Mason et Dragovich (2010) suggerent de mettre en place un systeme de suivi des resultats des travaux realises dans le cadre des cours et de les mettre directement en lien avec les objectifs des cours et des programmes. D'autres (voir Guede, 2009) proposent des systemes de gestion et de suivi des competences qui pourraient faciliter la validation des procedes utilises a partir de procedures psychometriques. Cependant, comme il a ete mentionne precedemment, de tels systemes de gestion et de suivi necessitent l'implantation et l'utilisation de nouveaux systemes d'information incompatibles avec ceux actuellement en place et necessitent un changement important de culture.

Par souci de representativite, il apparait necessaire de preciser que le present article est influence par un biais inevitable de selection et de publication; les articles selectionnes sont ceux dont les resultats sont publies et projettent une image positive des formations a l'etude. Les preuves moins positives sont rarement diffusees. L'etude de la validite de construit curriculaire est une demarche relativement nouvelle qui emerge en reponse aux besoins d'assurer la qualite des produits de l'apprentissage des formations universitaires; les ecrits sur cette thematique sont encore peu nombreux, et de ce fait, nos recommandations restent basees sur un nombre relativement limite d'etudes.

Neanmoins, dans la perspective ou les organismes accorderont encore plus de place a l'evaluation des resultats et aux retombees de l'apprentissage tel que le suggerent certains ecrits (Conseil Superieur de l'Education (CSE), 2012; Lewis, 2011), cet article peut servir de guide aux acteurs concernes dans l'elaboration d'un ensemble de preuves qui attestent que le dossier academique de leur programme permet de porter un jugement valide et fiable quant au developpement des competences et des connaissances attendues au terme d'une formation.

References

Agazzi, A. (1967). Les aspects pedagogiques des examens. Strasbourg, France : Conseil de l'Europe.

Assessment and Learning Research Synthesis Group. (2004). A systematic review of the evidence of reliability and validity of assessment by teachers used for summative purposes. University of London, England: EPPI-Centre.

Bacon, D. R., & Bean, B. (2006). GPA in research studies: An invaluable but neglected opportunity. Journal of Marketing Education, 25(1), 35-42. doi: 10.1177/0273475305284638

Baird, L. L. (1985). Do grades and tests predict adult accomplishment? Research in Higher Education, 23(1), 3-85. doi: 10.1007/BF00974070

Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061-1071. doi: 10.1037/0033-295X.111.4.1061

Bourque, J., Poulin, N., & Cleaver, A. F. (2006). Evaluation de l'utilisation et de la presentation des resultats d'analyses factorielles et d'analyses en composantes principales en education. Revue des sciences de l'education, 32(2), 325-344. doi: 10.7202/014411ar

Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York, NY: Guilford Press.

Camara, W. J., & Echternacht, G. (2000). The SAT I and high school grades: Utility in predicting success in college (Research Notes RN-10). New York, NY: The College Board, Office of Research and Development.

Caruth, D. L., & Caruth, G. D. (2013). Grade inflation: An issue for higher education? Turkish Online Journal of Distance Education, 14(1), 102-110.

Chevrier, J., Gohier, C., Anadon, M., & Godbout, S. (2007). Construction de l'identite professionnelle des futures enseignantes : dispositifs de formation presents et souhaites selon les acteurs responsables de la formation des maitres au prescolaire et au primaire. Dans C. Gohier (Ed.), Identites professionnelles d'acteurs de l'enseignement : regards croises (pp.137-168). Quebec, QC : Presses de l'Universite du Quebec.

College d'enseignement general et professionnel Marie-Victorin. (2005). Politique no-12, Politique institutionnelle d'evaluation des apprentissages. Repere a http://www. collegemv.qc.ca/CMS/Media/2226_294_fr-CA_0_pol_12_PIEA.pdf

Comite d'Agrement des Programmes de Formation a l'Enseignement (CAPFE). (2010). La visite de suivi de l'agrement d'un programme de formation a l'enseignement : cadre de reference et modalites d'application pour les visites de suivi de l'agrement qui seront effectuees entre 2010 et 2013. Quebec, QC : Ministere de l'Education, du Loisir et du Sport.

Conference des recteurs et des principaux des universites du Quebec. (2013). La cote de rendement au collegial : apercu de son role et de son utilisation. Document approuve le 30 novembre 2000 par le Comite de gestion des bulletins d'etudes collegiales. Mis a jour le 4 mars 2013. Repere a http://www.crepuq.qc.ca/spip. php?article227&lang=fr.

Conseil Superieur de l'Education (CSE) (2012). L'assurance qualite a l'enseignement universitaire : une conception a promouvoir et a mettre en Luvre. Avis a la ministre de l'Education, du Loisir et du Sport. Quebec, QC : Gouvernement du Quebec.

Council for Higher Education Accreditation (CHEA). (2003). Statement of mutual responsibilities for student learning outcomes: Accreditation, institutions, and programs. Washington, DC: Council for Higher Education Accreditation.

DiPerna, J. C. (2004). Structural and concurrent validity evidence for the Academic Competence Evaluation Scales-College edition. Journal of College Counseling, 7(1), 64-72. doi: 10.1002/j.2161-1882.2004.tb00260.x

European Association for Quality Assurance in Higher Education. (2009). Standards and guidelines for quality assurance in the european higher education aera. Helsinki, Finland: ENQA.

Fletcher, J., & Tienda, M. (2010). Race and ethnic differences in college achievement: Does high school attended matter? The Annals of the American Academy of Political and Social Science, 627(1), 144-166. doi: 10.1177/0002716209348749

Geiser, S., & Santelices, M. V. (2007). Validity of high-school grades in predicting student success beyong the freshman year: High-school record vs. standardized tests as indicators of four-year college outcomes. Research & Occasional Paper Series: CSHE.6.07. University of California, Berkeley. Repere a http://cshe. berkeley.edu/sites/default/files/shared/publications/docs/ROPS.GEISER._SAT_6.13.07.pdf

Goova, M. T., Hollett, L. A., Tesfay, S. T., Gala, R. B., Puzziferri, N., Kehdy, F. J., & Scott, D. J. (2008). Implementation, construct validity, and benefit of a proficiency-based knot-tying and suturing curriculum. Journal of Surgical Education, 65(4), 309-315. doi: 10.1016/j.jsurg.2008.04.004

Griffin, P. (2007). The comfort of competence and the uncertainty of assessment. Studies in Educational Evaluation, 33, 87-99. doi: 10.1016/j.stueduc.2007.01.007

Guede, V. (2009). Comparatif des applications informatiques de gestion des competences. Cahiers pedagogiques, 476. Repere a http://www.cahiers-pedagogiques.com/ Comparatif-des-applications

Harvey, L. (2012). Evaluation des competences dans un programme de formation en enseignement : Validite de construit curriculaire. Mesure et evaluation en education, 35(2), 69-97.

Harvey, L. (2009). L'echafaudage lors de la supervision en milieu professionnel : etudes des modalites et un modele. Mesure et evaluation en education, 32(1), 55-83.

Jewell, R. T., & McPherson, M. A. (2012). Instructor-specific grade inflation: Incentives, gender, and ethnicity. Social Science Quarterly, 93(1), 95-109. doi: 10.1111/j.1540-6237.2011.00827.x

Jones, E. B., & Jackson, J. D. (1990). College grades and labor market rewards. The Journal of Human Resources, 25(2), 253-266. doi: 10.2307/145756

Kobrin, J. L., Patterson, B. F., Shaw, E. J., Mattern, K. D., & Barbuti, S. M. (2008). Validity of the SAT for predicting first-year college grade point average (Research report no-2008-5). New York, NY: The College Board.

Komarraju, M., Ramsey, A., & Rinella, V. (2013). Cognitive and non-cognitive predictors of college readiness and performance: Role of academic discipline. Learning and Individual Differences, 24, 103-109. doi : dx.doi.org/10.1016/j.lindif.2012.12.007

Kuncel, N. R., Crede, M., & Thomas, L. L. (2007). A meta-analysis of the predictive validity of the graduate management admission test (GMAT) and undergraduate grade point average (UGPA) for graduate student academic performance. Academy of Management Learning & Education, 6(1), 51-68.

Kuncel, N. R., Wee S., Serafin, L., & Hezlett, S. A. (2010). The validity of the graduate record examination for master's and doctoral programs: A meta-analytic investigation. Educational and Psychological Measurement, 70(2), 340-352. doi: 10.1177/0013164409344508.

Lekholm, A. K., & Cliffordson, C. (2008). Discrepancies between school grades and test scores at individual and school level: Effects of gender and family background. Educational Research and Evaluation, 14(2), 181-199. doi: 10.1080/13803610801956663

Lewis, R. (2011). L'avenir de l'assurance-qualite au sein du systeme mondial d'enseignement superieur. Dans OCDE (Ed.), L'enseignement superieur a l'horizon 2030--Volume 2 : Mondialisation, La recherche et l'innovation dans l'enseignement. Editions OCDE. doi: 10.1787/9789264075405-fr

Louis, R., Jutras, F., & Hensler, H. (1996). Des objectifs aux competences : implications pour l'evaluation de la formation initiale des maitres. Revue canadienne de l'education, 21(4), 414-432.

Luthy, T. L. (1996). Validity and prediction bias of grade performance from Graduate Record Examination scores for students at Northern Illinois University: Age and gender considerations. Northern Illinois University, ProQuest: UMI Dissertation Publishing.

Ma, X., Ma, L., & Bradley, K. D. (2008). Using multilevel modeling to investigate school effects. In A. A. O'Connell, & D. B. McCoach (Eds), Multilevel modeling of educational data (pp. 59-110). Charlotte, NC: Information Age Publishing.

Mason, G., & Dragovich, J. (2010). Program assessment and evaluation using student grades obtained on outcome-related course learning objectives. Journal of Professional Issues in Engineering Education and Practice, 136(4), 206-214. doi: 10.1061/(ASCE)EI.1943-5541.0000029

Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741-749. doi: 10.1037//0003-066X.50.9.741

Millman, J., Slovacek, S. P., Kulick, E., & Mitchell, K. J. (1983). Does grade inflation affect the reliability of grades? Research in Higher Education, 19(4), 423-429. doi: 10.1007/BF01418444

Ministere de l'Education de l'Ontario. (2000). Dossier scolaire de l'Ontario : Guide, 2000. Repere a http://www.edu.gov.on.ca/fre/document/curricul/osr/osrf.html

Ministere de l'Education du Quebec (MEQ). (2003). Politique d'evaluation des apprentissages. Repere a http://www.mels.gouv.qc.ca/fileadmin/site_web/ documents/publications/EPEPS/Formation_jeunes/Evaluation/13-4602.pdf

Morlaix, S. (2009). Competences des eleves et dynamique des apprentissages. Rennes, France : Presses universitaires de Rennes.

Muis, K. R., & Winne P. H. (2012). Assessing the psychometric properties of the achievement goals questionnaire across task contexts. Canadian Journal of Education, 35(2), 232-248.

O'Connell, A. A., & McCoach, D. B. (Eds). (2008). Multilevel modeling of educational data. Charlotte, NC: Information Age Publishing.

Pattison, E., Grodsky, E., & Muller, C. (2013). Is the sky falling? Grade inflation and the signaling power of grades. Educational Researcher, 42(5), 259-265. doi: 10.3102/0013189X13481382

Pfister, C. (1975). La validite de la note scolaire (These de doctorat inedite). Universite de Neuchatel, Berne, Suisse.

Pike, G. R., & Saupe, J. L. (2002). Does high school matter? An analysis of three methods of predicting first-year grades. Research in Higher Education, 43(2), 187-207. doi: 10.1023/A:1014419724092

Rexwinkel, T., Haenen, J., & Pilot, A. (2013). Quality assurance in higher education: Analysis of grades for reviewing course levels. Quality and Quantity, 47(1), 581-598. doi: 10.1007/s11135-011-9481-6

Rojstaczer, S., & Healy, C. (2012). Where A is ordinary: The evolution of American college and university grading, 1940-2009. Teachers College Record, 114(7), 1-23.

Ryan, K. E., & Cousins, J. B. (2009). Introduction. In K. E. Ryan, & J. B. Cousins (Eds), The SAGE international handbook of educational evaluation (pp. ix-xvii). Los Angeles, CA: SAGE.

Saupe, J. L., & Eimers, M. T. (2012). Alternative estimates of the reliability of college grade point averages. Annual Forum of the Association for Institutional Research, June 2-June 6, 2012. New Orleans: Louisiana.

Smith, D. L. (1992). Validity of faculty judgments of student performance: Relationship between grades and credits earned and external criterion measures. The Journal of Higher Education, 63(3), 329-340. doi: 10.2307/1982018

Thorsen, C., & Cliffordson, C. (2012). Teachers' grade assignment and the predictive validity of criterion-referenced grades. Educational Research and Evaluation: An International Journal on Theory and Practice, 18(2), 153-172. doi: 10.1080/13803611.2012.659929

Wingard, J. R., & Williamson, J. W. (1973). Grades as predictors of physicians' career performance: An evaluative literature review. Journal of Medical Education, 48(4), 311-322.

Leon Harvey

Universite du Quebec a Rimouski

Marie-Helene Hebert

Universite du Quebec a Rimouski

Catherine Simard

Universite du Quebec a Rimouski
COPYRIGHT 2013 Canadian Society for the Study of Education
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2013 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Harvey, Leon; Hebert, Marie-Helene; Simard, Catherine
Publication:Canadian Journal of Education
Date:Nov 1, 2013
Words:7909
Previous Article:Teachers' beliefs and teaching mathematics with manipulatives.
Next Article:The leadership teachers want from principals: transformational.
Topics:

Terms of use | Privacy policy | Copyright © 2020 Farlex, Inc. | Feedback | For webmasters