Adapter automatiquement les plannings de révisions aux besoins des élèves

Benoît CHOFFIN

Niveaux

Tous niveaux

 

 

Public

Tous enseignants (toutes matières et tous niveaux confondus)

 

Contact

Action/Projet associé(e)

Ressource(s) associée(s)

Non renseigné pour le moment

À quelles questions cette étude tente-t-elle de répondre ?

Par rapport à un apprentissage « massé », espacer son apprentissage (c’est-à-dire, le découper en plus petites sessions espacées dans le temps) améliore la mémorisation de connaissances à long terme chez l’apprenant (Cepeda et al., 2008 ; Kang, 2016). Des algorithmes d’espacement adaptatif qui personnalisent automatiquement l’espacement entre plusieurs révisions en fonction des besoins de chaque apprenant ont été développés par le passé (Hunziker et al., 2019 ; Lindsey et al., 2014 ; Tabibian et al., 2019). Néanmoins, ces algorithmes fonctionnent seulement pour la mémorisation pure de connaissances simples, comme des flashcards. Au cours de ce travail de recherche, nous avons cherché à étendre les algorithmes d’espacement adaptatif pour qu’ils permettent de réviser un ensemble de composantes de connaissance¹ (CC, Knowledge Components en anglais).

Plus précisément, nous nous sommes intéressés à deux questions de recherche principales :

  1. Comment modéliser statistiquement l’évolution temporelle de la maîtrise d’un apprenant sur un ensemble de CC à partir de ses réponses passées sur un ensemble d’items² ?
  2. Sachant que l’on dispose pour un apprenant d’un nombre fixe d’items de révision et que les périodes de révision sont déterminées par un agent extérieur³, comment choisir automatiquement la séquence d’items qui maximisera la maîtrise à long terme de l’apprenant sur les CC ?

Pourquoi ces questions sont-elles pertinentes ?

Question 1 :
Une part importante des algorithmes d’espacement adaptatif de l’apprentissage existants reposent sur l’utilisation d’un modèle statistique de l’apprenant (Hunziker et al., 2019 ; Lindsey et al., 2014 ; Pavlik et Anderson, 2008). Ces modèles peuvent servir à estimer la probabilité de rappel immédiat d’une connaissance pour choisir un item qui est sur le point d’être oublié ou bien à anticiper les conséquences en termes de mémorisation à long terme d’un choix d’item à l’instant t.

Question 2 :
La révision périodique de connaissances est plus connue en psychologie cognitive sous le nom de répétition espacée (Cepeda et al., 2008 ; Kang, 2016). Plus formellement, la stratégie de répétition espacée consiste à découper l’apprentissage d’un même ensemble d’informations (par exemple, des mots de vocabulaire dans une langue étrangère) en plus petites sessions d’apprentissage espacées dans le temps. La répétition espacée améliore la mémorisation à long terme de ces informations par rapport à un apprentissage dans une seule session dite « massée » : ce bénéfice de la répétition espacée est appelé effet d’espacement (ou spacing effect, en anglais). Notons ici que cette stratégie est meilleure que l’apprentissage « massé » pour la mémorisation à long terme même à durée égale d’apprentissage.

Cependant, si les bénéfices de l’espacement comparés à ceux de l’apprentissage massé sont clairement établis, il reste à savoir comment, en pratique, espacer ses révisions. Pour répondre à cette problématique, des avancées scientifiques récentes en intelligence artificielle pour l’éducation ont permis le développement de systèmes d’espacement adaptatif et personnalisé de l’apprentissage pour l’amélioration de la mémorisation à long terme de flashcards (Lindsey et al., 2014 ; Tabibian et al., 2019). À partir de l’historique d’apprentissage passé d’un apprenant, ces outils détectent ses besoins et personnalisent séquentiellement l’espacement temporel entre deux révisions d’une même connaissance.

En se concentrant sur les items qui bénéficieraient le plus d’une révision, ces outils sont capables d’améliorer de manière significative la rétention en mémoire des items étudiés à moyen et long terme, par rapport à des plannings fixes d’espacement. Comparé à un espacement identique pour tous les individus, plusieurs expériences montrent que l’espacement adaptatif maintient un plus haut degré d’ancrage en mémoire à long terme des informations apprises en ralentissant la décroissance des courbes d’oubli (Lindsey et al., 2014 ; Mettler et al., 2016). Différents algorithmes d’espacement adaptatif de l’apprentissage sont implémentés dans plusieurs systèmes de flashcards électroniques, comme Anki, SuperMemo ou bien Mnemosyne.

Toutefois, ces algorithmes ne fonctionnent actuellement que pour l’apprentissage et la mémorisation pure de connaissances simples, comme des connaissances factuelles (par exemple, des mots de vocabulaire). À notre connaissance, aucun travail de recherche n’avait jamais cherché à étendre ces algorithmes quand les connaissances à retenir consistent en un ensemble de CC. Pourtant, l’effet d’espacement ne se cantonne pas à l’apprentissage de vocabulaire ou à la mémorisation pure d’éléments (comme avec les flashcards) : il a par exemple été appliqué avec succès à l’acquisition et à la généralisation de concepts scientifiques abstraits (Vlach et Sandhofer, 2012) et à la pratique de compétences mathématiques dans un contexte éducatif réel (Barzagar Nazari et Ebersbach, 2019).

Quelle méthodologie de recherche a-t-on utilisée ?

Nous avons choisi de développer plusieurs algorithmes avec modèle⁴ pour notre problématique de l’espacement personnalisé des révisions de CC. Or, la plupart des modèles de l’apprenant que l’on peut trouver dans la littérature soit (1) intègrent les relations entre items et CC dans leur structure, soit (2) modélisent l’oubli, mais à notre connaissance, aucun ne faisait les deux à la fois. Il nous était alors nécessaire de développer un modèle de l’apprenant qui prenne ces deux dimensions en compte pour pouvoir l’intégrer ensuite dans un algorithme d’espacement adaptatif de l’apprentissage de CC.

Nous avons donc tout d’abord développé un nouveau modèle prédictif de l’apprenant, que nous avons baptisé DAS3H (Choffin et al., 2019). DAS3H a la particularité de modéliser l’apprentissage et l’oubli d’un apprenant sur un ensemble de CC, à partir de ses réponses passées à un ensemble d’items. DAS3H étend le modèle DASH (Lindsey et al., 2014) et s’inscrit à la fois dans la lignée des modèles de l’apprenant à facteurs additifs et dans celle des modèles cognitifs de la mémoire humaine.

Pour évaluer DAS3H (Question 1), nous avons comparé ses performances prédictives, mesurées par validation croisée, à quatre autres modèles prédictifs de l’apprenant sur cinq jeux de données éducatives. La validation croisée est un ensemble de méthodes en machine learning permettant d’évaluer le pouvoir de généralisation d’un modèle, c’est-à-dire sa capacité à prédire avec précision des données qu’il n’aurait jamais vues. Les données que nous avons utilisées consistaient en des interactions d’un ensemble d’apprenants avec un ensemble d’items sur trois systèmes d’apprentissage adaptatif différents. Quatre jeux de données concernent l’apprentissage des mathématiques et le cinquième, l’apprentissage de la programmation. Chaque interaction, c’est-à-dire chaque réponse, était juste ou fausse.

Pour répondre à notre problématique d’espacement adaptatif de l’apprentissage de CC, nous avons choisi de développer d’abord des algorithmes simples et efficaces d’espacement. Nous avons donc proposé et implémenté trois heuristiques (c’est-à-dire, des algorithmes qui approximent la solution optimale d’un problème) pour sélectionner la meilleure CC à faire réviser à un apprenant à un instant t :

  • μ-back, qui sélectionne la CC introduite μ semaines auparavant ;
  • θ-threshold, qui sélectionne la CC dont la probabilité de bonne réponse est la plus proche d’une valeur fixée en avance θ. Intuitivement, elle cherche à choisir la CC qui est sur le point d’être oubliée ;
  • Greedy, qui sélectionne la CC dont la révision rapportera le gain de mémorisation espérée à long terme le plus élevé.

θ-threshold et Greedy sont deux heuristiques d’espacement adaptatif fondées sur un modèle de l’apprenant ; μ-back est non adaptative et ne nécessite pas de modèle.

Nous avons également développé une nouvelle procédure qui permet de sélectionner, à partir d’une heuristique et son critère de choix de CC, le sous-ensemble de CC le plus prometteur au lieu de la meilleure CC à un instant t. Ensuite, l’algorithme choisit un des items de révision qui met en jeu les CC du sous-ensemble optimal déterminé. Nous avons donc proposé une version « multi-CC » pour les heuristiques θ-threshold et Greedy, μ-back n’étant pas compatible avec cette procédure.

Les stratégies que nous avons décrites ci-dessus sont des heuristiques construites a priori. Nous avons également voulu explorer une approche différente pour l’espacement adaptatif de l’apprentissage de CC : au lieu de développer en avance la politique de choix de CC, il est aussi possible de créer un algorithme qui apprendrait la politique de sélection optimale en interagissant avec des apprenants (ici, simulés). L’apprentissage par renforcement (profond) fournit des méthodes de choix pour résoudre un tel problème.

Nous avons donc enfin proposé l’algorithme AC4S (Actor-Critic 4 Spacing), un algorithme d’apprentissage par renforcement profond pour l’optimisation de l’espacement des révisions d’un ensemble de CC. Contrairement aux heuristiques présentées plus haut, cet algorithme ne s’appuie pas, au contraire de θ-threshold par exemple, sur des connaissances établies en psychologie cognitive concernant le fonctionnement de l’apprentissage humain.

Pour comparer les différents algorithmes d’espacement adaptatif pour la mémorisation à long terme de CC (Question 2), nous avons élaboré et implémenté un protocole de simulation informatique de trajectoires d’apprentissage et d’oubli synthétiques. Comme nous ne disposions pas de terrain d’expérimentation pour tester sur de vrais apprenants nos différents algorithmes, nous avons opté pour des simulations de trajectoires synthétiques, mais réalistes, d’apprenants auxquels nous avons assigné l’une ou l’autre de ces stratégies d’espacement. Plus précisément, nous avons mené ces expériences sur 100 cohortes de 500 apprenants simulés afin de nous assurer de la robustesse de nos résultats. L’objectif de ce protocole était de pouvoir malgré tout bénéficier d’une première évaluation des performances respectives de nos algorithmes, dans un environnement contrôlé et idéalisé. Ce protocole, qui reproduit la problématique d’un enseignant voulant mettre en place des séances de révision périodiques des CC qu’il introduit au fil de son cours, repose notamment sur le modèle DAS3H (Choffin et al., 2019). Les performances des différents algorithmes de sélection de CC (μ-back, θ-threshold, Greedy, AC4S) ont été comparées à l’aide de la PMRR, un score décrivant la maîtrise moyenne d’un apprenant sur un ensemble de CC et sur une période future donnée.

Quels résultats a-t-on obtenus ?

Lors de la comparaison des performances prédictives (Question 1) de notre modèle DAS3H à quatre modèles statistiques (IRT, van der Linden et Hambleton, 2013 ; AFM, Cen et al., 2006 ; PFA, Pavlik et al., 2009 ; et DASH, Lindsey et al., 2014) de l’apprenant, celui-ci s’est avéré plus prédictif que ses concurrents. Cette comparaison nous a servi à nous assurer que DAS3H est un bon modèle de l’apprentissage et l’oubli d’un ensemble de CC : cette étape préalable était nécessaire avant d’utiliser DAS3H dans un algorithme d’espacement adaptatif.

Plusieurs résultats centraux sont ressortis des expériences que nous avons menées dans le cadre de notre deuxième question de recherche :

  • La stratégie μ-back constitue une stratégie d’espacement non adaptative, mais efficace quand elle est bien paramétrée.
  • L’heuristique θ-threshold se démarque par ses performances supérieures pendant la période d’apprentissage et elle est relativement aisée à paramétrer.
  • Greedy ne surpasse que marginalement les performances de mémorisation de μ-back et θ-threshold mais a l’avantage de ne pas nécessiter d’ajustement de paramètre. Elle s’est en outre avérée plus robuste à des comportements d’apprentissage et d’oubli atypiques.
  • On peut améliorer significativement les performances de Greedy et θ-threshold par l’utilisation de la procédure de sélection de sous-ensemble de CC que nous avons proposée.

Nous avons également montré que notre algorithme d’apprentissage par renforcement AC4S parvient à apprendre une politique de sélection d’items meilleure que l’ensemble des heuristiques de sélection de CC unique mais que sa vitesse de convergence est faible (c’est-à-dire qu’il faut beaucoup d’interactions avec des apprenants avant qu’il ne devienne vraiment performant). Ces résultats suggèrent que l’apprentissage par renforcement est une piste prometteuse pour l’espacement adaptatif des révisions de CC mais qu’elle nécessiterait d’être améliorée.

Que dois-je retenir de cette étude pour ma pratique ?

  • À l’échelle d’une classe, intégrer des révisions périodiques et identiques pour tout le monde des concepts et notions abordées précédemment permet de favoriser un apprentissage durable. Nos résultats suggèrent qu’un espacement fixe d’une semaine entre l’introduction d’une nouvelle notion et la proposition d’exercices de révision sur cette notion suffit déjà à produire de bons résultats en termes de mémorisation à long terme.
  • Pour la mémorisation pure de connaissances simples, comme des définitions ou des mots de vocabulaire, les enseignants peuvent partager avec leurs élèves un deck de flashcards sur des plateformes comme Anki⁵. En s’entraînant à retenir ces flashcards, les élèves se verront proposer un planning de révision adapté à leurs difficultés sur telle ou telle flashcard.

Notes de bas de page :
1. « Nous définissons une composante de connaissance (CC) comme étant une unité acquise d’une fonction cognitive ou une structure qui peut être inférée de la performance d’un apprenant sur un ensemble de tâches liées entre elles. […] En pratique, nous utilisons la notion de composante de connaissance pour généraliser des termes qui décrivent des éléments de cognition ou de connaissance […] mais également des termes de tous les jours comme concept, principe, fait ou compétence […]. » (Koedinger et al., 2012).
2. Un item est une activité pédagogique impliquant une récupération en mémoire de connaissances de la part de l’apprenant. La notion d’item généralise les notions d’exercice, de question, de test,…
3. Par exemple, un enseignant, un formateur, l’apprenant lui-même…
4. C’est-à-dire qu’ils utilisent un modèle statistique de l’apprenant, capable de prédire à plus ou moins long terme si un élève sera capable de résoudre correctement un item.
5. https://apps.ankiweb.net/

Références

Barzagar Nazari, K. et Ebersbach, M. (2019). Distributing mathematical practice of third and seventh graders: Applicability of the spacing effect in the classroom. Applied Cognitive Psychology, 33(2), 288-298.

Cen, H., Koedinger, K. et Junker, B. (2006). Learning factors analysis–a general method for cognitive model evaluation and improvement. Dans International Conference on Intelligent Tutoring Systems (p. 164-175). Springer.

Cepeda, N. J., Vul, E., Rohrer, D., Wixted, J. T. et Pashler, H. (2008). Spacing effects in learning: A temporal ridgeline of optimal retention. Psychological Science, 19(11), 1095-1102.

Choffin, B., Popineau, F., Bourda, Y. et Vie, J.-J. (2019). DAS3H: Modeling Student Learning and Forgetting for Optimally Scheduling Distributed Practice of Skills. Dans Proceedings of the Twelfth International Conference on Educational Data Mining (EDM 2019) (p. 29-38).

Hunziker, A., Chen, Y., Mac Aodha, O., Rodriguez, M. G., Krause, A., Perona, P., Yue, Y. et Singla, A. (2019). Teaching multiple concepts to a forgetful learner. Advances in Neural Information Processing Systems, 4050-4060.

Kang, S. H. (2016). Spaced repetition promotes efficient and effective learning : Policy implications for instruction. Policy Insights from the Behavioral and Brain Sciences, 3(1), 12-19.

Koedinger, K. R., Corbett, A. T. et Perfetti, C. (2012). The Knowledge-Learning-Instruction framework: Bridging the science-practice chasm to enhance robust student learning. Cognitive Science, 36(5),757-798.

Lindsey, R. V., Shroyer, J. D., Pashler, H. et Mozer, M. C. (2014). Improving students’ long-term knowledge retention through personalized review. Psychological Science, 25(3), 639-647.

Mettler, E., Massey, C. M. et Kellman, P. J. (2016). A comparison of adaptive and fixed schedules of practice. Journal of Experimental Psychology: General, 145(7), 897.

Pavlik, P. I. et Anderson, J. R. (2008). Using a model to compute the optimal schedule of practice. Journal of Experimental Psychology: Applied, 14(2), 101.

Pavlik, P. I., Cen, H. et Koedinger, K. R. (2009). Performance Factors Analysis – A New Alternative to Knowledge Tracing. Dans Proceedings of the 14th International Conference on Artificial Intelligence in Education, AIED 2009 (p. 531-538).

Tabibian, B., Upadhyay, U., De, A., Zarezade, A., Schölkopf, B. et Gomez-Rodriguez, M. (2019). Enhancing human learning via spaced repetition optimization. Proceedings of the National Academy of Sciences, 116(10), 3988-3993.

van der Linden, W. J. et Hambleton, R. K. (2013). Handbook of modern item response theory. Springer Science & Business Media.

Vlach, H. A. et Sandhofer, C. M. (2012). Distributing learning over time: The spacing effect in children’s acquisition and generalization of science concepts. Child Development, 83(4), 1137-1144.

Action/Projet associé(e)

Projet

Projet PARCOURS CONNECTÉS

Accompagner et former les enseignants en début de carrière

Cliquer sur une étiquette pour accéder à la liste des articles avec la même étiquette

Ressource(s) associée(s)

Non renseigné pour le moment.

Ses publications

Laisser un commentaire

Retour haut de page