Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée

Modélisation du conditionnement animal par représentations factorisées dans un système d'apprentissage dual : Explication des différences inter-individuelles aux niveaux comportemental et neurophysiologique


qui aura lieu le vendredi 26 septembre 2014 à 14h, à l'ISIR, UPMC/CNRS, 4 Place Jussieu, Paris Tour 65, 3ème étage, couloir 65-66, salle 304.
(plan: http://www.isir.upmc.fr/UserFiles/Image/plan-sout-thesis-lesaint.png)

Membres du jury:

  M. Angelo Arleo -- Directeur de recherche CNRS - INSERM - Université Pierre et Marie Curie -- Examinateur
  M. Etienne Coutureau -- Chargé de recherche CNRS à l'Université de Bordeaux -- Rapporteur
  M. Peter Dayan -- Professor at University College London -- Examinateur
  M. Arthur Leblois -- Chargé de recherche CNRS à l'Université Paris Descartes -- Rapporteur
  M. Mehdi Khamassi -- Chargé de recherche CNRS à l'Université Pierre et Marie Curie -- Co-encadrant
  M. Olivier Sigaud -- Professeur de l'Université Pierre et Marie Curie -- Directeur de thèse

Un résumé des travaux présentés figure en fin de ce message. La soutenance se déroulera en anglais.

Vous êtes chaleureusement conviés au pot qui suivra la soutenance dans le hall de l'ISIR.

Amicalement,

Florian Lesaint


** FR *********************************************************************

Résumé:

Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli neutres associés à des récompenses, et le conditionnement instrumental, l'expression de comportements pour atteindre des buts, sont au cœur de nos capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les preuves de leur enchevêtrement. Les modèles de conditionnement instrumental reposent sur le formalisme de l'apprentissage par renforcement (RL), alors que les modèles du conditionnement Pavlovien reposent surtout sur des architectures dédiées souvent incompatibles avec ce formalisme, compliquant l'étude de leurs interactions. Notre objectif est de trouver des concepts, qui combinés à des modèles RL puissent offrir une architecture unifiée permettant une telle étude. Nous développons un modèle qui combine un système RL classique, qui apprend une valeur par état, avec un système RL révisé, évaluant les stimuli séparément et biaisant le comportement vers ceux associés aux récompenses. Le modèle explique certaines réponses inadaptées par l'interaction néfaste des systèmes, ainsi que certaines différences inter-individuelles par une simple variation au niveau de la population de la contribution de chaque système dans le comportement global. Il explique une activité inattendue de la dopamine, vis-à-vis de l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les stimuli et non les états. Il est aussi compatible avec une hypothèse alternative que la dopamine contribue aussi à rendre certains stimuli recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses pour l'étude du conditionnement Pavlovien, du conditionnement instrumental et de leurs interactions.

** EN *********************************************************************

Title: Modelling animal conditioning with factored representations in dual-learning systems: Explaining inter-individual differences at behavioural and neurophysiological levels

Summary:

Pavlovian conditioning, the acquisition of responses to neutral stimuli previously paired with rewards, and instrumental conditioning, the acquisition of goal-oriented responses, are central to our learning capacities. However, despite some evidences of entanglement, they are mainly studied separately. Reinforcement learning (RL), learning by trials and errors to reach goals, is central to models of instrumental conditioning, while models of Pavlovian conditioning rely on more dedicated and often incompatible architectures. This complicates the study of their interactions. We aim at finding concepts which combined with RL models may provide a unifying architecture to allow such a study. We develop a model that combines a classical RL system, learning values over states, with a revised RL system, learning values over individual stimuli and biasing the behaviour towards reward-related ones. It explains maladaptive behaviours in pigeons by the detrimental interaction of systems, and inter-individual differences in rats by a simple variation at the population level in the contribution of each system to the overall behaviour. It explains unexpected dopaminergic patterns with regard to the dominant hypothesis that dopamine parallels a reward prediction error signal by computing such signal over features rather than states, and makes it compatible with an alternative hypothesis that dopamine also contributes to the acquisition of incentive salience, making reward-related stimuli wanted for themselves. The present model shows promising properties for the investigation of Pavlovian conditioning, instrumental conditioning and their interactions.


--
Florian LESAINT
Institut des Systèmes Intelligents et de Robotique (UMR7222)
CNRS - Université Pierre et Marie Curie
Pyramide, Tour 55 - Boîte courrier 173
4 place Jussieu, 75252 Paris Cedex 05, France
http://www.isir.upmc.fr