[these] Soutenance : Florian Lesaint, 26 septembre 2014, ISIR - Paris - Annonce

19 Sep 2014


      Bonjour,
J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée
*Modélisation du conditionnement animal par représentations factorisées
dans un système d'apprentissage dual : Explication des différences
inter-individuelles aux niveaux comportemental et neurophysiologique*
qui aura lieu le vendredi 26 septembre 2014 à 14h, à l'ISIR, UPMC/CNRS, 4
Place Jussieu, Paris Tour 65, 3ème étage, couloir 65-66, salle 304.
(plan: http://www.isir.upmc.fr/UserFiles/Image/plan-sout-thesis-lesaint.png)
Membres du jury:
M. Angelo Arleo -- Directeur de recherche CNRS - INSERM - Université
Pierre et Marie Curie -- Examinateur
  M. Etienne Coutureau -- Chargé de recherche CNRS à l'Université de
Bordeaux -- Rapporteur
  M. Peter Dayan -- Professor at University College London -- Examinateur
  M. Arthur Leblois -- Chargé de recherche CNRS à l'Université Paris
Descartes -- Rapporteur
  M. Mehdi Khamassi -- Chargé de recherche CNRS à l'Université Pierre et
Marie Curie -- Co-encadrant
  M. Olivier Sigaud -- Professeur de l'Université Pierre et Marie Curie --
Directeur de thèse
Un résumé des travaux présentés figure en fin de ce message. La soutenance
se déroulera en anglais.
Vous êtes chaleureusement conviés au pot qui suivra la soutenance dans le
hall de l'ISIR.
Amicalement,
Florian Lesaint
** FR *********************************************************************
Résumé:
Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli
neutres associés à des récompenses, et le conditionnement instrumental,
l'expression de comportements pour atteindre des buts, sont au cœur de nos
capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les
preuves de leur enchevêtrement. Les modèles de conditionnement instrumental
reposent sur le formalisme de l'apprentissage par renforcement (RL), alors
que les modèles du conditionnement Pavlovien reposent surtout sur des
architectures dédiées souvent incompatibles avec ce formalisme, compliquant
l'étude de leurs interactions. Notre objectif est de trouver des concepts,
qui combinés à des modèles RL puissent offrir une architecture unifiée
permettant une telle étude. Nous développons un modèle qui combine un
système RL classique, qui apprend une valeur par état, avec un système RL
révisé, évaluant les stimuli séparément et biaisant le comportement vers
ceux associés aux récompenses. Le modèle explique certaines réponses
inadaptées par l'interaction néfaste des systèmes, ainsi que certaines
différences inter-individuelles par une simple variation au niveau de la
population de la contribution de chaque système dans le comportement
global. Il explique une activité inattendue de la dopamine, vis-à-vis de
l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les
stimuli et non les états. Il est aussi compatible avec une hypothèse
alternative que la dopamine contribue aussi à rendre certains stimuli
recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses
pour l'étude du conditionnement Pavlovien, du conditionnement instrumental
et de leurs interactions.
** EN *********************************************************************
Title: Modelling animal conditioning with factored representations in
dual-learning systems: Explaining inter-individual differences at
behavioural and neurophysiological levels
Summary:
Pavlovian conditioning, the acquisition of responses to neutral stimuli
previously paired with rewards, and instrumental conditioning, the
acquisition of goal-oriented responses, are central to our learning
capacities. However, despite some evidences of entanglement, they are
mainly studied separately. Reinforcement learning (RL), learning by trials
and errors to reach goals, is central to models of instrumental
conditioning, while models of Pavlovian conditioning rely on more dedicated
and often incompatible architectures. This complicates the study of their
interactions. We aim at finding concepts which combined with RL models may
provide a unifying architecture to allow such a study. We develop a model
that combines a classical RL system, learning values over states, with a
revised RL system, learning values over individual stimuli and biasing the
behaviour towards reward-related ones. It explains maladaptive behaviours
in pigeons by the detrimental interaction of systems, and inter-individual
differences in rats by a simple variation at the population level in the
contribution of each system to the overall behaviour. It explains
unexpected dopaminergic patterns with regard to the dominant hypothesis
that dopamine parallels a reward prediction error signal by computing such
signal over features rather than states, and makes it compatible with an
alternative hypothesis that dopamine also contributes to the acquisition of
incentive salience, making reward-related stimuli wanted for themselves.
The present model shows promising properties for the investigation of
Pavlovian conditioning, instrumental conditioning and their interactions.
-- 
Florian LESAINT
Institut des Systèmes Intelligents et de Robotique (UMR7222)
CNRS - Université Pierre et Marie Curie
Pyramide, Tour 55 - Boîte courrier 173
4 place Jussieu, 75252 Paris Cedex 05, France
http://www.isir.upmc.fr