Bonjour,
J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée
Modélisation
du conditionnement animal par représentations factorisées dans un
système d'apprentissage dual : Explication des différences
inter-individuelles aux niveaux comportemental et neurophysiologiquequi
aura lieu le vendredi 26 septembre 2014 à 14h, à l'ISIR, UPMC/CNRS, 4
Place Jussieu, Paris Tour 65, 3ème étage, couloir 65-66, salle 304.
(plan:
http://www.isir.upmc.fr/UserFiles/Image/plan-sout-thesis-lesaint.png)
Membres du jury:
M. Angelo Arleo -- Directeur de recherche CNRS - INSERM - Université Pierre et Marie Curie -- Examinateur
M. Etienne Coutureau -- Chargé de recherche CNRS à l'Université de Bordeaux -- Rapporteur
M. Peter Dayan -- Professor at University College London -- Examinateur
M. Arthur Leblois -- Chargé de recherche CNRS à l'Université Paris Descartes -- Rapporteur
M. Mehdi Khamassi -- Chargé de recherche CNRS à l'Université Pierre et Marie Curie -- Co-encadrant
M. Olivier Sigaud -- Professeur de l'Université Pierre et Marie Curie -- Directeur de thèseUn résumé des travaux présentés figure en fin de ce message. La soutenance se déroulera en anglais.
Vous êtes chaleureusement conviés au pot qui suivra la soutenance dans le hall de l'ISIR.
Amicalement,
Florian Lesaint
** FR *********************************************************************
Résumé:
Le
conditionnement Pavlovien, l'acquisition de réponses vers des stimuli
neutres associés à des récompenses, et le conditionnement instrumental,
l'expression de comportements pour atteindre des buts, sont au cœur de
nos capacités d'apprentissage. Ils sont souvent étudiés séparément
malgré les preuves de leur enchevêtrement. Les modèles de
conditionnement instrumental reposent sur le formalisme de
l'apprentissage par renforcement (RL), alors que les modèles du
conditionnement Pavlovien reposent surtout sur des architectures dédiées
souvent incompatibles avec ce formalisme, compliquant l'étude de leurs
interactions. Notre objectif est de trouver des concepts, qui combinés à
des modèles RL puissent offrir une architecture unifiée permettant une
telle étude. Nous développons un modèle qui combine un système RL
classique, qui apprend une valeur par état, avec un système RL révisé,
évaluant les stimuli séparément et biaisant le comportement vers ceux
associés aux récompenses. Le modèle explique certaines réponses
inadaptées par l'interaction néfaste des systèmes, ainsi que certaines
différences inter-individuelles par une simple variation au niveau de la
population de la contribution de chaque système dans le comportement
global. Il explique une activité inattendue de la dopamine, vis-à-vis de
l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les
stimuli et non les états. Il est aussi compatible avec une hypothèse
alternative que la dopamine contribue aussi à rendre certains stimuli
recherchés pour eux-mêmes. Le modèle présente des propriétés
prometteuses pour l'étude du conditionnement Pavlovien, du
conditionnement instrumental et de leurs interactions.
** EN *********************************************************************
Title: Modelling
animal conditioning with factored representations in dual-learning
systems: Explaining inter-individual differences at behavioural and
neurophysiological levels
Summary:
Pavlovian
conditioning, the acquisition of responses to neutral stimuli previously
paired with rewards, and instrumental conditioning, the acquisition of
goal-oriented responses, are central to our learning capacities.
However, despite some evidences of entanglement, they are mainly studied
separately. Reinforcement learning (RL), learning by trials and errors
to reach goals, is central to models of instrumental conditioning, while
models of Pavlovian conditioning rely on more dedicated and often
incompatible architectures. This complicates the study of their
interactions. We aim at finding concepts which combined with RL models
may provide a unifying architecture to allow such a study. We develop a
model that combines a classical RL system, learning values over states,
with a revised RL system, learning values over individual stimuli and
biasing the behaviour towards reward-related ones. It explains
maladaptive behaviours in pigeons by the detrimental interaction of
systems, and inter-individual differences in rats by a simple variation
at the population level in the contribution of each system to the
overall behaviour. It explains unexpected dopaminergic patterns with
regard to the dominant hypothesis that dopamine parallels a reward
prediction error signal by computing such signal over features rather
than states, and makes it compatible with an alternative hypothesis that
dopamine also contributes to the acquisition of incentive salience,
making reward-related stimuli wanted for themselves. The present model
shows promising properties for the investigation of Pavlovian
conditioning, instrumental conditioning and their interactions.
--
Florian LESAINT
Institut des Systèmes Intelligents et de Robotique (UMR7222)
CNRS - Université Pierre et Marie Curie
Pyramide, Tour 55 - Boîte courrier 173
4 place Jussieu, 75252 Paris Cedex 05, France
http://www.isir.upmc.fr