Bonjour,
J'ai le plaisir de vous inviter à la soutenance de ma thèse
intitulée:
"Probabilistic algorithms for large scale systems"
ainsi qu'au traditionnel pot qui suivra.
La soutenance aura lieu le lundi 29 novembre 2010 à 14h en
salle 79 du bâtiment 490 de l'université Paris-Sud XI.
==========
Résumé
==========
Cette thèse explore les sytèmes à grande échelle selon deux axes
distincts, tout d'abord les réseaux dont la taille a grandi jusqu'à
devenir problématique (réseaux de capteurs, applications massivement
parallèles, ...) ainsi que les systèmes dont la taille est dûe
à la collection de données qu'ils représentent. Un exemple typique de
ces systèmes est le world wide web.
Les travaux réalisés concernent l'identification et le déclassement du
spam sous plusieurs de ses formes. Tout d'abord le webspam, utilisé
par les webmasters malhonnêtes qui souhaitent améliorer leur visibilité
sur le web par tous les moyens. Dans cette thèse nous montrons qu'il
est possible en utilisant des moyens rapides (marches aléatoires) de
diminuer fortement l'influence de ces pages sur le calcul du pagerank.
J'ai aussi travaillé sur le déclassement du spam social pouvant
apparaître sur des sites d'informations collaboratifs comme
digg. L'approche proposée à base de filtres statistiques pour freiner
la promotion de news spammantes a été validée à la fois d'un point de
vue statistique et humain.
Cette thèse propose aussi un nouveau schéma de distribution de
messages dans les réseaux de capteurs permettant de diffuser de
l'information sur un sous-ensemble des noeuds du réseau en respectant
une distribution prédéterminée le tout en réduisant le nombre de
messages par rapport aux approches précédentes.
J'ai aussi participé à l'élaboration d'une plateforme d'émulation pour
applications parallèles en réalisant la virtualisation du réseau
niveau bas afin d'offrir un contrôle complet à l'utilisateur sur
l'environnement.
This thesis focuses on large-scale systems through two angles: first
networks which size grows until becoming an issue itself (sensor
networks, massively parallel applications, ...) and also systems which
size is coming from the data collection they represent. A typical
example of such systems is the World Wide Web.
The work realized concerns the detection and the demotion of spam
under various forms. First link spam, used by malicious webmasters who
want to increase their visibility on the Web by all means. In this
thesis, we show that it is possible using fast methods (random walks)
to decrease the influence of such pages on the PageRank's computation.
I also worked on the demotion of social spam that may appear on social
news websites like Digg. The approach based on statistical filters to
slow down the promotion of spamming news was validated from both a
statistical and human point of view.
This thesis also proposes a new message distribution scheme in sensor
networks allowing to reach a subset of nodes according to a
predetermined distribution with a lower number of exchanged messages
compared to previous approaches.
I also participate in the development of an emulation platform for
parallel applications. I realized the low level network virtualization
in order to provide users with a complete control over the
environment.
===================
Composition du jury
===================
Rapporteurs:
Brian D. Davison, Associate professor, Lehigh university.
Aristides Gionis, Senior Researcher, Yahoo! Research.
Examinateurs:
Serge Abiteboul, Directeur de recherche, INRIA.
Fabio Crestani, Professeur, Université Paris-Sud XI.
Directeurs de thèse:
Joffroy Beauquier, Professeur, Université Paris-Sud XI.
Sylvain Peyronnet, Maître de conférence, Université Paris-Sud XI
Cordialement.