De la classification à la classification croisée : une approche basée sur la modélisation - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Hdr Année : 2019

From clustering to co-clustering : a model based approach

De la classification à la classification croisée : une approche basée sur la modélisation

Résumé

This habilitation thesis retraces works focusing mainly on model based clustering and the related issue of model choice. After recalling the contribution of mixture models to the unsupervised framework of clustering, the latent block model (LBM), a mixture model extended to the simultaneous clustering (co-clustering) of rows and columns of a data table, is introduced. Theoretical (identifiability, consistency and asymptotic normality of the estimators) and methodological contributions (estimation by variational EM, stochastic EM, Bayesian variational EM, Gibbs sampler, model choice with the ICL criterion) are presented. The LBM is extended to the Multiple Latent Block Model (MLBM) to process individual data in pharmacovigilance and a greedy algorithm to scan the model set is proposed. The study of functional MRI data, for which the number of individuals is much smaller than the number of variables, made it possible to explore the large dimension paradigm in two directions : use of Bayesian inference as a regularization tool (MSBR model - Multi Sparse Bayesian Regression) ; drastic dimension reduction while keeping interpretable results (clustering of spatially constrained variables supervised by the prediction of the target). Finally, some contributions in less related domains (data modeling in genomics, meteorology, phylogenetics or finance) illustrate how applications bring up interesting theoretical or methodological issues.
Ce mémoire d’habilitation retrace des travaux portant principalement sur la classification non supervisée par modélisation probabiliste et sur la question connexe du choix de modèle. Après avoir rappelé l’apport des modèles de mélange à la classification non supervisée (clustering), le modèle des blocs latents (LBM), un modèle de mélange étendu à la classification simultanée (co-clustering) des lignes et des colonnes d’un tableau de données, est introduit. Des contributions théoriques (identifiabilité, consistance et normalité asymptotique des estimateurs) et méthodologiques (estimation par EM variationnel, EM stochastique, EM variationnel bayésien, échantillonneur de Gibbs, choix de modèle via le critère ICL) sont présentés. Le LBM est étendu au modèle de blocs latents multiples (MLBM) pour traiter des données individuelles en pharmacovigilance et un algorithme glouton de parcours des modèles est proposé. L’étude de données d’IRM fonctionnelle, pour lesquelles le nombre d’individus est très inférieur au nombre de variables, a permis d’explorer le problème de la grande dimension suivant deux directions : utilisation de l’inférence bayésienne à des fins de régularisation (modèle MSBR –Multi Sparse Bayesian Regression) ; réduction drastique de la dimension tout en gardant des résultats interprétables (clustering de variables contraintes spatialement supervisé par la prédiction de la cible). Enfin, quelques contributions dans des domaines plus éloignés de modélisation de données applicatives (génomiques, météorologiques, phylogénétiques ou financières) illustrent comment des besoins applicatifs font surgir des questions théoriques ou méthodologiques intéressantes.
Fichier principal
Vignette du fichier
KERIBIN-HDRParisSud - TEL.pdf (2.46 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02397429 , version 1 (06-12-2019)

Identifiants

  • HAL Id : tel-02397429 , version 1

Citer

Christine Keribin. De la classification à la classification croisée : une approche basée sur la modélisation. Statistiques [math.ST]. Université Paris Sud XI, 2019. ⟨tel-02397429⟩
245 Consultations
479 Téléchargements

Partager

Gmail Facebook X LinkedIn More