Réduction de dimension, sélection de variables et classification supervisée: Sparse PLS et modèle linéaire généralisé (french)

PhD

ABS4NGS

statistics

seminar

Statistics seminar, Laboratoire J.-A. Dieudonné, Nice-Sophia-Antipolis University, Nice (France)

Authors

Ghislain Durif

Franck Picard

Sophie Lambert-Lacroix

Published

September 4, 2014

Keywords: “Statistics”, “Dimension reduction”, “Sparse PLS”, “Logistic regression”, “High-dimensional data”, “Classification”

Summary (french)

La régression Partial Least Squares parcimonieuse (ou sparse PLS) permet de résoudre des problèmes de régression linéaire (d’une réponse Y sur p prédicteurs X_1,…,X_p). Celle-ci combine les avantages de la sélection de variables (simplification du modèle) et de la compression (réduction de la dimension de l’espace des observations), en associant le principe du Lasso à la régression PLS classique. Les résultats en terme d’erreur de prédiction sont très intéressants, surtout en grande dimension quand le nombre de prédicteurs devient très supérieur au nombre d’observations disponibles.

On peut alors se poser la question de l’utilisation de ce même principe pour une réponse non plus gaussienne mais discrète ou qualitative, et notamment pour des problèmes de classifications supervisée. L’exposé portera sur l’utilisation de la compression et de la sélection de variables via la PLS parcimoniseuse dans le cadre du modèle linéaire généralisé. L’idée étant de proposer une méthode qui réponde au problème de classification supervisée dans le cadre pathologique de la grande dimension. En effet, de tels problèmes se posent de plus en plus actuellement dans les applications, en particulier en génomique. La question centrale sera de déterminer où placer la compression et la sélection de variables dans un schéma de résolution du modèle linéaire généralisé, qui fasse sens statistiquement (pour l’interprétation) et numériquement (d’un point de vue de l’optimisation). La méthode proposée ainsi que ses performances seront illustrées par des tests sur des données simulées et comparées avec les résultats données par d’autres approches.