Sparse PLS

Adaptive Sparse PLS for Logistic Regression

Since few years, data analysis struggles with statistical issues related to the “curse of high dimensionality”. For instance, in genomics, next generation sequencing technologies provide larger and larger data, where the number of genomic units (e.g. genes) is huge compared to sample size. In this context, meaning when the number of considered variables is far larger than the number of observations in the sample, standard methods especially for classification are inappropriate.

Adaptive Spare PLS for Logistic Regression: Dimension reduction, variable selection and classification

Since few years, data analysis struggles with statistical issues related to the curse of high dimensionality. In this context, meaning when the number of considered variables is far larger than the number of observations in the sample, standard methods for classification are inappropriate, calling for the development of new methodologies. I will present a new method suitable for classification in the high dimensional case. It uses Sparse Partial Least Squares (Sparse PLS) performing compression and variable selection combined to Ridge penalized logistic regression.

Réduction de dimension, sélection de variables et classification supervisée: Sparse PLS et modèle linéaire généralisé (french)

La régression Partial Least Squares parcimonieuse (ou sparse PLS) permet de résoudre des problèmes de régression linéaire (d’une réponse Y sur p prédicteurs X_1,…,X_p). Celle-ci combine les avantages de la sélection de variables (simplification du modèle) et de la compression (réduction de la dimension de l’espace des observations), en associant le principe du Lasso à la régression PLS classique. Les résultats en terme d’erreur de prédiction sont très intéressants, surtout en grande dimension quand le nombre de prédicteurs devient très supérieur au nombre d’observations disponibles.

Multivariate analysis and dimension reduction: Sparse PLS, a comparative study

Back