Kaggle

Analyse du Dataset IBM Attrition en R

Publié en Mars 2026

Contexte et Objectifs

J'ai réalisé sur plusieurs mois une analyse complète du dataset IBM HR Analytics Attrition, un classique sur Kaggle, afin de démontrer mes compétences de Data Scientist. Peut également être utilisé comme outil d'apprentissage pour qui souhaiterait développer ses propres compétences !

Méthodologie

Ce notebook Kaggle inclut une analyse de données exploratoire poussée de nombreuses visualisations, suivie d'une section statistiques inférentielles ou je développe plusieurs modèles prédictifs :

Résultats Clefs

La régression logistique identifie les heures supp comme étant la variable de loin la plus importante pour déterminer le risque d'attrition des employés. La variable suivante est la variable YearsPerCompany que j'ai créé en divisant le nombre d'années d'expérience professionnelle par le nombre d'employeurs. Juste derrière, il y a une variable composée que j'ai nommé ImplicationIndex, correspondant à la somme des niveaux de EnvironmentSatisfaction et JobInvolvement.
Consultez le notebook pour plus de détail !