Contexte et Objectifs
J'ai réalisé sur plusieurs mois une analyse complète du dataset IBM HR Analytics Attrition, un classique sur Kaggle, afin de démontrer mes compétences de Data Scientist. Peut également être utilisé comme outil d'apprentissage pour qui souhaiterait développer ses propres compétences !
Méthodologie
Ce notebook Kaggle inclut une analyse de données exploratoire poussée de nombreuses visualisations, suivie d'une section statistiques inférentielles ou je développe plusieurs modèles prédictifs :
- Des arbres de décisions basiques pour donner des règles de décision simples aux managers et employés RH.
- Un modèle de régression logistique pénalisé basé sur le package rms de Frank Harrell, auteur de Regression Modelling Strategies, pour une modélisation statistiquement rigoureuse.
- Un modèle de Gradient Boosting LightGBM entrainé avec optimisation des hyperparamètres afin de maximiser la performance prédictive.
Résultats Clefs
La régression logistique identifie les heures supp comme étant la variable de loin la plus importante pour déterminer le risque d'attrition des employés.
La variable suivante est la variable YearsPerCompany que j'ai créé en divisant le nombre d'années d'expérience professionnelle par le nombre d'employeurs.
Juste derrière, il y a une variable composée que j'ai nommé ImplicationIndex, correspondant à la somme des niveaux de EnvironmentSatisfaction et JobInvolvement.
Consultez le notebook pour plus de détail !