Très connue dans la compréhension des performances des modèles de classification, la matrice de confusion se veut un prérequis indispensable pour les amoureux de la technologie. Mais la préoccupation de plus d'un est relative à ses composantes et la façon dont elle fonctionne dans un modèle de Deep Learning ou de Machine Learning. Découvrez les détails dans cet article.
Qu'est-ce que la matrice de confusion ?
Connue en anglais sous l'appellation de matrix confusion, il s'agit d'un outil qui vise à mesurer la performance des modèles de classification supérieure ou égale à 2. Lire plus sur matrice de confusion. Dans le cas de 2 classes qui est d'ailleurs le plus simple, la matrice de confusion se reconnaît par un tableau à 4 valeurs qui matérialise les diverses combinaisons de valeurs prédites et celles concrètes. Dans certains cas, elle peut être incontournable dans la définition des diverses métriques de classification, notamment : l'Accuracy, l'AUC PR, l'AUC ROC, le F1 score. Dans d'autres cas, la matrice de confusion peut se présenter sous différentes versions dont scikit-learn.
Comment calcule-t-on la matrice de confusion à partir des prédictions d’un modèle ?
La bonne compréhension du calcul nécessite qu'on le fasse à la main sur une tierce personne. On suppose qu'à partir des éléments de réponse à une série de questions, un modèle de machine Learning présente la possibilité de chaque malade d'être en gestion. Ces probabilités seront converties par la personne soignante en labels enceinte ou non enceinte. Il délimite un niveau qui lui permettra de se convaincre de la réalité de ces probabilités. C'est ce qu'on désigne par le terme classification. Une comparaison va s'imposer entre les prédictions et la réalité ; ce qui permet de construire la matrice de confusion en vue d'une évaluation de la qualité des probabilités tirées du modèle. L'outil sera ensuite utilisé pour calculer les diverses métriques de classification.