Réduction de l'incertitude par méthodes d'ensemble

Réduction de l'incertitude en segmentation médicale par méthodes d'ensemble

AUTEUR
Rémy SIAHAAN--GENSOLLEN
PUBLIÉ LE
7 septembre 2025

Ce projet est basé sur un travail académique réalisé à l'ENSAE avec mes camarades Lucas Cumunel, Tara Leroux et Léo Leroy, et supervisé par Xavier Coubez, PhD et Tristan Kirsher. Un rapport détaillé est disponible en cliquant sur l'icône PDF ci-contre. Le dépôt peut-être trouvé en cliquant sur l'icône GitHub.

La segmentation automatique des organes, bien que très utile en imagerie médicale, reste sujette à une forte incertitude, notamment lorsqu'elle repose sur des annotations manuelles (subjectives). Ce projet évalue l'utilisation d'une méthode d'ensemble pour réduire cette incertitude, en entraînant et combinant plusieurs U-Nets sur différents scans tomodensitométriques annotés par divers experts. Il évaluons la précision des prédictions, ainsi que leur incertitude aléatoire et épistémique. Les résultats indiquent que cette méthode simple réduit significativement les incertitudes des prédictions.

Contexte et projet

Introduction

Depuis plusieurs années, l'intelligence artificielle révolutionne la pratique médicale, en soutenant les médecins dans leurs diagnostics et leurs prises de décisions. L'imagerie médicale, en particulier, joue un rôle central dans l'évaluation de l'état de santé des patients et l'orientation de leur prise en charge [Li, 2023]

Medical image analysis using deep learning algorithms

Li, Mengfang and Jiang, Yuanyuan and Zhang, Yanzhou and Zhu, Haisheng (2023)

Frontiers in Public Health, vol. 11.

DOI: 10.3389/fpubh.2023.1273253

. La segmentation automatique — c'est-à-dire la délimitation précise des organes et des structures par des algorithmes — facilite le diagnostic, la planification du traitement et le suivi clinique. On retrouve parmi ces algorithmes les réseaux de neurones convolutifs (Convolutional Neural Network, ou CNN), puissant outil d'apprentissage profond (deep learning) ayant surpassé les experts humains dans de nombreuses tâches de compréhension d'images [D. R. Sarvamangala, 2022]

Convolutional neural networks in medical image understanding: a survey

D. R. Sarvamangala and Raghavendra V. Kulkarni (2022)

Evolutionary Intelligence, vol. 15(1), pp. 1--22.

DOI: 10.1007/s12065-020-00540-3

. Une des architectures de CNN les plus utilisées pour la segmentation médicale est le réseau U-Net [Olaf Ronneberger, 2015]

U-Net: Convolutional Networks for Biomedical Image Segmentation

Olaf Ronneberger and Philipp Fischer and Thomas Brox (2015)

Source

.
Segmentation 3D du pancréas, des reins et du foie d'un patient, ainsi qu'une coupe du scanner abdominal utilisée pour les délimiter.
Segmentation 3D du pancréas, des reins et du foie d'un patient, ainsi qu'une coupe du scanner abdominal utilisée pour les délimiter.
Segmentation 3D du pancréas, des reins et du foie d'un patient, ainsi qu'une coupe du scanner abdominal utilisée pour les délimiter.
Segmentation 3D du pancréas, des reins et du foie d'un patient, ainsi qu'une coupe du scanner abdominal utilisée pour les délimiter.
Cependant, beaucoup des structures et anomalies analysées (organes, vaisseaux sanguins, tumeurs, etc.) sont particulièrement complexes et variables, conduisant à une certaine incertitude dans leur délimitation. Cette incertitude est accentuée par la variabilité inter-experts : différents spécialistes médicaux peuvent avoir des opinions divergentes sur l'emplacement précis des limites des entités segmentées. Elle s'accroît d'autant plus lorsque plusieurs structures sont prédites simultanément. Les réseaux de neurones doivent composer avec ces divergences, conduisant parfois à des incohérences dans les résultats de segmentation.
Quantifier ces incertitudes permet de générer des cartes d'incertitude sur les images médicales, afin d'isoler les zones où les médecins doivent redoubler d'attention, fournir aux cliniciens des prédictions mieux calibrées et intégrer des mesures de confiance dans l'analyse des images médicales et la prise de décision qui en découle [Kim-Celine Kahl, 2024]

ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation

Kim-Celine Kahl and Carsten T. Lüth and Maximilian Zenk and Klaus Maier-Hein and Paul F. Jaeger (2024)

Source

. Cela améliore non seulement la sécurité des diagnostics assistés par IA, mais rend également les algorithmes plus transparents et fiables pour les applications médicales. Les méthodes d'ensemble, consistant à combiner plusieurs modèles individuels ou leurs prédictions, sont un choix courant pour améliorer la performance des modèles d'intelligence artificielle [Ganaie, 2022]

Ensemble deep learning: A review

Ganaie, M.A. and Hu, Minghui and Malik, A.K. and Tanveer, M. and Suganthan, P.N. (2022)

Engineering Applications of Artificial Intelligence, vol. 115, pp. 105151.

DOI: 10.1016/j.engappai.2022.105151

.

Quantification de l'incertitude

Les modèles d'apprentissage machine n'indiquent pas toujours clairement leur niveau de confiance dans les prédictions qu'ils produisent : c'est le problème de l'incertitude dans les prédictions algorithmiques. Par ailleurs, les experts médicaux peuvent annoter une même image différemment en raison de l'ambiguïté de certaines structures anatomiques. Ces désaccords réduisent la qualité des annotations utilisées pour entraîner les modèles et compliquent l'évaluation de leurs performances. Dans la figure à gauche ci-dessous, trois coupes du scan tomodensitométrique (ou scan abdominal / CT scan) du premier patient du jeu de données fourni pour le challenge CURVAS (plus de détails plus bas), ainsi que les trois annotations du pancréas, du rein et du foie. La figure de droite met en évidence les zones de désaccord.
Contours réalisés par trois médecins pour différents organes sur trois coupes de CT scan d'un même patient
Contours réalisés par trois médecins pour différents organes sur trois coupes de CT scan d'un même patient
Contours réalisés par trois médecins pour différents organes sur trois coupes de CT scan d'un même patient
Contours réalisés par trois médecins pour différents organes sur trois coupes de CT scan d'un même patient
Zones de dissensus mises en évidence en jaune
Zones de dissensus mises en évidence en jaune
Zones de dissensus mises en évidence en jaune
Zones de dissensus mises en évidence en jaune
Théoriquement, on distingue deux types d'incertitude, qui, une fois combinées donnent l'incertitude prédictive (Predictive Uncertainty) PUPU :
  • L'incertitude aléatoire (Aleatoric Uncertainty) AUAU qui provient des données elles-mêmes. Elle est liée aux ambiguïtés intrinsèques à l'image. On peut citer comme cause d'incertitude aléatoire les artefacts, les erreurs de numérisation, etc Parmi ces causes, on peut notamment citer les désaccords entre annotateurs, comme illustré précédemment.
  • L'incertitude épistémique (Epistemic Uncertainty) EUEU, qui provient du modèle d'apprentissage lui-même. On peut citer comme cause d'incertitude épistémique un manque de connaissances (pas assez de données diversifiées observées durant l'entraînement), une architecture ne permettant pas de bien les « apprendre », etc
L'approche la plus notable pour capturer ces incertitudes a été introduite par [Alex Kendall, 2017]

What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?

Alex Kendall and Yarin Gal (2017)

Source

, qui l'abordent dans le cadre d'un classificateur bayésien. Ce classificateur reçoit une entrée xx et produit des probabilités pour les classes YY :
P ⁣(Y  |  x)=EωΩ[P ⁣(Y  |  x,ω)]\bbP\p{Y \enstq x} = \bdE_{\omega \sim \Omega}\intc{\bbP\p{Y \enstq x, \omega}}
où les paramètres du modèle Ω\Omega suivent P ⁣(ω  |  D)\bbP\p{\omega \enstq D } pour les données d'entraînement DD.
Ce cadre bayésien [David Smerkous, 2024]

Enhancing Diversity in Bayesian Deep Learning via Hyperspherical Energy Minimization of CKA

David Smerkous and Qinxun Bai and Fuxin Li (2024)

Source

suppose que l'incertitude épistémique est représentée par l'entropie prédictive (Predictive Entropy) PEPE, qui est la somme de l'information mutuelle (Mutual Information) MIMI et de l'entropie attendue (Expected Entropy) EEEE, représentant respectivement l'incertitude épistémique et l'incertitude aléatoire. En notant H\bbH l'entropie de Shannon, on a :
H ⁣(Y  |  x)PU=PE=MI(Y,Ωx)EU=MI+EωΩ[H(Yω,x)]AU=EE (pour x i.i.d.)\underbrace{\bbH\p{Y \enstq x}}_{PU = PE} = \underbrace{\text{MI}(Y, \Omega|x)}_{EU = MI} + \underbrace{\mathbb{E}_{\omega \sim \Omega}[H(Y|\omega, x)]}_{AU = EE \ \text{(pour x i.i.d.)}}
La figure interactive ci-dessous, basée sur la thèse de [Lambert, 2024]

Quantification et caractérisation de l'incertitude de segmentation d'images médicales par des réseaux profonds

Lambert, Benjamin (2024)

Source

, illustre les deux types d'incertitudes pour une régression unidimensionnelle. Vous pouvez passer votre souris sur les régions colorées pour voir le détail, changer leurs tailles ou la forme de la fonction.
g(x)g(x)
xx
g(x)=g(x) =
Un autre concept très important est celui de calibration. Les réseaux de neurones produisent des distributions de probabilités sur les étiquettes de classe possibles, ce qui constitue une mesure naturelle de l'incertitude. Idéalement, un modèle bien calibré devrait avoir une confiance élevée pour les prédictions correctes et une faible confiance pour les prédictions incorrectes. Cependant, les architectures modernes échouent souvent à atteindre cette calibration idéale. Pour évaluer la calibration, on utilise des diagrammes de fiabilité (ou graphiques de calibration), qui comparent la confiance prédite à la précision réelle, mettant ainsi en évidence les écarts — appelés écarts de calibration.
Mathématiquement, un modèle parfaitement calibré satisfait :
p[0,1],P ⁣(Y^=Y  |  P^=p)=p\forall p \in \intc{0, 1},\qquad \bbP\p{\hat{Y} = Y \enstq \hat{P} = p} = p
Autrement, cela signifie que si le modèle attribue une probabilité de 80 % à une prédiction, il devrait avoir raison 80 % du temps.

Expérience

Données et modèle

Tenu de mai à octobre 2024, le challenge CURVAS (Calibration and Uncertainty for Multi-Rater Volume Assessment in Multiorgan Segmentation) mettait les équipes au défi de produire un modèle de segmentation précis, capable de déterminer la meilleure calibration et quantification de la variabilité inter-expert. Nous utilisons pour ce projet le jeu de données mis à disposition à l'occasion de ce challenge, contenant au total 90 CT scans de patients, chacun annoté par 3 experts différents pour délimiter le pancréas, les reins et le foie de chaque patient. Les figures précédentes ont été réalisées à partir des données du premier patient de la cohorte. Ces scans tomodensitométriques ont été recueillis à l'University Hospital Erlangen entre août et octobre 2023. 20 CT scans ont été fournis pour l'entraînement (groupe A), 5 pour la validation (groupe A), et 65 pour le test (20 en groupe A, 22 en groupe B et 23 en groupe C) [Riera-Marín, 2024]

CURVAS dataset

Riera-Marín, Meritxell and Kleiß, Joy-Marie and Aubanell, Anton and Antolín, Andreu (2024)

DOI: 10.5281/zenodo.12687192

.
Pour les entraînements, nous avons utilisé le framework nnU-Net (no-new-UNet) [Fabian Isensee, 2018]

nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation

Fabian Isensee and Jens Petersen and Andre Klein and David Zimmerer and Paul F. Jaeger and Simon Kohl and Jakob Wasserthal and Gregor Koehler and Tobias Norajitra and Sebastian Wirkert and Klaus H. Maier-Hein (2018)

Source

, une bibliothèque d'outils permettant d'entraîner des réseaux U-Net [Olaf Ronneberger, 2015]

U-Net: Convolutional Networks for Biomedical Image Segmentation

Olaf Ronneberger and Philipp Fischer and Thomas Brox (2015)

Source

pour la segmentation, conçue spécifiquement pour la segmentation automatisée d'images biomédicales. nnU-Net configure automatiquement de nombreux paramètres en fonction des caractéristiques de l'ensemble de données. Ces configurations sont indispensables car, dans les hôpitaux, les images médicales sont produites avec différents instruments, ne respectent pas les mêmes conventions et ont des formats différents (2D, 3D), des saturations et des dimensions variables, Toutefois, ces architectures présentent l'inconvénient d'être très coûteux en calcul et nécessite des GPU performants.
Nous avons d'abord entraîné 9 modèles différents sur le jeu de données d'entraînement (20 patients) : pour chaque annotateur, nous avons entraîné trois modèles avec des initialisations différentes des poids, afin d'explorer différentes trajectoires dans le loss landscape. Ensuite, nous avons inféré chacun de ces modèles sur le jeu de données de test (65 patients). Systématiquement, nous avons généré les probabilités (sorties softmax du modèle) pour chacun des modèles et des patients, que nous avons ensuite utilisées pour produire 4 ensembles (en les moyennant) : un pour chaque triplet de modèles pour un même annotateur, et un général sur l'ensemble des 9 modèles. Enfin, nous avons exécuté, pour chacun des patients et les 13 modèles différents, des calculs évaluant la précision des prédictions ainsi que les incertitudes aléatoires et épistémiques. Ces calculs et leurs résultats sont présentés dans les sections suivantes.

Évaluation

Pour analyser la précision et l'incertitude, nous utilisons un ensemble de métriques issues du défi CURVAS (Consensus-based DICE, Confidence, ECE, CRPS) [Riera-Marín, 2024]

CURVAS dataset

Riera-Marín, Meritxell and Kleiß, Joy-Marie and Aubanell, Anton and Antolín, Andreu (2024)

DOI: 10.5281/zenodo.12687192

et du cadre ValUES (ACE, AUROC, AURC, EAURC, NCC) [Kim-Celine Kahl, 2024]

ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation

Kim-Celine Kahl and Carsten T. Lüth and Maximilian Zenk and Klaus Maier-Hein and Paul F. Jaeger (2024)

Source

, ainsi que des mesures classiques de performance comme l'entropie et la distance de Hausdorff. Ces métriques nous permettent de capturer les deux types d'incertitudes, aléatoire (aleatoric) et épistémique (epistemic), ainsi que la performance globale des modèles. Sans entrer dans trop de détails, regardons-en quelques-unes :
Le consensus-based DICE peut être utilisé pour évaluer la performance / précision des prédictions. C'est un score DICE ordinaire (une mesure de similarité entre deux ensembles), mais qui considère la zone de consensus (c.-à-d. là où tous les experts sont d'accord) et la prédiction. Cela permet de prendre en compte la variabilité entre experts (et donc l'incertitude aléatoire). Nous le calculons pour chaque organe, et comme un score DICE classique, plus il est proche de 1, plus la prédiction est précise. Cette mesure nous donne une idée générale de la performance du modèle tout en tenant compte de la variabilité inter-experts.
DICE=2PGP+G\text{DICE} = \frac{2 |P \cap G|}{|P| + |G|}
  • PP: Segmentation prédite.
  • GG: Zone de consensus entre les annotateurs.
  • PG|P \cap G|: Intersection entre les segmentations (c.-à-d. les voxels qui se chevauchent).
  • X|X|: Nombre total de voxels dans la segmentation xx.
L'Expected Calibration Error (ECE) est utilisée pour évaluer l'incertitude épistémique et la calibration. Elle est calculée en divisant les probabilités prédites en plusieurs intervalles BmB_m, allant de 0 à 1 (appelés bins). Puis, dans chaque intervalle, on détermine la confiance moyenne et la précision. L'ECE est la somme pondérée (par la taille de l'intervalle) de la différence entre précision et confiance moyenne pour chaque bin (d'où l'écart mentionné plus haut). L'ECE est une mesure clé de la calibration du modèle (c'est en fait la seule mesure de calibration du défi CURVAS, et elle est même directement intégrée dans la librairie \texttt{torchmetrics}, ce qui facilite son utilisation).
ECE=m=1BBmnacc(Bm)conf(Bm)\text{ECE} = \sum_{m=1}^{B} \frac{|B_m|}{n} \left| \text{acc}(B_m) - \text{conf}(B_m) \right|
  • BB: nombre de bins.
  • BmB_m: le mm-ème bin.
  • Bm|B_m|: nombre de prédictions dans le bin BmB_m.
  • nn: nombre total de prédictions.
  • acc(Bm)\text{acc}(B_m): Précision (proportion de prédictions correctes dans le bin BmB_m).
  • conf(Bm)\text{conf}(B_m): Confiance (moyenne des probabilités prédites dans le bin BmB_m).
  • Bmn\frac{|B_m|}{n}: Poids associés aux bins selon la proportion de prédictions qu'ils contiennent.
Deux autres métriques pouvant être utilisées pour la détection d'échecs sont les métriques AUROC et AURC. L'Area Under the Receiver Operating Characteristic curve est une mesure de l'aire sous la courbe ROC (taux de vrais positifs vs. taux de faux positifs). Plus précisément, cette courbe représente le rapport entre vrais et faux positifs pour différents seuils (valeur à partir de laquelle une probabilité est considérée comme positive). Ainsi, une courbe ROC idéale serait située dans le coin supérieur gauche d'un repère orthonormé (100\% de vrais positifs et 0\% de faux positifs), et donc son aire (AUROC) serait égale à 1. Cela signifie que le modèle distingue parfaitement les valeurs positives des négatives (absence d'organe). On voit ici l'intérêt d'ajouter le cadre ValUES avec des métriques qui capturent d'autres sources d'incertitude épistémique (ici liées à l'identification des erreurs).
AUROC=01TPR(t)dFPR(t)\text{AUROC} = \int_{0}^{1} \text{TPR}(t) \, d\text{FPR}(t)
  • TPR(t)\text{TPR}(t): Taux de vrais positifs au seuil tt.
  • FPR(t)\text{FPR}(t): Taux de faux positifs au seuil tt.
L'Area Under the Risk Curve est aussi une aire mais celle d'une courbe de risque. Elle est tracée en prenant, pour chaque probabilité prédite, le risque associé (ici, la différence entre annotation et prédiction). Chaque point correspond ainsi à un seuil de confiance (comme pour la courbe ROC, on calcule le risque à différents seuils). Plus l'aire est petite, plus le risque est faible à chaque seuil et plus le modèle prédit avec peu d'erreurs. L'AURC complète l'AUROC en mettant l'accent sur le compromis risque/qualité ; une autre contribution intéressante du cadre ValUES.
Risk(t)=1Ni=1Nyiyi^(t),\text{Risk}(t) = \frac{1}{N} \sum_{i=1}^{N} \left| y_i - \hat{y_i}(t) \right|,
AURC=01Risk(t)dt\text{AURC} = \int_{0}^{1} \text{Risk}(t) \, dt
  • yiy_i: valeur issue de l'annotation.
  • yi^(t)\hat{y_i}(t): valeur prédite au seuil tt.
  • NN: nombre de voxels.

Resultats

Nous calculons quatre ensembles : trois correspondant aux modèles entraînés sur le même annotateur, et un regroupant tous les modèles. Plusieurs métriques montrent une réduction de l'incertitude de prédiction et une amélioration de la précision des prédictions.

Réduction de l'incertitude

La figure ci-dessous montre les diagrammes en « violon » illustrant la distribution de l'ECE moyenne (moyenne des ECE sur les trois organes), accompagnés d'un boxplot classique. Chaque point de la distribution correspond à une paire patient–modèle (trois fois plus pour les modèles individuels que pour les ensembles par annotateur, et neuf fois plus que pour l'ensemble global). Nous observons une forte diminution du nombre de valeurs extrêmes. De plus, les moyennes et médianes diminuent, ce qui indique très clairement une réduction de l'incertitude. Ce résultat est statistiquement significatif après un test unilatéral « less » de Wilcoxon [Frank Wilcoxon, 1945]

Individual Comparisons by Ranking Methods

Frank Wilcoxon (1945)

Biometrics Bulletin, vol. 1(6), pp. 80--83.

Source

(voir rapport PDF).
L'AURC et l'EAURC sont très similaires dans leurs distributions, ce qui signifie que nos modèles se rapprochent fortement d'un modèle avec un arbitrage risque/qualité parfait. De même, les différences entre modèles sont assez faibles, à cela près que les modèles d'ensemble présentent une plus faible dispersion, et donc une plus grande constance dans leurs résultats. Pour autant, cette concentration de la distribution fait aussi que, pour certains patients, certains modèles initialisés aléatoirement sont légèrement plus performants que les modèles d'ensemble. On observe par ailleurs toujours les différences entre les organes, avec le foie en tête : peu de risques d'erreurs pour une bonne qualité de prédiction. Malgré ces différences, les scores restent globalement très bons et indiquent une bonne gestion de l'incertitude par les modèles.

Performance de prédiction

Concernant la performance de prédiction, on observe encore une fois la supériorité des modèles d'ensemble sur les autres modèles. Le DICE moyen sur les trois organes de l'ensemble global est supérieur à celui des ensembles par annotateurs, lui-même supérieur à celui des modèles individuels. Ce résultat est également statistiquement significatif (voir rapport PDF).

Bibliographie

© Rémy SIAHAAN–GENSOLLEN, 2025
remy-siahaan.com