Het lijkt alsof er elke dag wel een nieuw product op de markt komt dat gebruikmaakt van artificiële intelligentie (AI), waarbij de een nog beter en nuttiger zou moeten zijn dan zijn voorgangers. Toch is niet altijd duidelijk waar dit op gebaseerd wordt of blijken de toepassingen van de AI minder nuttig dan voorheen gedacht. Zo ook voor AI die wordt gebruikt binnen de radiologie. AI-technologie, zoals large language models of andere deep learning models, lijkt zeer veel invloed op de kliniek te hebben of gaan hebben. Alleen, hoe kan worden bepaald wat die impact daadwerkelijk is en hoe wordt ervoor gezorgd dat de impact van AI voor iedereen gunstig uitpakt?
Vergelijking van evaluatiemethoden: geneesmiddelen versus medische apparatuur
De manier waarop de impact van een bepaalde technologie in de gezondheidszorg wordt geëvalueerd verschilt per type technologie. Medicijnen worden bijvoorbeeld zeer uitgebreid geanalyseerd. Op basis van alle klinische studies naar een middel worden modellen opgesteld om de zorgkosten en gezondheidswinst te bepalen. Dit wordt vaak doorgerekend tot de standaardkosten per toegevoegde mensen levensjaar die voor kwaliteit gecompenseerd is, ook wel ‘quality adjusted life years’ of ‘QALY’s’ genoemd. Samen met deze kosteneffectiviteitsanalyse worden veiligheid, ethische en sociale overwegingen in een rapport opgenomen tot een compleet overzicht van de impact van het medicijn. Dit wordt ook wel een ‘health technology assessment (HTA)’ genoemd. Een HTA is een verplichte analyse voor elk nieuw medicijn in Europa op basis waarvan elk land individueel bepaald of het vergoed gaat worden. Er bestaan gestandaardiseerde methodes om de HTA uit te voeren. Een veel gebruikte methode is het uitgebreide HTA Core Model ontwikkeld door het Europese netwerk van HTA-agentschappen.
De gestructureerde methoden waarmee de invloed van medicijnen worden beoordeeld staat in groot contrast met de beoordelingen van medische apparatuur of software als medisch apparaat. Hoewel HTA’s voor medische apparaten wel plaatsvinden voor hoogrisico producten, is dit niet voor alle producten met een CE-keurmerk het geval. Verder zijn uitgevoerde HTA’s vaak beperkt tot alleen een veiligheid- en kosten-effectiviteitsanalyse. Een brede scope HTA met onder andere ethische en sociale overwegingen vindt niet standaard plaats. Dit is nog meer het geval voor medische software, waarbij kosten-effectiviteitsanalyses zelden worden uitgevoerd, terwijl juist voor AI een uitgebreide analyse van de invloed op de kliniek belangrijk is. Dit geldt bijvoorbeeld voor het inzichtelijk maken van de mogelijke risico’s van een model. Denk hierbij aan problemen met de generaliseerbaarheid en eerlijkheid.
Evaluatie van medische AI: initiatieven en richtlijnen
Er is wel steeds meer aandacht voor het robuust evalueren van medisch AI. Het werk van Kicky van Leeuwen is daar een goed voorbeeld van. Hieruit is het Health AI Register (healthairegister.com) ontstaan. Dit is een register met als doel alle CE geregistreerde radiologie AI te verzamelen en inzicht te geven in de beschikbare evaluaties van die producten. Verder worden er ook steeds meer evaluatie richtlijnen opgesteld specifiek voor medische AI. Voorbeelden hiervan zijn de op consensus gebaseerde rapportage controlelijsten SPIRIT-AI OF TRIPOD-AI. FUTURE-AI is nog een evaluatie richtlijn met als doel de ontwikkeling van betrouwbare medische AI. Deze richtlijn beschrijft verschillende betrouwbaarheidsprincipes die zijn onderverdeeld in zes categorieën: Fairness, Universality, Traceability, Usability, Robustness en Explainability. Met het uitvoeren van de principes tijdens de ontwikkeling en voor ingebruikname van het model zou de betrouwbaarheid van het AI model moeten worden gewaarborgd.
Vroege waardeanalyse van radiologische AI: belang van concrete toepassing
Het is belangrijk om vroeg in de ontwikkeling van radiologische AI een concrete klinische toepassing voor het model te bepalen. Samen met het evalueren van voor- en nadelen (opbrengsten versus kosten) voor die toepassing versterkt dit de betrouwbaarheid en invloed van het model. Een dergelijke vroege analyse kan worden gebruikt om concrete eisen en doelstellingen op te stellen voor een nieuw AI model. Daarmee wordt duidelijk welke verbetering voor de zorg het model zou moeten halen en kan die prestatie specifiek worden beoordeeld.
Early Health Technology Assessment (eHTA): mogelijkheden voor AI
Methoden voor vroege waardeanalyses in de gezondheidszorg, ook wel ‘early health technology assessments (eHTA)’ genoemd, zijn beschikbaar voor medische apparatuur en medicatie. Meestal bestaan deze uit kosten-effectiviteitsanalyses die op een gestructureerde manier om gaan met de beperkte validatie informatie beschikbaar in de vroege ontwikkelingsfase. Momenteel zijn er nog geen standaardmethoden voor het uitvoeren van een eHTA aangepast voor evaluatie van radiologische AI. Een dergelijke methode zou onder andere de genoemde generaliseerbaarheid en eerlijkheid moeten evalueren. Het artikel ‘ESR Essentials: how to get to valuable radiology AI’ gaat verder op in welke evaluaties een eHTA voor radiologische AI zou moeten worden uitgevoerd en beschrijft ook methoden waarmee die evaluaties kunnen worden uitgevoerd.
Pilot voor evaluatie van radiologische AI: longembolie detectie
Een pilot eHTA wordt momenteel uitgevoerd voor de evaluatie van een radiologie AI-model dat incidentele longembolieën moet gaan detecteren op CT-scans. Hiervoor zijn interviews en een focusgroep gehouden met radiologen, behandelend artsen, laboranten, patiënten, AI onderzoekers, juristen en ethici. Deze gesprekken resulteerden in een lijst van dertien sub-eisen en vijf primaire eisen (patiënt impact, modelprestaties, arts ondersteuning, milieu impact en kosten) op basis waarvan de impact van een longembolie detectie model zou moeten worden beoordeeld. Door middel van vragenlijsten is het belang van elke eis bepaald en met experts zijn verwachte prestaties van verschillende varianten voor het AI model opgesteld. Het resultaat is een concrete lijst met doelstellingen en eisen voor het model. Ten gevolge van de eHTA zijn de doelstellingen het radiologie model flink veranderd. De focus wordt nu gelegd op het dekken van risico’s voor de patiënt, zoals het minimaliseren van de gevolgen als een longembolie wordt gemist, in plaats van het streven naar een zo hoog mogelijke longembolie herkenning.
Conclusie: de impact van AI in de kliniek
Het evalueren van de invloed van nieuwe radiologische AI op de klinische zorg zou even gestructureerd moeten worden uitgevoerd als gebruikelijk is voor medicijnen. Daarbij dient extra aandacht te worden besteed aan de unieke manieren waarop AI risico’s geeft en van toegevoegde waarde kan zijn voor de kliniek. Alleen dan kan worden bepaald wat de invloed gaat worden van nieuwe radiologische AI in de kliniek en kan er meer zekerheid worden gegeven over de betrouwbaarheid van die AI zodat de zorg voor elke patiënt verbetert.