Gestructureerde data creëren in medische context

Sjoerd de Vries

Machine learning (ML) stelt computers in staat om te leren van data, maar voor goed presterende ML modellen zijn voldoende hoogwaardige gelabelde data nodig. Vooral in de gezondheidszorg is het verzamelen hiervan een uitdaging. Dit proefschrift richt zich op het trainen van ML-classificatiemodellen met beperkte gelabelde data of onzekere labels.

Twee benaderingen worden onderzocht: semi-supervised learning (SSL), waarbij zowel gelabelde als ongelabelde data worden gebruikt, en soft label learning (SLL), dat rekening houdt met onzekerheid in labels. Deel I introduceert RESSEL, een nieuwe SSL-methode die ensemble learning en zelftraining combineert zonder complexe aannames te maken. Evaluaties op openbare datasets en in het ziekenhuis voor het voorspellen van urineweginfecties (UWI’s) tonen aan dat RESSEL beter presteert dan traditionele supervised learning (SL) methoden.

SYNLABEL

Deel II richt zich op SLL en presenteert SYNLABEL, een methode om realistische synthetische datasets te maken met gecontroleerde labelonzekerheid. Op basis van deze datasets vergelijkt het proefschrift verschillende SLL-methoden en toont aan dat ze beter presteren dan traditionele SL, vooral wanneer data schaars of ruizig zijn. Toegepast op UWI-data, leveren SLL-modellen beter gekalibreerde voorspellingen.

Tot slot laat het onderzoek zien hoe voorgetrainde ensemblemodellen verbeterd kunnen worden door hun gewichten te optimaliseren met soft labels. Ook de combinatie met ongelabelde data is bekeken, maar dit leverde geen verdere verbetering op.

Samenvattend maakt dit onderzoek SSL en SLL toegankelijker door praktische methoden te bieden die gemakkelijk met bestaande ML-modellen te integreren zijn en beter omgaan met onzekere en beperkte data.

Onderzoeker

Sjoerd de Vries

Wetenschappelijk begeleiders

Subsidieverleners/ (mede)financierende niet-academische partners

UMC Utrecht