Promotie: Pseudo labeling and classification of high-dimensional data using visual analytics

tot

Machine Learning (ML) werkt met gegevens die bestaan uit tientallen tot tienduizenden metingen (dimensies) per datapunt. Naarmate het aantal dimensies en/of datapunten toeneemt, wordt het moeilijker om de gegevens te begrijpen en ML-pijplijnen te ontwerpen die de gegevens effectief verwerken voor taken als classificatie. Visualisatie, en in het bijzonder visual analytics, blijkt een belangrijke methode die helpt bij het begrijpen van hoogdimensionale gegevens en ML-engineeringstaken.

Dit proefschrift bestudeert verschillende nieuwe methoden waarmee visual analytics ML kan helpen (en omgekeerd). Ons werk richt zich op een visualisatietechniek genaamd dimensionality reduction of projectie, die grote hoeveelheden hoogdimensionale gegevens efficiënt en effectief verwerkt.

In de eerste plaats beschouwen we de taak van het trainen van een typische classificator als er slechts een klein aantal ground-truth-etiketten beschikbaar is. Ten tweede koppelen we datascheiding (DS), visuele scheiding (VS) en classificatieprestaties (CP) met pseudo-labeling en projecties. Ten derde gebruiken we de observatie dat hoge VS en hoge CP gecorreleerd zijn, om een metriek voor te stellen voor de beoordeling van de VS van gelabelde 2D-spreidingsdiagrammen die zijn geproduceerd door projectietechnieken. Ten slotte bundelen we al onze bijdragen om de gebruiker te betrekken bij het ML-engineeringsproces. We stellen een interactieve visual analytics-tool voor die gebruikers helpt bij het handmatig etiketteren van datapunten door aanvullende informatie te bieden in termen van classificatie-beslissingsgrenskaarten, projectiefouten en inverse projectiefouten.

Begindatum en -tijd
Einddatum en -tijd
Locatie
Academiegebouw, Domplein 29 & online (livestream link)
Promovendus
B.C. Benato
Proefschrift
Pseudo labeling and classification of high-dimensional data using visual analytics
Promotor(es)
prof. dr. ir. A.C. Telea
prof. dr. A.X. Falcão