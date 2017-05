Hoe haal je patronen uit meerdere parallelle datareeksen? Informaticus Roel Bertens deed promotieonderzoek naar het verkrijgen van informatie of inzicht uit verzamelde data. Hij richtte zich vooral op sequentiële data: bijvoorbeeld reeksen van bezochte webpagina’s op het internet, lijsten van gebeurtenissen afgegeven door alarmsystemen, teksten die bestaan uit een opeenvolging van woorden of sensoren die van alles meten over een bepaalde tijdspanne. Deze datasets bevatten een enorme hoeveelheid patronen, wat het lastig maakt om een kleine verzameling patronen te vinden dat de hele dataset goed samenvat.

Bertens richtte zich in zijn onderzoek vooral op multivariate datareeksen: verzamelingen van meerdere parallelle datareeksen. Denk aan een dataset waarbij twee sensoren de snelheid en hoogte van een hardloper bijhouden. Een multivariaat patroon beschrijft de correlatie tussen de sensoren, bijvoorbeeld het verband tussen een toenemende snelheid en gelijktijdig afnemende hoogte van het gelopen traject. Bertens definieert in zijn proefschrift hoe deze patronen eruit kunnen zien en beschrijft een algoritme dat efficiënt goede samenvattingen vindt.

In het tweede deel van zijn proefschrift gebruikt Bertens deze samenvattingen voor het vinden van anomalieën in de data: datapunten die significant afwijken van de rest van de data. Anomalieën zijn zó anders dat het erop lijkt dat ze door een ander mechanisme gegenereerd zijn. Een anomalie kan voorkomen in de data als gevolg van een fout, het kan een extreme waarde zijn of het is een erg onverwacht datapunt.