Promotie: Efficiently moving forward in video-based human action recognition
LET OP: Als een kandidaat een lekenpraatje houdt, start de livestream een kwartier eerder.
Dit proefschrift richt zich op het verbeteren van de efficiëntie van video-based herkenning van menselijke handelingen. Dat is essentieel voor toepassingen als bewaking, gezondheidszorg en mens-computerinteractie. Hoewel moderne transformer-based modellen wel nauwkeurig zijn, beperken hun hoge rekenkosten de praktische inzetbaarheid.
Het onderzoek biedt drie belangrijke innovaties. Ten eerste introduceert het de Local Attention Layer (LA-laag), een aandachtsmechanisme met een vervormbare kernel en beperkingsregel, die lokale spatiotemporale patronen efficiënt vastlegt met lagere rekeneisen. Ten tweede wordt het Trajectory-Correlation (TC)-blok voorgesteld, een hybride module die verfijnde acties zoals gebarentaal effectiever herkent.
Daarnaast richt het proefschrift zich op het verbeteren van de efficientie van transformers. We introduceren VideoMambaPro, een compacte en snelle architectuur, gebaseerd op het Mamba state-space model. Dit model bereikt concurrerende nauwkeurigheid met veel minder rekenkracht dan traditionele Vision Transformers. Ook wordt het Four-Tiered Prompts (FTP)-framework geïntroduceerd, dat externe kennis uit visuele taalmodellen (VLMs) gebruikt om zonder taakspecifieke training beter te generaliseren.
De methoden zijn gevalideerd op benchmarks zoals Kinetics-400, Something-Something V2 en PHOENIX14. De resultaten tonen aan dat de voorgestelde benaderingen state-of-the-art prestaties leveren met lagere geheugen- en rekenvereisten.
Dit proefschrift levert een belangrijke bijdrage aan de ontwikkeling van efficiënte, generaliseerbare en schaalbare systemen voor videobegrip en menselijke actieherkenning.
- Begindatum en -tijd
- Einddatum en -tijd
- Locatie
- Hybride: online (livestream link) en voor genodigden in het Academiegebouw, Domplein 29
- Promovendus
- H. Lu
- Proefschrift
- Efficiently moving forward in video-based human action recognition
- Promotor(es)
- prof. dr. A.A. Salah
- Co-promotor(es)
- dr. ir. R.W. Poppe
- Meer informatie
- Full text via Utrecht University Repository