Promotie: Improving sample efficiency of reinforcement learning Exploiting structural knowledge for decision making
Reinforcement learning (RL) heeft de afgelopen jaren opmerkelijke vooruitgang geboekt, maar de toepassing ervan in realistische taken wordt belemmerd door een lage steekproefeffectiviteit, vooral in structureel complexe omgevingen.
Dit proefschrift onderzoekt hoe structurele kennis, waaronder subtaak-samenstelling, symbolisch redeneren, communicatiestructuur en agentinvloed, kan worden benut om de efficiëntie van zowel single-agent als multi-agent RL-algoritmen te verbeteren.
Ten eerste introduceren wij een hiërarchisch RL-raamwerk dat automatisch subtaken structureert. Door het gezamenlijk leren van selectie op hoog niveau en uitvoering op laag niveau van subtaken, behaalt de methode superieure prestaties in omgevingen met schaarse beloningen. Ten tweede stellen wij een neuro-symbolisch RL-raamwerk voor dat probabilistisch symbolisch redeneren integreert met beleidsleren. Door een probabilistische inferentiemodule te introduceren die actiepremisse-maskers berekent, sluit het raamwerk onhaalbare acties uit op basis van symbolische kennis, wat zowel de steekproefeffectiviteit als de veiligheid van het beleid verbetert. Ten derde presenteren wij een multi-agent RL-raamwerk dat communicatiestructuur benut via gedecentraliseerde planning van schaarse communicatie. Agenten leren wanneer zij lokale berichten moeten delen door de berichten van anderen te voorspellen, wat leidt tot betere prestaties met minder communicatie-overhead. Ten slotte ontwerpen wij een multi-agent RL-raamwerk dat automatisch identificeert welke toestandsdimensies door elke agent beïnvloed kunnen worden. Dit structurele inzicht maakt gerichte exploratie en nauwkeurige toewijzing van krediet mogelijk in coöperatieve multi-agent scenario’s met schaarse beloningen.
Gezamenlijk bevorderen deze bijdragen de steekproefeffectiviteit van RL door systematisch structurele kennis te benutten in besluitvormingsprocessen. Resultaten in diverse domeinen tonen aan dat de voorgestelde methoden beter presteren dan de huidige state-of-the-art baselines.
- Begindatum en -tijd
- Einddatum en -tijd
- Locatie
- Hybride: online (livestream link) en voor genodigden in het Academiegebouw, Domplein 29
- Promovendus
- S. Han
- Proefschrift
- Improving sample efficiency of reinforcement learning Exploiting structural knowledge for decision making
- Promotor(es)
- prof. dr. M.M. Dastani
- Co-promotor(es)
- dr. S. Wang
- Meer informatie
- Full text via Utrecht University Repository