Project Details
Description
Q-learning is een model vrije, asynchrone variant van de value iteration benadering in Dynamisch Programmeren. Doordat een Q-learner niet beschikt over een model van de wereld moet deze de omgeving verkennen om zo zijn gedrag te optimaliseren. in de literatuur staan veschillende methoden beschreven hoe deze exploratie efficient kan gebeuren. Bijvoorbeeld kan er een model gebouwd worden tijdens de exploratie. De exploratie kan ook zodanig gestuurd worden dat elke verkenning maximale informatie bevat. De benadering die ik genomen heb is een parallelisatie van Q-learning die perfect kan gecombineerd worden met andere technieken. Er zijn twee mogelijkheden om Q-learning te paralleliseren. een eerste werd reeds door Tsitsiklis gesugereerd in een bewijs omtrent de convergentie van Q-learning. In dit bewijs wordt Q-learning bekeken als een asynchrone stochastische benaderingsmethode. In het bewijs wordt aangetoond dat het werken met oude informatie niets verandert aan de convergentie garantie op voorwaarde dat oude inforaltie vroeg of laat geaktualiseerd wordt. Dit brengt ons tot voldoende parallelisatie van Q-learning. De toestandsruimte wordt opgedeeld in verschillende disjuncte gebieden. In elk gebied wordt een Q-learner geplaatst. Deze beschikt over een voledige tabel van Q-values en zijn taak bestaat erin zijn gebied te exploreren om zo de Q-values die tot zijn eigen gebied behoren te verbeteren. Op regelmatige tijdstippen wisselen de Q-learners hun informatie uit. Op deze wijze worden de tabellen van alle Q-learners geaktualiseerd.
Acronym | FWOTM72 |
---|---|
Status | Finished |
Effective start/end date | 1/10/97 → 30/09/00 |
Keywords
- informatica
Flemish discipline codes in use since 2023
- Mathematical sciences and statistics