Besluitvorming in multi-objective multi-agent domeinen met teambeloning

Projectdetails

!!Description

De meeste implementaties van multi-agent systemen beogen het
optimaliseren van de strategieën van de agenten met betrekking tot
één enkele doelstelling, ondanks het feit dat vele probleemdomeinen
in de echte wereld inherent meerdere doelstellingen bezitten (bv.
mitigatiestrategieën in epidemiologische modellering, en het beheer
van elektriciteitsnetwerken). Multi-objective multi-agent systemen zijn
een meer algemeen kader dat expliciet rekening houdt met de
mogelijke afwegingen tussen conflicterende doelen. Tot voor kort was
het onderzoek in dit complexe domein schaars en gefragmenteerd.
Met dit project willen we de ontwikkelingen op dit gebied stimuleren
en de kloof tussen leersystemen en toepassingen in de echte wereld
overbruggen. Om dit te bereiken, is ons doel om reinforcement
learning methodes te ontwikkelen voor sequentiële multi-objective
multi-agent systemen met teambeloning. Specifiek, beschouwen we
het geval waarin alle agenten hetzelfde vectoriële beloningssignaal
ontvangen, maar waar het uiteindelijke nut van de gebruiker niet
gekend is tijdens het leren. Daarnaast bekijken we ook het geval
waarin de agenten verschillende gebruikers vertegenwoordigen die
elk een andere voorkeur hebben over de doelstellingen. Het resultaat
van de voorgestelde methoden biedt ondersteuning bij de
besluitvorming in de vorm van een verzameling afwegingen voor de
gebruiker, of equilibrium strategieën die een compromis vinden
tussen de verschillende voorkeuren van de gebruikers.
AcroniemFWOTM1108
StatusActief
Effectieve start/einddatum1/10/2228/02/27

Keywords

  • Multi-agent Versterking Leren
  • Optimalisatie van meerdere doelstellingen
  • Diep versterkend leren

Flemish discipline codes in use since 2023

  • Machine learning and decision making
  • Artificial intelligence not elsewhere classified

Vingerafdruk

Verken de onderzoeksgebieden die bij dit project aan de orde zijn gekomen. Deze labels worden gegenereerd op basis van de onderliggende prijzen/beurzen. Samen vormen ze een unieke vingerafdruk.