Multi-agent reinforcement learning methods for congestion problem

Σπαθάρης, Χρήστος

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/29168

Full metadata record

DC Field	Value	Language
dc.contributor.author	Σπαθάρης, Χρήστος	el
dc.date.accessioned	2018-10-23T09:36:50Z	-
dc.date.available	2018-10-23T09:36:50Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/29168	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.2881	-
dc.rights	Default License	-
dc.subject	Machine learning	en
dc.subject	Reinforcement learning	en
dc.subject	Μulti-agent systems	en
dc.subject	Congestion problems	en
dc.subject	Μηχανική μάθηση	el
dc.subject	Ενισχυτική μάθηση	el
dc.subject	Πολυπρακτορικά συστήματα	el
dc.subject	Προβλήματα συμφόρησης	el
dc.title	Multi-agent reinforcement learning methods for congestion problem	en
dc.title	Μέθοδοι πολυ-πρακτορικής ενίσχυτικής μάθησης για προβλήματα συμφόρησης	el
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Machine learning	en
heal.dateAvailable	2018-10-23T09:37:50Z	-
heal.language	en	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.publicationDate	2018	-
heal.bibliographicCitation	Βιβλιογραφία: σ. 50-52	el
heal.abstract	Multi-agent systems can be used to address problems in a variety of domains, including robotics, telecommunications, congestion avoidance and distributed control. Reinforcement learning framework can provide a robust and natural way for agents to learn how to coordinate their action options in multi-agent systems. The objective of this thesis is to propose and investigate the use of Collaborative Multi-Agent Reinforcement Learning methods for autonomous agents for resolving congestion problems. Such problems require the investigation of a joint policy in order to maximize a pay-oﬀ function. Agents have limited information about others pay oﬀs and preferences, and need to coordinate their action to achieve their tasks while adhering to operational constraints.We study three diﬀerent Multi-Agent Reinforcement learning methodologies: the independent case, the edge-based case and the agent-based case. We have applied these schemes to an interesting traﬃc application: solving the demand-capacity imbalances during pre-tactical phase in Air Traﬃc domain. Several experiments have been made based on real-world data and the results obtained conﬁrm the eﬀectiveness of our methods in resolving the demand-capacity problem.	en
heal.abstract	Η παρούσα εργασία πραγματεύεται τον τρόπο επίλυσης προβλημάτων συμφόρης στο εναέριο δίκτυο με χρήση μεθόδων πολυπρακτορικής ενισχυτικής μάθησης. Πιο συγκεκριμένα, οι πράκτορες του δικτύου μας ανταποκρίνονται σε αεροσκάφη που πραγματοποιούν προκαθορισμένες διαδρομές και σκοπός τους είναι να εκτελέσουν ομαλά τη διαδρομή τους δίχως να δημιουργήσουν πρόβλημα στον εναέριο χώρο. Ο εναέριος χώρος, χωρίζεται σε εναέρια μπλοκ ή τομείς και κάθε τομέας έχει μια προκαθορισμένη τιμή Χωρητικότητας την οποία δεν πρέπει να υπερβεί σε καμία χρονική στιγμή. Αυτό το πρόβλημα, είναι γνωστό και ως Ανισορροπία μεταξύ Ζήτησης-Χωρητικότητας και σκοπός μας σε αυτή την εργασία είναι η εύρεση της βέλτιστης κοινής πολιτικής των πρακτόρων ώστε να αποφευχθούν οι συμφορήσεις στον εναέριο χώρο. Η Ζήτηση είναι η ποσότητα που μετράει πόσα αεροσκάφη διανύουν ή πρόκειται να διανύσουν έναν συγκεκριμένο εναέριο τομέα σε μια συγκεκριμένη χρονική στιγμή. Συνεπώς, όταν η τιμή της Ζήτησης ξεπεράσει την τιμή της Χωρητικότητας, τότε πλέον υπάρχει ανισορροπία μεταξύ των δύο ποσοτήτων και δημιουργείται ένα σημείο συμφόρησης στον τομέα. Η λύση του προβλήματος εντοπίζεται στην υπαγωγή των αεροσκαφών που προκαλούν τη συμφόρηση σε κάποιους κανονισμούς λειτουργίας. Στην περίπτωση μας αυτοι οι κανονισμοίλειτουργίας μεταφράζονται σε λεπτά καθυστέρησης. Στην εργασία μας, μελετάμε την επιβολή καθυστερήσεων στα αεροσκάφη κατα τη διάρκεια της ”προ-τακτικής” φασής. Η συγκεγκριμένη φάση λαμβάνει χώρα αρκετές μέρες πριν την πτήση των αεροσκαφων και περιλαμβανει την επιβολή καθυστερήσεων σε αεροσκάφη που επρόκειτο να δημιουργήσουν πρόβλημα στον εναέριο χώρο κατά τη μέρα αναχώρησής τους. Παράλληλα, κατά την επιβολή καθυστερήσεων χρήζει προσοχής το γεγονός ότι κάθε λεπτό καθυστέρησης κοστίζει στην αντίστοιχη εταιρεία κάποιο χρηματικό ποσό για τον δεδομένο τύπο αεροσκάφους. Στην προσέγγισή μας, χρησιμοποιήσαμε μεθόδους πολυπρακτορικής ενισχυτικής μάθησης στην οποία οι πράκτορες συνεργάζονται μεταξύ τους για την επίλυση του κοινου προβλήματος. Υλοποιήσαμε τρεις διαφορετικές μεθόδους οι οποίες επιτυγχάνουν διαφορετικές λύσεις του προβλήματος. Επιπλέον, αξίζει να σημιεωθεί ότι τα πειράματα έγιναν πάνω σε πραγματικά δεδομένα χιλιάδων πτήσεων που προσέφερε το πρόγραμμα DART. Οι μέθοδοί μας βασίζονται στην εύρεση βέλτισης κοινής πολιτικής η οποία ορίζει για τον κάθε πράκτορα αν πρέπει να καθυστερήσει την αναχώρησή του από το αεροδρόμιο ή αν είναι ελεύθερος να πετάξει με ασφάλεια. Στόχος της εργασίαςείναι να βρούμε αυτή την πολιτική η οποία να εξαλοίφει πλήρως τους τομείς συμφόρησης ενώ παράλληλα να μειώνει τα λεπτά καθυστέρησης και το συνολικό κόσος, όσο το δυνατόν περισσότερο.	el
heal.advisorName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Λαγαρής, Ισαάκ	el
heal.committeeMemberName	Λύκας, Αριστείδης	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	52 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΥ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. ΣΠΑΘΑΡΗΣ ΧΡΗΣΤΟΣ 2018.pdf		2.09 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"