Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/29168
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΣπαθάρης, Χρήστοςel
dc.date.accessioned2018-10-23T09:36:50Z-
dc.date.available2018-10-23T09:36:50Z-
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/29168-
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.2881-
dc.rightsDefault License-
dc.subjectMachine learningen
dc.subjectReinforcement learningen
dc.subjectΜulti-agent systemsen
dc.subjectCongestion problemsen
dc.subjectΜηχανική μάθησηel
dc.subjectΕνισχυτική μάθησηel
dc.subjectΠολυπρακτορικά συστήματαel
dc.subjectΠροβλήματα συμφόρησηςel
dc.titleMulti-agent reinforcement learning methods for congestion problemen
dc.titleΜέθοδοι πολυ-πρακτορικής ενίσχυτικής μάθησης για προβλήματα συμφόρησηςel
heal.typemasterThesis-
heal.type.enMaster thesisen
heal.type.elΜεταπτυχιακή εργασίαel
heal.classificationMachine learningen
heal.dateAvailable2018-10-23T09:37:50Z-
heal.languageen-
heal.accessfree-
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.publicationDate2018-
heal.bibliographicCitationΒιβλιογραφία: σ. 50-52el
heal.abstractMulti-agent systems can be used to address problems in a variety of domains, including robotics, telecommunications, congestion avoidance and distributed control. Reinforcement learning framework can provide a robust and natural way for agents to learn how to coordinate their action options in multi-agent systems. The objective of this thesis is to propose and investigate the use of Collaborative Multi-Agent Reinforcement Learning methods for autonomous agents for resolving congestion problems. Such problems require the investigation of a joint policy in order to maximize a pay-off function. Agents have limited information about others pay offs and preferences, and need to coordinate their action to achieve their tasks while adhering to operational constraints.We study three different Multi-Agent Reinforcement learning methodologies: the independent case, the edge-based case and the agent-based case. We have applied these schemes to an interesting traffic application: solving the demand-capacity imbalances during pre-tactical phase in Air Traffic domain. Several experiments have been made based on real-world data and the results obtained confirm the effectiveness of our methods in resolving the demand-capacity problem.en
heal.abstractΗ παρούσα εργασία πραγματεύεται τον τρόπο επίλυσης προβλημάτων συμφόρης στο εναέριο δίκτυο με χρήση μεθόδων πολυπρακτορικής ενισχυτικής μάθησης. Πιο συγκεκριμένα, οι πράκτορες του δικτύου μας ανταποκρίνονται σε αεροσκάφη που πραγματοποιούν προκαθορισμένες διαδρομές και σκοπός τους είναι να εκτελέσουν ομαλά τη διαδρομή τους δίχως να δημιουργήσουν πρόβλημα στον εναέριο χώρο. Ο εναέριος χώρος, χωρίζεται σε εναέρια μπλοκ ή τομείς και κάθε τομέας έχει μια προκαθορισμένη τιμή Χωρητικότητας την οποία δεν πρέπει να υπερβεί σε καμία χρονική στιγμή. Αυτό το πρόβλημα, είναι γνωστό και ως Ανισορροπία μεταξύ Ζήτησης-Χωρητικότητας και σκοπός μας σε αυτή την εργασία είναι η εύρεση της βέλτιστης κοινής πολιτικής των πρακτόρων ώστε να αποφευχθούν οι συμφορήσεις στον εναέριο χώρο. Η Ζήτηση είναι η ποσότητα που μετράει πόσα αεροσκάφη διανύουν ή πρόκειται να διανύσουν έναν συγκεκριμένο εναέριο τομέα σε μια συγκεκριμένη χρονική στιγμή. Συνεπώς, όταν η τιμή της Ζήτησης ξεπεράσει την τιμή της Χωρητικότητας, τότε πλέον υπάρχει ανισορροπία μεταξύ των δύο ποσοτήτων και δημιουργείται ένα σημείο συμφόρησης στον τομέα. Η λύση του προβλήματος εντοπίζεται στην υπαγωγή των αεροσκαφών που προκαλούν τη συμφόρηση σε κάποιους κανονισμούς λειτουργίας. Στην περίπτωση μας αυτοι οι κανονισμοίλειτουργίας μεταφράζονται σε λεπτά καθυστέρησης. Στην εργασία μας, μελετάμε την επιβολή καθυστερήσεων στα αεροσκάφη κατα τη διάρκεια της ”προ-τακτικής” φασής. Η συγκεγκριμένη φάση λαμβάνει χώρα αρκετές μέρες πριν την πτήση των αεροσκαφων και περιλαμβανει την επιβολή καθυστερήσεων σε αεροσκάφη που επρόκειτο να δημιουργήσουν πρόβλημα στον εναέριο χώρο κατά τη μέρα αναχώρησής τους. Παράλληλα, κατά την επιβολή καθυστερήσεων χρήζει προσοχής το γεγονός ότι κάθε λεπτό καθυστέρησης κοστίζει στην αντίστοιχη εταιρεία κάποιο χρηματικό ποσό για τον δεδομένο τύπο αεροσκάφους. Στην προσέγγισή μας, χρησιμοποιήσαμε μεθόδους πολυπρακτορικής ενισχυτικής μάθησης στην οποία οι πράκτορες συνεργάζονται μεταξύ τους για την επίλυση του κοινου προβλήματος. Υλοποιήσαμε τρεις διαφορετικές μεθόδους οι οποίες επιτυγχάνουν διαφορετικές λύσεις του προβλήματος. Επιπλέον, αξίζει να σημιεωθεί ότι τα πειράματα έγιναν πάνω σε πραγματικά δεδομένα χιλιάδων πτήσεων που προσέφερε το πρόγραμμα DART. Οι μέθοδοί μας βασίζονται στην εύρεση βέλτισης κοινής πολιτικής η οποία ορίζει για τον κάθε πράκτορα αν πρέπει να καθυστερήσει την αναχώρησή του από το αεροδρόμιο ή αν είναι ελεύθερος να πετάξει με ασφάλεια. Στόχος της εργασίαςείναι να βρούμε αυτή την πολιτική η οποία να εξαλοίφει πλήρως τους τομείς συμφόρησης ενώ παράλληλα να μειώνει τα λεπτά καθυστέρησης και το συνολικό κόσος, όσο το δυνατόν περισσότερο.el
heal.advisorNameΜπλέκας, Κωνσταντίνοςel
heal.committeeMemberNameΜπλέκας, Κωνσταντίνοςel
heal.committeeMemberNameΛαγαρής, Ισαάκel
heal.committeeMemberNameΛύκας, Αριστείδηςel
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherIDuoi-
heal.numberOfPages52 σ.-
heal.fullTextAvailabilitytrue-
Appears in Collections:Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΥ

Files in This Item:
File Description SizeFormat 
Μ.Ε. ΣΠΑΘΑΡΗΣ ΧΡΗΣΤΟΣ 2018.pdf2.09 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons