Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/39559
Full metadata record
DC FieldValueLanguage
dc.contributor.authorSextou, Nefeli Eleftheriaen
dc.contributor.authorΣέξτου, Νεφέλη Ελευθερίαel
dc.date.accessioned2025-10-22T08:35:20Z-
dc.date.available2025-10-22T08:35:20Z-
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/39559-
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectQuality-Dependent Newsvendor Problem, Deep Reinforcement Learning, Soft Actor-Critic, Stochastic Optimization, Policy Transfer, Data-Driven Decision Making, Inventory Management, Kernel Density Estimationen
dc.titleInventory Optimization Under Uncertainty: Adaptive Decision-Making with Reinforcement Learning in the Quality-Dependent Newsvendor Problemen
dc.titleΒελτιστοποίηση Αποθεμάτων υπό Αβεβαιότητα: Προσαρμοστική Λήψη Αποφάσεων με Ενισχυτική Μάθηση στο Πρόβλημα του Εφημεριδοπώλη με Εξάρτηση από την Ποιότηταel
dc.typemasterThesisen
heal.typemasterThesisel
heal.type.enMaster thesisen
heal.type.elΜεταπτυχιακή εργασίαel
heal.classificationInventoryen
heal.classificationDeep Learningen
heal.dateAvailable2025-10-22T08:36:20Z-
heal.languageenel
heal.accessfreeel
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολήel
heal.publicationDate2025-09-25-
heal.abstractThe present thesis investigates the application of reinforcement learning (RL) to stochastic inventory management, focusing on the Quality-Dependent Newsvendor Problem (QDNP). Moreover, a data-driven variant incorporating kernel density esti mation (KDE) is considered. The QDNP models inventory decisions under uncertain demand and product quality deterioration, integrating donation as a strategic decision. Donations reduce waste by redirecting surplus products to food banks and other charitable organizations, supporting social and environmental responsibility. Also, they improve profits by leveraging corporate social responsibility (CSR) incentives, which are appealing to socially and ecologically conscious consumers, and avoid disposal costs. To this end, a state-of-the-art deep reinforcement learning (DRL) approach, namely the Soft Actor-Critic (SAC) algorithm, is employed to maximize expected profit by simultaneously optimizing decisions on order quantities, pricing, and donations across multiple real-world store instances. In this context, SAC is introduced as an alternative to classical stochastic optimization methods, with the additional potential for knowledge transfer. The results obtained indicate that SAC can closely approximate the analytical solution, while maintaining practical accuracy. A KDE-based extension is also studied, which empirically approximates the demand component distribution instead of assuming full prior knowledge. The corresponding results showed slightly increased approximation errors but remained within acceptable thresholds. Furthermore, zero-shot policy transfer showed that pretrained SAC policies can adapt to moderate changes in demand and cost parameters, although retraining is required for larger deviations. Using SAC within a controlled inventory problem, this study demonstrates how sequential decision-making, and stochastic uncertainty can be addressed through RL. The findings provide a concrete example of RL applied to inventory management and contribute to the growing intersection of reinforcement learning and operations management, assessing its potential for integrating data-driven components and dynamic decision-making methods.en
heal.abstractΗ παρούσα διπλωματική εργασία διερευνά την εφαρμογή της ενισχυτικής μάθησης (reinforcement learning, RL) στη διαχείριση αποθεμάτων, εστιάζοντας στο quality dependent newsvendor problem (QDNP) και σε μια παραλλαγή βασισμένη σε δεδομένα που ενσωματώνει εκτίμηση πυκνότητας πυρήνα (kernel density estimation, KDE). Το QDNP μοντελοποιεί τις αποφάσεις αποθεμάτων υπό αβέβαιη ζήτηση και υποβάθμιση ποιότητας προϊόντων, ενσωματώνοντας τις δωρεές ως στρατηγική επιλογή. Οι δωρεές μειώνουν τη σπατάλη με την ανακατεύθυνση των πλεονάζοντων προϊόντων σε τράπεζες τροφίμων και άλλους φιλανθρωπικούς οργανισμούς, υπο στηρίζοντας την κοινωνική και περιβαλλοντική υπευθυνότητα, ενώ παράλληλα βελτιώνουν τα κέρδη αξιοποιώντας τα κίνητρα εταιρικής κοινωνικής ευθύνης (corporate social responsibility, CSR), προσελκύοντας καταναλωτές με κοινωνική και οικολογική συνείδηση και αποφεύγοντας τα κόστη απόρριψης. Μια προηγμένη προσέγγιση βαθιάς ενισχυτικής μάθησης (deep reinfocement learning, DRL), ο αλγόριθμος Soft Actor-Critic (SAC), χρησιμοποιήθηκε για τη μεγιστοποίηση των αναμενόμενων κερδών, καθοδηγώντας ταυτόχρονα αποφάσεις σχετικά με ποσότητες παραγγελίας, τιμολόγηση και δωρεές σε πολλαπλά πραγματικά καταστήματα. Η μελέτη εισάγει τον SAC ως εναλλακτική στα κλασικά μοντέλα στοχαστικής βελτιστοποίησης, με την επιπλέον δυνατότητα μεταφοράς γνώσης. Τα απο τελέσματα δείχνουν ότι ο SAC προσεγγίζει στενά την αναλυτική λύση, διατηρώντας πρακτική ακρίβεια. Η επέκταση του QDNP βασισμένη στο KDE, η οποία προσεγγίζει εμπειρικά την κατανομή της τυχαίας συνιστώσας της ζήτησης αντί να υποθέτει προϋπάρχουσα γνώση, οδήγησε σε ελαφρώς αυξημένα σφάλματα προσέγγισης αλλά παρέμεινε εντός αποδεκτών ορίων. Επιπλέον, αξιολογήθηκε η ικανότητα γενίκευσης και μεταφοράς των πολιτικών SAC μέσω zero-shot policy transfer, εφαρμόζοντας εκπαιδευμένες πολιτικές σε παραλλαγμένες εκδοχές των προβλημάτων χωρίς επαναεκπαίδευση, και συγκρίνοντας την απόδοσή τους με τη βέλτιστη εκ νέου εκπαίδευση. Η μεθοδολογία της μελέτης βασίστηκε σε μια συστηματική πειραματική διαδικασία σε τέσσερα προβλήματα καταστημάτων, χρησιμοποιώντας δεδομένα από σχετικές μελέτες και προσομοιώσεις για περιπτώσεις όπου η κατανομή της τυχαίας συνιστώσας της ζήτησης δεν είναι γνωστή. Οι πολιτικές SAC εκπαιδεύτηκαν και αξιολο γήθηκαν με πολλαπλές επαναλήψεις για κάθε περίπτωση, παρέχοντας στατιστικά σταθερές εκτιμήσεις των αναμενόμενων αποδόσεων. Η υλοποίηση έγινε σε Python, αξιοποιώντας Stable-Baselines3, PyTorch και Gymnasium, διασφαλίζοντας αναπαραγωγιμότητα και συνέπεια αποτελεσμάτων. Εφαρμόζοντας τον SAC σε ένα ελεγχόμενο πρόβλημα αποθεμάτων, η μελέτη καταδεικνύει πώς η διαδοχική λήψη αποφάσεων και η στοχαστική αβεβαιότητα μπορούν να αντιμετωπιστούν μέσω της ενισχυτικής μάθησης. Τα ευρήματα παρέχουν ένα συγκεκριμένο παράδειγμα εφαρμογής της ενισχυτικής μάθησης στη διαχείριση αποθεμάτων και υπογραμμίζουν το γόνιμο έδαφος για περαιτέρω έρευνα στην ενσωμάτωση μοντελοποιητικών στοιχείων βασισμένων σε δεδομένα και δυναμικών μεθόδων λήψης αποφάσεων.el
heal.advisorNameParsopoulos, Konstantinosen
heal.committeeMemberNameParsopoulos, Konstantinosen
heal.committeeMemberNameSkouri, Konstantinaen
heal.committeeMemberNameKonstantaras, Ioannisen
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherUniversity of Ioannina. Polytechnic School. Department of Computer Science and Engineeringen
heal.academicPublisherIDuoiel
heal.fullTextAvailabilitytrue-
Appears in Collections:Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ

Files in This Item:
File Description SizeFormat 
msc_thesis_503.pdf10.69 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons