Please use this identifier to cite or link to this item:
https://olympias.lib.uoi.gr/jspui/handle/123456789/39559Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.author | Sextou, Nefeli Eleftheria | en |
| dc.contributor.author | Σέξτου, Νεφέλη Ελευθερία | el |
| dc.date.accessioned | 2025-10-22T08:35:20Z | - |
| dc.date.available | 2025-10-22T08:35:20Z | - |
| dc.identifier.uri | https://olympias.lib.uoi.gr/jspui/handle/123456789/39559 | - |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
| dc.subject | Quality-Dependent Newsvendor Problem, Deep Reinforcement Learning, Soft Actor-Critic, Stochastic Optimization, Policy Transfer, Data-Driven Decision Making, Inventory Management, Kernel Density Estimation | en |
| dc.title | Inventory Optimization Under Uncertainty: Adaptive Decision-Making with Reinforcement Learning in the Quality-Dependent Newsvendor Problem | en |
| dc.title | Βελτιστοποίηση Αποθεμάτων υπό Αβεβαιότητα: Προσαρμοστική Λήψη Αποφάσεων με Ενισχυτική Μάθηση στο Πρόβλημα του Εφημεριδοπώλη με Εξάρτηση από την Ποιότητα | el |
| dc.type | masterThesis | en |
| heal.type | masterThesis | el |
| heal.type.en | Master thesis | en |
| heal.type.el | Μεταπτυχιακή εργασία | el |
| heal.classification | Inventory | en |
| heal.classification | Deep Learning | en |
| heal.dateAvailable | 2025-10-22T08:36:20Z | - |
| heal.language | en | el |
| heal.access | free | el |
| heal.recordProvider | Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή | el |
| heal.publicationDate | 2025-09-25 | - |
| heal.abstract | The present thesis investigates the application of reinforcement learning (RL) to stochastic inventory management, focusing on the Quality-Dependent Newsvendor Problem (QDNP). Moreover, a data-driven variant incorporating kernel density esti mation (KDE) is considered. The QDNP models inventory decisions under uncertain demand and product quality deterioration, integrating donation as a strategic decision. Donations reduce waste by redirecting surplus products to food banks and other charitable organizations, supporting social and environmental responsibility. Also, they improve profits by leveraging corporate social responsibility (CSR) incentives, which are appealing to socially and ecologically conscious consumers, and avoid disposal costs. To this end, a state-of-the-art deep reinforcement learning (DRL) approach, namely the Soft Actor-Critic (SAC) algorithm, is employed to maximize expected profit by simultaneously optimizing decisions on order quantities, pricing, and donations across multiple real-world store instances. In this context, SAC is introduced as an alternative to classical stochastic optimization methods, with the additional potential for knowledge transfer. The results obtained indicate that SAC can closely approximate the analytical solution, while maintaining practical accuracy. A KDE-based extension is also studied, which empirically approximates the demand component distribution instead of assuming full prior knowledge. The corresponding results showed slightly increased approximation errors but remained within acceptable thresholds. Furthermore, zero-shot policy transfer showed that pretrained SAC policies can adapt to moderate changes in demand and cost parameters, although retraining is required for larger deviations. Using SAC within a controlled inventory problem, this study demonstrates how sequential decision-making, and stochastic uncertainty can be addressed through RL. The findings provide a concrete example of RL applied to inventory management and contribute to the growing intersection of reinforcement learning and operations management, assessing its potential for integrating data-driven components and dynamic decision-making methods. | en |
| heal.abstract | Η παρούσα διπλωματική εργασία διερευνά την εφαρμογή της ενισχυτικής μάθησης (reinforcement learning, RL) στη διαχείριση αποθεμάτων, εστιάζοντας στο quality dependent newsvendor problem (QDNP) και σε μια παραλλαγή βασισμένη σε δεδομένα που ενσωματώνει εκτίμηση πυκνότητας πυρήνα (kernel density estimation, KDE). Το QDNP μοντελοποιεί τις αποφάσεις αποθεμάτων υπό αβέβαιη ζήτηση και υποβάθμιση ποιότητας προϊόντων, ενσωματώνοντας τις δωρεές ως στρατηγική επιλογή. Οι δωρεές μειώνουν τη σπατάλη με την ανακατεύθυνση των πλεονάζοντων προϊόντων σε τράπεζες τροφίμων και άλλους φιλανθρωπικούς οργανισμούς, υπο στηρίζοντας την κοινωνική και περιβαλλοντική υπευθυνότητα, ενώ παράλληλα βελτιώνουν τα κέρδη αξιοποιώντας τα κίνητρα εταιρικής κοινωνικής ευθύνης (corporate social responsibility, CSR), προσελκύοντας καταναλωτές με κοινωνική και οικολογική συνείδηση και αποφεύγοντας τα κόστη απόρριψης. Μια προηγμένη προσέγγιση βαθιάς ενισχυτικής μάθησης (deep reinfocement learning, DRL), ο αλγόριθμος Soft Actor-Critic (SAC), χρησιμοποιήθηκε για τη μεγιστοποίηση των αναμενόμενων κερδών, καθοδηγώντας ταυτόχρονα αποφάσεις σχετικά με ποσότητες παραγγελίας, τιμολόγηση και δωρεές σε πολλαπλά πραγματικά καταστήματα. Η μελέτη εισάγει τον SAC ως εναλλακτική στα κλασικά μοντέλα στοχαστικής βελτιστοποίησης, με την επιπλέον δυνατότητα μεταφοράς γνώσης. Τα απο τελέσματα δείχνουν ότι ο SAC προσεγγίζει στενά την αναλυτική λύση, διατηρώντας πρακτική ακρίβεια. Η επέκταση του QDNP βασισμένη στο KDE, η οποία προσεγγίζει εμπειρικά την κατανομή της τυχαίας συνιστώσας της ζήτησης αντί να υποθέτει προϋπάρχουσα γνώση, οδήγησε σε ελαφρώς αυξημένα σφάλματα προσέγγισης αλλά παρέμεινε εντός αποδεκτών ορίων. Επιπλέον, αξιολογήθηκε η ικανότητα γενίκευσης και μεταφοράς των πολιτικών SAC μέσω zero-shot policy transfer, εφαρμόζοντας εκπαιδευμένες πολιτικές σε παραλλαγμένες εκδοχές των προβλημάτων χωρίς επαναεκπαίδευση, και συγκρίνοντας την απόδοσή τους με τη βέλτιστη εκ νέου εκπαίδευση. Η μεθοδολογία της μελέτης βασίστηκε σε μια συστηματική πειραματική διαδικασία σε τέσσερα προβλήματα καταστημάτων, χρησιμοποιώντας δεδομένα από σχετικές μελέτες και προσομοιώσεις για περιπτώσεις όπου η κατανομή της τυχαίας συνιστώσας της ζήτησης δεν είναι γνωστή. Οι πολιτικές SAC εκπαιδεύτηκαν και αξιολο γήθηκαν με πολλαπλές επαναλήψεις για κάθε περίπτωση, παρέχοντας στατιστικά σταθερές εκτιμήσεις των αναμενόμενων αποδόσεων. Η υλοποίηση έγινε σε Python, αξιοποιώντας Stable-Baselines3, PyTorch και Gymnasium, διασφαλίζοντας αναπαραγωγιμότητα και συνέπεια αποτελεσμάτων. Εφαρμόζοντας τον SAC σε ένα ελεγχόμενο πρόβλημα αποθεμάτων, η μελέτη καταδεικνύει πώς η διαδοχική λήψη αποφάσεων και η στοχαστική αβεβαιότητα μπορούν να αντιμετωπιστούν μέσω της ενισχυτικής μάθησης. Τα ευρήματα παρέχουν ένα συγκεκριμένο παράδειγμα εφαρμογής της ενισχυτικής μάθησης στη διαχείριση αποθεμάτων και υπογραμμίζουν το γόνιμο έδαφος για περαιτέρω έρευνα στην ενσωμάτωση μοντελοποιητικών στοιχείων βασισμένων σε δεδομένα και δυναμικών μεθόδων λήψης αποφάσεων. | el |
| heal.advisorName | Parsopoulos, Konstantinos | en |
| heal.committeeMemberName | Parsopoulos, Konstantinos | en |
| heal.committeeMemberName | Skouri, Konstantina | en |
| heal.committeeMemberName | Konstantaras, Ioannis | en |
| heal.academicPublisher | Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής | el |
| heal.academicPublisher | University of Ioannina. Polytechnic School. Department of Computer Science and Engineering | en |
| heal.academicPublisherID | uoi | el |
| heal.fullTextAvailability | true | - |
| Appears in Collections: | Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| msc_thesis_503.pdf | 10.69 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License