Inventory Optimization Under Uncertainty: Adaptive Decision-Making with Reinforcement Learning in the Quality-Dependent Newsvendor Problem

Sextou, Nefeli Eleftheria; Σέξτου, Νεφέλη Ελευθερία

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/39559

Full metadata record

DC Field	Value	Language
dc.contributor.author	Sextou, Nefeli Eleftheria	en
dc.contributor.author	Σέξτου, Νεφέλη Ελευθερία	el
dc.date.accessioned	2025-10-22T08:35:20Z	-
dc.date.available	2025-10-22T08:35:20Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/39559	-
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	Quality-Dependent Newsvendor Problem, Deep Reinforcement Learning, Soft Actor-Critic, Stochastic Optimization, Policy Transfer, Data-Driven Decision Making, Inventory Management, Kernel Density Estimation	en
dc.title	Inventory Optimization Under Uncertainty: Adaptive Decision-Making with Reinforcement Learning in the Quality-Dependent Newsvendor Problem	en
dc.title	Βελτιστοποίηση Αποθεμάτων υπό Αβεβαιότητα: Προσαρμοστική Λήψη Αποφάσεων με Ενισχυτική Μάθηση στο Πρόβλημα του Εφημεριδοπώλη με Εξάρτηση από την Ποιότητα	el
dc.type	masterThesis	en
heal.type	masterThesis	el
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Inventory	en
heal.classification	Deep Learning	en
heal.dateAvailable	2025-10-22T08:36:20Z	-
heal.language	en	el
heal.access	free	el
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή	el
heal.publicationDate	2025-09-25	-
heal.abstract	The present thesis investigates the application of reinforcement learning (RL) to stochastic inventory management, focusing on the Quality-Dependent Newsvendor Problem (QDNP). Moreover, a data-driven variant incorporating kernel density esti mation (KDE) is considered. The QDNP models inventory decisions under uncertain demand and product quality deterioration, integrating donation as a strategic decision. Donations reduce waste by redirecting surplus products to food banks and other charitable organizations, supporting social and environmental responsibility. Also, they improve profits by leveraging corporate social responsibility (CSR) incentives, which are appealing to socially and ecologically conscious consumers, and avoid disposal costs. To this end, a state-of-the-art deep reinforcement learning (DRL) approach, namely the Soft Actor-Critic (SAC) algorithm, is employed to maximize expected profit by simultaneously optimizing decisions on order quantities, pricing, and donations across multiple real-world store instances. In this context, SAC is introduced as an alternative to classical stochastic optimization methods, with the additional potential for knowledge transfer. The results obtained indicate that SAC can closely approximate the analytical solution, while maintaining practical accuracy. A KDE-based extension is also studied, which empirically approximates the demand component distribution instead of assuming full prior knowledge. The corresponding results showed slightly increased approximation errors but remained within acceptable thresholds. Furthermore, zero-shot policy transfer showed that pretrained SAC policies can adapt to moderate changes in demand and cost parameters, although retraining is required for larger deviations. Using SAC within a controlled inventory problem, this study demonstrates how sequential decision-making, and stochastic uncertainty can be addressed through RL. The findings provide a concrete example of RL applied to inventory management and contribute to the growing intersection of reinforcement learning and operations management, assessing its potential for integrating data-driven components and dynamic decision-making methods.	en
heal.abstract	Η παρούσα διπλωματική εργασία διερευνά την εφαρμογή της ενισχυτικής μάθησης (reinforcement learning, RL) στη διαχείριση αποθεμάτων, εστιάζοντας στο quality dependent newsvendor problem (QDNP) και σε μια παραλλαγή βασισμένη σε δεδομένα που ενσωματώνει εκτίμηση πυκνότητας πυρήνα (kernel density estimation, KDE). Το QDNP μοντελοποιεί τις αποφάσεις αποθεμάτων υπό αβέβαιη ζήτηση και υποβάθμιση ποιότητας προϊόντων, ενσωματώνοντας τις δωρεές ως στρατηγική επιλογή. Οι δωρεές μειώνουν τη σπατάλη με την ανακατεύθυνση των πλεονάζοντων προϊόντων σε τράπεζες τροφίμων και άλλους φιλανθρωπικούς οργανισμούς, υπο στηρίζοντας την κοινωνική και περιβαλλοντική υπευθυνότητα, ενώ παράλληλα βελτιώνουν τα κέρδη αξιοποιώντας τα κίνητρα εταιρικής κοινωνικής ευθύνης (corporate social responsibility, CSR), προσελκύοντας καταναλωτές με κοινωνική και οικολογική συνείδηση και αποφεύγοντας τα κόστη απόρριψης. Μια προηγμένη προσέγγιση βαθιάς ενισχυτικής μάθησης (deep reinfocement learning, DRL), ο αλγόριθμος Soft Actor-Critic (SAC), χρησιμοποιήθηκε για τη μεγιστοποίηση των αναμενόμενων κερδών, καθοδηγώντας ταυτόχρονα αποφάσεις σχετικά με ποσότητες παραγγελίας, τιμολόγηση και δωρεές σε πολλαπλά πραγματικά καταστήματα. Η μελέτη εισάγει τον SAC ως εναλλακτική στα κλασικά μοντέλα στοχαστικής βελτιστοποίησης, με την επιπλέον δυνατότητα μεταφοράς γνώσης. Τα απο τελέσματα δείχνουν ότι ο SAC προσεγγίζει στενά την αναλυτική λύση, διατηρώντας πρακτική ακρίβεια. Η επέκταση του QDNP βασισμένη στο KDE, η οποία προσεγγίζει εμπειρικά την κατανομή της τυχαίας συνιστώσας της ζήτησης αντί να υποθέτει προϋπάρχουσα γνώση, οδήγησε σε ελαφρώς αυξημένα σφάλματα προσέγγισης αλλά παρέμεινε εντός αποδεκτών ορίων. Επιπλέον, αξιολογήθηκε η ικανότητα γενίκευσης και μεταφοράς των πολιτικών SAC μέσω zero-shot policy transfer, εφαρμόζοντας εκπαιδευμένες πολιτικές σε παραλλαγμένες εκδοχές των προβλημάτων χωρίς επαναεκπαίδευση, και συγκρίνοντας την απόδοσή τους με τη βέλτιστη εκ νέου εκπαίδευση. Η μεθοδολογία της μελέτης βασίστηκε σε μια συστηματική πειραματική διαδικασία σε τέσσερα προβλήματα καταστημάτων, χρησιμοποιώντας δεδομένα από σχετικές μελέτες και προσομοιώσεις για περιπτώσεις όπου η κατανομή της τυχαίας συνιστώσας της ζήτησης δεν είναι γνωστή. Οι πολιτικές SAC εκπαιδεύτηκαν και αξιολο γήθηκαν με πολλαπλές επαναλήψεις για κάθε περίπτωση, παρέχοντας στατιστικά σταθερές εκτιμήσεις των αναμενόμενων αποδόσεων. Η υλοποίηση έγινε σε Python, αξιοποιώντας Stable-Baselines3, PyTorch και Gymnasium, διασφαλίζοντας αναπαραγωγιμότητα και συνέπεια αποτελεσμάτων. Εφαρμόζοντας τον SAC σε ένα ελεγχόμενο πρόβλημα αποθεμάτων, η μελέτη καταδεικνύει πώς η διαδοχική λήψη αποφάσεων και η στοχαστική αβεβαιότητα μπορούν να αντιμετωπιστούν μέσω της ενισχυτικής μάθησης. Τα ευρήματα παρέχουν ένα συγκεκριμένο παράδειγμα εφαρμογής της ενισχυτικής μάθησης στη διαχείριση αποθεμάτων και υπογραμμίζουν το γόνιμο έδαφος για περαιτέρω έρευνα στην ενσωμάτωση μοντελοποιητικών στοιχείων βασισμένων σε δεδομένα και δυναμικών μεθόδων λήψης αποφάσεων.	el
heal.advisorName	Parsopoulos, Konstantinos	en
heal.committeeMemberName	Parsopoulos, Konstantinos	en
heal.committeeMemberName	Skouri, Konstantina	en
heal.committeeMemberName	Konstantaras, Ioannis	en
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.academicPublisher	University of Ioannina. Polytechnic School. Department of Computer Science and Engineering	en
heal.academicPublisherID	uoi	el
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ

Show simple item record

Files in This Item:

File	Description	Size	Format
msc_thesis_503.pdf		10.69 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"