Στατιστική μοντελοποίηση δεδομένων με την ασύμμετρη Π-σιγμοειδή κατανομή

Μπαλίκας, Ευστάθιος

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/28152

Full metadata record

DC Field	Value	Language
dc.contributor.author	Μπαλίκας, Ευστάθιος	el
dc.date.accessioned	2017-09-21T10:25:05Z	-
dc.date.available	2017-09-21T10:25:05Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/28152	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.2271	-
dc.rights	Default License	-
dc.subject	Μηχανική μάθηση	el
dc.subject	Στατιστική μοντελοποίηση	el
dc.subject	Μοντέλο μικτών κατανομών	el
dc.subject	Ομαδοποίηση	el
dc.subject	Machine learning	en
dc.subject	Statistical modeling	en
dc.subject	Mixture models	en
dc.subject	Clustering	en
dc.title	Στατιστική μοντελοποίηση δεδομένων με την ασύμμετρη Π-σιγμοειδή κατανομή	el
dc.title	Statistical data modeling using the asymmetric P-sigmoid distribution	en
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Μηχανική μάθηση	el
heal.dateAvailable	2017-09-21T10:26:05Z	-
heal.language	el	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.publicationDate	2017	-
heal.bibliographicCitation	Βιβλιογραφία : σ. 120	el
heal.abstract	Δοθέντος ενός συνόλου παρατηρήσεων, το πρόβλημα της στατιστικής μοντελοποίησης συνίσταται στην εκτίμηση της συνάρτησης πυκνότητας πιθανότητας των παρατηρήσεων αυτών. Η Π-σιγμοειδής κατανομή ορίζεται ως η διαφορά δύο μετατοπισμένων λογιστικών σιγμοειδών συναρτήσεων που έχουν την ίδια κλίση, και έχει προταθεί ως μια συνεχής προσέγγιση της ομοιόμορφης κατανομής η οποία είναι ευκολότερο να εκπαιδευτεί σε σχέση με την ομοιόμορφη κατανομή. Ένα μειονέκτημα της κατανομής αυτής, όπως και της κανονικής κατανομής, είναι η συμμετρία που εμφανίζουν, γεγονός που τις καθιστά λιγότερο αποδοτικές για μοντελοποίηση παρατηρήσεων που δεν προέρχονται από κάποια συμμετρική κατανομή. Στην παρούσα εργασία προτείνεται μια επέκταση της Π-σιγμοειδούς κατανομής που ονομάζεται ασύμμετρη Π-σιγμοειδής κατανομή και ορίζεται ως ένα μικτό μοντέλο από δύο Π-σιγμοειδείς κατανομές με διαφορετική κλίση η καθεμιά. Μελετώνται οι ιδιότητες της κατανομής αυτής και προτείνεται η εκπαίδευσή της δοθέντος ενός συνόλου παρατηρήσεων με χρήση του αλγορίθμου GΕΜ (Generalized EM). Στη συνέχεια ορίζεται ένα μικτό μοντέλο από ασύμμετρες Π-σιγμοειδείς κατανομές και προτείνεται ένας αλγόριθμος εκπαίδευσης βασισμένος στον αλγόριθμο GEM. Επιπλέον προτείνεται και μια μεθοδολογία καθορισμού του πραγματικού αριθμού των συνιστωσών του μικτού μοντέλου με χρήση του στατιστικού κριτηρίου dip το οποίο εκτιμά την μονοτροπικότητα ενός συνόλου παρατηρήσεων. Η επίδοση των προτεινόμενων στατιστικών μοντέλων και των μεθόδων εκπαίδευσής τους εξετάστηκε πειραματικά σε τεχνητά σύνολα παρατηρήσεων που δημιουργήθηκαν από κανονικές, ομοιόμορφες και ασύμμετρες κατανομές, όπως για παράδειγμα η αποκομμένη (truncated) κανονική κατανομή. Από τα πειράματα προκύπτει ότι η χρήση ενός μικτού μοντέλου ασύμμετρων Π-σιγμοειδών κατανομών οδηγεί σε βελτιωμένες κατά μέσο όρο επιδόσεις μοντελοποίησης και σε ικανοποιητικές εκτιμήσεις του πραγματικού αριθμού των συνιστωσών του μικτού μοντέλου. Η πειραματική αξιολόγηση επεκτάθηκε και σε πραγματικά σύνολα παρατηρήσεων και συγκεκριμένα σε εικόνες. Στόχος της πειραματικής διαδικασίας που ακολουθήθηκε, ήταν αφενός η μοντελοποίηση των εικονοστοιχείων (pixels) της εικόνας και αφετέρου η κατάτμηση της εικόνας σε προκαθορισμένο πλήθος περιοχών (ομάδων). Από τα πειράματα προκύπτει πως οι επιδόσεις μοντελοποίησης ενός μικτού μοντέλου ασύμμετρων Π-σιγμοειδών κατανομών είναι βελτιωμένες και επιπλέον, οι τελικές περιοχές (ομάδες) που προκύπτουν από την διαδικασία της κατάτμησης, αναπαριστούν με μεγαλύτερη αξιοπιστία τις πραγματικές περιοχές της εικόνας. Συμπερασματικά, ένα μικτό μοντέλο ασύμμετρων Π-σιγμοειδών κατανομών αποτελεί μια ιδιαίτερα αποδοτική μέθοδο μοντελοποίησης συνόλων παρατηρήσεων. Επιπλέον, η ενίσχυση της διαδικασίας εκπαίδευσης μέσω του κριτηρίου dip, προσδίδει στο μοντέλο μια σημαντική αυτονομία και το καθιστά ως ένα ισχυρό αλγόριθμο για τη στατιστική μοντελοποίηση παρατηρήσεων.	el
heal.abstract	Given a set of observations, statistical modeling is defined as the problem of estimating the probability distribution function that best explains these observations. The Π-sigmoid distribution, which has been proposed as a continuous approximation of the uniform distribution, is the difference between two shifted logistic sigmoid functions that have the same slope. A disadvantage of both the uniform distribution as well as the Π-sigmoid distribution is their symmetry. Because of that, they are inefficient when modeling asymmetric data. In this thesis, we propose an extension of Π-sigmoid distribution, namely the asymmetric Π-sigmoid distribution, which is defined as a mixture model of two Π-sigmoid distributions with different slopes. We first study the theoretical properties of the asymmetric Π-sigmoid distribution. Then, given a set of observations, we propose a training algorithm which is based on Generalized Expectation-Maximization (GEM) algorithm to estimate its parameters. Further, we extend the proposed asymmetric Π-sigmoid distribution to a mixture model of asymmetric Π-sigmoid distributions and describe the associated GEM training algorithm. To identify the number of components of the mixture model, we explore the use of the dip statistical criterion, that estimates the unimodality of the empirical cdf (ecdf), given a set of observations. We empirically validate the efficiency of the proposed statistical models as well as their training algorithms in synthetic datasets created by sampling from Gaussian, uniform and asymmetric distributions such as the truncated Gaussian distribution. Our results suggest that using a mixture model of asymmetric Π-sigmoid distributions results in better data modeling performance and satisfactory estimation of the number of mixture components. We extend our evaluation in modeling the histogram of images. Our goal, is twofold: on one hand to model the image pixel values and on the other hand to evaluate the corresponding segmentation of the image on a predefined number of clusters. Our results suggest that using asymmetric Π-sigmoid distributions clearly benefits the performance on the task. Furthermore, the obtained clusters better reflect the ground truth segments of the images.	en
heal.advisorName	Λύκας, Αριστείδης	el
heal.committeeMemberName	Λύκας, Αριστείδης	el
heal.committeeMemberName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Νίκου, Χριστόφορος	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	121 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΥ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. ΜΠΑΛΙΚΑΣ ΕΥΤΑΘΙΟΣ 2017.pdf		3.73 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"