Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/27867
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΚαζάκος, Ευάγγελοςel
dc.date.accessioned2017-03-13T10:32:30Z-
dc.date.available2017-03-13T10:32:30Z-
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/27867-
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.1889-
dc.rightsDefault License-
dc.subjectΠροσανατολισμός χεριούel
dc.subjectΝευρωτικά δίκτυοel
dc.subjectΣυνελικτικά δίκτυαel
dc.subjectΜηχανική μάθησηel
dc.subjectHand pose estimationen
dc.subjectDeep learningen
dc.subjectConvolutional networksen
dc.subjectRGB-Den
dc.titleHand pose estimation with convolutional networks using RGB-D dataen
dc.titleΕκτίμηση του προσανατολισμού του χεριού με συνελικτικά δίκτυα χρησιμοποιώντας RGB-D δεδομέναel
heal.typemasterThesis-
heal.type.enMaster thesisen
heal.type.elΜεταπτυχιακή εργασίαel
heal.classificationComputer scienceen
heal.dateAvailable2017-03-13T10:33:30Z-
heal.languageen-
heal.accessfree-
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικήςel
heal.publicationDate2017-
heal.bibliographicCitationΒιβλιογράφία : σ. 115-121el
heal.abstractIn this work, we study the problem of 3D articulated hand pose estimation from RGB-D images, which consists of estimating all the kinematic parameters of a hand expressed in joint angles or joint positions. Hand pose estimation is a very challenging problem due to the articulated nature of the human hand, which exhibits self-occlusions and large viewpoint variations. The popularization of RGB-D sensors has motivated the interest of the computer vision community in pose estimation as depth images have significantly improved the performance of the related methods. Moreover, the advance of deep learning has spurred this interest and most recent approaches propose convolutional network based methods. The architecture of a convolutional network, its depth as well as its training play a crucial role in its performance. In the first part of our work, we design and evaluate several different convolutional network architectures. Our experiments show that the depth of the network plays a crucial role in the performance, as our deepest convolutional network outperforms the state-of-the-art. Most methods use single depth images for 3D hand pose estimation. Depth images are noisy with quantization errors that result in missing parts around the hand boundaries. We conjecture that the combination of RGB images, which provide a more accurate description of the hand surface with color and texture information, with depth images, can further improve the performance of a convolutional network. Based on these observations, in the second part of our work we propose fusion methods of RGB and depth information using convolutional networks. We propose three different approaches, input fusion, score level fusion and double-stream architecture fusion. Input level fusion aggregates RGB-D data and trains a convolutional network with images that contain both RGB and depth channels, while score level fusion trains two different convolutional networks with RGB and depth images respectively and fuses their predictions. Finally, double-stream architecture fusion, is based on training two separate convolutional networks in parallel and at any arbitrary layer of the network to fuse their feature maps with given feature map fusion functions. We employ fusion functions proposed in state-of-the-art activity recognition methods. The performance of input fusion and score level fusion is limited, as they are applied in a very early and a very late stage of the network respectively. We employed doublestream fusion to mitigate this problem since the fusion takes place inside the network and lets subsequent learning stages to define correspondences between RGB and depth features. Indeed, double-stream fusion outperforms input fusion and score level fusion. Double-stream fusion has comparable performance with the state-ofthe- art, nevertheless our deep convolutional network trained only with depth images, outperforms double-stream fusion providing us state-of-the-art performance. From our experiments we conclude that RGB-D fusion does not leverage further useful information towards more accurate 3D hand pose estimation.en
heal.abstractΗ παρούσα εργασία πραγματεύεται το πρόβλημα της 3Δ εκτίμησης του προ- σανατολισμού των αρθρώσεων ενός ανθρώπινου χεριού (3D articulated hand pose estimation), από RGB-D εικόνες, διαδικασία η οποία συνίσταται της εκτίμησης όλων των κινηματικών παραμέτρων του χεριού, εκφραζόμενες είτε σε γωνίες που σχημα- τίζουν οι αρθρώσεις, είτε στις θέσεις των αρθρώσεων στον 3Δ χώρο. Η εκτίμηση του προσανατολισμού του χεριού είναι πρόβλημα με πολλές προκλήσεις εξαιτίας της αρθρωτής δομής του ανθρώπινου χεριού η οποία προκαλεί αποκρύψεις και επι- καλύψεις μεταξύ διαφορετικών αρθρώσεων και παρουσιάζει μεγάλη διακύμανση ως προς το σύνολο όλων των δυνατών προσανατολισμών των αρθρώσεων. Η εμπο- ρική εμφάνιση χαμηλού κόστους RGB-D αισθητήρων και η διαθεσιμότητα τους στο ευρύ κοινό, έστρεψε το ενδιαφέρον της κοινότητας της Υπολογιστικής Όρασης στο πρόβλημα της εκτίμηση του προσανατολισμού του χεριού, καθώς οι εικόνες βά- θους συνέβαλαν σημαντικά στην βελτίωση της απόδοσης των σχετικών μεθόδων. Επιπλέον, η πρόοδος στο πεδίο της Βαθειάς Μηχανικής Μάθησης (Deep Learning) ώθησε αυτό το ενδιαφέρον και οι πιο πρόσφατες προσεγγίσεις προτείνουν μεθόδους βασιζόμενες σε Συνελικτικά Δίκτυα (Convolutional Networks). Η αρχιτεκτονική ενός συνελικτικού δικτύου, το βάθος του καθώς και η εκπαίδευση του παίζουν πολύ ση- μαντικό ρόλο στην δυνατότητα του να παρέχει ακριβείς εκτιμήσεις. Στο πρώτο μέρος αυτής της εργασίας σχεδιάζουμε και αξιολογούμε πειραματικά διαφορετικές αρχιτεκτονικές συνελικτικών δικτύων μεταβάλλοντας το βάθος καθώς και άλλες πα- ραμέτρους των δικτύων. Οι πειραματικές μετρήσεις μας, δείχνουν ότι το βάθος του δικτύου παίζει καθοριστικό ρόλο στην απόδοση του, όπου το πιο βαθύ συνελικτικό μας δίκτυο σημειώνει καλύτερη επίδοση από την τρέχουσα πρόοδο της τεχνολογίας. Οι περισσότερες μέθοδοι χρησιμοποιούν μόνο εικόνες βάθους για την 3Δ εκτίμηση του προσανατολισμού του χεριού. Οι εικόνες βάθους είναι θορυβώδεις και περιέ- χουν σφάλματα κβαντοποίησης τα οποία οδηγούν σε ασυνέχειες βάθους. Ως αποτέ- λεσμα, σε κάποια εικονοστοιχεία απουσιάζουν οι τιμές βάθους. Αυτές οι ασυνέχειες συμβαίνουν σε περιοχές γύρω από τα όρια του χεριού και οδηγούν στην απουσία τμημάτων τις εικόνας σε περιοχές γύρω από τα όρια του χεριού. Υποθέτουμε ότι ο συνδυασμός RGB εικόνων, οι οποίες παρέχουν πιο ακριβή περιγραφή της επι- φάνειας του χεριού με πληροφορία χρώματος και υφής, με εικόνες βάθους, μπορεί να βελτιώσει περαιτέρω την απόδοση ενός συνελικτικού δικτύου. Βασιζόμενοι σε αυτές τις παρατηρήσεις, στο δεύτερο κομμάτι της παρούσας εργασίας προτείνουμε μεθόδους συγχώνευσης πληροφορίας RGB και πληροφορίας βάθους με τη χρήση συ- νελικτικών δικτύων. Προτείνουμε τρεις διαφορετικές προσεγγίσεις, την συγχώνευση των εισόδων, την συγχώνευση των εκτιμήσεων και τη συγχώνευση διπλής αρχιτε- κτονικής. Η μέθοδος της συγχώνευσης των εισόδων συσσωματώνει RGB-D εικόνες και εκπαιδεύει ένα συνελικτικό δίκτυο με εικόνες που περιέχουν κανάλια τόσο RGB όσο και βάθους. Η μέθοδος της συγχώνευσης των εκτιμήσεων εκπαιδεύει δύο δια- φορετικά νευρωνικά δίκτυα με εικόνες RGB και βάθους αντίστοιχα και συγχωνεύει τις προβλέψεις τους. Τέλος η συγχώνευση διπλής αρχιτεκτονικής βασίζετε στην εκ- παίδευση δύο διαφορετικών συνελικτικών δικτύων παράλληλα και σε οποιοδήποτε αυθαίρετο επίπεδο του δικτύου να συγχωνεύει τους χάρτες χαρακτηριστικών τους, με δοθείσες συναρτήσεις συγχώνευσης χαρτών χαρακτηριστικών. Χρησιμοποιούμε συναρτήσεις συγχώνευσης οι οποίες έχουν προταθεί σε μεθόδους αναγνώρισης αν- θρώπινης δραστηριότητας οι οποίες είναι τελευταία πρόοδος της τεχνολογίας. Η επίδοση των μεθόδων της συγχώνευσης στο επίπεδο της εισόδου και της συγχώνευ- σης των εκτιμήσεων είναι περιορισμένη, καθώς η συγχώνευση εφαρμόζεται σε ένα πολύ αρχικό και σε ένα πολύ τελικό επίπεδο του δικτύου αντίστοιχα. Προτείναμε την συγχώνευση διπλής αρχιτεκτονικής ώστε να αντιμετωπίσει αυτό το πρόβλημα καθώς σε αυτήν την περίπτωση η συγχώνευση λαμβάνει μέρος στο εσωτερικό του δικτύου και επιτρέπει στα επακόλουθα στάδια μάθησης, να ορίσουν αντιστοιχίες μεταξύ RGB χαρακτηριστικών και χαρακτηριστικών βάθους. Πράγματι, η συγχώ- νευση διπλής αρχιτεκτονικής ξεπερνάει σε ακρίβεια τη μέθοδο συγχώνευσης των εισόδων και τη μέθοδο συγχώνευσης των εκτιμήσεων. Η μέθοδος συγχώνευσης διπλής αρχιτεκτονικής έχει συγκρίσιμες επιδόσεις με την πρόοδο της τεχνολογίας, παρόλα αυτά το βαθύ συνελικτικό δίκτυο που προτείνουμε το οποίο εκπαιδεύτηκε μόνο με εικόνες βάθους, ξεπερνάει τις επιδόσεις των μεθόδων συγχώνευσης, παρέ- χοντας μας αποτελέσματα τελευταίας προόδου της τεχνολογίας. Από τα πειράματα μας συμπεραίνουμε ότι η συγχώνευση RGB-D δεδομένων δεν εκμεταλλεύεται επι- πλέον χρήσιμη πληροφορία για πιο ακριβής 3Δ εκτίμηση του προσανατολισμού του χεριού.
heal.advisorNameΝίκου, Χριστόφοροςel
heal.committeeMemberNameΝίκου, Χριστόφοροςel
heal.committeeMemberNameΛύκας, Αριστείδηςel
heal.committeeMemberNameΜπλέκας, Κωνσταντίνοςel
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικήςel
heal.academicPublisherIDuoi-
heal.numberOfPages121 σ.-
heal.fullTextAvailabilitytrue-
Appears in Collections:Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΥ

Files in This Item:
File Description SizeFormat 
Μ.Ε. ΚΑΖΑΚΟΣ ΕΥΑΓΓΕΛΟΣ 2017.pdf2.3 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons