Hand pose estimation with convolutional networks using RGB-D data

Καζάκος, Ευάγγελος

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/27867

Full metadata record

DC Field	Value	Language
dc.contributor.author	Καζάκος, Ευάγγελος	el
dc.date.accessioned	2017-03-13T10:32:30Z	-
dc.date.available	2017-03-13T10:32:30Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/27867	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.1889	-
dc.rights	Default License	-
dc.subject	Προσανατολισμός χεριού	el
dc.subject	Νευρωτικά δίκτυο	el
dc.subject	Συνελικτικά δίκτυα	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Hand pose estimation	en
dc.subject	Deep learning	en
dc.subject	Convolutional networks	en
dc.subject	RGB-D	en
dc.title	Hand pose estimation with convolutional networks using RGB-D data	en
dc.title	Εκτίμηση του προσανατολισμού του χεριού με συνελικτικά δίκτυα χρησιμοποιώντας RGB-D δεδομένα	el
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Computer science	en
heal.dateAvailable	2017-03-13T10:33:30Z	-
heal.language	en	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.publicationDate	2017	-
heal.bibliographicCitation	Βιβλιογράφία : σ. 115-121	el
heal.abstract	In this work, we study the problem of 3D articulated hand pose estimation from RGB-D images, which consists of estimating all the kinematic parameters of a hand expressed in joint angles or joint positions. Hand pose estimation is a very challenging problem due to the articulated nature of the human hand, which exhibits self-occlusions and large viewpoint variations. The popularization of RGB-D sensors has motivated the interest of the computer vision community in pose estimation as depth images have significantly improved the performance of the related methods. Moreover, the advance of deep learning has spurred this interest and most recent approaches propose convolutional network based methods. The architecture of a convolutional network, its depth as well as its training play a crucial role in its performance. In the first part of our work, we design and evaluate several different convolutional network architectures. Our experiments show that the depth of the network plays a crucial role in the performance, as our deepest convolutional network outperforms the state-of-the-art. Most methods use single depth images for 3D hand pose estimation. Depth images are noisy with quantization errors that result in missing parts around the hand boundaries. We conjecture that the combination of RGB images, which provide a more accurate description of the hand surface with color and texture information, with depth images, can further improve the performance of a convolutional network. Based on these observations, in the second part of our work we propose fusion methods of RGB and depth information using convolutional networks. We propose three different approaches, input fusion, score level fusion and double-stream architecture fusion. Input level fusion aggregates RGB-D data and trains a convolutional network with images that contain both RGB and depth channels, while score level fusion trains two different convolutional networks with RGB and depth images respectively and fuses their predictions. Finally, double-stream architecture fusion, is based on training two separate convolutional networks in parallel and at any arbitrary layer of the network to fuse their feature maps with given feature map fusion functions. We employ fusion functions proposed in state-of-the-art activity recognition methods. The performance of input fusion and score level fusion is limited, as they are applied in a very early and a very late stage of the network respectively. We employed doublestream fusion to mitigate this problem since the fusion takes place inside the network and lets subsequent learning stages to define correspondences between RGB and depth features. Indeed, double-stream fusion outperforms input fusion and score level fusion. Double-stream fusion has comparable performance with the state-ofthe- art, nevertheless our deep convolutional network trained only with depth images, outperforms double-stream fusion providing us state-of-the-art performance. From our experiments we conclude that RGB-D fusion does not leverage further useful information towards more accurate 3D hand pose estimation.	en
heal.abstract	Η παρούσα εργασία πραγματεύεται το πρόβλημα της 3Δ εκτίμησης του προ- σανατολισμού των αρθρώσεων ενός ανθρώπινου χεριού (3D articulated hand pose estimation), από RGB-D εικόνες, διαδικασία η οποία συνίσταται της εκτίμησης όλων των κινηματικών παραμέτρων του χεριού, εκφραζόμενες είτε σε γωνίες που σχημα- τίζουν οι αρθρώσεις, είτε στις θέσεις των αρθρώσεων στον 3Δ χώρο. Η εκτίμηση του προσανατολισμού του χεριού είναι πρόβλημα με πολλές προκλήσεις εξαιτίας της αρθρωτής δομής του ανθρώπινου χεριού η οποία προκαλεί αποκρύψεις και επι- καλύψεις μεταξύ διαφορετικών αρθρώσεων και παρουσιάζει μεγάλη διακύμανση ως προς το σύνολο όλων των δυνατών προσανατολισμών των αρθρώσεων. Η εμπο- ρική εμφάνιση χαμηλού κόστους RGB-D αισθητήρων και η διαθεσιμότητα τους στο ευρύ κοινό, έστρεψε το ενδιαφέρον της κοινότητας της Υπολογιστικής Όρασης στο πρόβλημα της εκτίμηση του προσανατολισμού του χεριού, καθώς οι εικόνες βά- θους συνέβαλαν σημαντικά στην βελτίωση της απόδοσης των σχετικών μεθόδων. Επιπλέον, η πρόοδος στο πεδίο της Βαθειάς Μηχανικής Μάθησης (Deep Learning) ώθησε αυτό το ενδιαφέρον και οι πιο πρόσφατες προσεγγίσεις προτείνουν μεθόδους βασιζόμενες σε Συνελικτικά Δίκτυα (Convolutional Networks). Η αρχιτεκτονική ενός συνελικτικού δικτύου, το βάθος του καθώς και η εκπαίδευση του παίζουν πολύ ση- μαντικό ρόλο στην δυνατότητα του να παρέχει ακριβείς εκτιμήσεις. Στο πρώτο μέρος αυτής της εργασίας σχεδιάζουμε και αξιολογούμε πειραματικά διαφορετικές αρχιτεκτονικές συνελικτικών δικτύων μεταβάλλοντας το βάθος καθώς και άλλες πα- ραμέτρους των δικτύων. Οι πειραματικές μετρήσεις μας, δείχνουν ότι το βάθος του δικτύου παίζει καθοριστικό ρόλο στην απόδοση του, όπου το πιο βαθύ συνελικτικό μας δίκτυο σημειώνει καλύτερη επίδοση από την τρέχουσα πρόοδο της τεχνολογίας. Οι περισσότερες μέθοδοι χρησιμοποιούν μόνο εικόνες βάθους για την 3Δ εκτίμηση του προσανατολισμού του χεριού. Οι εικόνες βάθους είναι θορυβώδεις και περιέ- χουν σφάλματα κβαντοποίησης τα οποία οδηγούν σε ασυνέχειες βάθους. Ως αποτέ- λεσμα, σε κάποια εικονοστοιχεία απουσιάζουν οι τιμές βάθους. Αυτές οι ασυνέχειες συμβαίνουν σε περιοχές γύρω από τα όρια του χεριού και οδηγούν στην απουσία τμημάτων τις εικόνας σε περιοχές γύρω από τα όρια του χεριού. Υποθέτουμε ότι ο συνδυασμός RGB εικόνων, οι οποίες παρέχουν πιο ακριβή περιγραφή της επι- φάνειας του χεριού με πληροφορία χρώματος και υφής, με εικόνες βάθους, μπορεί να βελτιώσει περαιτέρω την απόδοση ενός συνελικτικού δικτύου. Βασιζόμενοι σε αυτές τις παρατηρήσεις, στο δεύτερο κομμάτι της παρούσας εργασίας προτείνουμε μεθόδους συγχώνευσης πληροφορίας RGB και πληροφορίας βάθους με τη χρήση συ- νελικτικών δικτύων. Προτείνουμε τρεις διαφορετικές προσεγγίσεις, την συγχώνευση των εισόδων, την συγχώνευση των εκτιμήσεων και τη συγχώνευση διπλής αρχιτε- κτονικής. Η μέθοδος της συγχώνευσης των εισόδων συσσωματώνει RGB-D εικόνες και εκπαιδεύει ένα συνελικτικό δίκτυο με εικόνες που περιέχουν κανάλια τόσο RGB όσο και βάθους. Η μέθοδος της συγχώνευσης των εκτιμήσεων εκπαιδεύει δύο δια- φορετικά νευρωνικά δίκτυα με εικόνες RGB και βάθους αντίστοιχα και συγχωνεύει τις προβλέψεις τους. Τέλος η συγχώνευση διπλής αρχιτεκτονικής βασίζετε στην εκ- παίδευση δύο διαφορετικών συνελικτικών δικτύων παράλληλα και σε οποιοδήποτε αυθαίρετο επίπεδο του δικτύου να συγχωνεύει τους χάρτες χαρακτηριστικών τους, με δοθείσες συναρτήσεις συγχώνευσης χαρτών χαρακτηριστικών. Χρησιμοποιούμε συναρτήσεις συγχώνευσης οι οποίες έχουν προταθεί σε μεθόδους αναγνώρισης αν- θρώπινης δραστηριότητας οι οποίες είναι τελευταία πρόοδος της τεχνολογίας. Η επίδοση των μεθόδων της συγχώνευσης στο επίπεδο της εισόδου και της συγχώνευ- σης των εκτιμήσεων είναι περιορισμένη, καθώς η συγχώνευση εφαρμόζεται σε ένα πολύ αρχικό και σε ένα πολύ τελικό επίπεδο του δικτύου αντίστοιχα. Προτείναμε την συγχώνευση διπλής αρχιτεκτονικής ώστε να αντιμετωπίσει αυτό το πρόβλημα καθώς σε αυτήν την περίπτωση η συγχώνευση λαμβάνει μέρος στο εσωτερικό του δικτύου και επιτρέπει στα επακόλουθα στάδια μάθησης, να ορίσουν αντιστοιχίες μεταξύ RGB χαρακτηριστικών και χαρακτηριστικών βάθους. Πράγματι, η συγχώ- νευση διπλής αρχιτεκτονικής ξεπερνάει σε ακρίβεια τη μέθοδο συγχώνευσης των εισόδων και τη μέθοδο συγχώνευσης των εκτιμήσεων. Η μέθοδος συγχώνευσης διπλής αρχιτεκτονικής έχει συγκρίσιμες επιδόσεις με την πρόοδο της τεχνολογίας, παρόλα αυτά το βαθύ συνελικτικό δίκτυο που προτείνουμε το οποίο εκπαιδεύτηκε μόνο με εικόνες βάθους, ξεπερνάει τις επιδόσεις των μεθόδων συγχώνευσης, παρέ- χοντας μας αποτελέσματα τελευταίας προόδου της τεχνολογίας. Από τα πειράματα μας συμπεραίνουμε ότι η συγχώνευση RGB-D δεδομένων δεν εκμεταλλεύεται επι- πλέον χρήσιμη πληροφορία για πιο ακριβής 3Δ εκτίμηση του προσανατολισμού του χεριού.
heal.advisorName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Λύκας, Αριστείδης	el
heal.committeeMemberName	Μπλέκας, Κωνσταντίνος	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	121 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΥ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. ΚΑΖΑΚΟΣ ΕΥΑΓΓΕΛΟΣ 2017.pdf		2.3 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"