Human activity recognition using conditional random fields and privileged information

Βρίγκας, Μιχαήλ

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/27767

Full metadata record

DC Field	Value	Language
dc.contributor.author	Βρίγκας, Μιχαήλ	el
dc.date.accessioned	2016-12-14T11:41:11Z	-
dc.date.available	2016-12-14T11:41:11Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/27767	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.3309	-
dc.rights	Default License	-
dc.subject	Human activity recognition	en
dc.subject	Matching mixtures	en
dc.subject	Privileged information	en
dc.title	Human activity recognition using conditional random fields and privileged information	en
dc.title	Αναγνώριση ανθρώπινης δραστηριότητας υπό συνθήκη τυχαία πεδία και προνομιακή πληροφορία	el
heal.type	doctoralThesis	-
heal.type.en	Doctoral thesis	en
heal.type.el	Διδακτορική διατριβή	el
heal.classification	Human activity recognition	en
heal.language	en	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.publicationDate	2016	-
heal.bibliographicCitation	Βιβλιογράφία : σ. 149-179	el
heal.abstract	Recognizing human activities from video sequences or still images is a challenging task due to problems such as background clutter, partial occlusion, changes in scale, viewpoint, lighting, and appearance. Many applications, including video surveillance systems, human-computer interaction, and robotics for human behavior characterization, require a multiple activity recognition system. In the first part of this thesis, after a review of the state-of-the-art methods, a learningbased framework for action representation and recognition relying on time series of optical flow motion features is presented. In the learning step, the motion curves representing each action are clustered using Gaussian mixture modeling (GMM). In the recognition step, the optical flow curves of a probe sequence are also clustered using a GMM, then each probe sequence is projected onto the training space and the probe curves are matched to the learned curves using a non-metric similarity function based on the longest common subsequence, which is robust to noise and provides an intuitive notion of similarity between curves. Next, a human behavior recognition method with an application to political speech videos is presented. The behavior of a subject is modeled using a conditional random field (CRF). To evaluate the performance of the model, a novel behavior dataset is introduced, which includes low resolution video sequences depicting different people speaking in the Greek parliament. The subjects of the Parliament dataset are labeled as friendly, aggressive or neutral depending on the intensity of their political speech. An extension of the aforementioned human behavior recognition method using multimodal features is also presented. Individual and social behaviors of a subject are modeled using a hidden conditional random field (HCRF). Each video is represented by a vector of spatio-temporal visual features along with audio features. To remove irrelevant features a feature pruning method based on the spatio-temporal neighborhood of each feature in a video sequence is presented. The proposed framework assumes that human movements are highly correlated with sound emissions and canonical correlation analysis is employed to find relationship between the audio and video features prior to fusion. Besides the classical learning frameworks, a novel method based on the learning using privileged information (LUPI) paradigm for recognizing complex human activities is proposed that handles missing information during testing. A supervised probabilistic approach that integrates LUPI into an HCRF model is presented. The proposed model employs a self-training technique for automatic estimation of the regularization parameters of the objective function. Moreover, the method provides robustness to outliers by modeling the conditional distribution of the privileged information by a Student’s t-density function. Different forms of additional information were investigated. In many human activity recognition systems the size of the unlabeled training data may be significantly large due to expensive human effort required for data annotation. Moreover, the insufficient data collection process from heterogenous sources may cause dissimilarities between training and testing data. To address these limitations, a novel probabilistic approach that combines LUPI and active learning is proposed. A pool-based privileged active learning approach is presented for semi-supervising learning of human activities from multimodal labeled and unlabeled data. In the last part of this dissertation, the LUPI paradigm is also investigated for solving biometric applications such as facial expression recognition. As facial image sequences may contain information for heterogeneous sources, facial data may be asymmetrically distributed between training and testing, as it may be difficult to maintain the same quality and quantity of information. To this end, a novel probabilistic classification method that combined the LUPI framework and conditional random fields is proposed to indirectly propagate knowledge from privileged to regular feature space. Each feature space owns specific parameter settings, which are combined together through a Gaussian prior, to train the proposed t-CRF+ model and allow the different tasks to share parameters and improve classification performance.	en
heal.abstract	Το πρόβλημα της αναγνώρισης και του εντοπισμού της ανθρώπινης δραστηριότητας α πό εικονοσειρές και απλές εικόνες, είναι μία δύσκολη διαδικασία, λόγω προβλημάτων όπως ύπαρξη θορύβου στα δεδομένα, αλλαγές στην κλίμακα, την φωτεινότητα και την εμφάνιση. Πολλές εφαρμογές παρακολούθησης εικονοσειρών, αλληλεπίδρασης ανθρώπου-υπολογιστή και διάφορα ρομποτικά συστήματα, απαιτούν αλγορίθμους για την αναγνώριση της ανθρώπι νης δραστηριότητας. Στο πρώτο μέρος της διατριβής, και ύστερα από μια λεπτομερή και διεξοδική ανάλυση των μεθοδολογιών αναγνώρισης της ανθρώπινης δραστηριότητας, περιγράφεται μια μέθοδος βασισμένη στην σύγκριση τροχιών για αναγνώριση της ανθρώπινης δραστηριότητας. Η μέ θοδος βασίζεται στην περιγραφή μιας ανθρώπινης δράσης από χρονοσειρές βασισμένες στην οπτική ροή. Αρχικά, στο βήμα εκπαίδευσης, οι καμπύλες κίνησης που αναπαριστούν μια δράση ομαδοποιούνται από μία μικτή κανονική κατανομή. Στη φάση της αναγνώρισης, οι καμπύλες κίνησης μιας καινούριας εικονοσειράς ομαδοποιούνται επίσης με μία μικτή κανονική κατανομή και το υπό κατηγοριοποίηση μοντέλο συγκρίνεται με όλα τα μοντέλα της βάσης εκπαίδευσης χρησιμοποιώντας ένα μέτρο ομοιότητας που βασίζεται στη μεγαλύτερη κοινή υπακολουθία μεταξύ των μέσων καμπυλών των μικτών κατανομών. Στη συνέχεια, παρουσιάζεται μια μέθοδος για την αναγνώριση της ανθρώπινης συμπερι φοράς σε πολιτικές ομιλίες. Η συμπεριφορά ενός ατόμου μοντελοποιείται χρησιμοποιώντας υπό συνθήκη τυχαία πεδία.Για την αξιολόγηση της απόδοσης του μοντέλου, δημιουργήθηκε ένα καινούριο σύνολο δεδομένων το οποίο αποτελείται από ομιλίες βουλευτών της ελληνικής βουλής και σε κάθε υποκείμενο ανατίθεται μία από τρεις κατηγορίες συμπεριφοράς, όπως φιλικός, επιθετικός και ουδέτερος. Έπειτα, παρουσιάζεται μια επέκταση της προαναφερθείσας μεθόδου, χρησιμοποιώντας δεδομένα από πολλαπλές πηγές. Η συμπεριφορά ενός ατόμου αναπαριστάται εισάγοντας ένα επίπεδο κρυμμένων καταστάσεων για την μοντελοποίηση των κρυμμένων δυναμικών του προβλήματος της αναγνώρισης. Επίσης, κάθε εικονοσειρά αναπαριστάται ταυτόχρονα με οπτικά χαρακτηριστικά και με χαρακτηριστικά ήχου. Για την απομάκρυνση περιττών χαρακτηριστικών που εμφανίζονται κυρίως λόγω θορύβου σε κάθε εικονοπλαίσιο, προτείνεται μια μέθοδος για την μείωση του αριθμού τους βασισμένη στην χωρική και χρονική γειτνίαση των σημείων αυτών. Για τον αυτόματο συγχρονισμό και την συγχώνευση των οπτικών και ηχητικών σημάτων χρησιμοποιήθηκε η μέθοδος της ανάλυσης κανονικής συσχέτισης. Τα περισσότερα μοντέλα ταξινόμησης δεν λαμβάνουν υπόψη τους την ανισορροπία που υπάρχει στην δομή των δεδομένων για εκπαίδευση και έλεγχο. Για το λόγο αυτό, προτείνεται ένα μοντέλο, το οποίο χρησιμοποιεί επιπλέον δεδομένα (προνομιακή πληροφορία) μόνο στην φάση της εκπαίδευσης, ενώ στην φάση του ελέγχου αυτή η πληροφορία δεν είναι διαθέσιμη. Η προτεινόμενη μέθοδος είναι βασισμένη στην εκπαίδευση με χρήση προνομιακής πληροφο ρίας και είναι ανθεκτική σε δεδομένα τα οποία δεν ακολουθούν το κυρίαρχο μοντέλο, όπως θόρυβος ή ελλιπή δεδομένα, μοντελοποιώντας την υπό συνθήκη κατανομή της προνομιακής πληροφορίας χρησιμοποιώντας την κατανομή Student's-t . Η συγκεκριμένη προσέγγιση είναι γενική και δεν περιορίζεται στην χρήση μόνο ενός είδους προνομιακής πληροφορίας. Επίσης, προτείνεται μία μέθοδος για αυτόματη εκτίμηση της τιμής των παραμέτρων ομαλοποίησης μέσα από μια διαδικασία αυτοεκπαίδευσης από το σύνολο δεδομένων. Σε πολλά συστήματα αναγνώρισης ανθρώπινης δραστηριότητας το μέγεθος των μη επι- σημασμένων δεδομένων εκπαίδευσης μπορεί να είναι σημαντικά μεγάλο, κυρίως λόγω της επίπονης και χρονοβόρας ανθρώπινης προσπάθειας για την περιγραφή των δεδομένων. Η ανεπαρκής, σε πολλές περιπτώσεις, διαδικασία συλλογής δεδομένων από ετερογενείς πηγές μπορεί να προκαλέσει ανομοιότητες μεταξύ των δεδομένων εκπαίδευσης και ελέγχου. Για την αντιμετώπιση αυτών των περιορισμών, προτείνεται μια νέα προσέγγιση, η οποία συν δυάζει τη μάθηση με τη χρήση προνομιακής πληροφορίας και την ενεργή μάθηση για την αναγνώριση ανθρώπινων δραστηριοτήτων από πολυτροπικά και μη χαρακτηρισμένα με κάποια ετικέτα δεδομένα. Στο τελευταίο μέρος της διατριβής, χρησιμοποιείται η προνομιακή πληροφορία για την επίλυση βιομετρικών εφαρμογών, όπως η αναγνώριση εκφράσεων του προπώπου. Καθώς οι εικόνες προσώπων μπορεί να περιέχουν ετερογενείς πληροφορίες, τα δεδομένα του προσώπου μπορεί να είναι ανομοιόμορφα κατανεμημένα μεταξύ της φάσης εκπαίδευσης και του ελέγ χου, και έτσι μπορεί να είναι είναι δύσκολο να διατηρηθεί η ίδια ποιότητα και ποσότητα των πληροφοριών. Για το λόγο αυτό, προτείνεται μια μέθοδος ταξινόμησης, η οποία συνδιάζει την προνομιακή πληροφορία και τα υπό συνθήκη τυχαία πεδία, για να να διαδώσει έμμεσα γνώση από τον προνομιακό στον αρχικό χώρο των δεδομένων. Κάθε χώρος έχει συγκεκρι μένες παραμέτρους, οι οποίες συνδέονται μεταξύ τους μέσω μιας Γκαουσιανής κατανομής, για να επιτρέψουν στις διαφορετικές διαδικασίες μάθησης να μοιραστούν τις διαφορετικές παραμέτρους και να βελτιώθει η ταξινόμηση.	el
heal.advisorName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Κακαδιάρης, Ιωάννης	el
heal.committeeMemberName	Κόντης, Λυσίμαχος-Παύλος	el
heal.committeeMemberName	Λύκας, Αριστείδης	el
heal.committeeMemberName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Αργυρός, Αντώνιος	el
heal.committeeMemberName	Μπέμπης, Γεώργιος	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	179 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διδακτορικές Διατριβές

Show simple item record

Files in This Item:

File	Description	Size	Format
Δ.Δ. ΒΡΙΓΚΑΣ ΜΙΧΑΗΛ 2016.pdf		4.05 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"