An actor-critic deep reinforcement learning agent for visual object tracking

Merkos, Asterios

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/29714

Full metadata record

DC Field	Value	Language
dc.contributor.author	Merkos, Asterios	en
dc.date.accessioned	2020-03-09T09:31:27Z	-
dc.date.available	2020-03-09T09:31:27Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/29714	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.9711	-
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	Ενισχυμένη διδασκαλία	el
dc.subject	Παρακολούθηση αντικειμένου	el
dc.subject	Βαθύ νευρωνικό δίκτυο	el
dc.subject	Actor-Critic	en
dc.subject	Deep Reinforcement Learning	en
dc.subject	Visual object tracking	en
dc.title	An actor-critic deep reinforcement learning agent for visual object tracking	en
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Image processing	-
heal.dateAvailable	2020-03-09T09:32:27Z	-
heal.language	en	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Επιστήμης Υλικών	el
heal.publicationDate	2019	-
heal.bibliographicCitation	Βιβλιογραφία: σ. 44-46	el
heal.abstract	Reinforcement learning provides a general framework for solving complex and uncertain sequential decision problems, encountered in many real-world applications. Visual object tracking is one of the fundamental problems in the computer vision field that aims at finding the location of a target object. In this thesis we present a Deep Reinforcement Learning (DRL) approach for solving the visual tracking problem by employing an end-to-end approach for visual tracking in videos that learns to predict the bounding box locations of a target object at every frame. An Actor-Critic architecture of reinforcement learning is proposed that interacts with the input video overtime. It consists of two neural network structures: an action decision (policy) network that is designed to generate actions to find the location of the target object in a new frame, and another network, the critic, which is used for approximating the value function and explores the state space. Both neural nets work together to achieve a better tracking performance. The critic network has a deep structure and is designed with a convolutional neural network (CNN) in the input is the image frame. A reward function is also studied that evaluates every transition based on a content-based difference of the hash code of the bounding box. The reinforcement learning agent is trained so as to learn good tracking policies that maximize the tracking performance in the long run. The proposed algorithm is experimentally compared with common approaches for tracking such as Meanshift, Boosting, Medianflow and Mil.	en
heal.abstract	Η Ενισχυμενη Μαθηση είναι ενα σημαντικό εργαλείο για να λύνουμε περίπλοκα προβλήματα και προβληματα αποφάσεων, που αντιμετωπίζουμε σε πολλες εφαρμογές στο πραγματικό κοσμο. To Visual Object tracking είναι ένα απο τα πιο σημαντικά προβλήματα στο τομέα της υπολογιστικής όρασης και προσπαθεί να βρεί τη θέση ενός αντικειμένου. Σε αυτή την εργασία παρουσιάζουμε μια Deep Reinforcement Learning (DRL) προσέγγιση για να λύσουμε το πρόβλημα του visual object tracking χρησιμοποιώντας μια πρόσεγγιση για visual tracking σε βίντεο το οποίο μαθαίνει να προβλέπει τη θεση του κουτιού που περιέχει το αντικείμενο που θέλουμε να παρακολουθήσουμε σε κάθε εικονοσειρά. Μια Actor-Critic αρχιτεκτονικη της ενισχυμένης μάθησης προτείνεται η οποία αλληλεπιδρά με το βίντεο εισόδου. Αποτελείται απο δυο νευρωνικά δίκτυα: ένα action decision (policy) network που είναι σχεδιαμένο να παρέχει ενέργειες για να βρεθεί η θέση του αντικειμένου στο καινούργιο εικονοπλαίσιο και ένα αλλο δίκτυο τον critic ο οποίος χρησιμοποιείται για να προσεγγισουμε το value function και κάνουμε εξερεύνηση στο χώρο τον καταστάσεων. Και τα δύο νευρωνικά δίκτυα συνεργάζονται για να πετύχουν μια καλύτερη απόδοση στο tracking. To δίκτυο του critic έχει μια δομή βαθειών συνελλεκτικών νευρωνικών δικτύων και παίρνει σαν είσοδο όλη την εικόνα του εικονοπλαισίου. Επίσης μελετήθηκε και η συνάρτηση ανταμοιβής, η οποία αξιολογεί τη κάθε μετακίνηση του κουτιού βασισμένο στη διαφορά του περιεχομένου με το hash κώδικα του κουτιού. Ο πράκτορας εκπαιδεύεται για να μάθει κάλες πολιτικές για tracking τέτοιες ώστε να μεγιστοποιείται η απόδοση του tracking στη πορεία. Ο προτεινόμενος αλγόριθμος συγκρίθηκε στα πειράματα με παραδοσιακούς trackers όπως Meanshift, Boosting, Medianflow και Mil.	el
heal.advisorName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Λύκας, Αριστείδης	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	47 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. MERKOS ASTERIOS 2019.pdf		6.63 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"