Σύνθεση κίνησης σε βίντεο μέσω εκμάθησης τοπικών μετασχηματισμών

Τάγκα, Βιργινία

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/31444

Full metadata record

DC Field	Value	Language
dc.contributor.author	Τάγκα, Βιργινία	el
dc.date.accessioned	2021-11-02T11:51:06Z	-
dc.date.available	2021-11-02T11:51:06Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/31444	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.11265	-
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	Νευρωνικά δίκτυα	el
dc.subject	Δημιουργία βίντεο	el
dc.title	Σύνθεση κίνησης σε βίντεο μέσω εκμάθησης τοπικών μετασχηματισμών	el
dc.title	Image animation by learning keypoints local transformations	en
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Νευρωνικά δίκτυα	-
heal.dateAvailable	2021-11-02T11:52:06Z	-
heal.language	el	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.publicationDate	2021	-
heal.bibliographicCitation	Βιβλιογραφία: σ. 67-71	el
heal.abstract	Η σύνθεση κίνησης σε βίντεο (animation) αποτελεί μία σημαντική εξέλιξη στον τομέα της υπολογιστικής όρασης με εφαρμογές, μεταξύ άλλων στον κινηματογράφο, σε βιντεοπαιχνίδια, γραφικά και οπτικά εφέ. Το πρόβλημα που πραγματεύεται η εργασία αυτή αφορά στην αναπαράσταση της κίνησης σε βίντεο σύμφωνα με τοπικούς μετασχηματισμούς που εφαρμόζονται σε συγκεκριμένα χαρακτηριστικά σημεία που έχουν εξαχθεί από τις εικόνες. Τα σημεία αυτά σχετίζονται με συγκεκριμένα μέρη του ανθρώπινου σώματος ή του προσώπου με συνέπεια η εφαρμογή να επικεντρώνεται σε κινήσεις του ανθρώπινου σώματος και σε εκφράσεις του προσώπου. Η πρόκληση εδώ είναι πως δεν έχουμε καμία εκ των προτέρων πληροφορία για τα δεδομένα και προσπαθούμε να υλοποιήσουμε αναπαράσταση κινήσεων στηριζόμενοι σε βίντεο που λειτουργούν ως οδηγοί. Πιο συγκεκριμένα, οι εικόνες του βίντεο μετασχηματίζονται σύμφωνα με τις κινήσεις των αντικειμένων στις αντίστοιχες εικόνες ενός βίντεο οδηγού. Αρχικά, αφού υπολογίσουμε τις συντεταγμένες των χαρακτηριστικών σημείων του σώματος ή του προσώπου μέσω ενός προεκπαιδευμένου μοντέλου, εισάγουμε ένα συνελικτικό νευρωνικό δίκτυο που υπολογίζει μέσω της οπτικής ροής ένα πυκνό πεδίο κίνησης το οποίο υποδεικνύει τον τρόπο που μετακινούνται τα χαρακτηριστικά σημεία και δημιουργεί μία μάσκα που φανερώνει ποια τμήματα των καρέ μπορούν να ανακατασκευαστούν μέσω γεωμετρικών μετασχηματισμών. Επιπλέον, υποδηλώνει τα τμήματα που δεν μπορούν να ανακτηθούν από την αρχική εικόνα και πρέπει να εκτιμηθούν. Στη συνέχεια, εκπαιδεύουμε ένα ανταγωνιστικό νευρωνικό δίκτυο το οποίο σύμφωνα με τις πληροφορίες που λαμβάνει από τις προηγούμενες εξόδους του δικτύου, παράγει νέες εικόνες με τέτοιο τρόπο ώστε να μοιάζουν όσο γίνεται περισσότερο σε εικόνες στόχους.	el
heal.abstract	Video animation is one of the most important developments in Computer Vision field with various applications such as in cinema, video games, graphic and visual effects. In this project, we try to solve the problem of motion representation in videos according to local transformations applied to specific keypoints extracted from the images. These keypoints are related to specific parts of the human body or face, so the problem is focused on human body movements and facial expressions. The challenge is that we do not have any prior information about the data and we try to implement motion representation based on videos that act as guides. More specifically, the video images are transformed according to the movements of the objects in the corresponding images of a video guide. First, after calculating the coordinates of the keypoints of the body or face through a pre-trained model, we introduce a convolutional neural network that estimates a dense motion field through optical flow.The dense motion field indicates keypoints' movements and creates a mask that reveals which parts of the frames can be reconstructed through geometric transformations.In addition, it indicates the parts that can not be retrieved from the original image and should be evaluated and impainted. Next, we train a generative adversarial network which takes into account information from previous network outputs and generates new images that resemble as much as possible with the target frames.	en
heal.advisorName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Βρίγκας, Μιχαήλ	el
heal.committeeMemberName	Φούντος, Ιωάννης	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	72 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. ΤΑΓΚΑ ΒΙΡΓΙΝΙΑ 2021.pdf		6.87 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"