Please use this identifier to cite or link to this item:
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΠανδρεμμένου, Αικατερίνηel
dc.rightsDefault License-
dc.subjectWireless visual sensor networksen
dc.titleResource allocation and visual quality estimation for wireless video transmissionen
dc.titleΚατανομή πόρων και εκτίμηση της οπτικής ποιότητας σε ασύρματη μετάδοση βίντεοel
heal.type.enDoctoral thesisen
heal.type.elΔιδακτορική διατριβήel
heal.classificationVideo transmissionen
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικήςel
heal.bibliographicCitationΒιβλιογράφία : σ. 165-184el
heal.abstractProviding the desired Quality of Service (QoS) as well as the maximum Quality of Experience (QoE) or improving the efficiency of H.264/AVC video transmissions over wireless networks presents several challenges due to the characteristics of wireless networks, such as limited bandwidth, time-varying channel conditions, heterogeneous users, etc. In such networks, data are transmitted via the wireless radiomedium, which is a shared medium over which many users compete for resources. Due to the existence of many users, it is important to allocate resources in a fair manner among them. Resource allocation is applied under various network infrastructures such as cellular networks, relay channels, ultrawideband networks etc. In the present thesis, we restrict our attention to the problem of resource allocation over wireless Visual Sensor Networks (VSNs), which consist of spatially distributed video cameras that are capable of compressing and transmitting the video sequences they acquire. Our goal is to ameliorate the video quality that reaches the end-user through efficient resource management. Specifically, we consider a Direct-Sequence Code Division Multiple Access (DS-CDMA) VSN, which employs a cross-layer design, where each node has its individual requirements in compression bitrate and energy consumption, depending on the characteristics of the monitored scenes. The constraint that holds for each node of the network is that it has an available bitrate that can be shared between source and channel coding and an available power that can be used for video sensing, processing, and transmission. Hence, the source coding rates, channel coding rates and power levels are the parameters that should be optimally determined for each node, in an effort to tradeoff the video quality of the received videos and system’s efficacy. The source and channel coding rates can take discrete values, while for the power levels we assume both the cases of taking continuous and discrete values. In order to optimally and jointly allocate system resources to all nodes, we consider four optimization criteria. Two of them aim at video distortion minimization, while the rest seek for a distribution rule that offers fair utility allocations. The first one, called the Minimized Average Distortion (MAD), minimizes the overall average video distortion of the network, neglecting fairness among the nodes. The second criterion, called the Minimized Maximum Distortion (MMD), minimizes the maximum distortion among all nodes of the network, promoting a rather unbiased treatment of the nodes. Since the simultaneous maximization of the video qualities of all nodes is not possible, we also apply cooperative game theory. Specifically, we use the Nash Bargaining Solution (NBS) in order to pinpoint one of the infinite Pareto-optimal solutions, based on the stipulation that the solution should satisfy four fairness axioms. An additional solution extracted from the area of game theory that we utilize to the same problem of resource allocation is the Kalai-Smorodinsky Bargaining Solution (KSBS), which has also to comply with four fairness axioms, and is applied to non-convex utility spaces. For comparison purposes, we also employ a criterion that Maximizes the Total system Utility (MTU) achieved by all nodes of the network. Special attention is also given to the solution methodology followed by all explored optimization criteria. For the case where the power levels assume continuous values, we propose the use of the Particle Swarm Optimization (PSO) algorithm, which is a computational intelligence algorithm that draws inspiration from social dynamics. Also, we introduce a hybrid algorithm, denoted as Hybrid Particle Swarm Optimization Active Set (HPSOAS), which combines PSO with Active Set (AS) and aims at exploiting the benefits of the two aforementioned methods, thereby increasing efficiency. For comparison reasons, the performance of the Interior Point (IP) and Trust Region Reflective (TRR) methods is also evaluated to the same optimization problem, when all of the optimization criteria are used, except for the KSBS. The KSBS is found directly from the graphical representations of the utility sets, by following a geometric approach. In an effort to evaluate the results offered by each optimization criterion, we invoke four different fairness metrics: the first one considers both fairness and performance issues, and the second one measures the ‘‘equality’’ of a resource allocation (equal utilities for the nodes). The third metric computes the total system utility, while the last one computes the total power consumption of the nodes. Another piece of the current study is focused on the joint problem of Group Of Pictures (GOP) length determination during the encoding process along with the allocation of the nodes’ transmission parameters, where the objective function is indicated by the MAD, NBS and MTU optimization criteria. In this case, we have to tackle a purely discrete optimization problem as it results from the discrete source and channel coding rates and the discrete power levels for each node of the network. In this vein, we use the SARSA algorithm from the area of reinforcement learning. Since in video transmissions over lossy networks quality degradation is inevitable, a common practice is to ensure higher reliability of the crucial pieces of information through the application of Unequal Error Protection (UEP). Such a scenario is also conix sidered in our research, where based on the Cumulative Mean Squared Error (CMSE) we are able to prioritize the slices of the video sequences. In order to estimate the CMSE, we propose the use of the Least Absolute Shrinkage and Selection Operator (LASSO) regression method. A number of quality-relevant features are extracted from the H.264/AVC video sequences and are given as input to LASSO. Based on the estimated CMSE values, we group the video slices into four priority classes, we assign a different channel coding rate to each of them, and simulate a video transmission scenario over a noisy environment so as to investigate the performance of our proposed approach. In the last part of this thesis, we deal with the problem of perceptual video quality assessment. Particularly, we propose Reduced-Reference (RR) and No-Reference (NR) models so as estimate the quality of H.264/AVC video sequences, in terms of the Mean Opinion Score (MOS). A variety of perceptually-motivated features are examined to account for the impact of coding artifacts, packet losses, and video content characteristics. These features are employed for estimating video quality using the LASSO regression technique, which utilizes a subset of the input features, by selecting only those that have relatively higher impact on the process of video quality estimation. For comparison purposes, the Ordinary Least Squares (OLS) and the Ridge regression method combined with sequential Forward Feature Selection (FFS) are also applied. In addition, performance measures as recommended by Video Quality Experts Group (VQEG) are used in order to gauge the effectiveness of our proposed models. In order to estimate subjective video quality, we usually deal with a large number of features and a small sample set. Applying regression on complex datasets may lead to imprecise solutions due to possibly irrelevant or noisy features as well as the effect of overfitting. For this purpose, our research is extended to include a robust NR model that has a good generalization capability to unseen data, for videos that are impaired by both compression artifacts and packet losses. This model is able to improve the per-sequence MOS estimation accuracy, by following a frame-level MOS estimation approach, where the MOS estimate of a sequence is obtained by averaging the perframe MOS estimates, instead of performing regression directly at the sequence level. Since it is impractical to obtain the per-frame MOS ground truth through subjective experiments, we propose an objective metric able to do this task, which provides a reliable indicator for the quality of each frame of a video, offering an intuition about its individual contribution to the overall video quality score.en
heal.abstractΗ παροχή της επιθυμητής ποιότητας των υπηρεσιών και της καλύτερης δυνατής ποιότητας της εμπειρίας του χρήστη ή ακόμη η ϐελτίωση της αποδοτικότητας των μεταδόσεων σε ασύρματα δίκτυα, ϐιντεοακολουθιών που έχουν κωδικοποιηθεί με το πρότυπο H.264/AVC, παρουσιάζουν αρκετές προκλήσεις εξαιτίας των χαρακτηριστικών αυτών των δικτύων, όπως για παράδειγμα το περιορισμένο εύρος Ϲώνης, οι χρονικά μεταβαλλόμενες συνθήκες του καναλιού, οι ετερογενείς χρήστες κτλ. Σε τέτοια δίκτυα, τα δεδομένα μεταφέρονται μέσω ενός ασύρματου, κοινόχρηστου μέσου, στο οποίο έχουν πρόσβαση πολλοί χρήστες. Οι χρήστες αυτοί προσπαθούν να επωφεληθούν όσο το δυνατόν περισσότερο από τους διαθέσι- μους πόρους του δικτύου και επομένως είναι απαραίτητο να κατανείμουμε δίκαια τους πόρους ανάμεσά τους. Η κατανομή πόρων είναι ένα πρόβλημα που συναντάται σε διάφορες υποδομές δικτύων όπως κυψελωτά δίκτυα, κανάλια με ενδιάμεσους, ϐοηθητικούς κόμβους, δίκτυα υπερευρείας Ϲώνης κ.α. Στην παρούσα διατριβή, εστιάζουμε στο πρόβλημα της κατανομής πόρων σε ασύρματα δίκτυα οπτικών αισθητήρων, τα οποία απαρτίζονται από κάμερες που ϐρίσκονται τοπο- ϑετημένες σε διάφορα σημεία και οι οποίες συμπιέζουν και μεταδίδουν τα ϐίντεο που καταγράφουν. Ο στόχος μας είναι να ϐελτιώσουμε την ποιότητα του ϐίντεο που ϐλέπει ο χρήστης, μέσω αποδοτικής διαχείρισης των πόρων του συστήματος. Συγκεκριμένα, ϑεωρούμε ένα δίκτυο οπτικών αισθητήρων πολλαπλής πρόσβασης με διαίρεση κωδίκων και χρήση άμεσης ακολουθίας, το οποίο χρησιμοποιεί ένα διαστρωματικό σχεδιασμό, όπου ο κάθε κόμβος του δικτύου έχει τις δικές του απαιτήσεις σε ϱυθμό bit για τη συμπίεση και σε ενέργεια (ισχύ), ανάλογα με τα χαρακτηριστικά των σκηνών που καταγράφει. Ο ϱυθμός bit σε κάθε κόμβο του δικτύου ϑα πρέπει να μοιραστεί για την κωδικοποίηση της πηγής και του καναλιού, ενώ η διαθέσιμη ισχύς ϑα χρησιμοποιηθεί για την κατα- γραφή, επεξεργασία και μετάδοση των ϐιντεοακολουθιών. Επομένως, ο ϱυθμός κωδικοποί- ησης της πηγής, ο ϱυθμός κωδικοποίησης του καναλιού και η ισχύς αποτελούν τις παραμέτρους οι οποίες ϑα πρέπει να εκτιμηθούν ϐέλτιστα για κάθε κόμβο του δικτύου, έτσι ώστε να πετύχουμε το καλύτερο δυνατό ισοζύγιο μεταξύ της ποιότητας των λαμβανόμενων ϐιντεοακολουθιών και της απόδοσης του συστήματος. Οι ϱυθμοί κωδικοποίησης πηγής και καναλιού παίρνουν διακριτές τιμές, ενώ για τις ισχύς ϑεωρούμε δύο περιπτώσεις, ότι δηλαδή μπορούνε να πάρουνε και συνεχείς και διακριτές τιμές. Προκειμένου να κατανείμουμε ϐέλτιστα και από κοινού τους πόρους του συστήματος σε όλους τους κόμβους, ϑεωρούμε τέσσερα κριτήρια ϐελτιστοποίησης. Τα δύο από αυτά αποσκοπούν στην ελαχιστοποίηση της παραμόρφωσης του ϐίντεο, ενώ τα υπόλοιπα δύο αναζητούν έναν κανόνα που προσφέρει δίκαιες κατανομές πόρων για κάθε κόμβο. Πιο συγ- κεκριμένα, το πρώτο κριτήριο ελαχιστοποιεί τη μέση συνολική παραμόρφωση του δικτύου (MAD), αγνοώντας ϑέματα δικαιοσύνης ανάμεσα στους κόμβους. Το δεύτερο κριτήριο ελαχιστοποιεί τη μέγιστη παραμόρφωση ανάμεσα σε όλους τους κόμβους του δικτύου (MMD) και μεταχειρίζεται αμερόληπτα τους κόμβους. Επιπλέον, καθώς η ταυτόχρονη μεγιστοποίηση της ποιότητας των ϐίντεο όλων των κόμβων δεν είναι δυνατή, εφαρμόζουμε συνεργατική ϑεωρία διαπραγμάτευσης, χρησιμοποιώντας τη λύση διαπραγμάτευσης του Nash (NBS) προκειμένου να επιλέξουμε μία από τις άπειρες ϐέλτιστες κατά Pareto λύσεις, με την προϋπόθεση ότι ϑα πρέπει να ικανοποιούνται τέσσερα αξιώματα δικαιοσύνης. Ακόμη, στο ίδιο πρόβλημα χρησιμοποιούμε άλλη μία λύση από τη ϑεωρία παιγνίων, τη λύση διαπραγμάτευσης των Kalai-Smorodinsky (KSBS), η οποία ϑα πρέπει επίσης να ικανοποιεί τέσσερα αξιώματα δικαιοσύνης, και η οποία στην περίπτωσή μας εφαρμόζεται σε μη-κυρτούς χώρους ωφέλειας. Για λόγους σύγκρισης, χρησιμοποιούμε ακόμη ένα κριτήριο που μεγιστοποιεί τη συνολική ωφέλεια του συστήματος (MTU) που επιτυγχάνεται από όλους τους κόμβους του δικτύου. Ιδιαίτερη προσοχή δίνουμε επίσης στη μεθοδολογία που ακολουθείται για την εξεύρεση λύσης, χρησιμοποιώντας κάθε ένα από τα προαναφερθέντα κριτήρια. Στην περίπτωση που οι ισχύς παίρνουν συνεχείς τιμές, προτείνουμε τη χρήση του αλγορίθμου ϐελτιστοποίησης σμήνους σωματιδίων (PSO), ο οποίος είναι ένας αλγόριθμος υπολογιστικής νοημοσύνης εμπνευσμένος από τη ϕύση. Επίσης, εισάγουμε έναν υβριδικό αλγόριθμο, τον υβριδικό αλγόριθμο ϐελτιστοποίησης σμήνους σωματιδίων ενεργού συνόλου (HPSOAS), ο οποίος συνδυάζει τον αλγόριθμο PSO με τον αλγόριθμο ενεργού συνόλου (AS). Ο αλγόριθμος HPSOAS εκμεταλλεύεται τα πλεονεκτήματα και των δύο προαναφερθέντων αλγορίθμων κι επομένως πετυχαίνει καλύτερη απόδοση. Για λόγους σύγκρισης, αξιολογούμε την απόδοση των μεθόδων interior point (IP) και trust region reflective (TRR) στο ίδιο πρόβλημα ϐελτιστοποίησης, χρησιμοποιώντας καθένα από τα κριτήρια ϐελτιστοποίησης, εκτός από το KSBS, το οποίο υπολογίζεται απευθείας από τις γραφικές αναπαραστάσεις των συνόλων ωφέλειας, ακολουθώντας μία γεωμετρική προσέγγιση. Σε μια προσπάθεια να αξιολογήσουμε τα αποτελέσματα που προκύπτουν χρησιμοποιώντας κάθε κριτήριο ϐελτιστοποίησης, χρησι- μοποιούμε τέσσερις διαφορετικές μετρικές δικαιοσύνης. Η πρώτη από αυτές συνυπολογίζει ϑέματα δικαιοσύνης και απόδοσης, ενώ η δεύτερη μετράει την ‘ισότητα’ της κατανομής των πόρων (ίσες ωφέλειες για τους κόμβους). Η τρίτη μετρική υπολογίζει τη συνολική ωφέλεια του συστήματος και η τέταρτη τη συνολική κατανάλωση ενέργειας από τους κόμβους. ΄Ενα άλλο κομμάτι της τρέχουσας μελέτης εστιάζει στο πρόβλημα του καθορισμού του ϐέλτιστου μήκους της ομάδας των εικόνων (GOP) σε συνδυασμό με το πρόβλημα της κατανομής των πόρων στους κόμβους του δικτύου. Στην περίπτωση αυτή, η συνάρτηση ϐελτιστοποίησης υποδεικνύεται από τα κριτήρια MAD, NBS και MTU, όπου έχουμε να επιλύσουμε ένα διακριτό πρόβλημα που προκύπτει από τις διακριτές τιμές των ϱυθμών κωδικοποίησης πηγής και καναλιού καθώς επίσης και τις διακριτές τιμές των ισχύων. Για την επίλυση αυτού του προβλήματος χρησιμοποιούμε τον αλγόριθμο SARSA από την περιοχή της ενισχυτικής μάθησης. Καθώς κατά τις μεταδόσεις ϐίντεο σε απωλεστικά δίκτυα η υποβάθμιση της ποιότητας είναι αναπόφευκτη, μία κοινή πρακτική είναι να εξασφαλίζουμε υψηλότερη αξιοπιστία στα σημαντικά κομμάτια πληροφορίας εφαρμόζοντας άνιση προστασία από λάθη (UEP). Στην παρούσα διατριβή ϑεωρούμε ένα τέτοιο σενάριο, όπου με ϐάση το αθροιστικό μέσο τετραγωνικό σφάλμα (CMSE) δίνουμε προτεραιότητα στα επιμέρους κομμάτια των ϐιν- τεοακολουθιών. Προκειμένου να εκτιμήσουμε το CMSE, προτείνουμε τη χρήση της least absolute shrinkage and selection operator (LASSO) μεθόδου παλινδρόμησης. Πιο συγ- κεκριμένα, εξάγουμε ορισμένα χαρακτηριστικά από τις ϐιντεοακολουθίες που έχουν κωδικο- ποιηθεί με το πρότυπο H.264/AVC και τα οποία σχετίζονται με την ποιότητα του ϐίντεο. Στη συνέχεια, τα χαρακτηριστικά αυτά τροφοδοτούν το LASSO προκειμένου να εκτιμήσουμε το CMSE, όπως αυτό προκύπτει από κάθε πιθανή απώλεια ενός τμήματος της ϐιντεοακολου- ϑίας. Με ϐάση τις εκτιμώμενες τιμές για το CMSE, ομαδοποιούμε τα επιμέρους κομμάτια του ϐίντεο σε τέσσερις ομάδες προτεραιότητας και αναλόγως, αναθέτουμε διαφορετικούς ϱυθμούς κωδικοποίησης του καναλιού σε κάθε μία από αυτές. Τέλος, προσομοιώνουμε ένα σενάριο μετάδοσης ϐιντεοακολουθιών σε ένα ενθόρυβο περιβάλλον προκειμένου να μελετήσουμε την αποτελεσματικότητα της προτεινόμενης προσέγγισης. Στο τελευταίο τμήμα της διατριβής ασχολούμαστε με το πρόβλημα της εκτίμησης της ποιότητας του ϐίντεο όπως την αντιλαμβάνεται ο χρήστης. Συγκεκριμένα, προτείνουμε μοντέλα που έχουν μειωμένη ή και καθόλου πρόσβαση στην αρχική ϐιντεοακολουθία προκειμένου να εκτιμήσουμε την ποιότητα των ϐιντεοακολουθιών που ϕτάνουν στο χρήστη, μέσω τουmean opinion score (MOS).Μελετάμε μία μεγάλη ποικιλία χαρακτηριστικών που σχετίζονται με την ποιότητα του ϐίντεο όπως την αντιλαμβάνεται ο χρήστης και τα οποία αντικατοπτρίζουν τις παραμορφώσεις λόγω της συμπίεσης και των απωλειών πακέτων καθώς επίσης και τις ιδιαιτερότητες του ϐίντεο. Κατόπιν, τα χαρακτηριστικά αυτά χρησι- μοποιούνται από το LASSO για να εκτιμήσουμε την ποιότητα του ϐίντεο. Το LASSO έχει την ικανότητα να χρησιμοποιεί ένα υποσύνολο από τα αρχικά χαρακτηριστικά, και συγ- κεκριμένα εκείνα τα οποία έχουν συγκριτικά μεγαλύτερο αντίκτυπο στη διαδικασία της εκτίμησης της ποιότητας των ϐιντεοακολουθιών. Για λόγους σύγκρισης, εφαρμόζουμε τις μεθόδους παλινδρόμησης των ελαχίστων τετραγώνων (OLS) και τη Ridge σε συνδυασμό με μία τεχνική ακολουθιακής εμπρόσθιας επιλογής χαρακτηριστικών (FFS). Ακόμη, για να μετρήσουμε την αποδοτικότητα των μοντέλων που προτείνουμε χρησιμοποιούμε κάποιες μετρικές απόδοσης, όπως προτάθηκαν από το video quality experts group (VQEG). Συχνά, σε προβλήματα εκτίμησης της υποκειμενικής ποιότητας του ϐίντεο ερχόμαστε αντιμέτωποι με ένα μεγάλο αριθμό χαρακτηριστικών και με ένα μικρό μέγεθος παρατηρήσε- ων. Εάν εφαρμόσουμε παλινδρόμηση σε σύνθετα σύνολα δεδομένων ενδέχεται να οδηγηθούμε σε μη ακριβείς λύσεις εξαιτίας της ύπαρξης κάποιων άσχετων χαρακτηριστικών ή χαρακτηριστικών που αποτελούν ουσιαστικά ϑόρυβο για το πρόβλημά μας ή ακόμη εξ- αιτίας του προβλήματος της υπερπροσαρμογής. Γι΄ αυτό το λόγο επεκτείνουμε την έρε- υνα μας και εισάγουμε ένα εύρωστο μοντέλο χωρίς αναφορά, το οποίο παρουσιάζει καλή γενικευτική ικανότητα σε άγνωστα δεδομένα, για ϐιντεοακολουθίες που πλήττονται από παραμορφώσεις εξαιτίας της συμπίεσης και των απωλειών πακέτων. Το μοντέλο που προτείνουμε ϐελτιώνει την ακρίβεια εκτίμησης του MOS ολόκληρης της ακολουθίας, κάνο- ντας εκτιμήσεις για το MOS κάθε καρέ. Αξίζει να σημειωθεί ότι το MOS ολόκληρης της ακολουθίας προκύπτει ως ο μέσος όρος των εκτιμήσεων των MOS όλων των καρέ, κι όχι εφαρμόζοντας παλινδρόμηση απευθείας σε επίπεδο ακολουθίας. Καθώς δεν είναι πρακ- τικό να λάβουμε το πραγματικό MOS όλων των καρέ κάνοντας πειράματα με χρήστες, αντ΄ αυτού προτείνουμε μία αντικειμενική μετρική η οποία παρέχει μια αξιόπιστη ένδειξη για την ποιότητα κάθε καρέ του ϐίντεο δίνοντας συγχρόνως μια εικόνα για τη συνεισφορά του στο συνολικό σκορ της ποιότητας του ϐίντεο.el
heal.advisorNameΚόντης, Λυσίμαχος-Παύλοςel
heal.committeeMemberNameΚόντης, Λυσίμαχος-Παύλοςel
heal.committeeMemberNameΝίκου, Χριστόφοροςel
heal.committeeMemberNameΠαρσόπουλος, Κωνσταντίνος Ε.el
heal.committeeMemberNameΜπλέκας, Κωνσταντίνοςel
heal.committeeMemberNameΚατσάγγελος, Άγγελοςel
heal.committeeMemberNameΛύκας, Αριστείδηςel
heal.committeeMemberNameΣκόρδας, Αθανάσιοςel
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικήςel
heal.numberOfPages189 σ.-
Appears in Collections:Διδακτορικές Διατριβές

Files in This Item:
File Description SizeFormat 

This item is licensed under a Creative Commons License Creative Commons