Diversifying big data in parallel

Νούλης, Κωνσταντίνος

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/27893

Full metadata record

DC Field	Value	Language
dc.contributor.author	Νούλης, Κωνσταντίνος	el
dc.date.accessioned	2017-04-03T10:10:55Z	-
dc.date.available	2017-04-03T10:10:55Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/27893	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.2009	-
dc.rights	Default License	-
dc.subject	Κατανεμημένα συστήματα	el
dc.subject	Παράλληλη υλοποίηση αλγορίθμων	el
dc.subject	Ποικιλομορφία	el
dc.subject	Hadoap	en
dc.subject	Map-reduce	en
dc.subject	Diversification	en
dc.subject	Disc	en
dc.title	Diversifying big data in parallel	en
dc.title	Παράλληλη υλοποίηση αλγορίθμων ποικιλομορφίας με βάση τη διαφορετικότητα σε μεγάλα σύνολα δεδομένων	el
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Algorithms	el
heal.dateAvailable	2017-04-03T10:11:55Z	-
heal.language	en	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.publicationDate	2017	-
heal.bibliographicCitation	Βιβλιογράφία : σ. 55-56	el
heal.abstract	A characteristic that makes a query result distinctive is apparently quality. One way of enhancing the quality of a query result is diversification. Many ways have been already proposed in order to diversify a query result. In this study we utilize the algorithm of Dissimilarity and Coverage as well as the Max Cover algorithm in an attempt to diversify a query result, which is substituted by several sets of data. The novelty that is introduced in this study is the perspective through which we approach those algorithms. Diversification is conducted with the use of parallel implementations of the aforementioned algorithms in a distributed environment. With this thesis, we intend to propose a new way of diversifying Big Data efficiently, taking at the same time advantage of new distributed platforms.	en
heal.abstract	Μια αναζήτηση ενός χρήστη σε μια βάση δεδομένων κρίνεται από το αν και κατά πόσο το αποτέλεσμα αυτής της αναζήτησης θα βοηθήσει το χρήστη να βρει γρήγορα και εύκολα αυτό που ψάχνει. Η ποικιλομορφία των αποτελεσμάτων που παρουσιάζονται μετά από μια αναζήτηση σε μια βάση δεδομένων είναι κάτι που έχει αυξανόμενο επιστημονικό ενδιαφέρον τελευταία. Για να γίνει λοιπόν πιο ποιοτικό και ελκυστικό ένα αποτέλεσμα αναζήτησης επιδέχεται κάποιας επεξεργασίας, πριν την τελική παρουσίαση του στο χρήστη. Η επεξεργασία αυτή καθιστά το αποτέλεσμα της αναζήτησης πιο αξιόπιστο, αφού παρουσιάζει ένα υποσύνολο του αρχικού αποτελέσματος, το οποίο παραθέτει αντιπροσωπευτικά δείγματα και είναι επίσης τόσο διαφοροποιημένο, ώστε τα αποτελέσματα που θα εμφανιστούν στο χρήστη να είναι ποικιλόμορφα και εύστοχα. Μέχρι στιγμής έχουν γίνει διάφορες απόπειρες για τη σχεδίαση ενός μοντέλου που θα παράγει αποτελέσματα με τις παραπάνω ιδιότητες. Κάθε απόπειρα θέτει ένα διαφορετικό ορισμό για τη ποικιλομορφία των δεδομένων, κοιτάζοντας το πρόβλημα από διαφορετική οπτική γωνία. Σε αυτή την εργασία μελετάται ο αλγόριθμος [8] του DisC Diversity. Ανάμεσα στις διάφορες θεωρήσεις, επιλέξαμε να μελετήσουμε τον αλγόριθμο DisC διότι καλύπτει καλύτερα τις ανάγκες του προβλήματος που έχουμε θέσει, επιστρέφοντας στο χρήστη αποτελέσματα που είναι διαφοροποιημένα μεταξύ τους και την ίδια στιγμή καλύπτουν όλο το σύνολο των αποτελεσμάτων του ερωτήματος στη βάση. Η προσέγγιση που γίνεται για την επίλυση του προβλήματος με αυτό τον τρόπο εμπεριέχει την μετατροπή του DisC αλγορίθμου σε τρεις παραλλαγές, που επιλέγουν αποτελέσματα για το τελικό σύνολο με βάση τρία διαφορετικά κριτήρια. Εκτός από τον παραπάνω αλγόριθμο, γίνεται προσπάθεια προσέγγισης του προβλήματος με μια παραλλαγή του αλγορίθμου [20] που λύνει το Maximum Coverage πρόβλημα, το οποίο είναι NPhard, όπως και το αρχικό πρόβλημα αυτής της μελέτης. Με αυτή τη μέθοδο, στόχος είναι να δημιουργηθεί μια κατάταξη των αποτελεσμάτων που επέστρεψε το ερώτημα. Αυτή η κατάταξη πρέπει να είναι τέτοια ώστε οσαδήποτε αποτελέσματα επιλεγούν να παρουσιαστούν στο χρήστη, να καλύπτουν σε κάθε περίπτωση σε μέγιστο βαθμό το σύνολο με τα αποτελέσματα του αρχικού ερωτήματος. Η κάλυψη σε αυτό το σημείο έγκειται στην ομοιότητα των αποτελεσμάτων σε σχέση με τα υπόλοιπα. Η καινοτομία που εισάγει αυτή η εργασία είναι η υλοποίηση των παραπάνω αλγορίθμων, και ειδικά του DisC Diversity, με τέτοιο τρόπο ώστε να μπορούν να εκτελεστούν παράλληλα σε ένα κατανεμημένο περιβάλλον. Με αυτό τον τρόπο θέλουμε να πετύχουμε το ζητούμενο της εργασίας, που είναι η επεξεργασία μεγάλου όγκου δεδομένων. Για αυτό το σκοπό χρησιμοποιούμε τη λογική του Map Reduce, που μπορεί να εφαρμοστεί μέσω της πλατφόρμας του Hadoop. Το Hadoop αποτελείται από ένα τρόπο δομής και διαχείρισης ενός αρχείου συστήματος και ένα τρόπο επικοινωνίας μεταξύ διασυνδεδεμένων υπολογιστών, ώστε να μπορεί να εκτελεστεί πάνω του ένα πρόγραμμα που έχει τη λογική του Map Reduce. Το Hadoop είναι λογισμικό ανοιχτού κώδικα και έχει δημιουργηθεί από την Apache, βασισμένο σε μια ερευνητική εργασία της Google η οποία περιγράφει το Map Reduce και το Google File System, που δημιουργήθηκαν στα εργαστήριά της. Για τα πειράματά μας χρησιμοποιούμε τεχνητά αλλά και πραγματικά σύνολα δεδομένων, που προσομοιώνουν σύνολα αποτελεσμάτων που έχουν επιστραφεί από ερωτήματα σε κάποια βάση δεδομένων. Τα τεχνητά σύνολα είναι κατασκευασμένα με τέτοιο τρόπο ώστε να αντιπροσωπεύουν δύο μεγάλες κατηγορίες. Η διαφοροποίησή τους έγκειται στην κατανομή των δεδομένων όσον αφορά τα χαρακτηριστικά τους. Υπάρχουν σύνολα δεδομένων που είναι φτιαγμένα με τυχαίο τρόπο αλλά και άλλα που περιέχουν λογικές ομάδες αποτελεσμάτων που έχουν πιο σχετικά χαρακτηριστικά σε σχέση με τα υπόλοιπα, δημιουργώντας συστάδες. Πάνω σε αυτή τη διαφοροποίηση γίνεται μια επιπλέον μελέτη για το αν και κατά πόσον ένας διαφορετικός διαχωρισμός των δεδομένων πριν την εκτέλεση του βασικού αλγορίθμου μπορεί να οδηγήσει σε καλύτερα αποτελέσματα. Ο διαχωρισμός που επιχειρείται γίνεται με την χρήση του αλγορίθμου συσταδοποίησης kmeans. Η επιτυχία των αλγορίθμων κρίνεται από το ποσοστό ευστοχίας του συνόλου δεδομένων που παράγουν ως αποτέλεσμα. Η ευστοχία ή αστοχία του τελικού συνόλου δεδομένων υπολογίζεται με βάση το ποσοστό των λανθασμένων αποτελεσμάτων που περιλαμβάνονται σε αυτό. Ένα αποτέλεσμα χαρακτηρίζεται ως λανθασμένο, αν έχει όμοια χαρακτηριστικά με κάποιο άλλο που βρίσκεται και αυτό μέσα στο τελικό σύνολο, που θα παρουσιαστεί στο χρήστη. Αυτό το αποτέλεσμα είναι περιττό και αποτελεί αστοχία του αλγορίθμου. Η αξιολόγηση των αποτελεσμάτων βασίζεται κυρίως στο χρόνο εκτέλεσης των αλγορίθμων αλλά και στην απόδοσή τους, η οποία κρίνεται από το μέγεθος του τελικού συνόλου δεδομένων που παράγεται σε σχέση με το αρχικό αλλά και από το πόσο εύστοχο είναι. Σε πρώτη φάση γίνεται μια ξεχωριστή αξιολόγηση των αλγορίθμων πάνω στην ίδια πειραματική βάση, ενώ ακολουθεί μια σύγκριση των δύο κατηγοριών αλγορίθμων. Στο στάδιο της σύγκρισης παρατηρείται η επίπτωση που έχουν διάφορες παράμετροι που έχουμε θέσει στην απόδοση των αλγορίθμων. Οι παράμετροι αυτοί είναι η πληθικότητα του αρχικού συνόλου δεδομένων, η δομή και η κατανομή του αρχικού συνόλου δεδομένων, ο αριθμός των Mappers και Reducers που χρησιμοποιούνται για την εκτέλεση των πειραμάτων, όπως και η μετρική που έχουμε θέσει για τον υπολογισμό της ομοιότητας μεταξύ δύο αποτελεσμάτων. Μετά από την εκτέλεση των παραπάνω πειραμάτων και την επεξεργασία των αποτελεσμάτων τους με βάση τα κριτήρια αξιολόγησης που έχουμε θέσει, κρίνουμε αν και κατά πόσον κάποιος αλγόριθμος προτιμάται, ώστε να εφαρμοστεί για την επεξεργασία ενός εκτεταμένου συνόλου δεδομένων, με σκοπό να παρουσιαστεί στο χρήστη ένα αρκετά ποικιλόμορφο, διαφοροποιημένο και πληροφοριακό σύνολο αποτελεσμάτων.	el
heal.advisorName	Πιτουρά, Ευαγγελία	el
heal.committeeMemberName	Πιτουρά, Ευαγγελία	el
heal.committeeMemberName	Μαμουλής, Νικόλαος	el
heal.committeeMemberName	Μαγκούτης, Κωνσταντίνος	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	59 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΥ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. ΝΟΥΛΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 2017.pdf		8.76 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"