A study of incremental checkpointing in distributed stream processing systems (Master thesis)

Chronarakis, Aristidis

Full metadata record
DC FieldValueLanguage
dc.contributor.authorChronarakis, Aristidisen
dc.date.accessioned2020-03-09T09:20:46Z-
dc.date.available2020-03-09T09:20:46Z-
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/29713-
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.9710-
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectDistributed data stream processingen
dc.subjectCheckpointingen
dc.subjectHigh availabilityen
dc.subjectΚατανεμημένη επεξεργασία ροών δεδομένωνel
dc.subjectΠαραγωγή σημείων ελέγχουel
dc.subjectΥψηλή διαθεσιμότηταel
dc.titleA study of incremental checkpointing in distributed stream processing systemsen
dc.titleΜελέτη προοδευτικής παραγωγής σημείων ελέγχου στην κατανεμημένη επεξεργασία ροών δεδομένωνel
heal.typemasterThesis-
heal.type.enMaster thesisen
heal.type.elΜεταπτυχιακή εργασίαel
heal.classificationData processing-
heal.dateAvailable2020-03-09T09:21:46Z-
heal.languageen-
heal.accessfree-
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.publicationDate2019-
heal.bibliographicCitationΒιβλιογραφία: σ. 44-46el
heal.abstractCost-efficient fault-tolerance approaches for distributed stream processing systems rely on state checkpointing to recover continuous queries featuring stateful operators after a crash. Incremental checkpointing reduces the overhead of state checkpointing by continuously logging state updates in an incremental fashion. This thesis conducts an experimental study of incremental checkpointing in a distributed stream processing system, focusing on the performance and recovery-time characteristics as well as tradeoffs in this approach. The experimental analysis is supported by load-generating tools and benchmarks featuring stateful operators such as aggregate and join, developed in the context of this thesis. Experimental results validate the low overhead of incremental checkpointing and expose a recovery-time vs. compaction-cost tradeoff that allows tuning the system to the desired performance-availability operating point.en
heal.abstractΤα συστήματα επεξεργασίας ροών δεδομένων βασίζονται σε τελεστές οι οποίοι υπολογίζουν ενδιάμεσα αποτελέσματα ενός μεγαλύτερου υπολογισμού. Καθώς τα ενδιάμεσα αποτελέσματα μπορεί να συσσωρεύονται επί μεγάλα χρονικά διαστή- ματα, τα συστήματα επεξεργασίας ροών δεδομένων πρέπει να προσφέρουν ανοχή σε σφάλματα και ανάκαμψη της αποθηκευμένες κατάστασης. Οικονομικά αποδοτι- κές προσεγγίσεις ανοχής σε σφάλματα σε συστήματα επεξεργασίας ροών δεδομένων βασίζονται στην δημιουργία σημείων ελέγχου της κατάστασης του συνόλου των τελε- στών που υλοποιούν την συνεχή επεξεργασία των δεδομένων. Μια κλασική τεχνική βασίζεται στην ιδέα της περιοδικής καταγραφής όλης της κατάστασης των τελεστών, η οποία όμως δεν ενδείκνυται σε περιπτώσεις που πρέπει να καταγράψουμε με- γάλο όγκο κατάστασης. Εναλλακτικά μια τεχνική που έχει προταθεί βασίζεται στη περιοδική δημιούργια σημείων ελέγχου που περιέχουν μόνο τις διαφορές σε σχέση με το προηγούμενο σημείο ελέγχου, με την προϋπόθεση ότι ο σχηματισμός της κα- τάστασης του συνόλου των τελεστών χρειάζεται το συνδυασμο επιμέρους σημείων ελέγχου. Μια τρίτη τεχνική βασίζεται στη προοδευτική παραγωγή σημείων ελέγχου με συνεχή καταγραφή των αλλαγών κατάστασης. Η τεχνική αυτή έχει αποδειχθεί ότι μπορεί να μειώσει την επιβάρυνση στην απόδοση κατά τη διαδικασία παραγω- γής τους. Η παρούσα διπλωματική εργασία διεξάγει μια πειραματική μελέτη της προοδευτικής παραγωγής σημείων ελέγχου στο κατανεμημένο σύστημα επεξεργα- σίας ροών δεδομένων Apache Samza το οποίο κάνει χρήση ενός τοπικού και ενός απομακρυσμένου μέσου για την αποθήκευση της κατάστασης του συνόλου των τελεστών. Μάλιστα εστιάζουμε στα χαρακτηριστικά απόδοσης σχετικά με το τοπικό μέσο αλλα και στο χρόνο ανάκτησης απο το το απομακρυσμένο μέσο σε περιπτώ- σεις που το τοπικό μέσο δεν είναι διαθέσιμο. Για να υποστηριχθεί η πειραματική μελέτη αναπτύχθηκαν εργαλεία παραγωγής συνθετικού φόρτου και τυπικές εφαρ- μογές βασισμένες σε βασικούς τελεστές συσσώρευσης κατάστασης όπως οι aggregate και join. Τα πειραματικά αποτελέσματα υποδεικνύουν χαμηλή επιβάρυνση των προοδευτικών σημείων ελέγχου στην απόδοση του συστήματος και αναδεικνύουν την σχέση μεταξύ του κόστους συμπίεσης της δομής των σημείων ελέγχου και του χρόνου ανάκαμψης, η οποία επιτρέπει ρύθμιση του συστήματος στο επιθυμητό ση- μείο λειτουργίας-απόδοσης. Η παρούσα διπλωματική εργασία συγκρίνει θεωρητικά την προσέγγιση που υλοποιεί το Apache Samza με μια προγενέστερη προσέγγιση προοδευτικής παραγωγής σημείων ελέγχου, την continuous eventual checkpointing (CEC), αναδεικνύοντας τις ομοιότητες και διαφορές των δύο προσεγγίσεων. Τέλος στα πλαίσια μελλοντικής δουλείας προτείνονται σε θεωρητικό επίπεδο δύο υλοποι- ήσεις με την πρώτη να έχει να κάνει με έναν πράκτορα ο οποίος θα βελτιστοποιεί τη λειτουργία της συμπίεσης με βάση περιορισμούς του χρήστη όσον αφορά είτε το επιθυμητό μέγεθος της δομής των σημείων ελέγχου είτε τους επιθυμητούς υπολο- γιστικούς πόρους που είναι διατεθειμένος να διαθέσει για τη συμπίεση. Η δεύτερη προτεινόμενη υλοποίηση έχει να κάνει με την παροχή εγγυήσεων για την επεξεργα- σία των δεδομένων ακριβώς μια φορά (exactly once) στο Apache Samza κατά την ανάκαμψη από σφάλματα.el
heal.advisorNameΜαγκούτης, Κωνσταντίνοςel
heal.committeeMemberNameΔημακόπουλος, Βασίλειοςel
heal.committeeMemberNameΜαγκούτης, Κωνσταντίνοςel
heal.committeeMemberNameΠιτουρά, Ευαγγελίαel
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherIDuoi-
heal.numberOfPages57 σ.-
heal.fullTextAvailabilitytrue-
Appears in Collections:Διατριβές Μεταπτυχιακής Έρευνας (Masters)

Files in This Item:
File Description SizeFormat 
M.E. CHRONARAKIS ARISTIDIS 2019.pdf1.05 MBAdobe PDFView/Open


 Please use this identifier to cite or link to this item:
https://olympias.lib.uoi.gr/jspui/handle/123456789/29713
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.