Bias in knowledge graph embeddings

Bourli, Styliani

Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/30827

Full metadata record

DC Field	Value	Language
dc.contributor.author	Bourli, Styliani	en
dc.date.accessioned	2021-04-15T05:53:08Z	-
dc.date.available	2021-04-15T05:53:08Z	-
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/30827	-
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.10665	-
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	Knowledge graphs	en
dc.subject	Knowledge graph embeddings	en
dc.subject	Bias	en
dc.subject	Machine learning	en
dc.subject	Γραφήματα γνώσης	el
dc.subject	Ενσωματώσεις γραφημάτων γνώσης	el
dc.subject	Μεροληψία	el
dc.subject	Μηχανική μάθηση	el
dc.title	Bias in knowledge graph embeddings	en
dc.title	Μεροληψία σε ενσωματώσεις γραφημάτων γνώσης	el
heal.type	masterThesis	-
heal.type.en	Master thesis	en
heal.type.el	Μεταπτυχιακή εργασία	el
heal.classification	Machine learning	-
heal.dateAvailable	2021-04-15T05:54:08Z	-
heal.language	en	-
heal.access	free	-
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.publicationDate	2021	-
heal.bibliographicCitation	Βιβλιογραφία: σ. 58-60	el
heal.abstract	Knowledge graphs (KGs) are multi-relational directed graphs used in many tasks in recent years, including question answering, recommendation and information retrieval. They are associated with, and used by search engines such as Google, Bing, and Yahoo; and social networks such as LinkedIn and Facebook. Knowledge graph embeddings have gained a lot of attention recently, because they can map the components of a knowledge graph to a low dimensional vector space. In the era of big data, this is very important because it makes KG usage and analysis easier. But the connection of the KG embeddings production with machine learning, combined with the fact that bias learning problem using machine learning tasks receives more attention in current research, leads to concern about bias that may exists in data, transferred to the KG embeddings through learning and possibly reinforced by them. In this thesis we study the bias in KG embeddings. We first define two approaches to quantify the bias in the dataset and after their comparison we choose the one we consider more appropriate. For measuring bias in the KG embeddings, we use a projection method and an analogy puzzle to determine quantitatively and qualitatively if the bias is transferred from the data to the KG embeddings. We also apply a prediction method to study if there is in addition a bias amplification using the KG embeddings. We further detect if the popularity of some entities, or the inequality in populations of sensitive values like male, female individuals in the dataset, affects bias in KG embeddings, and, moreover, if other tasks such as clustering affected by the bias of the KG embeddings. We then define a debias method based on projections in the bias subspace. Its novelty lies on tuning the amount of bias it removes and in the usage of pretrained embeddings instead of the modification of the KG embedding model. We conduct experiments using a set of real and synthetic KGs and two widely known KG embedding models. We provide a presentation and an analysis of the results. Our approaches can be easily generalized in other datasets and more KG embedding models.	en
heal.abstract	Τα γραφήματα γνώσης, είναι κατευθυνόμενα γραφήματα που περιέχουν πληροφορία διαφόρων οντοτήτων και σχέσεων του πραγματικού κόσμου. Χρησιμοποιούνται σε πολλές εφαρμογές τα τελευταία χρόνια, όπως στην ανάκτηση πληροφορίας και σε συστήματα συστάσεων, καθώς επίσης σε μηχανές αναζήτησης, όπως Google, Bing και Yahoo, αλλά επίσης και σε κοινωνικά δίκτυα, όπως το LinkedIn και το Facebook. Μερικά από τα μεγαλύτερα γραφήματα γνώσης είναι της Microsoft, του ebay, της Google και του Facebook. Υπάρχουν όμως και ανοικτά γραφήματα ελεύθερης πρόσβασης όπως το Wikidata ή παλιότερα το Freebase. Οι ενσωματώσεις γραφημάτων γνώσεις, έχουν συγκεντρώσει μεγάλο ενδιαφέρον τα τελευταία χρόνια, επειδή μπορούν και αναπαριστούν την πληροφορία των γραφημάτων γνώσης με διανύσματα σε ένα χώρο χαμηλής διάστασης. Δεδομένου του ότι ζούμε στην εποχή των μεγάλων δεδομένων, η αναπαράσταση της πληροφορίας με διανύσματα και μάλιστα σε έναν χαμηλής διάστασης διανυσματικό χώρο, βοηθάει στην ευκολότερη διαχείριση και ανάλυση των γραφημάτων. Όμως, το γεγονός ότι η παραγωγή των ενσωματώσεων είναι άμεσα συνδεδεμένη με την εφαρμογή μηχανικής μάθησης στο γράφημα, σε συνδυασμό με το πρόβλημα που έχει εντοπιστεί τα τελευταία χρόνια μεταφοράς πληροφορίας μεροληψίας μέσω της μάθησης, οδηγεί σε ανησυχία για πιθανή μετάδοση πληροφορίας που σχετίζεται με τη μεροληψία στις ενσωματώσεις, και ίσως σε ενίσχυσή της από αυτές κατά τη χρήση τους. Σε αυτή την εργασία, μελετάμε συγκεκριμένα τη μεροληψία στις ενσωματώσεις των γραφημάτων γνώσης. Όσον αφορά τα δεδομένα στο γράφημα αναμένουμε ότι, εφόσον προέρχονται από την πραγματική ζωή στην οποία υπάρχει συχνά ανισότητα και αδικία, η πληροφορία που έχουν περιέχει μεροληψία. Για να εξακριβώσουμε αν αυτό όντως συμβαίνει, αλλά και να μετρήσουμε την μεροληψία αυτή στα δεδομένα, ορίζουμε δύο μετρικές. Μετά από σύγκριση των δύο μετρικών επιλέγουμε αυτή που θεωρούμε καταλληλότερη. Στη συνέχεια, για να εξετάσουμε αν η μεροληψία μεταφέρεται από τα δεδομένα στις ενσωματώσεις, αλλά και για να μετρήσουμε ποσοτικά και ποιοτικά τη μεροληψία αυτή, χρησιμοποιούμε δύο μεθόδους, μία μέθοδο βασισμένη σε προβολές και ένα παζλ βασισμένο σε αναλογίες. Ωστόσο ενδιαφερόμαστε επιπλέον εκτός από το να εντοπίσουμε αν η μεροληψία μεταδίδεται στις ενσωματώσεις, αν ενδεχομένως ενισχύεται από αυτές, για αυτό και χρησιμοποιούμε μία μέθοδο βασισμένη σε πρόβλεψη. Μια ακόμα ενδιαφέρουσα μελέτη που κάνουμε είναι όσον αφορά τη σχέση της δημοφιλίας και της ανισότητας στον πληθυσμό δύο ευαίσθητων τιμών, όπως αντρών – γυναικών στα δεδομένα, με τη μεροληψία στις ενσωματώσεις, αλλά και αν άλλες εφαρμογές όπως η συσταδοποίηση επηρεάζονται από τη μερεοληψία αυτή. Επειδή τα αποτελέσματα επιβεβαιώνουν την ανησυχία μας όσον αφορά τη μεροληψία και επειδή οι ενσωματώσεις των γραφημάτων γνώσης χρησιμοποιούνται ευρέως σε πολλές σημαντικές εφαρμογές, κρίνουμε στη συνέχεια αναγκαίο τον ορισμό μίας μεθόδου αφαίρεσης της πληροφορίας αυτής από τα διανύσματα. Η καινοτομία του έγκειται στη δυνατότητα επιλογής της ποσότητας της μεροληψίας που αφαιρείται και στη χρήση προ-εκπαιδευμένων ενσωματώσεων αντί της τροποποίησης του μοντέλου παραγωγής τους. Για να εξετάσουμε αν ισχύουν οι ισχυρισμοί μας, αλλά και για να αξιολογήσουμε τις μεθόδους μας χρησιμοποιούμε δύο πολύ γνωστά γραφήματα γνώσεων, το Wikidata και το FB13, και ένα σύνολο από συνθετικά γραφήματα. Χρησιμοποιούμε επιπλέον ενσωματώσεις που παράγουμε μέσω δύο διάσημων μοντέλων, του TransE και του TransH. Στην εργασία παρουσιάζουμε αναλυτικά όλα τα αποτελέσματα και τα συμπεράσματα από τα πειράματα μας. Είναι σημαντικό ότι οι μέθοδοι που προτείνουμε μπορούν εύκολα να επεκταθούν και να χρησιμοποιηθούν και σε άλλα γραφήματα, και σε ενσωματώσεις παραγόμενες από άλλα μοντέλα.	el
heal.advisorName	Πιτουρά, Ευαγγελία	el
heal.committeeMemberName	Πιτουρά, Ευαγγελία	el
heal.committeeMemberName	Βασιλειάδης, Παναγιώτης	el
heal.committeeMemberName	Τσαπάρας, Παναγιώτης	el
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.academicPublisherID	uoi	-
heal.numberOfPages	61 σ.	-
heal.fullTextAvailability	true	-
Appears in Collections:	Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ

Show simple item record

Files in This Item:

File	Description	Size	Format
Μ.Ε. BOURLI STYLIANI 2021.pdf		1.37 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License

Repository of UOI "Olympias"