Please use this identifier to cite or link to this item:
https://olympias.lib.uoi.gr/jspui/handle/123456789/39579Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.author | Voudiotis, George | en |
| dc.contributor.author | Βουδιώτης, Γεώργιος | el |
| dc.date.accessioned | 2025-10-27T11:13:14Z | - |
| dc.date.available | 2025-10-27T11:13:14Z | - |
| dc.identifier.uri | https://olympias.lib.uoi.gr/jspui/handle/123456789/39579 | - |
| dc.rights | Default License | - |
| dc.subject | Computer Vision, Handwritten Document Analysis, Keyword Spotting, Handwritten Text Recognition (HTR), Optical Character Recognition (OCR), Sentence Retrieval, Segmentation-based Retrieval, Large Language Models (LLMs) Seq2Seq | en |
| dc.title | From Handwritten Keyword Spotting to Query-Guided Sentence Retrieval in Document Images using Large Language Models | en |
| dc.title | Από τον Εντοπισμό Λέξεων στην Καθοδηγούμενη από Ερώτημα Ανάκτηση Προτάσεων σε Εικόνες Χειρόγραφων Κειμένων με χρήση Μεγάλων Γλωσσικών Μοντέλων | el |
| dc.type | masterThesis | en |
| heal.type | masterThesis | el |
| heal.type.en | Master thesis | en |
| heal.type.el | Μεταπτυχιακή εργασία | el |
| heal.classification | Computer Vision, Content-based Visual Information Retrieval, Handwritten Text Recognition (HTR), Language Models, Keyword Spotting | |
| heal.dateAvailable | 2025-10-27T11:14:14Z | - |
| heal.language | en | el |
| heal.access | free | el |
| heal.recordProvider | Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή | el |
| heal.recordProvider | Computer Science and Engineering, University of Ioannina | en |
| heal.publicationDate | 2025-10 | - |
| heal.abstract | George Voudiotis, M.Sc. in Data and Computer Systems Engineering, Department of Computer Science and Engineering, School of Engineering, University of Ioannina, Greece, 2025. From Handwritten Keyword Spotting to Query-Guided Sentence Retrieval in Document Images using Large Language Models. Advisor: Christophoros Nikou, Professor. This thesis presents a novel sentence-level retrieval framework that extends traditional handwritten Keyword Spotting (KWS) toward contextual understanding of historical document images. Conventional KWS methods identify isolated word occurrences based solely on visual similarity, without capturing the surrounding linguistic context. In contrast, the proposed system integrates visual retrieval, selective transcription, and reasoning through Large Language Models (LLMs) to reconstruct coherent sentences from handwritten sources. The pipeline begins with a segmentation-based Seq2Seq KWS model that produces a ranked list of visually similar word images for a given query. For each of the top-k ranked results produced by the baseline keyword spotter, a local neighbourhood is examined around the detected hit. Only the word images within this neighbourhood, determined either by a fixed or dynamically estimated window, are transcribed through Handwritten Text Recognition (HTR) using the Seq2Seq and TrOCR architectures. This selective transcription strategy enables efficient, localized processing instead of full-page transcription. In the first case, a tuneable fixed-size symmetric window determines the sentence length, whereas when the dynamic window approach is concerned, an LLM-based mechanism estimates how many left and right neighbouring words should be included to form a complete sentence. Within the dynamic windowing framework two distinct techniques are explored: (a) few-shot prompting, which infers neighbourhood boundary lengths from the target word alone and (b) segment-based prompting, where a short local fragment guides the model’s boundary prediction. Both dynamic strategies employ pre-trained (few-shot) and fine-tuned LLaMA 3.2-3B and Mistral 7B models adapted via Low-Rank Adaptation (LoRA) to iteratively refine candidate sentences. Experimental evaluation on the IAM handwriting dataset demonstrates that dynamic windowing significantly outperforms the fixed-size approach. Using the segmentbased strategy, the system achieves BLEU = 77.7% and BERTScore = 85.0% on Seq2Seq transcriptions, confirming its ability to generate syntactically coherent and semantically faithful sentence hypotheses. Additional tests with TrOCR further validate robustness under noisier transcriptions. Although the segment-based configuration incurs higher computational cost, it delivers superior accuracy and contextual completeness compared to both fixed and few-shot strategies. Overall, this work bridges image-based retrieval and language-based reasoning, introducing a scalable framework for Query-Guided Sentence Retrieval, and demonstrating how document summarization can be approached as a reduced sentence concatenation task derived from reconstructed textual segments. Beyond improving access to historical handwritten archives, it provides a foundation for future multimodal systems combining visual understanding, selective OCR, and generative language modeling. | en |
| heal.abstract | Γεώργιος Βουδιώτης, Δ.Μ.Σ. στη Μηχανική Δεδομένων και Υπολογιστικών Συστημάτων, Τμήμα Μηχανικών Η/Υ και Πληροφορικής, Πολυτεχνική Σχολή, Πανεπιστήμιο Ιωαννίνων, 2025. Από τον Εντοπισμό Λέξεων στην Καθοδηγούμενη από Ερώτημα Ανάκτηση Προτάσεων σε Εικόνες Χειρόγραφων Κειμένων με χρήση Μεγάλων Γλωσσικών Μοντέλων. Επιβλέπων: Χριστόφορος Νίκου, Καθηγητής. Η αναζήτηση πληροφοριών σε χειρόγραφα ιστορικά έγγραφα αποτελεί ένα από τα πιο απαιτητικά πεδία της σύγχρονης Υπολογιστικής Όρασης και της Επεξεργασίας Φυσικής Γλώσσας. Παρά την πρόοδο που έχει σημειωθεί στην αυτόματη μεταγραφή και στην αναζήτηση λέξεων (Keyword Spotting – KWS), οι υπάρχουσες προσεγγίσεις εντοπίζουν μεμονωμένες λέξεις ή φράσεις βασισμένες αποκλειστικά σε οπτική ομοιότητα, χωρίς να ανακτούν το γλωσσικό πλαίσιο και τα συμφραζόμενα μέσα στα οποία αυτές εμφανίζονται. Ως αποτέλεσμα, ο χρήστης λαμβάνει αποσπασματική πληροφορία που δεν επιτρέπει βαθύτερη κατανόηση του περιεχομένου ή αυτοματοποιημένες διαδικασίες, όπως η περίληψη εγγράφων. Η παρούσα μεταπτυχιακή διατριβή προτείνει ένα νέο πλαίσιο αναζήτησης σε επίπεδο πρότασης (sentence-level retrieval framework), το οποίο επεκτείνει το πρόβλημα του Keyword Spotting (KWS) προς τη νοηματική κατανόηση και ανακατασκευή συμφραζομένων. Στόχος είναι η μετατροπή των αποτελεσμάτων ενός παραδοσιακού συστήματος εντοπισμού λέξεων, που συνήθως αποτελούνται από λίστες οπτικά παρόμοιων εμφανίσεων, σε συνεκτικές προτάσεις που αποτυπώνουν το περιεχόμενο και τα συμφραζόμενα του χειρόγραφου κειμένου. Οι μέθοδοι KWS έχουν γνωρίσει ραγδαία εξέλιξη, ιδιαίτερα μετά την υιοθέτηση βαθιών συνελικτικών και ακολουθιακών αρχιτεκτονικών όπως τα CNN και τα Seq2Seq μοντέλα. Παρόλα αυτά, τα αποτελέσματά τους παραμένουν περιορισμένα σε μεμονωμένες λέξεις ή μικρές φράσεις, αγνοώντας τη σύνταξη και τη συνοχή του κειμένου. Επιπλέον, τα ιστορικά χειρόγραφα χαρακτηρίζονται από υψηλή ποικιλομορφία γραφής, θόρυβο και φθορά λόγω παλαιότητας, γεγονός που επιδεινώνει την απόδοση των συστημάτων πλήρους οπτικής αναγνώρισης (Handwritten Text Recognition - HTR). Ως εκ τούτου, απαιτούνται πιο προηγμένες μέθοδοι που συνδυάζουν οπτικά και γλωσσικά χαρακτηριστικά. Η προτεινόμενη μεθοδολογία βασίζεται σε μια πολυεπίπεδη υπολογιστική δομή (pipeline) που περιλαμβάνει τέσσερα κύρια στάδια: (α) οπτική ανάκτηση λέξεων μέσω ενός μοντέλου Seq2Seq, (β) επιλεκτική μεταγραφή (Selective HTR) μόνο στο τοπικό γειτονικό πλαίσιο της ανιχνευμένης λέξης, (γ) δυναμική παραθυροποίηση (Dynamic Windowing) με χρήση Μεγάλων Γλωσσικών Μοντέλων (LLMs), και (δ) τελική διόρθωση και σύνθεση πρότασης. Στο πρώτο στάδιο, το μοντέλο Seq2Seq εκτελεί αναζήτηση τύπου Query-by-Example (QbE), παράγοντας ταξινομημένες λίστες από λέξεις που είναι οπτικά παρόμοιες με το ερώτημα. Στη συνέχεια, το σύστημα μεταγράφει μόνο τις λέξεις που βρίσκονται μέσα σε ένα καθορισμένο παράθυρο γύρω από το αποτέλεσμα, χρησιμοποιώντας τα μοντέλα Seq2Seq και TrOCR. Η επιλεκτική αυτή μεταγραφή μειώνει δραστικά το υπολογιστικό κόστος σε σχέση με την πλήρη μεταγραφή σελίδων. Το τρίτο στάδιο, και το πιο καινοτόμο, αφορά στη δυναμική εκτίμηση του μεγέθους του παραθύρου με χρήση LLMs. Εξετάζονται δύο στρατηγικές: (α) η μέθοδος few-shot prompting, όπου το μοντέλο προβλέπει τον αριθμό των λέξεων αριστερά και δεξιά βασιζόμενο μόνο στη λέξη-στόχο, και (β) η μέθοδος segment-based prompting, όπου παρέχεται στο LLM ένα μικρό αποσπασματικό συμφραζόμενο για ακριβέστερη εκτίμηση των ορίων. Χρησιμοποιούνται προεκπαιδευμένα και προσαρμοσμένα μέσω Low-Rank Adaptation (LoRA) μοντέλα LLaMA 3.2-3B και Mistral 7B, τα οποία βελτιστοποιούνται για την ανακατασκευή προτάσεων από χειρόγραφα δεδομένα. Στο τελικό στάδιο, το σύστημα συνθέτει και διορθώνει τις μεταγραμμένες προτάσεις, εξαλείφοντας σφάλματα και εξασφαλίζοντας συντακτική και νοηματική συνοχή. Το αποτέλεσμα είναι η παραγωγή υποψήφιων προτάσεων (sentence hypotheses) που αποτυπώνουν με ακρίβεια τα συμφραζόμενα του ερωτήματος, προσφέροντας ένα ενδιάμεσο βήμα προς σημασιολογική αναζήτηση ή αυτόματη περίληψη. Η αξιολόγηση πραγματοποιήθηκε στο σύνολο δεδομένων IAM Handwriting Database, το οποίο περιλαμβάνει περισσότερες από 100.000 εικόνες λέξεων. Δοκιμάστηκαν τρεις στρατηγικές παραθυροποίησης, σταθερή, few-shot και segment-based, καθώς και δύο μοντέλα μεταγραφής, Seq2Seq και TrOCR. Τα αποτελέσματα έδειξαν ότι η δυναμική παραθυροποίηση υπερτερεί σαφώς της σταθερής. Η μέθοδος segment-based επιτυγχάνει BLEU = 77.7% και BERTScore = 85.0% στις μεταγραφές του Seq2Seq, αποδεικνύοντας ότι το σύστημα μπορεί να παράγει συντακτικά ορθές και νοηματικά συνεκτικές προτάσεις. Παρά το αυξημένο υπολογιστικό κόστος, η συγκεκριμένη προσέγγιση προσφέρει ανώτερη ακρίβεια και πληρότητα συμφραζομένων. Η εργασία αποδεικνύει ότι ο συνδυασμός οπτικής ανάκτησης και γλωσσικής κατανόησης μπορεί να επεκτείνει δραστικά τις δυνατότητες των συστημάτων KWS. Με τη χρήση Μεγάλων Γλωσσικών Μοντέλων, η αναζήτηση μπορεί να περάσει από το επίπεδο της λέξης στο επίπεδο της πρότασης, προσφέροντας πλουσιότερη και περισσότερο σημασιολογική πρόσβαση σε ιστορικά δεδομένα. Το προτεινόμενο σύστημα μειώνει τον υπολογιστικό φόρτο μέσω επιλεκτικής μεταγραφής, αυξάνει την ακρίβεια ανακατασκευής προτάσεων και θέτει τη βάση για μελλοντική αυτόματη περίληψη εγγράφων. Μελλοντικές επεκτάσεις περιλαμβάνουν την εφαρμογή της μεθόδου σε πολυγλωσσικά χειρόγραφα σύνολα δεδομένων, την ενοποίηση με layout analysis για αναγνώριση άρθρων ή παραγράφων, καθώς και την ανάπτυξη μηχανισμών αυτόματης περίληψης ή εννοιολογικής αναζήτησης βασισμένων σε πολυτροπικές αναπαραστάσεις (όπως CLIP και BLIP). Συνολικά, η διατριβή εισάγει ένα πλήρως λειτουργικό και επεκτάσιμο σύστημα ανάκτησης προτάσεων από χειρόγραφα έγγραφα, το οποίο αξιοποιεί τη δύναμη των Μεγάλων Γλωσσικών Μοντέλων για τη σύνθεση και κατανόηση φυσικής γλώσσας. Η συνεισφορά της είναι διττή: τεχνικά, αποδεικνύει τη βιωσιμότητα της μετάβασης από το KWS στο sentence-level retrieval, και επιστημονικά, ανοίγει τον δρόμο για νέα εργαλεία στην ψηφιακή ανθρωπιστική έρευνα, την τεκμηρίωση πολιτιστικής κληρονομιάς και τη σημασιολογική αναζήτηση σε ιστορικά αρχεία. | el |
| heal.advisorName | Nikou, Christophoros | en |
| heal.committeeMemberName | Nikou, Christophoros | en |
| heal.committeeMemberName | Blekas, Konstantinos | en |
| heal.committeeMemberName | Kondis, Lisimachos-Paul | en |
| heal.academicPublisher | Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής | el |
| heal.academicPublisher | University of Ioannina. School of Engineering. Department of Computer Science & Engineering | en |
| heal.academicPublisherID | uoi | el |
| heal.fullTextAvailability | true | - |
| Appears in Collections: | Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| MSc Thesis - Voudiotis George.pdf | 2.61 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.