GRDD+: Ένα εκτεταμένο γλωσσικό σύνολο ελληνικών διαλέκτων στην εποχή των LLMs

Όταν τα LLMs συναντούν τις διαλέκτους

Η σύγχρονη ελληνική δεν είναι μια ενιαία, ομοιογενής γλώσσα. Από την Κρήτη και την Κύπρο μέχρι τα Ποντιακά, τα Επτανησιακά και την Τσακωνική, ο ελληνικός χώρος χαρακτηρίζεται από πλούσια διαλεκτική ποικιλία, με έντονες γεωγραφικές και ιστορικές διαφοροποιήσεις.

Την ίδια στιγμή, τα μεγάλα γλωσσικά μοντέλα (LLMs) κυριαρχούν στο πεδίο της επεξεργασίας φυσικής γλώσσας. Όμως, παρά την εντυπωσιακή τους απόδοση στη «στάνταρ» γλώσσα, τα μοντέλα αυτά δυσκολεύονται σημαντικά όταν έρχονται αντιμέτωπα με διαλέκτους, ειδικά σε γλώσσες χαμηλών πόρων όπως τα ελληνικά.

Το GRDD+ (Greek Dialectal Dataset Plus) έρχεται να γεφυρώσει αυτό το κενό: αποτελεί ένα εκτεταμένο, πολυδιαλεκτικό γλωσσικό σύνολο σχεδιασμένο ώστε να επιτρέψει συστηματική μελέτη και fine-tuning LLMs πάνω σε ελληνικές διαλέκτους.

Τι είναι το GRDD+;

Το GRDD+ είναι η διευρυμένη εκδοχή του αρχικού GRDD corpus και περιλαμβάνει πλέον:

  • 10 ποικιλίες (διαλέκτους και γλωσσικές μορφές),
  • 6.374.939 λέξεις συνολικά,
  • συνδυασμό παλαιών και νέων δεδομένων, από Ελλάδα, Κύπρο και ιταλικό/κορσικανικό χώρο.

Από τις τέσσερις αρχικές διαλέκτους του GRDD:

  • Κρητικά,
  • Ποντιακά,
  • Κυπριακά,
  • Βόρεια Ελληνικά,

το GRDD+ επεκτείνει σημαντικά την κάλυψη και προσθέτει έξι ακόμη ποικιλίες:

  • Greco-Corsican (ελληνική ποικιλία στην Κορσική, πλέον νεκρή),
  • Griko (ελληνοϊταλική ποικιλία στη Νότια Ιταλία),
  • Επτανησιακά,
  • Τσακωνικά,
  • Μανιάτικα,
  • Καθαρεύουσα,
    καθώς και ένα εξειδικευμένο υποσύνολο CretDeiAdv με κρητικά επιρρήματα δείξης.

Πρόκειται για το πρώτο ελληνικό διαλεκτικό dataset τέτοιου μεγέθους και ποικιλίας, ικανό να υποστηρίξει σοβαρή έρευνα στη διαλεκτολογία, την κοινωνιογλωσσολογία και, κρίσιμα πλέον, τη διάλεκτο-ευαίσθητη ΤΝ.

Πώς συλλέχθηκαν και οργανώθηκαν τα δεδομένα;

Η ομάδα πίσω από το GRDD+ βασίστηκε σε ελεύθερα διαθέσιμες πηγές από τον ιστό και από ψηφιοποιημένα βιβλία. Χρησιμοποιήθηκαν:

  • blogs, λογοτεχνικά και λαογραφικά κείμενα, τραγούδια, ποιήματα, παραμύθια, διάλογοι, μεταφράσεις σε διαλέκτους,
  • βιβλία (ιδίως για Greco-Corsican, Griko, Επτανησιακά, Μανιάτικα, Ποντιακά),
  • OCR με Google Cloud Vision για την εξαγωγή κειμένου από έντυπες πηγές,
  • βήματα προεπεξεργασίας (αφαίρεση αριθμών, URLs, ειδικών χαρακτήρων, διπλότυπων γραμμών, κ.λπ.).

Το αποτέλεσμα είναι ένα corpus που διπλασίασε περίπου το μέγεθος του αρχικού GRDD (από ≈3,1M σε ≈6,4M λέξεις) και καλύπτει:

  • μεγάλες, ζωντανές διαλέκτους (Κρητικά, Κυπριακά, Ποντιακά),
  • μικρότερες ή απειλούμενες ποικιλίες (Griko, Τσακωνικά, Greco-Corsican),
  • ιστορικές/λόγιες μορφές όπως η Καθαρεύουσα.

Έτσι, το GRDD+ δεν είναι μόνο τεχνικό dataset· λειτουργεί και ως εργαλείο γλωσσικής τεκμηρίωσης.

Από το corpus στα LLMs: πειράματα fine-tuning

Το πιο φιλόδοξο μέρος της δουλειάς είναι η συστηματική αξιολόγηση του πώς καλό, στοχευμένο διαλεκτικό data μπορεί να βελτιώσει LLMs.

Οι συγγραφείς:

  • δημιούργησαν ένα fine-tuning dataset με ~26.000 παραδείγματα από τέσσερις διαλέκτους (Κρητικά, Ποντιακά, Βόρεια, Κυπριακά),
  • χρησιμοποίησαν παράθυρο 100 λέξεων και instruction templates για να δημιουργήσουν prompt–completion ζεύγη σε κάθε διάλεκτο,
  • fine-tuned τρεις αρχιτεκτονικές 8B:
    • Llama-3-8B,
    • Llama-3.1-8B,
    • Krikri-8B (εξειδικευμένο ελληνικό LLM).

Για αποτελεσματική προσαρμογή χρησιμοποιήθηκε LoRA (παραμετρο-αποδοτικό fine-tuning), ώστε να τροποποιείται μόνο ένα μικρό ποσοστό των παραμέτρων κάθε μοντέλου.

Στη συνέχεια, τα fine-tuned μοντέλα συγκρίθηκαν:

  • με τις base εκδόσεις τους,
  • και με frontier μοντέλα: ChatGPT-5, Claude-3.7-Sonnet, Gemini-2.5-Pro.

Πώς αξιολογήθηκαν τα μοντέλα;

Η αξιολόγηση δεν έγινε αυτόματα, αλλά με φυσικούς ομιλητές των διαλέκτων. Για κάθε διάλεκτο:

  • ζητήθηκαν 7 διαφορετικά είδη παραγωγής κειμένου (μικρές/μεσαίες/μεγάλες ιστορίες, διάλογος, δημιουργική γραφή),
  • κάθε μοντέλο παρήγαγε 7 κείμενα,
  • οι αξιολογητές βαθμολόγησαν τη «φυσικότητα» και τη διαλεκτική γνησιότητα σε κλίμακα 1–5 (1 = καθόλου διαλεκτικό, 5 = απολύτως φυσικό).

Τα αποτελέσματα έδειξαν:

  • μέτρια, αλλά αποδεκτή συμφωνία στις απόλυτες τιμές (Krippendorff’s α ≈ 0,37–0,55),
  • πολύ υψηλή συμφωνία στις σχετικές συγκρίσεις (ICC έως 0,96),
    γεγονός που επιβεβαιώνει ότι οι μέσοι όροι ανά μοντέλο είναι αξιόπιστοι για σύγκριση.

Τι έδειξαν τα αποτελέσματα;

Ορισμένα ευρήματα είναι ιδιαίτερα σημαντικά για όποιον ενδιαφέρεται για ελληνικά LLMs:

1. Τα base μοντέλα είναι ουσιαστικά «τυφλά» στις διαλέκτους

Οι εκδόσεις χωρίς fine-tuning (Llama-3, Llama-3.1, Krikri-8B) είχαν σχεδόν μηδενική διαλεκτική ικανότητα, με μέσους όρους γύρω στο 1–1,5/5.

2. Το fine-tuning σε διαλεκτικά δεδομένα βοηθά θεαματικά

Όλα τα fine-tuned μοντέλα βελτιώθηκαν κατά ≈1,5–2 βαθμούς στην κλίμακα 1–5. Δηλαδή, από «καθόλου φυσικό» σε «αρκετά έως πολύ φυσικό» κείμενο.

3. Το «ελληνικό» μοντέλο Krikri δεν είναι πάντα πρώτο

Παρότι το Krikri-8B είναι εκπαιδευμένο σε πολύ μεγάλα ελληνικά corpora, δεν κυριάρχησε στις διαλέκτους:

  • ήταν πρώτο μόνο σε Βόρεια Ελληνικά,
  • δεύτερο ή τρίτο σε άλλες διαλέκτους.
    Αυτό δείχνει ότι η στοχοθετημένη διαλεκτική προσαρμογή μπορεί να είναι πιο σημαντική από τη γενική «ελληνικότητα» του μοντέλου.

4. Τα frontier μοντέλα δεν είναι άτρωτα

  • Το Claude-3.7-Sonnet είχε σταθερά πολύ καλή απόδοση και συχνά κορυφαία (π.χ. σε Κρητικά και Βόρεια).
  • Το ChatGPT-5 είχε αξιοπρεπείς αλλά άνισες επιδόσεις.
  • Το Gemini-2.5-Pro τα πήγε γενικά μέτρια έως αδύναμα στις διαλέκτους.

Σε αρκετές περιπτώσεις, ένα καλά fine-tuned 8B μοντέλο ξεπερνά frontier μοντέλα σε συγκεκριμένη διάλεκτο – κρίσιμη διαπίστωση για εφαρμογές με περιορισμένους πόρους.

5. Το μέγεθος του dataset δεν είναι ο μόνος παράγοντας

Παράδοξο αλλά ενδιαφέρον:

  • τα Βόρεια Ελληνικά, με μόλις 333 παραδείγματα για fine-tuning, πέτυχαν πολύ καλές βαθμολογίες,
  • τα Ποντιακά, με πολύ περισσότερα δεδομένα, είχαν χαμηλότερες επιδόσεις.

Αυτό ανοίγει τη συζήτηση για:

  • τη γλωσσική απόσταση από τη Κοινή Νέα Ελληνική,
  • την ποιότητα και ομοιογένεια των δεδομένων,
    όχι μόνο την ποσότητα.

Περιορισμοί και επόμενα βήματα

Οι συγγραφείς αναγνωρίζουν σημαντικούς περιορισμούς:

  • Ανισορροπία δεδομένων μεταξύ διαλέκτων,
  • υποκειμενικότητα στις αξιολογήσεις φυσικών ομιλητών,
  • περιορισμός σε τρία μοντέλα 8B και μία LoRA ρύθμιση,
  • απουσία τυποποιημένων μετρικών «γλωσσικής απόστασης» μεταξύ διαλέκτων και στάνταρ ποικιλίας.

Τα επόμενα βήματα περιλαμβάνουν:

  • fine-tuning και στις έξι νέες ποικιλίες του GRDD+,
  • δοκιμή επιπλέον αρχιτεκτονικών (Mistral, Gemma κ.ά.),
  • ανάπτυξη αυτόματων μετρικών αξιολόγησης διαλεκτικής ποιότητας,
  • επέκταση του corpus και καλύτερη κατηγοριοποίηση ανά είδος κειμένου και κοινωνιογλωσσικά χαρακτηριστικά.

Γιατί μας αφορά στο ελληνόφωνο οικοσύστημα ΤΝ

Το GRDD+ και τα αντίστοιχα πειράματα fine-tuning δείχνουν κάτι πολύ πρακτικό:

Ακόμη και μικρές ποσότητες στοχευμένων, ποιοτικών διαλεκτικών δεδομένων μπορούν να μεταμορφώσουν την επίδοση ενός LLM σε διαλέκτους.

Για την ελληνική κοινότητα ΤΝ, αυτό σημαίνει ότι:

  • μπορούμε να χτίσουμε εξειδικευμένα μοντέλα για ελληνικές διαλέκτους χωρίς να χρειαζόμαστε τεράστια υπολογιστική ισχύ,
  • μπορούμε να υποστηρίξουμε καλύτερα γλωσσική ποικιλία, πολιτιστική κληρονομιά και τοπικές κοινότητες μέσα από την ΤΝ,
  • μπορούμε να φανταστούμε εφαρμογές (π.χ. chatbots, ψηφιακά αρχεία, εκπαιδευτικά εργαλεία) που μιλούν πραγματικά τη γλώσσα και τις διαλέκτους των χρηστών τους.

Το GRDD+ δεν είναι απλώς ένα ακόμη dataset, είναι μια υποδομή αναφοράς για όποιον θέλει να πάρει στα σοβαρά την ελληνική διαλεκτική ποικιλία στην εποχή των μεγάλων γλωσσικών μοντέλων.

Πηγή άρθρου: arxiv.org