Γιατί η ελληνική γλώσσα χρειάζεται μια εθνική και ευρωπαϊκή ανοικτή υποδομή δεδομένων
Η εκπαίδευση μεγάλων γλωσσικών μοντέλων βασίζεται σε τεράστιους όγκους κειμένου, όμως η ποσότητα χωρίς καθαρή αδειοδότηση και τεκμηριωμένη προέλευση δημιουργεί νομική αβεβαιότητα, περιορισμένη επαναχρησιμοποίηση και χαμηλή επιστημονική αξιοπιστία. Το German Commons αποτελεί σημείο καμπής: 154,56 δισ. tokens, 41 πηγές, επτά θεματικοί τομείς, με ρητές ανοικτές άδειες ανά τεκμήριο και πλήρως αναπαραγώγιμη διαδικασία παραγωγής.
Η αξία του German Commons δεν εξαντλείται στο μέγεθος. Βρίσκεται στη λογική της υποδομής: θεσμικοί πάροχοι, αυστηρή πολιτική αδειοδότησης, καθαρισμός, αποδιπλοποίηση, προστασία προσωπικών δεδομένων και ανοικτός κώδικας. Έτσι, το σώμα των κειμένων λειτουργεί ως κοινό αγαθό πάνω στο οποίο μπορούν να χτιστούν πραγματικά ανοικτά γλωσσικά μοντέλα, χωρίς εξαρτήσεις από αδιαφανή δεδομένα του διαδικτύου.
Η ελληνική γλώσσα έχει ακόμη μεγαλύτερες απαιτήσεις. Δεν είναι μία σύγχρονη μορφή, αλλά ένα συνεχές τριών χιλιετιών: αρχαία ελληνικά, κοινή, βυζαντινά, καθαρεύουσα, δημοτική, σύγχρονα ελληνικά, μαζί με διαλέκτους, διαφορετικά ορθογραφικά συστήματα και εξειδικευμένα υφολογικά επίπεδα. Η απουσία αυτής της διαχρονικής και κοινωνικής ποικιλίας από τα σύνολα εκπαίδευσης οδηγεί σε μοντέλα περιορισμένης κατανόησης και πολιτισμικής φτώχειας.
Σήμερα, υπάρχουν σημαντικοί ελληνικοί γλωσσικοί πόροι, αλλά είναι κατακερματισμένοι. Ερευνητικές υποδομές και ανοικτές πηγές δημόσιου τομέα, πολιτισμού και εκπαίδευσης παράγουν δεδομένα υψηλής αξίας, χωρίς όμως ενοποιημένη αρχιτεκτονική, ενιαία πολιτική αδειών και επαναχρησιμοποιήσιμα pipelines. Το κενό δεν είναι τεχνικό, αλλά θεσμικό και οργανωτικό.
Σε αυτό το πλαίσιο, ο ρόλος του GlossAPI είναι κομβικός. Το GlossAPI συγκροτεί μια ανοικτή υποδομή για «Greek AI-ready data», με εργαλεία ανοικτού κώδικα για συλλογή, καθαρισμό, τεκμηρίωση και διάθεση ελληνικών γλωσσικών δεδομένων. Οι αρχές του ευθυγραμμίζονται πλήρως με τη λογική ενός Greek Commons: διαφάνεια, ανοικτά πρότυπα, ηθική ΤΝ και συμμετοχική ανάπτυξη.
Πρόταση πολιτικής: Greek Commons ως δημόσια υποδομή
Το Greek Commons πρέπει να θεσμοθετηθεί ως εθνική υποδομή ψηφιακού κοινού αγαθού, με σαφή εντολή:
- να συγκεντρώνει και να ενοποιεί ελληνικά γλωσσικά δεδομένα από τον δημόσιο τομέα, την έρευνα, τον πολιτισμό και την εκπαίδευση,
- να επιβάλλει ρητές ανοικτές άδειες και τεκμηρίωση προέλευσης ανά τεκμήριο,
- να λειτουργεί με ανοικτό κώδικα και αναπαραγώγιμα pipelines,
- να είναι διαθέσιμο για ερευνητική, εκπαιδευτική και παραγωγική χρήση.
Σε ευρωπαϊκό επίπεδο, το Greek Commons πρέπει να ενταχθεί ως κόμβος σε μια ευρωπαϊκή ομοσπονδία γλωσσικών commons, σε συνέργεια με πρωτοβουλίες όπως τα Digital Commons και το Interoperable Europe. Έτσι, η ελληνική γλώσσα θα αποκτήσει ισότιμη παρουσία στο ευρωπαϊκό οικοσύστημα ΤΝ, ενισχύοντας τη γλωσσική πολυμορφία, την ψηφιακή κυριαρχία και την ανοικτή καινοτομία.
Πηγές άρθρου:
- The German Commons – 154 Billion Tokens of Openly Licensed Text for German Language Models. Πλήρης τεκμηρίωση της μεθοδολογίας, της αδειοδότησης και της διακυβέρνησης του German Commons, https://arxiv.org/html/2510.13996.
- German Commons Dataset (Hugging Face). Δημόσια διάθεση του corpus με μεταδεδομένα και άδειες, https://huggingface.co/datasets/coral-nlp/german-commons.
- CLARIN:EL – Εθνική Ερευνητική Υποδομή. Υποδομή για γλωσσικούς πόρους και εργαλεία για τα ελληνικά, https://www.clarin.gr.
- Εθνικός Θησαυρός Ελληνικής Γλώσσας (HNC). Μεγάλο σώμα σύγχρονων ελληνικών για έρευνα και τεχνολογία, https://hnc.ilsp.gr.
- GlossAPI – Σχετικά με εμάς. Στόχοι και αρχές της ανοικτής υποδομής για Greek AI-ready data, https://glossapi.gr/aboutus.html.