Η έγκριση που αλλάζει κατηγορία για το GlossAPI
Η έγκριση της πρότασης «Enhancing multilingual foundation models through lexicographic grounding: advancing GlossAPI for Apertus Greek language integration» από το Swiss AI Initiative δεν είναι μια ακόμη επιτυχία χρηματοδότησης. Είναι μια έμπρακτη αναγνώριση ότι η ελληνική γλώσσα μπορεί και πρέπει να αντιμετωπίζεται ως κρίσιμη ψηφιακή υποδομή. Σύμφωνα με την έγκριση, το έργο θα υποστηριχθεί με 50.000 GPU hours στην υπερυπολογιστική υποδομή Alps. Το ίδιο το Swiss AI Initiative περιγράφει την αποστολή του ως επένδυση σε υποδομές για γλωσσικά μοντέλα, βασισμένα στον υπερυπολογιστή Alps του CSCS και σε μια λογική ανοικτής επιστήμης και ανοικτού κώδικα.
Η σημασία αυτής της απόφασης είναι διπλή. Από τη μία πλευρά, επιβεβαιώνει ότι το πρόβλημα της γλωσσικής ανισότητας στα μεγάλα γλωσσικά μοντέλα είναι πραγματικό. Από την άλλη, δείχνει ότι η απάντηση δεν είναι να περιμένουμε από ξένες, κλειστές πλατφόρμες να “θυμηθούν” την ελληνική. Η απάντηση είναι να οικοδομήσουμε ανοιχτές, τεκμηριωμένες και επαναχρησιμοποιήσιμες γλωσσικές υποδομές, ώστε η ελληνική να ενσωματώνεται ισότιμα στις νέες γενιές μοντέλων. Η διεθνής βιβλιογραφία δείχνει ότι τα μοντέλα υποαποδίδουν σε γλώσσες με σύνθετη μορφολογία όταν λείπουν επαρκή και κατάλληλα δεδομένα, ενώ οι πολυγλωσσικές αρχιτεκτονικές συχνά μεταφέρουν αγγλοκεντρικές προκαταλήψεις στη σύνταξη και στη σημασιολογία.
Γιατί το GlossAPI είναι κοινή υποδομή και όχι απλώς ένα έργο
Το GlossAPI δεν έχει αξία μόνο ως τεχνική λύση. Η πραγματική του σημασία είναι ότι λειτουργεί ως κοινή υποδομή για την ελληνική γλώσσα στην εποχή της Τεχνητής Νοημοσύνης. Η ΕΕΛΛΑΚ περιγράφει το GlossAPI ως ανοιχτή βιβλιοθήκη και τεχνική υποδομή για τη δημιουργία, επεξεργασία και δημοσίευση έτοιμων προς χρήση σύνολων δεδομένων για εκπαίδευση Μεγάλων Γλωσσικών Μοντέλων, ενώ υπάρχουν ήδη 15 δημοσιευμένα σύνολα δεδομένων με ανοικτή τεκμηρίωση και προσανατολισμό στη διαφάνεια, στη συμμετοχή και στα ανοικτά πρότυπα.
Αυτό σημαίνει ότι η νέα συνεργασία με το ελβετικό οικοσύστημα Apertus δεν ενισχύει μόνο ένα μοντέλο. Ενισχύει έναν μηχανισμό παραγωγής γλωσσικών πόρων που μπορεί να αξιοποιηθεί από πανεπιστήμια, ερευνητές, δημόσιους φορείς, εκδότες, δημοσιογράφους, εκπαιδευτικά ιδρύματα και ελληνικές επιχειρήσεις τεχνολογίας. Το κρίσιμο εδώ είναι η μετατόπιση από ένα αποσπασματικό αρχείο σε μια σταθερή υποδομή αναφοράς: λεξικογραφικά δεδομένα, μορφολογική γνώση, ετυμολογικά στοιχεία, δείκτες απόδοσης, τεκμηρίωση, άδειες ανοικτής χρήσης και επαναλήψιμες ροές παραγωγής. Αυτή ακριβώς είναι η λογική μιας ψηφιακής κοινής ωφέλειας.
Τι θα αλλάξει πρακτικά για την ελληνική γλώσσα
Η πρόταση που εγκρίθηκε στοχεύει στην ενσωμάτωση λεξικογραφικής γνώσης του GlossAPI στην πολυγλωσσική ρύθμιση του Apertus για την παραγωγή ανοικτών πολυγλωσσικών δεδομένων αξιολόγησης για ελληνικά, καθώς και στη δημοσίευση συνόλων δεδομένων, δεικτών απόδοσης και σημείων ελέγχου(checkpoints) με ανοικτές άδειες. Αυτή η κατεύθυνση συνδέεται άμεσα με το πλεονέκτημα των ανοιχτών βασικών μοντέλων(foundation models): διαφάνεια στη διαδικασία εκπαίδευσης, δυνατότητα ελέγχου, δυνατότητα επαναχρησιμοποίησης και προσαρμογής για δημόσιο συμφέρον. Το Apertus, όπως παρουσιάστηκε από ETH Zurich και CSCS, βασίζεται ακριβώς σε αυτή την αρχιτεκτονική διαφάνειας, με ανοικτά βάρη, τεκμηρίωση και συμμόρφωση με απαιτήσεις προστασίας δεδομένων και διαφάνειας.
Για το GlossAPI, τα οφέλη είναι άμεσα και μακροπρόθεσμα. Άμεσα, αποκτά πρόσβαση σε υπολογιστική ισχύ που επιτρέπει σοβαρή πειραματική εργασία σε διανυσματικές αναπαραστάσεις, στη σημασιολογική ευθυγράμμιση και στην αξιολόγηση που λαμβάνει υπόψη τη μορφολογία της γλώσσας. Μακροπρόθεσμα, αποκτά θεσμικό βάρος ως σημείο αναφοράς για την ελληνική γλώσσα σε διεθνή συστήματα ΤΝ. Με απλά λόγια, η ελληνική παύει να είναι απλός “χρήστης” ξένων μοντέλων και αρχίζει να γίνεται συνδιαμορφωτής τους.
Μια ευκαιρία ψηφιακής κυριαρχίας για την Ελλάδα
Η μεγαλύτερη αξία της έγκρισης ίσως βρίσκεται αλλού. Δείχνει ότι η γλωσσική τεχνολογία για τα ελληνικά δεν χρειάζεται να οργανώνεται μόνο γύρω από αγορές αδειών, ιδιωτικά API και κλειστές πλατφόρμες. Μπορεί να οικοδομηθεί ως ανοιχτό οικοσύστημα ευρωπαϊκής συνεργασίας, με πανεπιστημιακή εποπτεία, ανοιχτά δεδομένα, ανοιχτά μοντέλα και διαφανείς διαδικασίες. Σε μια περίοδο όπου η ψηφιακή κυριαρχία της Ευρώπης εξαρτάται όλο και περισσότερο από τις υποδομές ΤΝ, το GlossAPI μπορεί να λειτουργήσει ως ο δημόσιος γλωσσικός πυρήνας που θα στηρίξει εφαρμογές στην εκπαίδευση, στην έρευνα, στη διοίκηση, στον πολιτισμό και στη δημοκρατική συμμετοχή.
Η έγκριση, λοιπόν, δεν είναι μόνο μια επιτυχία του GlossAPI. Είναι μια απόδειξη ότι η ελληνική γλώσσα μπορεί να αποκτήσει θέση στο ευρωπαϊκό μέλλον της αξιόπιστης και ανοιχτής Τεχνητής Νοημοσύνης, όχι ως περιφερειακή εξαίρεση αλλά ως ισότιμο πεδίο καινοτομίας.
Πηγές
Swiss AI Initiative, επίσημη περιγραφή της πρωτοβουλίας, της αποστολής της και της σύνδεσής της με τον υπερυπολογιστή Alps. https://www.swiss-ai.org/,
ETH Zurich, Apertus: a fully open, transparent, multilingual language model, επίσημη παρουσίαση του Apertus ως ανοικτού πολυγλωσσικού μοντέλου με έμφαση στη διαφάνεια, στα ανοικτά βάρη και στη συμμόρφωση. https://ethz.ch/en/news-and-events/eth-news/news/2025/09/press-release-apertus-a-fully-open-transparent-multilingual-language-model.html,
CSCS, Press Releases, επίσημη δημοσίευση για το Apertus και το Alps. https://www.cscs.ch/publications/press-releases,
GFOSS, περιγραφή του GlossAPI ως ανοικτής τεχνικής υποδομής για έτοιμα προς χρήση σύνολα δεδομένων για εκπαίδευση Μεγάλων Γλωσσικών Μοντέλων. https://glossapi.gr/,
GlossAPI, ιστοσελίδα του έργου. https://glossapi.gr/,
Arnett, C. & Bergen, B. (2024), Why do language models perform worse for morphologically complex languages?, ερευνητική εργασία για τις επιδόσεις των μοντέλων σε γλώσσες με πλούσια μορφολογία. https://arxiv.org/abs/2411.14198,
Papadimitriou, I. et al. (2022), Multilingual BERT has an accent, μελέτη για τις προκαταλήψεις σε πολυγλωσσικά μοντέλα και ειδική αναφορά στα ελληνικά. https://arxiv.org/abs/2210.05619,
Bommasani, R. et al. (2021), On the Opportunities and Risks of Foundation Models, κλασική αναφορά για τις δυνατότητες και τους κινδύνους των foundation models. https://arxiv.org/abs/2108.07258.