GlossAPI: Ανοικτή Υποδομή για Ελληνικά Δεδομένα έτοιμα προς χρήση – glossAPI

Προς ένα διαφανές και συμμετοχικό οικοσύστημα ελληνικής γλωσσικής τεχνολογίας

Το GlossAPI ως δημόσια υποδομή για την ελληνική γλώσσα στην εποχή της Τεχνητής Νοημοσύνης

Η Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού Κώδικα, η ΕΕΛΛΑΚ, αποτελεί έναν από τους πιο δραστήριους οργανισμούς στην Ελλάδα στον χώρο των ανοιχτών τεχνολογιών, της ψηφιακής διακυβέρνησης και των ψηφιακών κοινών. Ως μη κερδοσκοπικός φορέας, προωθεί συστηματικά την ανοιχτότητα, τη διαφάνεια, τη συνεργατική καινοτομία και την υιοθέτηση ανοιχτών προτύπων από δημόσιους, ακαδημαϊκούς, ερευνητικούς και κοινωνικούς φορείς.

Στο πλαίσιο αυτής της αποστολής, η ΕΕΛΛΑΚ ανέπτυξε το GlossAPI, μια πρωτοβουλία που έχει ως στόχο να ενισχύσει την παρουσία της ελληνικής γλώσσας στο νέο οικοσύστημα της Τεχνητής Νοημοσύνης και της Επεξεργασίας Φυσικής Γλώσσας. Το GlossAPI δεν είναι απλώς ένα ακόμη τεχνικό εργαλείο. Είναι μια ανοιχτή υποδομή παραγωγής, επιμέλειας, τεκμηρίωσης και διάθεσης ελληνικών γλωσσικών δεδομένων, ώστε η ελληνική γλώσσα να μπορεί να συμμετέχει ισότιμα στην ανάπτυξη γλωσσικών μοντέλων, εφαρμογών ΤΝ και δημόσια ωφέλιμων ψηφιακών υπηρεσιών.

Η κεντρική ιδέα είναι απλή αλλά κρίσιμη: καμία γλώσσα δεν μπορεί να έχει ισχυρή παρουσία στην Τεχνητή Νοημοσύνη χωρίς ποιοτικά, τεκμηριωμένα, επαναχρησιμοποιήσιμα και ανοιχτά δεδομένα. Αν τα ελληνικά παραμείνουν υποεκπροσωπημένα στα σύνολα εκπαίδευσης και αξιολόγησης των μεγάλων γλωσσικών μοντέλων, τότε η χρήση της ΤΝ στα ελληνικά θα εξαρτάται από κλειστά συστήματα, ξένες προτεραιότητες και αδιαφανείς διαδικασίες.

Το GlossAPI επιχειρεί να αλλάξει αυτή την κατάσταση.

Από την ανάγκη για ελληνικά γλωσσικά μοντέλα στην ανάγκη για ποιοτικά δεδομένα

Το GlossAPI γεννήθηκε από την ανάγκη ανάπτυξης ελληνικών γλωσσικών μοντέλων και εφαρμογών ΤΝ που να κατανοούν πραγματικά τη γλώσσα, τη γραμματεία, τη διοικητική πραγματικότητα, τις πολιτισμικές αποχρώσεις και τις εκφραστικές ιδιαιτερότητες των ελληνικών.

Κατά την αρχική διερεύνηση αυτής της ανάγκης έγινε εμφανές ότι το μεγαλύτερο εμπόδιο δεν ήταν μόνο η έλλειψη υπολογιστικής ισχύος ή αλγοριθμικών εργαλείων. Το βασικότερο πρόβλημα ήταν η έλλειψη μεγάλων, καθαρών, τεκμηριωμένων και ανοιχτών ελληνικών δεδομένων. Η ελληνική γλώσσα παραμένει υποεκπροσωπημένη στα διεθνή σύνολα εκπαίδευσης ΤΝ. Ενδεικτικά, η αγγλική Wikipedia έχει όγκο πολλαπλάσιο της ελληνικής, ενώ μεγάλο μέρος των ελληνικών κειμενικών πόρων είναι είτε δύσκολα προσβάσιμο είτε ελλιπώς τεκμηριωμένο είτε μη κατάλληλο για αναπαραγώγιμη χρήση στην εκπαίδευση και αξιολόγηση μοντέλων.

Το ζήτημα δεν είναι μόνο ποσοτικό. Είναι και ποιοτικό. Για να χρησιμοποιηθούν δεδομένα σε γλωσσικά μοντέλα χρειάζεται να γνωρίζουμε από πού προέρχονται, με ποια άδεια διατίθενται, ποια επεξεργασία έχουν υποστεί, ποια τμήματα είναι αξιόπιστα, ποια περιέχουν θόρυβο, ποια μπορούν να χρησιμοποιηθούν για εκπαίδευση, ποια για αξιολόγηση και ποια χρειάζονται ανθρώπινη επιμέλεια.

Σε αυτό ακριβώς το σημείο παρεμβαίνει το GlossAPI. Δημιουργεί μια μεθοδολογία και ένα τεχνικό σύστημα που μετατρέπει ετερογενείς πηγές ελληνικού κειμένου σε καθαρά, οργανωμένα, τεκμηριωμένα και επαναχρησιμοποιήσιμα σύνολα δεδομένων.

Τι είναι το GlossAPI

Το GlossAPI είναι μια ανοιχτού κώδικα βιβλιοθήκη Python και ταυτόχρονα μια τεχνική υποδομή για τη δημιουργία, επεξεργασία και δημοσίευση ελληνικών συνόλων δεδομένων έτοιμων για χρήση σε εφαρμογές Τεχνητής Νοημοσύνης και Επεξεργασίας Φυσικής Γλώσσας.

Η βιβλιοθήκη επεξεργάζεται κείμενα από διαφορετικές μορφές αρχείων, όπως PDF, DOCX και HTML. Εξάγει το κείμενο, το καθαρίζει, το κανονικοποιεί, το τμηματοποιεί, το επισημειώνει και το εξάγει σε μορφές κατάλληλες για χρήση σε εφαρμογές ΤΝ, όπως Markdown και Parquet. Τα παραγόμενα δεδομένα συνοδεύονται από τεκμηρίωση, μεταδεδομένα και σαφείς άδειες χρήσης, όπως Creative Commons και EUPL-1.2, όπου αυτό είναι δυνατό και επιτρεπτό από την πηγή.

Η σημασία αυτής της υποδομής είναι διπλή. Από τη μία πλευρά, μειώνει δραστικά το κόστος παραγωγής ελληνικών γλωσσικών δεδομένων υψηλής ποιότητας. Από την άλλη, καθιστά τη διαδικασία διαφανή και αναπαραγώγιμη. Ένας ερευνητής, ένας φοιτητής, ένα εργαστήριο, ένας δημόσιος φορέας ή μια κοινότητα μπορεί να γνωρίζει πώς παρήχθη ένα σύνολο δεδομένων, ποια βήματα επεξεργασίας ακολουθήθηκαν και πώς μπορεί να το επεκτείνει ή να το ελέγξει.

Το GlossAPI λειτουργεί έτσι ως αγωγός παραγωγής ελληνικών γλωσσικών πόρων και ως πλαίσιο διαφάνειας για την ανοιχτή Τεχνητή Νοημοσύνη.

Παραγόμενα αποτελέσματα

Μέχρι σήμερα, μέσω του GlossAPI έχουν παραχθεί και δημοσιευθεί ανοιχτά σύνολα δεδομένων υψηλής ποιότητας που καλύπτουν διαφορετικές θεματικές περιοχές της ελληνικής γλώσσας και δημόσιας γνώσης. Σε αυτά περιλαμβάνονται κείμενα δημόσιων διαβουλεύσεων και πολιτικού λόγου, εγκυκλοπαιδικά και εκπαιδευτικά κείμενα, ακαδημαϊκές διατριβές, επιστημονικά έργα, καθώς και κείμενα της κλασικής και σύγχρονης ελληνικής γραμματείας.

Τα σύνολα αυτά είναι διαθέσιμα στο αποθετήριο glossAPI στο Hugging Face, συνοδευόμενα από τεκμηρίωση και μεταδεδομένα, ώστε να μπορούν να αξιοποιηθούν σε ερευνητικά έργα, γλωσσικά μοντέλα, εκπαιδευτικά προγράμματα, εφαρμογές δημόσιας διοίκησης και εργαλεία γλωσσικής τεχνολογίας.

Η αξία τους δεν περιορίζεται στην εκπαίδευση μοντέλων. Μπορούν να χρησιμοποιηθούν για αξιολόγηση, συγκριτικές δοκιμές, ανάπτυξη εργαλείων αναζήτησης, RAG συστήματα, εφαρμογές περίληψης, ταξινόμησης, μετάφρασης, διοικητικής υποστήριξης και εκπαιδευτικής τεχνολογίας.

Πώς λειτουργεί το pipeline του GlossAPI

Στον πυρήνα του GlossAPI βρίσκεται ένα pipeline επεξεργασίας κειμένου, σχεδιασμένο ώστε να μετατρέπει ετερογενή ελληνικά αρχεία σε καθαρά, κανονικοποιημένα και τεκμηριωμένα σύνολα δεδομένων.

Το σύστημα βασίζεται στην κλάση Corpus και ακολουθεί μια διαδοχική ροή βασικών σταδίων.

Πρώτο στάδιο είναι η λήψη των δεδομένων. Με την εντολή corpus.download(), το σύστημα ανακτά έγγραφα από διαδικτυακές πηγές ή από υπάρχοντα μεταδεδομένα, διατηρώντας αναφορά στην αρχική πηγή. Η τεκμηρίωση της προέλευσης είναι κρίσιμη, γιατί χωρίς αυτήν δεν μπορεί να υπάρξει εμπιστοσύνη ούτε στα δεδομένα ούτε στα μοντέλα που θα εκπαιδευτούν με βάση αυτά.

Δεύτερο στάδιο είναι η εξαγωγή κειμένου. Με τη μέθοδο corpus.extract(), το κείμενο απομονώνεται από PDF, DOCX ή HTML αρχεία και μετατρέπεται σε δομημένη μορφή, κυρίως Markdown. Η επιλογή αυτή επιτρέπει καλύτερη αναγνωσιμότητα και διατήρηση μέρους της αρχικής δομής, όπως τίτλοι, ενότητες, πίνακες και παραπομπές.

Τρίτο στάδιο είναι ο καθαρισμός και η κανονικοποίηση. Το GlossAPI αφαιρεί θόρυβο, επαναλαμβανόμενα στοιχεία, τεχνικά υπολείμματα και ασυνέπειες που προκύπτουν συχνά από OCR ή από μετατροπές αρχείων. Η ποιότητα αυτού του σταδίου επηρεάζει καθοριστικά την ποιότητα των τελικών δεδομένων. Ένα γλωσσικό μοντέλο που εκπαιδεύεται σε θορυβώδη δεδομένα μαθαίνει και τον θόρυβο.

Τέταρτο στάδιο είναι η ανάλυση και τμηματοποίηση. Η λειτουργία corpus.section() εντοπίζει επιμέρους ενότητες, όπως πίνακες περιεχομένων, εισαγωγές, κύρια σώματα κειμένου, βιβλιογραφίες και παραρτήματα. Με αυτόν τον τρόπο, το κείμενο δεν αντιμετωπίζεται ως άμορφη μάζα, αλλά ως δομημένο υλικό με διαφορετικές χρήσεις και διαφορετικό βαθμό καταλληλότητας για εκπαίδευση ή αξιολόγηση.

Πέμπτο στάδιο είναι η αναγνώριση και επισημείωση ενοτήτων. Με το corpus.annotate(), το σύστημα εφαρμόζει μοντέλα κατηγοριοποίησης που αναγνωρίζουν τον τύπο κάθε ενότητας. Για παράδειγμα, μπορεί να διακρίνει πίνακα περιεχομένων, βιβλιογραφία, εισαγωγικό σημείωμα, κύριο κείμενο, παράρτημα ή άλλη κατηγορία. Το αποτέλεσμα είναι ένα σύνολο αρχείων που επιτρέπει πιο ακριβή επιλογή, φιλτράρισμα και αξιοποίηση των δεδομένων.

Το output του pipeline οργανώνεται σε διακριτούς φακέλους και αρχεία, όπως downloads/, markdown/, sections/, download_results/, καθώς και αρχεία σε μορφή Parquet για περαιτέρω επεξεργασία, ταξινόμηση και δημοσίευση.

Η αρχιτεκτονική του GlossAPI είναι αρθρωτή. Αυτό σημαίνει ότι η επεξεργασία μπορεί να ξεκινήσει ή να συνεχιστεί από διαφορετικό στάδιο, ανάλογα με τις ανάγκες του χρήστη. Η δυνατότητα αυτή είναι ιδιαίτερα σημαντική για μεγάλα ερευνητικά έργα, όπου η συλλογή, ο καθαρισμός, η επιμέλεια και η δημοσίευση των δεδομένων είναι συνεχής διαδικασία.

Το αποθετήριο του GlossAPI στο GitHub παρέχει περισσότερες τεχνικές πληροφορίες, οδηγίες εγκατάστασης, παραδείγματα χρήσης και τεκμηρίωση για το pipeline.

Το Argilla ως οργανικό τμήμα του GlossAPI

Η ποιότητα των δεδομένων δεν ολοκληρώνεται με τον αυτόματο καθαρισμό. Η Τεχνητή Νοημοσύνη χρειάζεται και ανθρώπινη κρίση. Ιδίως σε γλώσσες όπως τα ελληνικά, όπου η φυσικότητα, η ακρίβεια, το ύφος, το συμφραζόμενο και οι πολιτισμικές αποχρώσεις έχουν καθοριστική σημασία, η ανθρώπινη επιμέλεια δεν είναι πολυτέλεια. Είναι προϋπόθεση ποιότητας.

Για αυτόν τον λόγο, το argilla.glossapi.gr αποτελεί οργανικό τμήμα του οικοσυστήματος GlossAPI. Δεν είναι μια παράλληλη ή αποσπασματική δράση. Είναι το στάδιο στο οποίο τα δεδομένα και οι απαντήσεις των μοντέλων αξιολογούνται από ανθρώπους, εμπλουτίζονται με ποιοτική κρίση και μετατρέπονται σε ακόμη πιο χρήσιμους πόρους για την εκπαίδευση, την ευθυγράμμιση και την αξιολόγηση ελληνικών γλωσσικών μοντέλων.

Στο argilla.glossapi.gr, εθελοντές από τις κοινότητες ανοιχτού λογισμικού, ερευνητές, γλωσσολόγοι, μεταφραστές, προγραμματιστές, εκπαιδευτικοί και ενεργοί χρήστες της ελληνικής γλώσσας καλούνται να συμμετάσχουν σε διαδικασίες ανθρώπινης αξιολόγησης. Στην πράξη, αυτό σημαίνει ότι αξιολογούν απλές απαντήσεις, επιλέγουν ποια διατύπωση είναι πιο φυσική, πιο ακριβής, πιο σαφής και πιο κοντά στη ζωντανή ελληνική γλώσσα, και εντοπίζουν απαντήσεις που ακούγονται ξένες, άκαμπτες, ασαφείς ή μηχανικές.

Η διαδικασία αυτή συνδέεται με τη Μάθηση από Ανθρώπινη Ανάδραση, γνωστή διεθνώς ως RLHF. Η ουσία της δεν είναι να αντικαταστήσει τη γλωσσολογική ή τεχνική εργασία, αλλά να προσθέσει ένα κρίσιμο επίπεδο ανθρώπινης κρίσης. Τα μοντέλα δεν πρέπει να βελτιώνονται μόνο με βάση στατιστικά μοτίβα. Πρέπει να μαθαίνουν και από αξιολογήσεις ανθρώπων που γνωρίζουν πώς μιλιούνται και γράφονται τα ελληνικά στην πράξη.

Με αυτόν τον τρόπο, το Argilla βελτιώνει άμεσα την ποιότητα των δεδομένων που διαθέτει το GlossAPI για την εκπαίδευση και αξιολόγηση μοντέλων στα ελληνικά. Παράγει δεδομένα προτίμησης, σύνολα αξιολόγησης, παραδείγματα καλών και κακών απαντήσεων, γλωσσικές διορθώσεις και πολύτιμη τεκμηρίωση για το πώς πρέπει να ακούγεται ένα μοντέλο όταν απαντά στα ελληνικά.

Η συνεισφορά αυτή είναι ιδιαίτερα σημαντική για μοντέλα όπως το Apertus, αλλά και για κάθε μελλοντικό ελληνικό ή πολυγλωσσικό ανοιχτό μοντέλο που θα χρειαστεί αξιόπιστα ελληνικά δεδομένα ευθυγράμμισης, αξιολόγησης και βελτίωσης.

Από τα ανοιχτά δεδομένα στην ανοιχτή ελληνική Τεχνητή Νοημοσύνη

Η συνεργασία του GlossAPI με το Swiss AI Initiative για το Apertus δείχνει πώς μια ελληνική πρωτοβουλία ανοιχτών γλωσσικών δεδομένων μπορεί να συμμετέχει σε ένα διεθνές οικοσύστημα δημόσιας και ανοιχτής Τεχνητής Νοημοσύνης.

Το Apertus αποτελεί ένα ανοιχτό πολυγλωσσικό οικοσύστημα βασικών μοντέλων, με έμφαση στη διαφάνεια, την πολυγλωσσία και τη δυνατότητα ελέγχου. Η συμβολή του GlossAPI σε αυτό το περιβάλλον έχει ιδιαίτερη σημασία, γιατί επιτρέπει στην ελληνική γλώσσα να μην αντιμετωπίζεται ως περιφερειακή περίπτωση, αλλά ως ενεργό πεδίο συνδιαμόρφωσης ανοιχτών μοντέλων.

Στόχος της συνεργασίας είναι η ενσωμάτωση ελληνικής γλωσσικής και λεξικογραφικής γνώσης, η παραγωγή ανοιχτών πολυγλωσσικών δεδομένων αξιολόγησης και η δημοσίευση συνόλων δεδομένων, δεικτών απόδοσης και τεκμηρίωσης με ανοιχτές άδειες. Έτσι, η εργασία που γίνεται από το GlossAPI και την κοινότητα του argilla.glossapi.gr δεν περιορίζεται στη βελτίωση ενός μοντέλου. Συμβάλλει στη δημιουργία ενός επαναχρησιμοποιήσιμου μηχανισμού παραγωγής γλωσσικών πόρων για τα ελληνικά.

Αυτός ο μηχανισμός μπορεί να αξιοποιηθεί από πανεπιστήμια, ερευνητές, δημόσιους φορείς, εκπαιδευτικά ιδρύματα, δημοσιογράφους, εκδότες, πολιτιστικούς οργανισμούς και ελληνικές επιχειρήσεις τεχνολογίας. Μπορεί επίσης να υποστηρίξει εφαρμογές δημόσιου συμφέροντος, όπως περίληψη νομοσχεδίων, ανάλυση δημόσιων διαβουλεύσεων, αναζήτηση σε διοικητικά κείμενα, γλωσσική υποστήριξη στην εκπαίδευση, τεκμηρίωση πολιτιστικού υλικού και ανάπτυξη τοπικών μοντέλων ΤΝ ανοιχτού λογισμικού.

Εφαρμογές και έργα

Η υποδομή του GlossAPI έχει ήδη αξιοποιηθεί σε έργα που συνδέουν την Τεχνητή Νοημοσύνη με τη δημοκρατική συμμετοχή και τη δημόσια λογοδοσία. Στο ευρωπαϊκό έργο AI4Deliberation, η τεχνολογία αυτή χρησιμοποιήθηκε για εργαλεία αυτόματης περίληψης και θεματικής ανάλυσης δημόσιων διαβουλεύσεων του OpenGov.gr.

Μέσω αυτών των εργαλείων έγινε δυνατή η αυτόματη σύνοψη νομοσχεδίων σε πιο κατανοητή γλώσσα και η χαρτογράφηση σχολίων πολιτών σε θεματικές ενότητες. Τέτοιες εφαρμογές δείχνουν πώς η ΤΝ μπορεί να λειτουργήσει υπέρ της κατανόησης, της προσβασιμότητας και της δημοκρατικής διαβούλευσης, όταν βασίζεται σε ανοιχτά δεδομένα, διαφανείς μεθόδους και ανθρώπινη εποπτεία.

Η ίδια λογική μπορεί να επεκταθεί σε πολλά πεδία: δημόσια διοίκηση, εκπαίδευση, έρευνα, πολιτισμός, τοπική αυτοδιοίκηση, δημοσιογραφία, αρχεία, βιβλιοθήκες και γλωσσική τεχνολογία. Το GlossAPI παρέχει τον τεχνικό κορμό. Το Argilla προσθέτει την ανθρώπινη επιμέλεια. Τα ανοιχτά μοντέλα, όπως το Apertus, μπορούν να αξιοποιήσουν αυτά τα δεδομένα για να βελτιώσουν την ποιότητα της ελληνικής ΤΝ.

Τεχνική και οργανωτική προσέγγιση

Η ανάπτυξη του GlossAPI βασίζεται σε διεπιστημονική συνεργασία μεταξύ μηχανικών λογισμικού, γλωσσολόγων, ειδικών ανοιχτών τεχνολογιών, ερευνητών και κοινοτήτων. Η τεχνική επεξεργασία των δεδομένων συνδυάζεται με γλωσσική επιμέλεια, τεκμηρίωση, ανοιχτές άδειες και συμμετοχική αξιολόγηση.

Η ΕΕΛΛΑΚ συντονίζει τη συμμετοχή φοιτητών, ερευνητικών εργαστηρίων, πανεπιστημίων και εθελοντών, ενθαρρύνοντας τη συνεργατική παραγωγή δεδομένων και τη διάδοση της κουλτούρας της ανοιχτής επιστήμης. Η προσέγγιση αυτή έχει στόχο να καταστήσει την ανάπτυξη ελληνικών εργαλείων Επεξεργασίας Φυσικής Γλώσσας συλλογική, αναπαραγώγιμη και δημοκρατική διαδικασία.

Η οργανωτική καινοτομία του GlossAPI είναι ότι συνδέει τρία επίπεδα που συνήθως λειτουργούν χωριστά: την τεχνική παραγωγή δεδομένων, την ανθρώπινη γλωσσική αξιολόγηση και τη δημόσια διάθεση των αποτελεσμάτων με ανοιχτές άδειες. Αυτό δημιουργεί ένα πλήρες οικοσύστημα, όχι απλώς ένα αποθετήριο.

Αξίες και αρχές

Το GlossAPI αποτυπώνει στην πράξη τη φιλοσοφία της ΕΕΛΛΑΚ για ανοιχτή, διαφανή και δημοκρατικά ελεγχόμενη τεχνολογία.

Η πρώτη αρχή είναι η διαφάνεια. Τα δεδομένα, τα εργαλεία, τα βήματα επεξεργασίας και τα αποτελέσματα πρέπει να μπορούν να ελεγχθούν, να κατανοηθούν και να αναπαραχθούν.

Η δεύτερη αρχή είναι η συμμετοχή. Η ανάπτυξη γλωσσικών πόρων δεν μπορεί να είναι υπόθεση μόνο λίγων εταιρειών ή κλειστών ερευνητικών ομάδων. Χρειάζεται συμμετοχή φοιτητών, ερευνητών, γλωσσολόγων, εκπαιδευτικών, μεταφραστών, προγραμματιστών, δημόσιων φορέων και κοινοτήτων.

Η τρίτη αρχή είναι τα ανοιχτά πρότυπα και η διαλειτουργικότητα. Τα δεδομένα πρέπει να διατίθενται σε μορφές που μπορούν να χρησιμοποιηθούν από διαφορετικά εργαλεία, εργαστήρια, μοντέλα και εφαρμογές.

Η τέταρτη αρχή είναι η γλωσσική και πολιτισμική κυριαρχία. Η ελληνική γλώσσα δεν πρέπει να εκπροσωπείται στην ΤΝ μόνο μέσα από κλειστά συστήματα που δεν γνωρίζουμε πώς εκπαιδεύτηκαν, ποια δεδομένα χρησιμοποίησαν και ποιες προκαταλήψεις ενσωματώνουν.

Η πέμπτη αρχή είναι το δημόσιο συμφέρον. Τα γλωσσικά δεδομένα και τα μοντέλα που προκύπτουν από δημόσια χρηματοδότηση ή/και κοινοτική προσπάθεια πρέπει να επιστρέφουν στην κοινωνία ως κοινή υποδομή γνώσης.

Γιατί η ανθρώπινη συμμετοχή είναι απαραίτητη

Η ελληνική Τεχνητή Νοημοσύνη δεν θα γίνει καλύτερη μόνη της. Θα γίνει καλύτερη από τα δεδομένα που θα της δώσουμε, από τις αξιολογήσεις που θα πραγματοποιήσουμε και από τις κοινότητες που θα επιμείνουν ότι η γλώσσα είναι δημόσιο αγαθό.

Η συμμετοχή στο argilla.glossapi.gr δεν απαιτεί εξειδίκευση στην Τεχνητή Νοημοσύνη. Απαιτεί γλωσσικό κριτήριο, προσοχή, διάθεση συνεισφοράς και την πεποίθηση ότι τα ελληνικά αξίζουν ποιοτικές, ανοιχτές και δημόσια ωφέλιμες υποδομές. Κάθε αξιολόγηση απάντησης, κάθε διόρθωση αφύσικης διατύπωσης, κάθε επιλογή πιο καθαρής και πιο φυσικής πρότασης συμβάλλει στη βελτίωση των δεδομένων που μπορούν να χρησιμοποιηθούν για ελληνικά και πολυγλωσσικά μοντέλα.

Αυτό είναι το σημείο όπου οι αξίες του ανοιχτού λογισμικού συναντούν την Τεχνητή Νοημοσύνη στην πράξη. Όπως οι κοινότητες ανοιχτού λογισμικού έχτισαν εργαλεία, πρότυπα, αποθετήρια και δημόσια ψηφιακά αγαθά, έτσι τώρα μπορούν να χτίσουν ανοιχτά ελληνικά γλωσσικά δεδομένα, αξιολογήσεις και μοντέλα.

Αν πιστεύεις στο ανοιχτό λογισμικό, μπορείς να συμβάλεις στην ανοιχτή ελληνική Τεχνητή Νοημοσύνη.

Αν πιστεύεις ότι η γλώσσα είναι κοινό αγαθό, μπορείς να βοηθήσεις να τη φροντίσουμε συλλογικά.

Αν θέλεις τα ελληνικά μοντέλα ΤΝ να μιλούν πιο φυσικά, πιο καθαρά και πιο υπεύθυνα, μπορείς να συμμετάσχεις σήμερα στο argilla.glossapi.gr.

Όραμα και επόμενα βήματα

Το μακροπρόθεσμο όραμα του GlossAPI είναι η δημιουργία ενός πλήρους οικοσυστήματος ελληνικής γλωσσικής τεχνολογίας, βασισμένου στα ανοιχτά δεδομένα, στη διαφάνεια, στην ανθρώπινη επιμέλεια και στη συνεργασία.

Στα επόμενα βήματα περιλαμβάνονται η επέκταση των ελληνικών συνόλων δεδομένων, η ενίσχυση της ανθρώπινης αξιολόγησης μέσω του Argilla, η παραγωγή νέων συνόλων δεδομένων αξιολόγησης και προτίμησης, η υποστήριξη ελληνικών με εξειδικευμένες μετεκπαιδεύσεις ανοιχτών μοντέλων, η συνεργασία με πανεπιστήμια και ερευνητικά εργαστήρια, καθώς και η υποστήριξη δημόσιων φορέων και οργανισμών στη δημιουργία δικών τους συνόλων δεδομένων με την μεθοδολογία του GlossAPI.

Με αυτόν τον τρόπο, η ΕΕΛΛΑΚ φιλοδοξεί να ενισχύσει την ψηφιακή παρουσία της ελληνικής γλώσσας στην εποχή της Τεχνητής Νοημοσύνης και των μεγάλων γλωσσικών μοντέλων. Το ζητούμενο δεν είναι μόνο να χρησιμοποιούμε καλύτερα εργαλεία ΤΝ στα ελληνικά. Είναι να συμμετέχουμε στη διαμόρφωσή τους.

Η ελληνική γλώσσα δεν πρέπει να είναι απλός χρήστης ξένων μοντέλων. Πρέπει να γίνει συνδιαμορφωτής ανοιχτών, διαφανών και δημόσια ωφέλιμων γλωσσικών υποδομών.

Το GlossAPI, μαζί με το argilla.glossapi.gr και τις διεθνείς συνεργασίες για ανοιχτά μοντέλα όπως το Apertus, δείχνει έναν ρεαλιστικό δρόμο: ελληνικά δεδομένα, ανοιχτά εργαλεία, ανθρώπινη επιμέλεια, δημόσια τεκμηρίωση και συμμετοχή της κοινότητας.

Η ελληνική Τεχνητή Νοημοσύνη δεν θα γίνει καλύτερη μόνη της. Θα γίνει καλύτερη από εμάς.

Πηγές και επαφές:

🌐 Ιστότοπος: https://glossapi.gr
💠 Blog: https://blog.glossapi.gr/
🤗 Αποθετήριο Δεδομένων: https://huggingface.co/glossAPI
💻 Κώδικας & Τεκμηρίωση: https://github.com/eellak/glossAPI
📧 Επικοινωνία: glossapi.team@eellak.gr
🖼️ Γίνε μέρος του GlossAPI: https://blog.glossapi.gr/gine_meros_tou_glossapi/