GlossAPI: Ανοικτή Υποδομή για Ελληνικά AI-Ready Δεδομένα

Προς ένα διαφανές και συμμετοχικό οικοσύστημα επεξεργασίας φυσικής γλώσσας

Η Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού Κώδικα (ΕΕΛΛΑΚ) αποτελεί έναν από τους πλέον δραστήριους οργανισμούς στην Ελλάδα στον χώρο της ανοιχτής τεχνολογίας και της ψηφιακής διακυβέρνησης. Ως μη κερδοσκοπικός φορέας, προωθεί συστηματικά την ανοιχτότητα, τη διαφάνεια και τη συνεργατική καινοτομία, ενισχύοντας την υιοθέτηση των ανοιχτών προτύπων σε δημόσιους, ακαδημαϊκούς και ερευνητικούς φορείς.

Στο πλαίσιο αυτής της αποστολής, η ΕΕΛΛΑΚ ανέπτυξε το GlossAPI, μια πρωτοβουλία που στοχεύει στην ενίσχυση της ελληνικής γλώσσας στην εποχή της τεχνητής νοημοσύνης και στην καθιέρωσή της ως ισότιμης με τις μεγάλες ευρωπαϊκές και διεθνείς γλώσσες μέσα στο οικοσύστημα της επεξεργασίας φυσικής γλώσσας.

Από την ανάγκη για γλωσσικά μοντέλα… στα δεδομένα

Το GlossAPI γεννήθηκε από την ανάγκη για ανάπτυξη ελληνικών γλωσσικών μοντέλων. Κατά τη διάρκεια της αρχικής διερεύνησης της ιδέας ανάπτυξης ελληνικών γλωσσικών μοντέλων, έγινε εμφανές ότι το μεγαλύτερο εμπόδιο δεν ήταν η έλλειψη τεχνολογίας, αλλά η έλλειψη ποιοτικών, τεκμηριωμένων και ανοιχτών δεδομένων στα ελληνικά.

Η ελληνική γλώσσα παραμένει υποεκπροσωπημένη στα διεθνή σύνολα εκπαίδευσης τεχνητής νοημοσύνης. Ενδεικτικά, η αγγλική Wikipedia ξεπερνά τα 80 GB, ενώ η ελληνική περιορίζεται περίπου στο 1 GB. Πέρα από τον όγκο, η πλειονότητα των ελληνικών δεδομένων χαρακτηρίζεται από περιορισμένη πρόσβαση, ανεπαρκή τεκμηρίωση και ανεπαρκή δυνατότητα αναπαραγωγής.

Η ΕΕΛΛΑΚ, μέσα από το GlossAPI, επιδιώκει να αντιμετωπίσει αυτό το θεμελιώδες πρόβλημα, οικοδομώντας μια βιώσιμη υποδομή παραγωγής, επιμέλειας και δημοσίευσης ανοιχτών γλωσσικών δεδομένων, τα οποία θα μπορούν να αξιοποιηθούν από ερευνητές, φορείς και κοινότητες.

Τι είναι το GlossAPI

Το GlossAPI είναι μια ανοιχτού κώδικα βιβλιοθήκη Python και ταυτόχρονα μια τεχνική υποδομή για τη δημιουργία, επεξεργασία και δημοσίευση ελληνικών συνόλων δεδομένων έτοιμων για χρήση σε εφαρμογές τεχνητής νοημοσύνης και επεξεργασίας φυσικής γλώσσας.

Η βιβλιοθήκη επεξεργάζεται κείμενα από διάφορες μορφές αρχείων (PDF, DOCX, HTML κ.ά.), καθαρίζει, τυποποιεί και επισημειώνει τα δεδομένα, και τα εξάγει σε μορφή AI-ready (Parquet, Markdown). Όλα τα παραγόμενα δεδομένα τεκμηριώνονται και δημοσιεύονται με ανοιχτές άδειες (Creative Commons, EUPL-1.2. etc), ενώ συμμορφώνονται με διεθνή πρότυπα, όπως αυτά που εφαρμόζει το Hugging Face Datasets Hub.

Το GlossAPI λειτουργεί τόσο ως εργαλείο αυτοματοποίησης, όσο και ως πλαίσιο τεκμηρίωσης και διαφάνειας στη διαδικασία παραγωγής δεδομένων.

Παραγόμενα αποτελέσματα

Μέχρι σήμερα, μέσω του GlossAPI έχουν παραχθεί και δημοσιευθεί 15 σύνολα δεδομένων υψηλής ποιότητας, που καλύπτουν ένα ευρύ φάσμα θεματικών περιοχών:

  • δημόσιες διαβουλεύσεις και πολιτικός λόγος,
  • εγκυκλοπαιδικά και εκπαιδευτικά κείμενα,
  • ακαδημαϊκές διατριβές και επιστημονικά έργα,
  • κλασική και σύγχρονη ελληνική γραμματεία.

Τα σύνολα αυτά είναι διαθέσιμα ελεύθερα στο huggingface.co/glossAPI, συνοδευόμενα από πλήρη τεκμηρίωση και μεταδεδομένα, ώστε να είναι άμεσα αξιοποιήσιμα σε ερευνητικά έργα, γλωσσικά μοντέλα και εκπαιδευτικά προγράμματα.

Τεχνική και οργανωτική προσέγγιση

Η ανάπτυξη του GlossAPI βασίζεται σε διεπιστημονική συνεργασία μεταξύ μηχανικών λογισμικού, γλωσσολόγων και ειδικών ανοιχτών τεχνολογιών. Η ομάδα συνδυάζει τεχνικές επεξεργασίας φυσικής γλώσσας με μεθόδους καθαρισμού, κανονικοποίησης και εμπλουτισμού δεδομένων, διασφαλίζοντας τόσο την τεχνική αρτιότητα όσο και τη γλωσσική ποιότητα των αποτελεσμάτων.

Η ΕΕΛΛΑΚ συντονίζει επίσης τη συμμετοχή φοιτητών, ερευνητικών εργαστηρίων και πανεπιστημίων, ενθαρρύνοντας τη συνεργατική παραγωγή δεδομένων και τη διάδοση της κουλτούρας της ανοιχτής επιστήμης. Η προσέγγιση αυτή έχει στόχο να καταστήσει την ανάπτυξη ελληνικών εργαλείων επεξεργασίας φυσικής γλώσσας συλλογική, αναπαραγώγιμη και δημοκρατική διαδικασία.

Πώς λειτουργεί το pipeline του GlossAPI

Στον πυρήνα του GlossAPI βρίσκεται ένα pipeline επεξεργασίας κειμένου, σχεδιασμένο ώστε να μετατρέπει ετερογενή ελληνικά αρχεία σε καθαρά, κανονικοποιημένα και τεκμηριωμένα σύνολα δεδομένων έτοιμα για εφαρμογές.

Το σύστημα βασίζεται στην κλάση `Corpus` και ακολουθεί μια διαδοχική ροή τεσσάρων βασικών σταδίων.

  1. Λήψη δεδομένων: με την εντολή `corpus.download()`, το σύστημα ανακτά έγγραφα από URLs ή από υπάρχοντα μεταδεδομένα (`metadata.parquet`), διατηρώντας πλήρη αναφορά στην αρχική πηγή.
  2. Εξαγωγή κειμένου: μέσω της μεθόδου `corpus.extract()`, γίνεται απομόνωση του κειμένου από PDF, DOCX ή HTML αρχεία και μετατροπή του σε Markdown, με στόχο τη μέγιστη αναγνωσιμότητα και την απώλεια όσο το δυνατόν λιγότερης δομής του κειμένου.
  3. Ανάλυση και τμηματοποίηση: η λειτουργία `corpus.section()` εντοπίζει επιμέρους ενότητες (όπως πίνακες περιεχομένων, εισαγωγές, βιβλιογραφίες, κύρια σώματα κειμένου ή παραρτήματα), δημιουργώντας τα απαραίτητα αρχεία `sections_for_annotation.parquet` για περαιτέρω επεξεργασία.
  4. Αναγνώριση και επισημείωση ενοτήτων: το `corpus.annotate()` εφαρμόζει μοντέλα κατηγοριοποίησης που αναγνωρίζουν τον τύπο κάθε ενότητας (π.χ. «π» για πίνακα περιεχομένων, «β» για βιβλιογραφία, «ε.σ.» για εισαγωγικό σημείωμα, «κ» για κύριο κείμενο, «a» για παράρτημα, ή «άλλο» όπου δεν ανήκει σε κατηγορία), παράγοντας τα τελικά αρχεία `classified_sections.parquet` και `fully_annotated_sections.parquet`.

Το output του pipeline οργανώνεται στη συγκεκριμένη δομή φακέλων:

  • `downloads/` (αρχεία εισόδου)
  • `markdown/` (εξαγόμενα κείμενα)
  • `sections/` (τμηματοποιημένα δεδομένα)
  • `download_results/` (ενδιάμεσα αποτελέσματα και μεταδεδομένα)

Το pipeline είναι ευέλικτο, επιτρέποντας την εκτέλεση των modules από οποιοδήποτε στάδιο, και ενσωματώνοντας μηχανισμούς ποιοτικού ελέγχου με Rust-based δείκτες ποιότητας και θορύβου κειμένου.

Η προσέγγιση αυτή καθιστά το GlossAPI ένα από τα πιο συστηματικά και διαφανή εργαλεία για την επεξεργασία ελληνικών κειμένων μεγάλης κλίμακας.

Στον παρακάτω σύνδεσμο μπορείτε να επισκεφθείτε το αποθετήριο του glossAPI στο github και να διαβάσετε αναλυτικά το README file του για περισσότερες πληροφορίες για τη χρήση του pipeline: github.com/eellak/glossAPI

Εφαρμογές και έργα

Η υποδομή του GlossAPI έχει ήδη αξιοποιηθεί στο ευρωπαϊκό έργο AI4Deliberation, όπου υλοποιήθηκαν εργαλεία αυτόματης περίληψης και θεματικής ανάλυσης για τις δημόσιες διαβουλεύσεις του OpenGov.gr. Μέσω αυτών, έγινε δυνατή η αυτόματη σύνοψη νομοσχεδίων σε απλή γλώσσα και η χαρτογράφηση των σχολίων των πολιτών σε θεματικές ενότητες, με στόχο την ενίσχυση της διαφάνειας και της κατανόησης των δημοκρατικών διαδικασιών.

Η συγκεκριμένη εφαρμογή ανέδειξε τη δυνατότητα της τεχνητής νοημοσύνης να λειτουργεί ως καταλύτης προσβασιμότητας και λογοδοσίας, και επιβεβαίωσε τη χρησιμότητα ανοιχτών, ελληνόφωνων γλωσσικών δεδομένων στη δημόσια σφαίρα.

Αξίες και αρχές

Το GlossAPI αποτυπώνει έμπρακτα τη φιλοσοφία της ΕΕΛΛΑΚ για ανοιχτή, διαφανή και ηθικά ευθυγραμμισμένη τεχνολογία. Οι θεμελιώδεις αρχές του έργου συνοψίζονται ως εξής:

  • Διαφάνεια: πλήρης τεκμηρίωση, δυνατότητα ελέγχου και κατανόησης των δεδομένων και εργαλείων.
  • Συμμετοχή: πρόσβαση και δυνατότητα συνεισφοράς από φοιτητές, ερευνητές, μικρές επιχειρήσεις και φορείς.
  • Ανοιχτά πρότυπα και πρόσβαση: συμβατότητα με διεθνή μοντέλα ανοιχτής επιστήμης και διαλειτουργικότητας.
  • Ηθική τεχνητή νοημοσύνη: σεβασμός στα δικαιώματα πληροφόρησης και στην ανάγκη δημοκρατικού ελέγχου των αλγοριθμικών συστημάτων.

Μέσω αυτών των αρχών, το GlossAPI επιχειρεί να μετατρέψει την ανοιχτότητα από τεχνικό ζητούμενο σε κοινωνική και πολιτισμική αξία.

Όραμα και επόμενα βήματα

Το μακροπρόθεσμο όραμα του GlossAPI είναι η δημιουργία ενός πλήρους οικοσυστήματος ελληνικής γλωσσικής τεχνολογίας, βασισμένου στα ανοιχτά δεδομένα, τη διαφάνεια και τη συνεργασία.

Στα επόμενα βήματα του έργου περιλαμβάνονται η επέκταση του αποθετηρίου dataset, η εκπαίδευση ελληνικών γλωσσικών μοντέλων, καθώς και η υποστήριξη φορέων και οργανισμών για τη δημιουργία των δικών τους AI-ready datasets, σύμφωνα με κοινά πρότυπα και ανοικτές πρακτικές.

Με αυτόν τον τρόπο, η ΕΕΛΛΑΚ φιλοδοξεί να ενισχύσει την ψηφιακή παρουσία της ελληνικής γλώσσας στον τομέα της τεχνητής νοημοσύνης και των μεγάλων γλωσσικών μοντέλων, συμβάλλοντας στη διαμόρφωση ενός βιώσιμου, συνεργατικού και δημόσια ωφέλιμου οικοσυστήματος γλωσσικής τεχνολογίας.

Πηγές και επαφές: