30 Ιουνίου 2026

Από τα PDF στα ελληνικά γλωσσικά μοντέλα: η πρόοδος του Argilla GlossAPI

H ανάπτυξη αξιόπιστων ελληνικών γλωσσικών μοντέλων δεν εξαρτάται μόνο από την ύπαρξη μεγάλου όγκου δεδομένων. Εξαρτάται και από την ποιότητα αυτών των δεδομένων: από το πόσο καθαρά είναι, πόσο αντιπροσωπευτικά, πόσο σωστά δομημένα και, τελικά, από το αν έχουν ελεγχθεί από ανθρώπους που μπορούν να αξιολογήσουν με ακρίβεια τη γλωσσική και νοηματική τους ποιότητα.

Σε αυτή τη διαδικασία, το GlossAPI και το Argilla GlossAPI λειτουργούν συμπληρωματικά.

Το GlossAPI είναι το πρώτο κρίσιμο βήμα της ροής. Μετατρέπει αρχεία PDF σε επεξεργάσιμο κείμενο, ώστε περιεχόμενο που μέχρι τώρα παρέμενε “κλειδωμένο” σε έγγραφα να μπορεί να αξιοποιηθεί για τη δημιουργία γλωσσικών πόρων. Στη συνέχεια, το κείμενο καθαρίζεται, οργανώνεται και μετατρέπεται σε σύνολα δεδομένων. Αυτά τα datasets ανεβαίνουν στο argilla.glossapi.gr, όπου ξεκινά το επόμενο και εξίσου σημαντικό στάδιο: η ανθρώπινη αξιολόγηση.

Στο Argilla GlossAPI, οι reviewers εξετάζουν τις εγγραφές των datasets και αξιολογούν την ποιότητά τους. Ελέγχουν αν οι ερωτήσεις και οι απαντήσεις είναι σαφείς, φυσικές, χρήσιμες και γλωσσικά σωστές. Με αυτόν τον τρόπο, το αρχικό υλικό δεν περνά απλώς από μια αυτόματη τεχνική διαδικασία, αλλά εμπλουτίζεται με ανθρώπινη κρίση. Αυτό είναι ιδιαίτερα σημαντικό για την ελληνική γλώσσα, όπου η ποιότητα, η φυσικότητα και η ακρίβεια του λόγου παίζουν καθοριστικό ρόλο.

Τα νεότερα στατιστικά στοιχεία δείχνουν ότι η προσπάθεια προχωρά σταθερά. Στις 29 Ιουνίου 2026, η πλατφόρμα περιλαμβάνει 22 σύνολα δεδομένων, με 352.194 συνολικές εγγραφές προς αξιολόγηση. Από αυτές, 9.281 έχουν ήδη αξιολογηθεί, ενώ 69 αξιολογητές συμμετέχουν ενεργά στη διαδικασία. Η συνολική ολοκλήρωση βρίσκεται στο 2,6%.

Το ποσοστό αυτό μπορεί να φαίνεται μικρό σε σχέση με το συνολικό μέγεθος του υλικού, όμως αποτυπώνει μια ουσιαστική πρόοδο. Χιλιάδες εγγραφές έχουν ήδη περάσει από ανθρώπινο έλεγχο, ενώ η συμμετοχή των reviewers αυξάνεται. Παράλληλα, η πρόοδος δεν περιορίζεται σε ένα μόνο θεματικό πεδίο, αλλά απλώνεται σε διαφορετικές κατηγορίες γνώσης, όπως η εκπαίδευση, η τεχνολογία, η ιστορία, η επιστήμη, η φιλοσοφία, η λογοτεχνία και άλλα θεματικά σύνολα.

Ιδιαίτερο ενδιαφέρον παρουσιάζουν ορισμένα datasets που έχουν ήδη σημειώσει σημαντική πρόοδο. Η Δημώδης Λογοτεχνία, τα Σχολικά Βιβλία και η Μυθολογία έχουν ολοκληρωθεί κατά 100%. Το Wikisource έχει φτάσει τις 1.126 αξιολογήσεις, με 11,5% ολοκλήρωση. Η Εκπαίδευση έχει ήδη 1.737 αξιολογήσεις, η Τεχνολογία 2.077, ενώ η Ιστορία έχει φτάσει τις 707 αξιολογήσεις. Η Μουσική ξεχωρίζει επίσης, με ποσοστό ολοκλήρωσης 73,8%.

Αυτά τα στοιχεία δείχνουν ότι το έργο δεν βρίσκεται απλώς σε φάση συγκέντρωσης δεδομένων, αλλά σε μια πιο ουσιαστική φάση ποιοτικής επεξεργασίας. Η διαδικασία δεν σταματά στη μετατροπή των PDF σε κείμενο. Το καθαρισμένο κείμενο γίνεται dataset, το dataset αξιολογείται από ανθρώπους, και οι αξιολογημένες εγγραφές μπορούν στη συνέχεια να στηρίξουν την ανάπτυξη καλύτερων ελληνικών γλωσσικών μοντέλων.

Η συμβολή των reviewers είναι καθοριστική. Κάθε αποδοχή, διόρθωση ή απόρριψη μιας εγγραφής βοηθά στη βελτίωση του τελικού υλικού. Με άλλα λόγια, κάθε αξιολόγηση λειτουργεί ως ένα μικρό αλλά σημαντικό φίλτρο ποιότητας. Ιδιαίτερα για πεδία όπως η εκπαίδευση, η επιστήμη, η ιστορία και η τεχνολογία, η ανθρώπινη κρίση είναι απαραίτητη, ώστε τα δεδομένα να είναι όχι μόνο τεχνικά αξιοποιήσιμα, αλλά και ουσιαστικά χρήσιμα.

Το Argilla GlossAPI αποτυπώνει έτσι μια πλήρη ροή εργασίας για την ελληνική ΤΝ: από τα αρχικά έγγραφα PDF, στη μετατροπή και τον καθαρισμό του κειμένου μέσω του GlossAPI, στη δημιουργία datasets, και τέλος στην ανθρώπινη αξιολόγηση μέσα από το argilla.glossapi.gr.

Η πρόοδος μέχρι σήμερα δείχνει ότι υπάρχει ενεργή κοινότητα, υπάρχει υλικό, και υπάρχει μια οργανωμένη διαδικασία για τη βελτίωση της ποιότητας των ελληνικών δεδομένων. Το επόμενο βήμα είναι η συνέχιση και η ενίσχυση αυτής της συμμετοχής, ώστε ακόμη περισσότερα datasets να αξιολογηθούν και να μπορέσουν να αξιοποιηθούν με ασφάλεια και ποιότητα.

Η ελληνική τεχνητή νοημοσύνη χρειάζεται ελληνικά δεδομένα υψηλής ποιότητας. Και αυτή η ποιότητα χτίζεται βήμα βήμα: με εργαλεία όπως το GlossAPI, με πλατφόρμες αξιολόγησης όπως το Argilla GlossAPI, και κυρίως με τη συμβολή των ανθρώπων που συμμετέχουν στη διαδικασία.

Για να δηλώσετε συμμετοχή στην προσπάθεια συμπληρώστε τα στοιχεία σας σε αυτή την φόρμα στο https://opensource.ellak.gr/register-argilla-glossapi-gr/

Δεν χρειάζεται να είσαι ειδικός στην Τεχνητή Νοημοσύνη. Αρκεί να έχετε γλωσσικό κριτήριο, διάθεση συνεισφοράς και την πεποίθηση ότι η ελληνική γλώσσα αξίζει ανοιχτές, ποιοτικές και δημόσια ωφέλιμες υποδομές Τεχνητής Νοημοσύνης. Θα βρείτε απλές οδηγίες ανά τύπο dataset μέσα στην εφαρμογή για το πως να το βελτιώσετε.

Η ελληνική ΤΝ δεν θα γίνει καλύτερη μόνη της. Θα γίνει καλύτερη από εμάς.