Σφυρηλατώντας τα GEMs: Νέα Μοντέλα για την Προώθηση της Επεξεργασίας Φυσικής Γλώσσας στα Ελληνικά

Η Επεξεργασία Φυσικής Γλώσσας για τη Νέα Ελληνική παραμένει μια πρόκληση, λόγω της μορφολογικής πολυπλοκότητας της γλώσσας και της περιορισμένης διαθεσιμότητας ποιοτικών δεδομένων. Το πρόβλημα γίνεται ιδιαίτερα εμφανές σε απαιτητικούς τομείς, όπως το νομικό κείμενο, όπου η πλούσια ορολογία και η αυστηρή δομή απαιτούν μοντέλα υψηλής ακρίβειας και μεγάλης χωρητικότητας.

Σε αυτό το πλαίσιο, η Novelcore παρουσιάζει τα Greek Embedding Models (GEMs), μια νέα οικογένεια μοντέλων που επανεξετάζει από την αρχή την αρχιτεκτονική, την εκπαίδευση και τη δημιουργία ποιοτικών δεδομένων για τα ελληνικά.

Γιατί Χρειάζονται Νέα Μοντέλα

Παρά τις σημαντικές προόδους των Greek-BERT, Greek-Legal-BERT, Greek-Legal-RoBERTa και Greek Longformer, το ελληνικό NLP εξελίχθηκε αποσπασματικά. Τα περισσότερα μοντέλα περιορίστηκαν σε παλαιότερες αρχιτεκτονικές και σε μικρά παράθυρα συμφραζομένων, ενώ απουσιάζει μια συστηματική αξιοποίηση σύγχρονων τεχνικών και μεγάλων, καθαρών σωμάτων κειμένων.
Τα GEMs έρχονται να καλύψουν αυτά τα κενά μέσα από έναν ενιαίο, ολοκληρωμένο σχεδιασμό.

Μια Νέα Οικογένεια Αρχιτεκτονικών

Τα GEMs περιλαμβάνουν διαφορετικού τύπου μετασχηματιστές, από κλασικούς μέχρι πρωτοποριακούς:
• RoBERTa
• ELECTRA
• ConvBERT
• ModernBERT
• Longformer με παράθυρο 1024 token
Επιπλέον, εισάγονται τα πρώτα δίγλωσσα ελληνικά–αγγλικά μοντέλα ειδικά για νομικές εφαρμογές.

Ποιοτική Επιμέλεια Σωμάτων Κειμένων

Η επιτυχία των GEMs βασίζεται σε μια αυστηρή διαδικασία επιλογής και καθαρισμού δεδομένων:
• μεγάλα σύνολα ελληνικού γενικού σκοπού,
• εξειδικευμένα νομικά κείμενα υψηλής ποιότητας,
• επαναληπτική ενίσχυση κορυφαίων υποσυνόλων όπως το λεξικό Ραπτάρχη,
• δίγλωσσα ελληνικά–αγγλικά νομικά κείμενα για διασταυρούμενη μάθηση.
Η προσέγγιση αυτή επιτρέπει στα GEMs να αποδίδουν εξαιρετικά ακόμη και σε πολύπλοκες εργασίες.

Αποτελέσματα και Συμπεράσματα

Τα GEM-RoBERTa και GEM-ConvBERT πετυχαίνουν σταθερά τις καλύτερες επιδόσεις σε αναγνώριση οντοτήτων, ιεραρχική ταξινόμηση νομικών θεμάτων και inference. Στατιστικά τεστ επιβεβαιώνουν τη σημαντική υπεροχή τους έναντι υπαρχόντων ελληνικών μοντέλων.
Τα αποτελέσματα δείχνουν ότι:
• η ποιότητα των δεδομένων υπερέχει της ποσότητας,
• η στοχευμένη επανάληψη υψηλής ποιότητας κειμένων ενισχύει την απόδοση,
• η δίγλωσση μάθηση ενισχύει τις ελληνικές αναπαραστάσεις.

Κοιτώντας Μπροστά

Τα GEMs θέτουν νέα βάση για σύγχρονη έρευνα NLP στα ελληνικά. Στο μέλλον, η ομάδα σχεδιάζει την εφαρμογή των μοντέλων σε περίληψη, αναζήτηση, ερωταποκρίσεις και σε νέους τομείς όπως βιοϊατρική και χρηματοοικονομικά.

Πηγή άρθρου: arxiv.org