Όταν τα LLMs συναντούν τις διαλέκτους Η σύγχρονη ελληνική δεν είναι μια ενιαία, ομοιογενής γλώσσα. Από την Κρήτη και την Κύπρο μέχρι τα Ποντιακά, τα Επτανησιακά και την Τσακωνική, ο ελληνικός χώρος χαρακτηρίζεται από πλούσια διαλεκτική ποικιλία, με έντονες γεωγραφικές και ιστορικές διαφοροποιήσεις. Την ίδια στιγμή, τα μεγάλα γλωσσικά μοντέλα (LLMs) κυριαρχούν στο πεδίο της […]
Η πρόκληση των χιλιάδων γλωσσών που έμεναν εκτός Η αυτόματη αναγνώριση ομιλίας έχει εξελιχθεί εντυπωσιακά την τελευταία δεκαετία, όμως τα οφέλη αυτά περιορίζονταν κυρίως σε λίγες γλώσσες με πλούσιους πόρους. Χιλιάδες γλώσσες χαμηλών πόρων, πολλές από τις οποίες μιλούνται μόνο προφορικά ή διαθέτουν περιορισμένη ψηφιακή παρουσία, παρέμεναν ουσιαστικά αποκλεισμένες. Η έλλειψη δεδομένων, η ανάγκη ειδικών […]
Ένα φιλόδοξο σχέδιο με σιωπηλές παραδοχές Ο πρόσφατος «Οδικός Χάρτης για τον Μετασχηματισμό της Τεχνητής Νοημοσύνης στην Ελλάδα» παρουσιάζεται ως η αρχή μιας εθνικής στρατηγικής που σέβεται την ανθρώπινη αξιοπρέπεια, τη δημοκρατία, τη διαφάνεια και τη συμμετοχή. Περιγράφει εμβληματικά προγράμματα για τη δημόσια διοίκηση, την εκπαίδευση, την έρευνα και τον πολιτισμό. Όμως πίσω από τη […]
Περίληψη Το παρόν σύνολο δεδομένων αποτελεί ένα υψηλής ποιότητας σώμα κειμένων, το οποίο προέρχεται από ελληνικές διδακτορικές διατριβές και συνοδεύεται από εκαστοτε μεταδεδομένα. Το dataset περιλαμβάνει 55.423 εγγραφές που καλύπτουν την περίοδο 1975–2025, αντιπροσωπεύοντας το μεγαλύτερο ενιαίο corpus ελληνόγλωσσου ακαδημαϊκού λόγου που έχει κατασκευαστεί μέχρι σήμερα για σκοπούς Επεξεργασίας Φυσικής Γλώσσας (NLP). Η συλλογή και […]
Η Επεξεργασία Φυσικής Γλώσσας για τη Νέα Ελληνική παραμένει μια πρόκληση, λόγω της μορφολογικής πολυπλοκότητας της γλώσσας και της περιορισμένης διαθεσιμότητας ποιοτικών δεδομένων. Το πρόβλημα γίνεται ιδιαίτερα εμφανές σε απαιτητικούς τομείς, όπως το νομικό κείμενο, όπου η πλούσια ορολογία και η αυστηρή δομή απαιτούν μοντέλα υψηλής ακρίβειας και μεγάλης χωρητικότητας. Σε αυτό το πλαίσιο, η […]
Η Τεχνητή Νοημοσύνη ως Δημόσιο Αγαθό Στην εποχή των μεγάλων γλωσσικών μοντέλων (LLMs) και των εφαρμογών Τεχνητής Νοημοσύνης που επηρεάζουν κάθε πτυχή της κοινωνίας, η πρόσβαση σε ποιοτικά, αντιπροσωπευτικά και δεοντολογικά διοικούμενα δεδομένα αποτελεί κρίσιμο παράγοντα για την καινοτομία προς όφελος του δημόσιου συμφέροντος. Η ΤΝ δεν είναι απλώς αλγόριθμοι· είναι οι πληροφορίες πάνω στις […]
Μια νέα εποχή για τα συστήματα αναγνώρισης ομιλίας Η αναγνώριση ομιλίας έχει βελτιωθεί εντυπωσιακά, όμως τα περισσότερα συστήματα συνεχίζουν να εκπαιδεύονται σε καθαρή, προσεκτικά διαβασμένη ομιλία. Αυτό δημιουργεί ένα χάσμα ανάμεσα στα μοντέλα και την πραγματικότητα, όπου οι άνθρωποι μιλούν με παύσεις, διορθώσεις, φυσικούς δισταγμούς και ένα πλήθος φωνητικών ιδιαιτεροτήτων. Η Mozilla επιδιώκει να καλύψει […]
Το Νέο Στάδιο Εξέλιξης των Δεδομένων Η ραγδαία πρόοδος της Τεχνητής Νοημοσύνης (ΤΝ) έχει οδηγήσει τα δεδομένα σε ένα κρίσιμο νέο σημείο καμπής: τη μετάβασή τους σε AI-ready δεδομένα, δεδομένα πλήρως ανιχνεύσιμα, κατανοητά, προσβάσιμα και αξιοποιήσιμα τόσο από ανθρώπους όσο και από εφαρμογές ΤΝ. Η ανάγκη αυτή απορρέει από μια νέα πραγματικότητα: οι χρήστες όλων […]
Η ταχεία διάδοση των Μεγάλων Γλωσσικών Μοντέλων (Large Language Models – LLMs), έχει δημιουργήσει μια πρωτοφανή ανάγκη για εκτεταμένα και υψηλής ποιότητας γλωσσικά δεδομένα. Για την ελληνική γλώσσα, η οποία διαθέτει μοναδικό ιστορικό βάθος, πολυπλοκότητα και μορφοσυντακτικές ιδιοτυπίες, η ανάγκη αυτή είναι ακόμη πιο επιτακτική. Ωστόσο, τα ελληνικά παραμένουν σχετικά υποεκπροσωπούμενα σε σύγκριση με κυρίαρχες […]
Η ποιότητα των δεδομένων Στον δημόσιο διάλογο για την Τεχνητή Νοημοσύνη, τα περισσότερα βλέμματα στρέφονται στα εντυπωσιακά αποτελέσματα των μεγάλων μοντέλων. Ωστόσο, η ουσία βρίσκεται στα δεδομένα που τροφοδοτούν αυτά τα συστήματα. Η ποιότητα των δεδομένων δεν είναι τεχνοκρατικό ζήτημα, είναι κοινωνικό. Καθορίζει αν ένα μοντέλο θα βγάλει δίκαιες αποφάσεις, αν θα αναπαράγει διακρίσεις, αν […]
Δημόσια Υποδομή ΤΝ για Όλες τις Επίσημες Γλώσσες της Ισπανίας Η Ισπανική κυβέρνηση ανακοίνωσε επίσημα την ανοιχτή διάθεση των γλωσσικών της μοντέλων ALIA, ενός φιλόδοξου έργου δημόσιας τεχνητής νοημοσύνης που υποστηρίζει όλες τις επίσημες και συνεπίσημες γλώσσες της χώρας (Ισπανικά, Καταλανικά, Βασκικά, Γαλικιανά). Το έργο ALIA, που ξεκίνησε πριν από έξι χρόνια, αποτελεί πλέον κεντρικό […]
Ένα ελληνικό AI Factory στην καρδιά της ευρωπαϊκής στρατηγικής Το Pharos: The Greek AI Factory for Accelerating AI Innovation είναι μια φιλόδοξη πρωτοβουλία που στοχεύει να δημιουργήσει ένα EU AI Factory στην Ελλάδα, αξιοποιώντας στρατηγικά τον προ-εξασαφλοπικό υπερυπολογιστή «Daedalus». Στόχος είναι η επιτάχυνση της καινοτομίας στην Τεχνητή Νοημοσύνη (ΤΝ) και η δημοκρατικοποίηση της πρόσβασης σε […]