Δημόσια Υποδομή ΤΝ για Όλες τις Επίσημες Γλώσσες της Ισπανίας
Η Ισπανική κυβέρνηση ανακοίνωσε επίσημα την ανοιχτή διάθεση των γλωσσικών της μοντέλων ALIA, ενός φιλόδοξου έργου δημόσιας τεχνητής νοημοσύνης που υποστηρίζει όλες τις επίσημες και συνεπίσημες γλώσσες της χώρας (Ισπανικά, Καταλανικά, Βασκικά, Γαλικιανά). Το έργο ALIA, που ξεκίνησε πριν από έξι χρόνια, αποτελεί πλέον κεντρικό στοιχείο της κρατικής ψηφιακής στρατηγικής, υλοποιώντας στην πράξη την αρχή «Public Money, Public Code».
Η διάθεση των μοντέλων στο ευρύ κοινό ενισχύει τον στόχο της Ισπανίας να προωθήσει τη γλωσσική πολυμορφία, την τεχνολογική αυτονομία και την ανάπτυξη ψηφιακών υπηρεσιών βασισμένων σε ανοιχτή τεχνογνωσία.
Δημόσιο και Ανοιχτό Έργο Τεχνητής Νοημοσύνης
Το έργο ALIA υλοποιείται υπό την ηγεσία της Γραμματείας Κρατικής Ψηφιοποίησης και Τεχνητής Νοημοσύνης, ενώ τον τεχνικό συντονισμό έχει το Barcelona Supercomputing Centre, Centro Nacional de Supercomputación (BSC-CNS).
Το ALIA αποτελεί βασικό παραδοτέο της Εθνικής Στρατηγικής Τεχνητής Νοημοσύνης 2024, η οποία θέτει ως κύριους στόχους:
- την ανάπτυξη ανοιχτών και διαφανών γλωσσικών μοντέλων,
- τη δημιουργία πρότυπων ηθικής και υπεύθυνης ΤΝ,
- την προστασία θεμελιωδών δικαιωμάτων,
- την τήρηση πνευματικών δικαιωμάτων και προσωπικών δεδομένων,
- και τη διαμόρφωση πλαισίου βέλτιστων πρακτικών.
Η ισπανική κυβέρνηση σχεδιάζει να εφαρμόσει τα μοντέλα ALIA σε δύο πιλοτικά έργα:
- έναν εσωτερικό chatbot για την Φορολογική Υπηρεσία,
- μια εφαρμογή πρωτοβάθμιας ιατρικής για διάγνωση καρδιακής ανεπάρκειας, μέσω προηγμένης ανάλυσης δεδομένων.
Τα Μοντέλα που Διατέθηκαν Δημόσια
Στο συνέδριο «HispanIA 2040», ο Πρωθυπουργός Pedro Sánchez ανακοίνωσε την ανοιχτή διάθεση της πρώτης σειράς μοντέλων του ALIA, υπό την άδεια Apache 2.0, διαθέσιμων μέσω του HuggingFace.
1. ALIA-40B
Μεγάλο decoder-only transformer μοντέλο, εκπαιδευμένο εξ ολοκλήρου από το μηδέν σε 9,37 τρισεκατομμύρια tokens. Το corpus περιλαμβάνει 35 ευρωπαϊκές γλώσσες και κώδικα.
2. Salamandra-7B και Salamandra-2B
Εκπαιδευμένα από το μηδέν σε 12,875 τρισεκατομμύρια tokens. Το corpus καλύπτει 35 ευρωπαϊκές γλώσσες και κώδικα.
Όλα τα training scripts και τα configuration files είναι διαθέσιμα στο GitHub.
- Salamandra-7B-Instruct και Salamandra-2B-Instruct: fine-tuned με 276.000 οδηγίες σε Αγγλικά, Ισπανικά και Καταλανικά.
3. mRoBERTa
Πολυγλωσσικό foundational μοντέλο βασισμένο στη RoBERTa αρχιτεκτονική.
Εκπαιδεύτηκε από το μηδέν σε 12,8 TB πολυγλωσσικού περιεχομένου, σημαντικά περισσότερα από τα XLM-RoBERTa-base/large.
4. RoBERTa-ca
Εξειδικευμένο Καταλανικό γλωσσικό μοντέλο.
Χρησιμοποιεί vocabulary adaptation από το mRoBERTa και συνεχώς επανεκπαιδεύεται σε 95 GB υψηλής ποιότητας καταλανικών δεδομένων.
Όλα τα μοντέλα έχουν επαληθευτεί από την Ισπανική Αρχή Εποπτείας Τεχνητής Νοημοσύνης (AESIA).
Συμπέρασμα: Ένα Ορόσημο για την Ευρωπαϊκή Δημόσια ΤΝ
Με το ALIA, η Ισπανία:
- επενδύει στην τεχνητή νοημοσύνη δημόσιου συμφέροντος,
- ενισχύει τη γλωσσική πολυμορφία,
- προωθεί την τεχνολογική ανεξαρτησία,
- και θέτει διεθνές παράδειγμα ανοιχτής ΤΝ σε κρατικό επίπεδο.
Το έργο αποτελεί προηγούμενο για χώρες που επιθυμούν να αναπτύξουν δημόσιες, ανοιχτές και διαφανείς υποδομές τεχνητής νοημοσύνης.
—
Πηγή άρθρου: interoperable-europe.ec.europa.eu