Πίσω στο Blog
22 Μαΐου 2026

Τοπικά μοντέλα ΤΝ και ΦΑΡΟΣ: η σωστή αρχιτεκτονική για ασφαλή, φθηνή και δημοκρατική ΤΝ

Από τον ΦΑΡΟ στα τοπικά μοντέλα: μια πολυεπίπεδη αρχιτεκτονική ανοιχτής ΤΝ

Η σωστή στρατηγική για την Τεχνητή Νοημοσύνη δεν είναι να επιλεγεί μία και μοναδική τεχνολογική λύση. Δεν χρειάζεται όλα να τρέχουν σε υπερυπολογιστές, όπως δεν είναι λογικό κάθε δημόσιος φορέας, πανεπιστήμιο, σχολείο ή επιχείρηση να εξαρτάται από εμπορικά cloud API. Η ορθολογική προσέγγιση είναι πολυεπίπεδη: εθνικές υποδομές υψηλής υπολογιστικής ισχύος για τα βαριά φορτία, τοπικές ανοιχτές υποδομές για καθημερινή ασφαλή χρήση και εναλλακτικές πλατφόρμες υλικού ώστε να μη δημιουργηθεί νέος τεχνολογικός εγκλωβισμός.

Ο ΦΑΡΟΣ και ο Δαίδαλος ανήκουν στο πρώτο επίπεδο. Είναι η εθνική υποδομή που πρέπει να αξιοποιείται για εργασίες μεγάλης κλίμακας: εκπαίδευση ή σοβαρή προσαρμογή μεγάλων μοντέλων, αξιολόγηση ελληνικών γλωσσικών μοντέλων, δημιουργία και έλεγχο συνόλων δεδομένων υψηλής ποιότητας, επιστημονικές προσομοιώσεις, εφαρμογές σε υγεία, πολιτισμό, κλίμα και βιωσιμότητα, καθώς και υποστήριξη ερευνητικών ομάδων και νεοφυών επιχειρήσεων που χρειάζονται υπολογιστική ισχύ πέρα από τις δυνατότητες ενός μεμονωμένου οργανισμού. Αυτό είναι το πεδίο του υπερυπολογιστή: δημιουργεί, ελέγχει, συγκρίνει και βελτιώνει.

Το δεύτερο επίπεδο είναι τα τοπικά μοντέλα ΤΝ ανοιχτού λογισμικού. Εδώ το ζητούμενο δεν είναι να εκπαιδευτεί από την αρχή ένα τεράστιο μοντέλο, αλλά να λειτουργεί καθημερινά μια ασφαλής, οικονομική και ελέγξιμη υπηρεσία ΤΝ κοντά στα δεδομένα. Ένα τέτοιο πιλοτικό μπορεί να βασίζεται, για παράδειγμα, σε δύο Apple Mac Studio M3 Ultra με 256 GB ενοποιημένης μνήμης και δύο NVIDIA DGX Spark GB10 με 128 GB ενοποιημένης μνήμης, 4 TB NVMe αποθήκευση ανά κόμβο και υποστήριξη Metal, CUDA, llama.cpp, vLLM και TensorRT-LLM. Οι Apple κόμβοι είναι κατάλληλοι για χαμηλής κατανάλωσης συνεχή λειτουργία, μικρά και μεσαία μοντέλα, embeddings, αναζήτηση σε έγγραφα, σύνοψη, απομαγνητοφώνηση και εφαρμογές με αυστηρές απαιτήσεις ιδιωτικότητας. Οι NVIDIA κόμβοι καλύπτουν βαρύτερο inference, μεγαλύτερα μοντέλα, batch processing και πειραματισμό με πιο απαιτητικές ροές.

Το τρίτο επίπεδο, που αποκτά πλέον ιδιαίτερη σημασία, είναι το AMD/ROCm οικοσύστημα. Η AMD προσφέρει εναλλακτική διαδρομή για low-cost open LLMs, τόσο σε υπολογιστικά κέντρα όσο και σε τοπικές εγκαταστάσεις. Στο επίπεδο των data centers, οι AMD Instinct MI300X, MI325X και MI350 είναι ενδιαφέρουσες κυρίως λόγω της πολύ μεγάλης μνήμης ανά επιταχυντή: 192 GB HBM3 στην MI300X, 256 GB HBM3E στην MI325X και έως 288 GB HBM3E στη σειρά MI350. Για μεγάλα ανοιχτά μοντέλα, η μνήμη είναι κρίσιμος παράγοντας κόστους. Όταν περισσότερες παράμετροι χωρούν σε μία ή σε λιγότερες GPU, μειώνονται η πολυπλοκότητα, οι απαιτήσεις διασύνδεσης, η κατανάλωση και το συνολικό κόστος κτήσης.

Η αξία του AMD οικοσυστήματος δεν βρίσκεται μόνο στο υλικό. Βρίσκεται και στο ROCm, την ανοιχτή στοίβα λογισμικού της AMD για επιτάχυνση υπολογισμών ΤΝ και HPC. Η τεκμηρίωση του ROCm αναφέρει πλέον υποστήριξη για βασικές μηχανές serving μεγάλων γλωσσικών μοντέλων, όπως vLLM και Hugging Face Text Generation Inference. Παράλληλα, εργαλεία όπως το llama.cpp, το Ollama, το Vulkan και το HIP/ROCm επιτρέπουν ετερογενείς εγκαταστάσεις, όπου διαφορετικό υλικό μπορεί να αξιοποιείται ανάλογα με το φορτίο εργασίας. Αυτό είναι σημαντικό για φορείς που δεν θέλουν να δεσμευτούν σε μία προμηθευτική αλυσίδα.

Στην πράξη, μια ώριμη στρατηγική για low-cost open LLMs δεν πρέπει να είναι «NVIDIA ή AMD», «Apple ή data center», «ΦΑΡΟΣ ή τοπικός κόμβος». Πρέπει να είναι συνδυαστική. Ο ΦΑΡΟΣ και ο Δαίδαλος χρησιμοποιούνται για βαριά εκπαίδευση, αξιολόγηση και εθνικές υποδομές μοντέλων. Οι τοπικοί κόμβοι NVIDIA και Apple χρησιμοποιούνται για άμεσο, αξιόπιστο και ασφαλές inference μέσα σε οργανισμούς. Οι λύσεις AMD/ROCm προσθέτουν ανταγωνισμό, μεγάλη μνήμη ανά GPU, δυνατότητα χαμηλότερου κόστους και εναλλακτικό ανοιχτό οικοσύστημα λογισμικού.

Αυτό έχει ιδιαίτερη σημασία για το Δημόσιο, τις επιχειρήσεις και την εκπαίδευση. Ένας δήμος, ένα πανεπιστήμιο ή ένα νοσοκομείο μπορεί να χρησιμοποιεί τοπικά μοντέλα για καθημερινές εργασίες, όπως αναζήτηση σε κανονισμούς, σύνοψη εγγράφων, ταξινόμηση αιτημάτων, υποστήριξη χρηστών και ασφαλή πρόσβαση σε εσωτερική γνώση. Ένα υπουργείο ή ερευνητικό κέντρο μπορεί να απευθύνεται στον ΦΑΡΟ για μεγαλύτερα πειράματα και αξιολογήσεις. Μια μικρομεσαία επιχείρηση μπορεί να ξεκινά με workstation ή μικρό τοπικό κόμβο και να κλιμακώνει αργότερα σε υπολογιστικό κέντρο. Το κρίσιμο είναι η αρχιτεκτονική να βασίζεται σε ανοιχτά πρότυπα, ανοιχτά μοντέλα όπου είναι εφικτό, εναλλάξιμα backends και δημόσια ελεγχόμενη διακυβέρνηση.

Έτσι αποφεύγονται δύο λάθη. Το πρώτο είναι η ψευδαίσθηση ότι όλα πρέπει να λυθούν με ένα κεντρικό υπερσύστημα. Το δεύτερο είναι η εξάρτηση από χιλιάδες ασύνδετες μικρές λύσεις χωρίς κοινά πρότυπα, ασφάλεια και αξιολόγηση. Η δημοκρατική τεχνητή νοημοσύνη χρειάζεται κεντρική ισχύ όπου είναι απαραίτητη, τοπικό έλεγχο όπου είναι κρίσιμος, και ανοιχτό οικοσύστημα υλικού και λογισμικού ώστε το δημόσιο χρήμα να χτίζει δημόσια τεχνογνωσία.

Πηγές άρθρου:

GRNET, Pharos: The Greek AI Factory: Η επίσημη περιγραφή του ελληνικού εργοστασίου ΤΝ, με στόχο τη σύνδεση υπερυπολογιστικής ισχύος, έρευνας, δημόσιου τομέα, επιχειρήσεων και κρίσιμων πεδίων όπως υγεία, γλώσσα, πολιτισμός και βιωσιμότητα: https://grnet.gr/business-directory/Pharos-AI-Factory/,

GRNET, DAEDALUS in Lavrio: Η επίσημη ανακοίνωση για την υλοποίηση του νέου ευρωπαϊκού υπερυπολογιστή Δαίδαλος στο Λαύριο και τη συνολική υπολογιστική του ισχύ: https://grnet.gr/en/2025/03/26/daedalus-dc-ylopoihsh-lavrio/,

Apple, Mac Studio Technical Specifications: Η επίσημη τεχνική σελίδα της Apple τεκμηριώνει ότι το Mac Studio με M3 Ultra μπορεί να διαμορφωθεί με 32-core CPU, 80-core GPU, 32-core Neural Engine, 256 GB ενοποιημένης μνήμης και SSD έως 16 TB, χαρακτηριστικά κρίσιμα για τοπικό inference και μεγάλα quantized μοντέλα: https://support.apple.com/en-us/122211/,

Apple, Mac Studio Specs: Η επίσημη σελίδα προϊόντος της Apple αναφέρει επίσης το εύρος ζώνης μνήμης των 819 GB/s για το M3 Ultra, στοιχείο σημαντικό για workloads ΤΝ που αξιοποιούν την ενοποιημένη μνήμη Apple Silicon: https://www.apple.com/mac-studio/specs/,

Apple Developer, Accelerated PyTorch training on Mac: Η τεκμηρίωση της Apple δείχνει ότι το PyTorch μπορεί να επιταχυνθεί σε Mac μέσω Metal Performance Shaders, άρα το Apple Silicon μπορεί να αξιοποιηθεί όχι μόνο για γενική χρήση αλλά και για επιταχυνόμενες ροές μηχανικής μάθησης: https://developer.apple.com/metal/pytorch/,

Apple Machine Learning Research, MLX: Το MLX είναι πλαίσιο μηχανικής μάθησης για Apple Silicon, βελτιστοποιημένο για την ενοποιημένη μνήμη, και αποτελεί βασική πηγή για την τεκμηρίωση του οικοσυστήματος Apple σε τοπική ΤΝ: https://opensource.apple.com/projects/mlx,

AMD ROCm Documentation, Deploying your model: Η τεκμηρίωση του ROCm αναφέρει ρητά υποστήριξη vLLM και Hugging Face Text Generation Inference για serving μεγάλων γλωσσικών μοντέλων σε AMD GPUs, άρα αποτελεί την πιο σημαντική πηγή για το λογισμικό σκέλος των low-cost open LLMs σε AMD: https://rocm.docs.amd.com/en/docs-7.0.0/how-to/rocm-for-ai/inference/deploy-your-model.html,

AMD Instinct MI300X: Η επίσημη σελίδα της AMD τεκμηριώνει την MI300X ως επιταχυντή για Generative AI και HPC, με 192 GB HBM3 μνήμης και 5,325 TB/s θεωρητικό εύρος ζώνης μνήμης, χαρακτηριστικά κρίσιμα για μεγάλα ανοιχτά μοντέλα: https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html,

AMD Instinct MI325X / MI350 Series: Οι επίσημες σελίδες της AMD αναφέρουν 256 GB HBM3E και 6 TB/s θεωρητικό εύρος ζώνης για την MI325X, καθώς και 288 GB HBM3E, 8 TB/s και νέους τύπους δεδομένων όπως MXFP6 και MXFP4 για τη σειρά MI350, ενισχύοντας το επιχείρημα ότι η μεγάλη μνήμη ανά GPU μπορεί να μειώσει την πολυπλοκότητα και το κόστος σε μεγάλα open LLM deployments: https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html και https://www.amd.com/en/products/accelerators/instinct/mi350.html,

AMD ROCm on Radeon and Ryzen: Η τεκμηρίωση για Radeon και Ryzen δείχνει ότι το ROCm δεν αφορά μόνο data centers, αλλά και client/edge περιβάλλοντα, με υποστήριξη εργαλείων όπως PyTorch, TensorFlow, vLLM και llama.cpp: https://rocm.docs.amd.com/projects/radeon-ryzen/en/latest/index.html,

Unsloth, Fine-tuning LLMs on AMD GPUs: Η τεκμηρίωση του Unsloth αναφέρει υποστήριξη AMD GPUs, συμπεριλαμβανομένων Radeon RX και MI300X, για τοπικό fine-tuning μεγάλων γλωσσικών μοντέλων χαμηλού κόστους: https://unsloth.ai/docs/get-started/install/amd,

llama.cpp, Build documentation: Η τεκμηρίωση του llama.cpp αναφέρει υποστήριξη πολλών backends, μεταξύ των οποίων Metal, CUDA, HIP και Vulkan, καθιστώντας το κρίσιμο εργαλείο για ετερογενείς τοπικές υποδομές ΤΝ με Apple, NVIDIA και AMD: https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md.