26 Ιουνίου 2026

Τοπικά ανοιχτά μοντέλα ΤΝ, από το ακριβό cloud στη δημόσια υποδομή

Η νέα πραγματικότητα των ανοιχτών μοντέλων

Η συζήτηση για την Τεχνητή Νοημοσύνη δεν μπορεί πλέον να περιορίζεται στο ποιο εμπορικό API απαντά καλύτερα. Το πραγματικό ερώτημα είναι ποιος ελέγχει την υποδομή, τα δεδομένα, το κόστος, τους κανόνες και τη δυνατότητα ελέγχου. Τα ανοιχτά μοντέλα, ιδίως τα μοντέλα ανοιχτών βαρών, έχουν φτάσει σε επίπεδο που επιτρέπει σε πανεπιστήμια, ερευνητικά κέντρα, δήμους, περιφέρειες, υπουργεία και μικρές επιχειρήσεις να δημιουργήσουν δικές τους τοπικές υποδομές ΤΝ, χωρίς να εξαρτώνται από κλειστά συστήματα τρίτων χωρών.

Χρειάζεται όμως μια τεχνική διάκριση. Άλλο είναι ένα πλήρως ανοιχτό μοντέλο, όπου δημοσιεύονται βάρη, κώδικας εκπαίδευσης, δεδομένα ή διαδικασίες δεδομένων, αξιολογήσεις και τεκμηρίωση, και άλλο ένα μοντέλο ανοιχτών βαρών, όπου μπορούμε να κατεβάσουμε και να εκτελέσουμε τα βάρη, αλλά όχι απαραίτητα να αναπαράγουμε την εκπαίδευση. Για δημόσιες εφαρμογές, η προτεραιότητα πρέπει να είναι τα πλήρως ανοιχτά μοντέλα, όπως OLMo και Apertus. Για πρακτική παραγωγική χρήση, μπορούν να αξιοποιηθούν και ισχυρά μοντέλα ανοιχτών βαρών, όπως Qwen, DeepSeek, Llama, Gemma, Mistral, GLM, Kimi και gpt-oss, με σαφή τεκμηρίωση άδειας, κινδύνων και περιορισμών.

Τι μπορεί να τρέξει τοπικά σε 4× AMD Radeon RX 7900 XTX

Ένας Linux server με 4× AMD Radeon RX 7900 XTX διαθέτει συνολικά 96 GB μνήμης γραφικών. Αυτό δεν σημαίνει ότι οι τέσσερις κάρτες γίνονται μαγικά μία ενιαία κάρτα 96 GB. Η συνεργασία γίνεται μέσω PCIe και λογισμικού παράλληλης εκτέλεσης, άρα η ταχύτητα εξαρτάται από το μοντέλο, την ποσοτικοποίηση, το μήκος συμφραζομένων, τη μνήμη συμφραζομένων του μοντέλου και τη μηχανή συμπερασμού. Παρ’ όλα αυτά, μια τέτοια υποδομή είναι ήδη αρκετή για σοβαρή τοπική υπηρεσία ΤΝ.

Για καθημερινή χρήση, τα μοντέλα 7B έως 14B είναι η πιο εύκολη επιλογή. Qwen, Gemma, Llama, OLMo και μικρότερα μοντέλα Mistral μπορούν να απαντούν γρήγορα, να εξυπηρετούν πολλές ταυτόχρονες συνομιλίες και να χρησιμοποιούνται για ταξινόμηση εγγράφων, αναζήτηση, περίληψη, απαντήσεις σε πολίτες, εκπαιδευτικά εργαλεία και εσωτερικούς βοηθούς. Σε τέτοιο μέγεθος, ο εξυπηρετητής μπορεί να σηκώσει δεκάδες έως και πάνω από εκατό ενεργές ελαφρές συνεδρίες, εφόσον τα ερωτήματα είναι σύντομα και υπάρχει συνεχής ομαδοποίηση αιτημάτων.

Η πιο ενδιαφέρουσα κατηγορία είναι τα 24B έως 35B. Εδώ ανήκουν μοντέλα όπως Devstral, OLMo 32B, Qwen3.5-35B-A3B και DeepSeek-R1-Distill-Qwen-32B. Με ποσοτικοποίηση 4 bit, αυτά τα μοντέλα χωρούν άνετα σε 4× RX 7900 XTX και αφήνουν χώρο για μνήμη συμφραζομένων. Είναι το πιο λογικό σημείο ισορροπίας για δημόσιες υπηρεσίες: αρκετά έξυπνα για σύνθετα διοικητικά κείμενα, κώδικα, νομική αναζήτηση και τεχνική υποστήριξη, αλλά όχι τόσο βαριά ώστε να καταπίνουν όλη την υποδομή. Σε πραγματικές συνθήκες, με vLLM ή SGLang, μπορεί κανείς να περιμένει 20 έως 60 ενεργές διαδραστικές ροές, ανάλογα με το μήκος των ερωτημάτων και των απαντήσεων.

Τα 70B μοντέλα μπορούν να τρέξουν, αλλά με συμβιβασμούς. Apertus 70B, Llama 70B, ορισμένες εκδόσεις Qwen 72B ή μεγάλα πολυτροπικά μοντέλα απαιτούν επιθετική ποσοτικοποίηση, προσεκτικό περιορισμό συμφραζομένων και χαμηλότερη ταυτόχρονη χρήση. Είναι χρήσιμα ως «βαρύς σύμβουλος» για λίγους χρήστες, όχι ως μαζική υπηρεσία για όλο το ίδρυμα. Μοντέλα άνω των 100B, όπως gpt-oss-120B, μπορούν θεωρητικά να χωρέσουν σε ειδικές μορφές ποσοτικοποίησης, αλλά αφήνουν περιορισμένη μνήμη για συμφραζόμενα και πολλούς χρήστες. Τα πολύ μεγάλα MoE μοντέλα, όπως DeepSeek-V3/R1 πλήρους μεγέθους, GLM-5.2 ή Kimi K2.6, δεν είναι ρεαλιστική επιλογή για 4× RX 7900 XTX ως κανονική παραγωγική υπηρεσία. Για αυτά χρειάζεται μεγαλύτερη υποδομή ή χρήση μικρότερων εκδόσεων.

Τι αλλάζει με 8× RX 7900 XTX

Με 8× RX 7900 XTX η συνολική μνήμη γίνεται 192 GB. Αυτό αλλάζει την κλίμακα, αλλά όχι τους φυσικούς περιορισμούς. Η υποδομή μπορεί να εξυπηρετήσει πολύ άνετα μοντέλα 30B έως 35B με περισσότερους χρήστες, να δώσει καλύτερη εμπειρία σε 70B μοντέλα και να δοκιμάσει 120B μοντέλα με χαμηλή έως μέτρια ταυτόχρονη χρήση. Δεν αντικαθιστά όμως ένα enterprise cluster με H100, H200 ή MI300X όταν ζητούμενο είναι πολύ μεγάλο παράθυρο συμφραζομένων, εκατοντάδες ταυτόχρονοι ενεργοί χρήστες ή πλήρης εκτέλεση frontier MoE μοντέλων.

Η ανοιχτή στοίβα που κάνει τη διαφορά

Το πραγματικό πλεονέκτημα δεν είναι μόνο το κόστος του εξοπλισμού. Είναι η στοίβα ανοιχτού λογισμικού. Σε έναν τέτοιο εξυπηρετητή, ο βασικός κορμός μπορεί να είναι Ubuntu Server ή Rocky Linux, ROCm για την επιτάχυνση AMD, PyTorch με ROCm, vLLM ή SGLang για παραγωγικό συμπερασμό, llama.cpp για GGUF και ελαφρύτερη εκτέλεση, LiteLLM ως ενιαία πύλη συμβατή με OpenAI API, Open WebUI ως διεπαφή χρήστη, Keycloak για ταυτοποίηση, OpenSearch ή Qdrant για αναζήτηση, PostgreSQL για μεταδεδομένα και Superset ή Grafana για πίνακες ελέγχου.

Αυτή η στοίβα μειώνει τον εγκλωβισμό σε προμηθευτές. Επιτρέπει στο δημόσιο ή στο πανεπιστήμιο να αλλάζει μοντέλο χωρίς να αλλάζει εφαρμογή, να μετρά κόστος ανά αίτημα, να κρατά τα δεδομένα τοπικά, να εφαρμόζει πολιτικές ασφαλείας, να ελέγχει τις απαντήσεις με RAG και να τεκμηριώνει κάθε κρίσιμη χρήση με Model Cards, Datasheets, αρχεία καταγραφής και ανθρώπινη εποπτεία.

Από το τοπικό μοντέλο στη δημόσια ψηφιακή κυριαρχία

Η επιλογή τοπικών ανοιχτών μοντέλων δεν είναι απλώς για οικονομία. Είναι δημοκρατική υποδομή. Ένας δήμος μπορεί να έχει βοηθό για πολίτες χωρίς να στέλνει ευαίσθητα αιτήματα σε κλειστό cloud. Ένα πανεπιστήμιο μπορεί να προσφέρει ΤΝ σε φοιτητές και ερευνητές με διαφάνεια και χαμηλό κόστος. Ένα υπουργείο μπορεί να χρησιμοποιεί RAG πάνω σε ΦΕΚ, εγκυκλίους και δημόσια δεδομένα, χωρίς να παραδίδει τη διοικητική γνώση σε ιδιωτικά μαύρα κουτιά.

Η σωστή στρατηγική είναι υβριδική: πολλά μικρά και μεσαία μοντέλα για καθημερινές εργασίες, ένα ισχυρότερο μοντέλο για σύνθετη ανάλυση, αυστηρό RAG για διοικητικές απαντήσεις, ανθρώπινη τελική ευθύνη και πλήρης τεχνική τεκμηρίωση. Με αυτή τη λογική, ένας σχετικά χαμηλού κόστους AMD server δεν είναι υποκατάστατο των μεγάλων υπερυπολογιστών. Είναι όμως ο κρίσιμος ενδιάμεσος κρίκος που μετατρέπει την ΤΝ από ακριβή υπηρεσία συνδρομής σε δημόσια, ελέγξιμη και επαναχρησιμοποιήσιμη υποδομή.

Πηγές άρθρου:

AMD, Radeon RX 7900 XTX Specifications: Η επίσημη τεχνική σελίδα της AMD τεκμηριώνει ότι η RX 7900 XTX διαθέτει 24 GB GDDR6 μνήμη, στοιχείο κρίσιμο για τον υπολογισμό 96 GB σε 4 κάρτες και 192 GB σε 8 κάρτες: https://www.amd.com/en/products/graphics/desktops/radeon/7000-series/amd-radeon-rx-7900xtx.html,
AMD ROCm, Linux System Requirements: Η επίσημη τεκμηρίωση ROCm καταγράφει την RX 7900 XTX ως υποστηριζόμενη GPU για compute workloads σε Linux, με αρχιτεκτονική RDNA3 και στόχο gfx1100: https://rocm.docs.amd.com/projects/install-on-linux/en/latest/reference/system-requirements.html,
AMD ROCm, vLLM Inference: Η τεκμηρίωση της AMD για vLLM σε ROCm δείχνει πώς η ανοιχτή στοίβα AMD μπορεί να χρησιμοποιηθεί για παραγωγικό inference σε GPUs AMD: https://rocm.docs.amd.com/en/latest/how-to/rocm-for-ai/inference/benchmark-docker/vllm.html,
vLLM, Installation with ROCm: Η τεκμηρίωση vLLM περιγράφει υποστήριξη AMD GPUs μέσω ROCm και αναφέρει τη σειρά Radeon RX 7900 σε συγκεκριμένες εκδόσεις: https://docs.vllm.ai/en/v0.6.5/getting_started/amd-installation.html,
SGLang, AMD GPUs: Η τεκμηρίωση του SGLang εξηγεί πώς εκτελείται η μηχανή AMD GPUs, είναι χρήσιμη για συνεχή ομαδοποίηση αιτημάτων και παραγωγικές ροές agentic εφαρμογών: https://sgl-project.github.io/platforms/amd_gpu.html,
Open Source Initiative, Open Source AI Definition 1.0: Η OSI δίνει τον αναγκαίο ορισμό για να ξεχωρίζουμε τα πλήρως ανοιχτά συστήματα ΤΝ από τα απλώς ανοιχτά βάρη: https://opensource.org/ai/open-source-ai-definition,
Allen Institute for AI, OLMo: Η οικογένεια OLMo αποτελεί από τα πιο σημαντικά παραδείγματα πλήρως ανοιχτών μοντέλων, με εκδόσεις 7B και 32B κατάλληλες για ερευνητική και δημόσια χρήση: https://allenai.org/olmo,
ETH Zurich, EPFL και CSCS, Apertus: Το Apertus είναι πλήρως ανοιχτό, διαφανές και πολυγλωσσικό μοντέλο σε εκδόσεις 8B και 70B, σημαντικό για ευρωπαϊκή ψηφιακή κυριαρχία: https://ethz.ch/en/news-and-events/eth-news/news/2025/09/press-release-apertus-a-fully-open-transparent-multilingual-language-model.html,
DeepSeek, DeepSeek-R1: Το αποθετήριο τεκμηριώνει ότι το DeepSeek-R1 και τα μοντέλα του διατίθενται με άδεια MIT, είναι κατάλληλα για τοπική εγκατάσταση και πειραματισμό: https://github.com/deepseek-ai/DeepSeek-R1,
Qwen, Qwen3.5-35B-A3B: Το μοντέλο Qwen3.5-35B-A3B είναι πρακτικό παράδειγμα αποδοτικού MoE μοντέλου με περίπου 35B συνολικές παραμέτρους και χαμηλότερες ενεργές παραμέτρους, συμβατό με Transformers, vLLM και SGLang: https://huggingface.co/Qwen/Qwen3.5-35B-A3B.