Πέρα από τα μεμονωμένα μοντέλα: η αρχιτεκτονική ως ανταγωνιστικό πλεονέκτημα

Συνήθως ο προγραμματιστής μηχανικής μάθησης ακολουθεί μια συγκεκριμένη ροή εργασίας: επιλέγει αρχιτεκτονική, εκπαιδεύει, αξιολογεί. Αυτή η λογική οδηγεί σε αναζήτηση ενός μοντέλου που θα λύσει ολόκληρο το πρόβλημα μόνο του. Στην πράξη, κανένα μεμονωμένο υπολογιστικό παράδειγμα δεν ανταποκρίνεται πλήρως στις απαιτήσεις πραγματικών εφαρμογών, ιδίως στον δημόσιο τομέα και σε ρυθμιζόμενα περιβάλλοντα. Η λύση δεν βρίσκεται σε ένα καλύτερο μοντέλο αλλά σε μια καλύτερη αρχιτεκτονική σύνθεσης.

Hybrid AI: Σχεδιαστικό μοτίβο, όχι αλγόριθμος

Το Hybrid AI δεν αποτελεί τεχνική αλλά αρχιτεκτονικό μοτίβο (architectural pattern) για τη σύνθεση ετερογενών συστατικών σε ένα ενιαίο σύστημα. Η κεντρική αρχή είναι ότι κάθε τεχνική ΤΝ έχει χαρακτηριστικούς τρόπους αποτυχίας (failure modes), οι οποίοι δεν συμπίπτουν μεταξύ τους. Ένα μεγάλο γλωσσικό μοντέλο (LLM) παράγει πειστικές αλλά ψευδείς απαντήσεις. Ένα σύστημα κανόνων δεν μπορεί να γενικεύσει. Ένα Bayesian δίκτυο χρειάζεται a priori κατανομές που σπάνια είναι διαθέσιμες. Ένας εξελικτικός αλγόριθμος βρίσκει λύσεις αλλά δεν μπορεί να εξηγήσει γιατί. Συνδυάζοντας τεχνικές με αλληλοσυμπληρούμενους τρόπους αποτυχίας (complementary failure modes), δημιουργείται ένα σύστημα στο οποίο η αδυναμία του ενός συστατικού καλύπτεται από τη δύναμη του άλλου. Η ερώτηση σχεδίασης δεν είναι «ποιο μοντέλο λύνει όλα τα υποπροβλήματα» αλλά «πώς ενορχηστρώνω πολλαπλές τεχνικές ώστε η κάθε μία να κάνει αυτό στο οποίο υπερέχει». Κρίσιμη διάκριση: ένα ensemble τριών transformers δεν είναι Hybrid AI, καθώς πρόκειται για την ίδια τεχνική τρεις φορές. Αντιθέτως, ένα pipeline που συνδυάζει transformer, constraint solver και γράφο γνώσης συνιστά γνήσιο Hybrid AI, δηλαδή τρία διαφορετικά υπολογιστικά παραδείγματα σε σύνθεση.

Neurosymbolic AI: Η πιο ισχυρή υλοποίηση

Το Neurosymbolic AI αποτελεί υποσύνολο του Hybrid AI, με τη διαφορά ότι κλειδώνει τους δύο πόλους σε συγκεκριμένα παραδείγματα: το νευρωνικό (connectionist), δηλαδή νευρωνικά δίκτυα, transformers, diffusion models, και το συμβολικό (symbolic), δηλαδή λογικός προγραμματισμός, γράφοι γνώσης, οντολογίες, domain-specific languages και theorem provers. Τα δύο αυτά παραδείγματα δεν απλώς συμπληρώνονται αλλά παρουσιάζουν αντιστρόφως ανάλογα χαρακτηριστικά. Τα νευρωνικά συστήματα μαθαίνουν από δεδομένα, γενικεύουν σε νέες εισόδους, αντέχουν σε θορυβώδεις εισόδους και χειρίζονται αμφισημία, αλλά δεν εγγυώνται σωστό αποτέλεσμα και δύσκολα εξηγούν τη λογική τους. Τα συμβολικά συστήματα εγγυώνται σωστό αποτέλεσμα εντός του μοντέλου τους, εξηγούν τη λογική μέσω derivation traces, χειρίζονται compositionality, αλλά δεν μαθαίνουν από δεδομένα και σπάνε σε θορυβώδεις εισόδους. Ο συνδυασμός τους δεν είναι αθροιστικός αλλά πολλαπλασιαστικός: το σύστημα αποκτά ιδιότητες που κανένα μέρος δεν διέθετε μεμονωμένα. Ο Henry Kautz (2020) πρότεινε μια ταξινομία έξι μοτίβων ενσωμάτωσης, από χαλαρή σε σφιχτή σύζευξη. Για τον προγραμματιστή, τα πιο πρακτικά είναι τρία. Πρώτον, Neural to Symbolic (pipeline): το νευρωνικό κάνει αντίληψη και εξαγωγή, μετά τα αποτελέσματα τροφοδοτούν ένα symbolic reasoner. Δεύτερον, Symbolic to Neural (constrained generation): συμβολικοί κανόνες περιορίζουν τον χώρο αναζήτησης πριν ή κατά τη νευρωνική επεξεργασία. Τρίτον, Unified (tight coupling): νευρωνικά και συμβολικά συστατικά μοιράζονται αναπαραστάσεις, όπως graph neural networks πάνω σε γράφους γνώσης. Η πρακτική σύσταση είναι να ξεκινά κανείς με pipeline (loose coupling) και να σφίγγει τη σύζευξη μόνο εκεί που απαιτείται.

RAG: Σχεδιαστική οικογένεια στο φάσμα Hybrid-to-Neurosymbolic

Η ανάκτηση και παραγωγή ενισχυμένη με ανάκτηση (Retrieval-Augmented Generation, RAG) είναι ήδη οικεία στους περισσότερους προγραμματιστές ΤΝ μέσω του βασικού μοτίβου: embed, retrieve, generate. Ωστόσο, αυτό αποτελεί μόνο την αρχή μιας σχεδιαστικής οικογένειας, και η επιλογή εντός αυτής της οικογένειας καθορίζει αν το σύστημα είναι απλώς Hybrid ή πραγματικά Neurosymbolic. Στο ένα άκρο βρίσκεται το Naive RAG: τεμαχισμός εγγράφων, ενσωμάτωση, ανάκτηση top-k με cosine similarity. Λειτουργεί αλλά πάσχει από irrelevant retrieval και αδυναμία δομημένης λογικής. Στο μέσο, Advanced και Self-RAG/Corrective RAG βελτιώνουν τα μετρικά μέσω query rewriting, re-ranking και αυτοκριτικής, αλλά η ανάκτηση παραμένει στατιστική. Στο Agentic RAG, το σύστημα σχεδιάζει τη στρατηγική ανάκτησης δυναμικά. Στο Graph RAG, η ανάκτηση γίνεται πάνω σε γράφο γνώσης μέσω SPARQL ή Cypher, εισάγοντας πραγματική συμβολική λογική. Τέλος, στο Normative RAG, η ανάκτηση τροφοδοτεί ένα formal reasoning engine, όπως η γλώσσα eFLINT του Πανεπιστημίου της Ουτρέχτης, που εφαρμόζει κανονιστικούς κανόνες με αποδεικτική ισχύ. Η αρχιτεκτονική αυτή παράγει κάτι που κανένα σύστημα pure RAG δεν μπορεί: επαληθεύσιμη κανονιστική συμμόρφωση. Το LLM χειρίζεται κατανόηση και παραγωγή φυσικής γλώσσας, η ανάκτηση φέρνει σχετικά νομικά κείμενα, και ο symbolic reasoner παράγει τυπικά αποδεδειγμένα συμπεράσματα. Η διαφορά είναι κρίσιμη: αντί ένα σύστημα να λέει «νομίζω ότι αυτή η πρόσβαση σε δεδομένα υγείας επιτρέπεται», μπορεί να αποδείξει γιατί επιτρέπεται, βήμα προς βήμα, με αναφορά σε συγκεκριμένα άρθρα κανονισμού.

Γιατί έχει σημασία για τον δημόσιο και ιδιωτικό τομέα

Στον ιδιωτικό τομέα, τα neurosymbolic συστήματα RAG μειώνουν τις ψευδαισθήσεις, βελτιώνουν την ελεγξιμότητα και παράγουν τεκμηριωμένες αποφάσεις. Στον δημόσιο τομέα, όπου κάθε απόφαση ενέχει θεσμικές συνέπειες, η τυπική επαληθευσιμότητα δεν είναι πολυτέλεια αλλά προϋπόθεση. Ο Κανονισμός (ΕΕ) 2024/1689 (EU AI Act) απαιτεί εξηγησιμότητα και ανθρώπινη εποπτεία σε εφαρμογές υψηλού κινδύνου. Ο νέος Ευρωπαϊκός Χώρος Δεδομένων Υγείας (EHDS, Κανονισμός 2025/327) θεσπίζει πολυεπίπεδο κανονιστικό πλαίσιο (ΓΚΠΔ ως οριζόντια βάση, EHDS ως τομεακή υπερκάλυψη) που απαιτεί ακριβώς αυτού του είδους την αρχιτεκτονική σύνθεση. Η κρίσιμη αναγνώριση για τον προγραμματιστή είναι τριπλή. Το Hybrid AI δεν είναι buzzword αλλά η παραδοχή ότι κανένα μεμονωμένο παράδειγμα δεν λύνει πραγματικά προβλήματα μόνο του. Το Neurosymbolic AI είναι η ισχυρότερη υλοποίηση αυτής της αρχής, γιατί συνδυάζει τα δύο πιο αντίθετα και αλληλοσυμπληρούμενα παραδείγματα. Και το RAG είναι η πρώτη πρακτική πύλη εισόδου: το σημείο όπου ο προγραμαμτιστής αρχίζει ήδη να υλοποιεί Hybrid AI χωρίς απαραίτητα να το γνωρίζει.

Πηγές:

Kautz, H. (2020). The Third AI Summer. Keynote, AAAI Conference on Artificial Intelligence: ταξινομία έξι μοτίβων νευροσυμβολικής ενσωμάτωσης, από χαλαρή σε σφιχτή σύζευξη.

Van Binsbergen, L.T., Liu, L.C., van Doesburg, R. & van Engers, T. (2020). eFLINT: a Domain-Specific Language for Executable Norm Specifications. Proceedings of GPCE ’20, ACM: παρουσίαση της γλώσσας eFLINT για εκτελέσιμη κωδικοποίηση κανόνων δικαίου βασισμένη σε transition systems και πλαίσιο Hohfeld.

Van Binsbergen, L.T. et al. (2025). Lawful and Accountable Personal Data Processing with GDPR-based Access and Usage Control in Distributed Systems, arXiv: εφαρμογή eFLINT για αυτοματοποιημένη κανονιστική συλλογιστική στο ΓΚΠΔ με ενσωμάτωση σε κατανεμημένα συστήματα μέσω XACML.

Gao, Y. et al. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv: ολοκληρωμένη επισκόπηση μεθοδολογιών RAG, από Naive σε Advanced, Modular και Agentic μορφές.

Regulation (EU) 2025/327 (EHDS), EUR-Lex: Κανονισμός για τον Ευρωπαϊκό Χώρο Δεδομένων Υγείας, θεσπίζει Health Data Access Bodies και πολυεπίπεδο κανονιστικό πλαίσιο δευτερογενούς χρήσης.

Regulation (EU) 2024/1689 (EU AI Act), EUR-Lex: Κανονισμός για την Τεχνητή Νοημοσύνη, με απαιτήσεις εξηγησιμότητας, ανθρώπινης εποπτείας και risk-based compliance.