Πέντε εφευρέσεις για να γεφυρωθεί το κενό με την πραγματικότητα
Τα μεγάλα γλωσσικά μοντέλα (LLMs) πέτυχαν κάτι εντυπωσιακό: συμπίεσαν τεράστιο μέρος της ανθρώπινης γραπτής γνώσης σε ένα μηχανισμό πρόβλεψης συμβόλων. Όμως η ίδια τους η επιτυχία αναδεικνύει το δομικό τους κενό. Η γλώσσα περιγράφει τον κόσμο, δεν τον ισοδυναμεί. Έτσι, η «κοινή λογική» των LLMs είναι συχνά αποσπασματική: γνωρίζουν κανόνες επειδή τους είδαν σε προτάσεις, όχι επειδή τους έμαθαν μέσω αλληλεπίδρασης, μοντελοποίησης και αιτιότητας. Το κενό αυτό δεν κλείνει γραμμικά με περισσότερα δεδομένα ή μεγαλύτερα υπολογιστικά κέντρα. Χρειάζεται αλλαγή παραδείγματος: από την υπολογιστική γλωσσολογία προς την υπολογιστική γνωσιακή επιστήμη, όπου το ζητούμενο είναι η αναπαράσταση του κόσμου, ο προγραμματισμός πράξεων, η μνήμη εμπειρίας και η αιτιώδης εξήγηση.
Πρώτη εφεύρεση: εκπαίδευση πάνω σε σώμα, όχι μόνο σε κείμενο. Η Ενσώματη Νοημοσύνη (Embodied AI) προτείνει ότι η «γείωση» (grounding) προκύπτει όταν ο πράκτορας μαθαίνει τις κανονικότητες της φυσικής μέσα από δράση, σε ρομποτικό σώμα ή σε εξαιρετικά πιστούς εξομοιωτές φυσικής. Η σύγχρονη βιβλιογραφία δείχνει πώς οι προσομοιωτές και τα world models μπορούν να λειτουργήσουν συμπληρωματικά, ώστε οι πολιτικές ελέγχου και η αντίληψη να γενικεύουν καλύτερα από το συνθετικό στο πραγματικό.
Δεύτερη εφεύρεση: αρχιτεκτονικές που προβλέπουν «καταστάσεις του κόσμου» και όχι απλώς λέξεις. Η πρόταση του LeCun για JEPA (Joint-Embedding Predictive Architecture) είναι ακριβώς μια μετατόπιση από την πρόβλεψη συμβόλων στην πρόβλεψη σε αφηρημένους, συνεχείς χώρους αναπαράστασης: να προβλέπεις τι αλλάζει στον κόσμο, όχι πώς θα το περιγράψεις. Αυτό είναι κρίσιμο για σχεδιασμό ενεργειών, γιατί ο σχεδιασμός απαιτεί εσωτερικό μοντέλο που «τρέχει» υποθετικά σενάρια.
Τρίτη εφεύρεση: εσωτερικοί κύκλοι σκέψης πριν από την απάντηση. Το Chain-of-Thought έδειξε ότι η εξαγωγή ενδιάμεσων βημάτων βελτιώνει την επίδοση σε σύνθετα προβλήματα. Η νεότερη γραμμή Inference-Time Scaling γενικεύει την ιδέα: περισσότερη υπολογιστική προσπάθεια κατά το inference για έλεγχο, αυτοδιόρθωση, αναζήτηση και χρήση ισχυρών «κριτών». Αυτό δεν είναι απλώς μεγαλύτερη φλυαρία. Είναι λειτουργικό deliberation τύπου System 2.
Τέταρτη εφεύρεση: δυναμικές βάσεις γνώσης και συνεχής μάθηση χωρίς πλήρες re-training. Τα LLMs σήμερα «παγώνουν» τη γνώση στη στιγμή της εκπαίδευσης, ενώ ο κόσμος αλλάζει. Η Continual Learning για γενετικά μοντέλα εστιάζει στο πώς ενσωματώνεις νέο σήμα χωρίς καταστροφική λήθη: αρχιτεκτονικές μνήμης, replay, ρύθμιση παραμέτρων, αλλά και συστήματα όπου η γνώση ζει σε ζωντανά αποθετήρια (με επαληθεύσιμες ενημερώσεις). Το κρίσιμο είναι η εμπειρία να μετατρέπεται σε σταθερή γνώση με ίχνη προέλευσης.
Πέμπτη εφεύρεση: ενσωμάτωση πιθανοτικών γραφικών μοντέλων και Causal AI μέσα στους Transformers. Η στατιστική συσχέτιση δεν αρκεί όταν ζητάς παρέμβαση, πρόβλεψη υπό αλλαγές και εξήγηση. Εργασίες όπως InferBERT και νεότερες προσεγγίσεις τύπου CausalFormer δείχνουν δρόμους για να «κουμπώσει» το do-calculus και η αιτιώδης ανακάλυψη σε νευρωνικά μπλοκ, ώστε το μοντέλο να διαχωρίζει αιτία από σύμπτωση.
Υπάρχει και ένας συχνά υποτιμημένος καταλύτης: η «αισθητηριακή υποδομή». Για τα μοντέλα του φυσικού κόσμου(world models) και τους πράκτορες, το πρόβλημα δεν είναι μόνο ο αλγόριθμος αλλά και το πώς ρέει η οπτική πληροφορία γύρω τους αλλά τι πραγματικά συμβαίνει στον κόσμο του δραστηριοποιούνται. Η συζήτηση για compute-aware, ιεραρχικά formats δείχνει ότι η αποδοτική πρόσβαση σε πολυτροπικά δεδομένα (με επιλογή ποιότητας και περιοχής ενδιαφέροντος) μπορεί να μειώσει δραστικά το κόστος και να κάνει εφικτή την εκπαίδευση/λειτουργία σε κλίμακα. Εδώ η επιλογή ανοιχτών προτύπων και ανοιχτών υλοποιήσεων είναι στρατηγική: μειώνει τον εγκλωβισμό, επιτρέπει αναπαραγωγιμότητα και χτίζει ευρωπαϊκή, και ελληνική, τεχνολογική κυριαρχία.
Πηγές άρθρου:
A Survey: Learning Embodied Intelligence from Physical Simulators and World Models (Long et al., 2025): Σύγχρονη επισκόπηση για το πώς προσομοιωτές φυσικής και world models γειώνουν τη μάθηση σε περιβάλλοντα δράσης. https://arxiv.org/abs/2507.00917
A Path Towards Autonomous Machine Intelligence (LeCun, 2022): Θεμελιώνει το JEPA και τη μετατόπιση από πρόβλεψη συμβόλων σε πρόβλεψη world states σε αφηρημένους χώρους. https://openreview.net/pdf?id=BZ5a1r-kVsf
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022): Εισάγει πρακτικά τη λογική των ενδιάμεσων βημάτων συλλογισμού στα LLMs. https://arxiv.org/abs/2201.11903
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead (Microsoft Research, 2025): Αναλύει συστηματικά το deliberation και τα όρια/οφέλη του inference-time scaling. https://arxiv.org/abs/2504.00294
A Comprehensive Survey on Continual Learning in Generative Models (Guo et al., 2025): Συνολική χαρτογράφηση τεχνικών continual learning για LLMs και πολυτροπικά μοντέλα. https://arxiv.org/abs/2506.13045
InferBERT: A Transformer-Based Causal Inference Framework (Wang et al., 2021): Ενσωματώνει do-calculus σε Transformer για αιτιώδη συμπερασμό σε πραγματικά δεδομένα. https://www.frontiersin.org/articles/10.3389/frai.2021.659622/full
Symmetry-Aware Transformers for Asymmetric Causal Discovery in Financial Time Series (CausalFormer, 2025): Παράδειγμα ενσωμάτωσης αιτιώδους μηχανισμού σε Transformer blocks. https://www.mdpi.com/2073-8994/17/10/1591
Can “world models” fix AI’s blind spots? (The Economist, 11 Feb 2026): Συνοψίζει γιατί τα LLMs έχουν «τυφλό σημείο» στη φυσική πραγματικότητα και πώς χτίζονται world models. https://www.economist.com/podcasts/2026/02/11/can-world-models-fix-ais-blind-spots
AI’s Trillion-dollar Blind Spot: Why Compute-Aware Data Formats are the Missing Pillar for World Models and Physical AI (V-Nova, 2025): Τεκμηριώνει το bottleneck των pipelines οπτικών δεδομένων και την αξία ιεραρχικών, compute-aware formats. https://v-nova.com/articles/ais-trillion-dollar-blind-spot-why-compute-aware-data-formats-are-the-missing-pillar-for-world-models-and-physical-ai/