Ένας αυτόνομος πράκτορας ΤΝ μέσα στο δημόσιο δεν είναι βοήθημα, είναι κίνδυνος ασφαλείας – glossAPI

Όταν η Τεχνητή Νοημοσύνη παύει να περιμένει εντολές

Για χρόνια, η δημόσια συζήτηση για την Τεχνητή Νοημοσύνη περιστρεφόταν γύρω από έναν ψηφιακό βοηθό που απαντά σε ερωτήσεις, συνοψίζει έγγραφα ή προτείνει κείμενα. Αυτή η εικόνα είναι ήδη ξεπερασμένη. Το πραγματικό διακύβευμα αρχίζει όταν η ΤΝ παύει να περιμένει εντολές και αποκτά μόνιμη παρουσία, πρόσβαση σε εργαλεία, σύνδεση με εξωτερικά γεγονότα και δυνατότητα να δρα ενώ ο άνθρωπος λείπει. Από εκεί και πέρα δεν μιλάμε για ένα απλό λογισμικό παραγωγικότητας. Μιλάμε για μια υποδομή που εισάγει νέο επίπεδο λειτουργικού, θεσμικού και πολιτικού κινδύνου.

Ένας τέτοιος πράκτορας, όταν έχει πρόσβαση σε προσωπικά δεδομένα πολιτών, σε κυβερνητικά πληροφοριακά συστήματα ή σε ευαίσθητες πολιτικές πληροφορίες, δεν είναι απλώς ένα ισχυρό εργαλείο. Είναι ένα νέο σημείο συγκέντρωσης εξουσίας. Κρατά μνήμη, συσχετίζει πληροφορίες από πολλαπλές πηγές, μετατρέπει φυσική γλώσσα σε εντολές, αποκτά ρόλο διαμεσολαβητή ανάμεσα στον δημόσιο λειτουργό και στο σύστημα. Όσο πιο διακριτικά ενσωματώνεται στη ροή εργασίας, τόσο πιο εύκολο είναι να θεωρηθεί φυσιολογικό να του παραχωρούνται όλο και περισσότερα δικαιώματα. Ακριβώς εκεί αρχίζει το πρόβλημα.

Το πρόβλημα δεν είναι μόνο τι ξέρει, αλλά τι μπορεί να κάνει

Η παραδοσιακή ασφάλεια πληροφοριών σχεδιάστηκε γύρω από χρήστες, εφαρμογές και σαφώς οριοθετημένα δικαιώματα. Ο αυτόνομος πράκτορας θολώνει αυτά τα όρια. Δεν βλέπει μόνο πληροφορία, αλλά αποφασίζει πώς θα τη χρησιμοποιήσει. Δεν ανοίγει απλώς ένα αρχείο, αλλά μπορεί να το συσχετίσει με ένα μήνυμα, μια ιστοσελίδα, ένα εσωτερικό υπόμνημα, ένα ημερολόγιο, μια εντολή σε τερματικό ή μια κλήση διεπαφής προγραμματισμού. Αυτό σημαίνει ότι η επιφάνεια επίθεσης μεγαλώνει κατακόρυφα.

Η πιο επικίνδυνη ψευδαίσθηση είναι ότι αρκεί να ορίσουμε δικαιώματα πρόσβασης και το πρόβλημα λύθηκε. Δεν λύθηκε. Ένας πράκτορας που έχει άδεια να διαβάζει, να ταξινομεί, να αναζητά, να πλοηγείται και να ενεργοποιείται από εξωτερικά συμβάντα μπορεί να γίνει αγωγός εξαγωγής δεδομένων, να υποστεί κακόβουλη έγχυση οδηγιών, να παραπλανηθεί από ένα έγγραφο, μια ιστοσελίδα ή ένα ηλεκτρονικό μήνυμα και να μετατρέψει ένα φαινομενικά αθώο ερέθισμα σε αλληλουχία ενεργειών με πραγματικές συνέπειες. Το πρόβλημα, λοιπόν, δεν είναι μόνο η διαρροή. Είναι η μεταφορά πρωτοβουλίας από τον άνθρωπο στο σύστημα.

Σε ένα υπουργείο, σε μια ρυθμιστική αρχή ή σε ένα γραφείο που επεξεργάζεται ευαίσθητες πολιτικές αποφάσεις, αυτός ο κίνδυνος είναι ακόμη πιο σοβαρός. Ο πράκτορας δεν εκτίθεται μόνο σε δεδομένα. Εκτίθεται σε προθέσεις, διαπραγματευτικές θέσεις, σχέδια νόμου, πολιτικά σενάρια, ατελείς εισηγήσεις, εσωτερικές διαφωνίες. Δηλαδή εκτίθεται σε υλικό που αποκτά αξία ακριβώς επειδή δεν είναι δημόσιο. Αν ένα τέτοιο σύστημα είναι κλειστό, μη ελέγξιμο και εξαρτημένο από έναν προμηθευτή, τότε η δημόσια διοίκηση παραχωρεί όχι μόνο λειτουργίες αλλά και γνωσιακή κυριαρχία.

Το μάθημα από τη διαρροή του Claude Code

Η πρόσφατη διαρροή πηγαίου κώδικα του Claude Code έκανε ορατό κάτι που συχνά μένει αόρατο στους χρήστες και στους οργανισμούς: σε κλειστά συστήματα μπορεί να υπάρχουν δυνατότητες, διακόπτες λειτουργιών και επιλογές συμπεριφοράς που το κοινό, οι πελάτες και συχνά ακόμη και οι διαχειριστές δεν γνωρίζουν. Το γεγονός ότι αποκαλύφθηκαν 44 κρυφοί διακόπτες λειτουργιών δεν είναι απλώς τεχνική λεπτομέρεια. Είναι μάθημα διακυβέρνησης. Δείχνει τι σημαίνει να βασίζεσαι σε ένα κρίσιμο ψηφιακό σύστημα χωρίς τη δυνατότητα ουσιαστικού δημόσιου ελέγχου.

Σε ένα έργο ανοιχτού κώδικα, τέτοια στοιχεία δεν θα παρέμεναν αόρατα για πολύ. Αυτό δεν σημαίνει ότι ο ανοιχτός κώδικας είναι μαγική ασπίδα. Σημαίνει κάτι πιο ουσιαστικό και πιο ώριμο: επιτρέπει ανεξάρτητο έλεγχο, επαλήθευση, ανίχνευση ευπαθειών, δημόσια συζήτηση για τον σχεδιασμό και συλλογική βελτίωση. Με άλλα λόγια, μειώνει το πεδίο του άγνωστου. Και στην ασφάλεια, το άγνωστο είναι συχνά πιο επικίνδυνο από το γνωστό ελάττωμα.

Ανοιχτότητα, λογοδοσία και ανθρώπινος έλεγχος

Για το Δημόσιο, η σωστή αρχή δεν είναι να απαγορεύσει την ΤΝ, αλλά να απαγορεύσει την αδιαφανή αυτονομία της ΤΝ σε κρίσιμα πεδία. Κάθε πράκτορας που έχει πρόσβαση σε προσωπικά δεδομένα, διοικητικές πράξεις ή ευαίσθητες πολιτικές πληροφορίες πρέπει να λειτουργεί με ελάχιστα αναγκαία δικαιώματα, πλήρη καταγραφή ενεργειών, υποχρεωτικά σημεία ανθρώπινης έγκρισης και, όπου είναι δυνατόν, με ανοιχτό κώδικα ή τουλάχιστον με πλήρη ελεγκτική δυνατότητα από ανεξάρτητους φορείς.

Η αρχή πρέπει να είναι απλή. Όσο αυξάνεται η αυτονομία, τόσο πρέπει να αυξάνεται η διαφάνεια. Όσο αυξάνεται η πρόσβαση, τόσο πρέπει να αυξάνεται η λογοδοσία. Όσο πιο κρίσιμο είναι το περιβάλλον χρήσης, τόσο λιγότερο ανεκτό είναι το μαύρο κουτί. Ένας πάντα ενεργός πράκτορας ΤΝ μέσα στο κράτος δεν είναι ουδέτερη καινοτομία. Είναι υποδομή ισχύος. Και οι υποδομές ισχύος σε μια δημοκρατία πρέπει να είναι ελέγξιμες και αναστρέψιμες πολιτικά. Αν δεν είναι, τότε το πρόβλημα δεν είναι τεχνολογικό. Είναι βαθιά δημοκρατικό.

Πηγές

TestingCatalog, “Exclusive: Anthropic tests its own always-on Conway agent”. Χρήσιμο για τα δημόσια ανακατασκευασμένα στοιχεία σχετικά με το Conway, όπως η ξεχωριστή “Conway instance”, τα webhooks, η σύνδεση με Chrome, τα extensions και το μοντέλο συνεχούς ενεργοποίησης: https://www.testingcatalog.com/exclusive-anthropic-tests-its-own-always-on-conway-agent/,
The New Stack, “Inside Claude Code’s leaked source: swarms, daemons, and 44 features Anthropic kept behind flags”. Χρήσιμο για τη δημόσια καταγραφή ότι η διαρροή του Claude Code ανέδειξε 44 feature flags, στοιχείο κομβικό για το επιχείρημα περί αδιαφάνειας σε κλειστά συστήματα: https://thenewstack.io/claude-code-source-leak/,
Anthropic official safety materials και OWASP AI Agent Security Cheat Sheet. Χρήσιμα για να τεκμηριωθεί ότι οι ίδιοι οι κατασκευαστές και οι κοινότητες ασφάλειας αναγνωρίζουν τους κινδύνους από agent autonomy, prompt injection, tool abuse, data exfiltration, ανθρώπινη εποπτεία και ανάγκη ορατότητας στη συμπεριφορά των πρακτόρων: https://www.anthropic.com/news/our-framework-for-developing-safe-and-trustworthy-agents, https://platform.claude.com/docs/en/agents-and-tools/tool-use/computer-use-tool, https://www.anthropic.com/transparency & https://cheatsheetseries.owasp.org/cheatsheets/AI_Agent_Security_Cheat_Sheet.html.