Μια υπόσχεση που κρύβει παγίδες
Τα συνθετικά δεδομένα εμφανίζονται ως θαυματουργή λύση σε τρία μεγάλα προβλήματα της Τεχνητής Νοημοσύνης: την έλλειψη δεδομένων, την αδικία στα σύνολα εκπαίδευσης και την προστασία της ιδιωτικότητας. Παράλληλα, παρουσιάζονται ως μέσο «δημοκρατικοποίησης» της ανάπτυξης ΤΝ, επειδή επιτρέπουν σε μικρότερους φορείς να παράγουν δεδομένα χωρίς πρόσβαση στα τεράστια αποθετήρια των τεχνολογικών γιγάντων.
Ωστόσο, όσο αυξάνεται η χρήση τους, τόσο πιο ξεκάθαρα φαίνονται οι κίνδυνοι. Τα συνθετικά δεδομένα μπορούν να παράγουν σύνολα που μοιάζουν στατιστικά έγκυρα, αλλά κρύβουν μικρές, συστηματικές παραμορφώσεις. Δεν αντικατοπτρίζουν τις πραγματικές πολυπλοκότητες του κόσμου και συχνά ενισχύουν τα λάθη από τα οποία υποτίθεται ότι μας προστατεύουν.
Η ρίζα του προβλήματος: ο «συνθετικός» κόσμος δεν είναι ο πραγματικός
Η βασική υπόθεση των συνθετικών δεδομένων είναι ότι μπορούν να αναπαραστήσουν με ακρίβεια τη δομή πραγματικών συνόλων. Όμως αυτό σπάνια ισχύει. Τα ακραία περιστατικά, οι ασυνήθιστες συμπεριφορές, οι σπάνιες αλληλεπιδράσεις, όλα αυτά που συχνά καθορίζουν την αξιοπιστία ενός μοντέλου, εξαφανίζονται.
Όταν τα συνθετικά δεδομένα εισέρχονται στην εκπαίδευση μοντέλων, δημιουργούν έναν βρόχο αυτοτροφοδότησης όπου η Τεχνητή Νοημοσύνη μαθαίνει από τεχνητές αναπαραστάσεις και όχι από τον πραγματικό κόσμο. Το αποτέλεσμα μπορεί να είναι κατάρρευση του μοντέλου, παραμόρφωση της συμπεριφοράς του και δραματική μείωση της αξιοπιστίας του.
Δικαιοσύνη χωρίς πραγματικά δεδομένα; Αδύνατο
Προτείνεται συχνά ότι η παραγωγή συνθετικών δεδομένων για υποεκπροσωπούμενες ομάδες θα διορθώσει τις αδικίες. Στην πράξη συμβαίνει το αντίθετο. Αν μια ομάδα σχεδόν απουσιάζει από τα πραγματικά δεδομένα, πώς μπορεί ένας συνθετικός αλγόριθμος να την αποδώσει σωστά;
Με τον τρόπο αυτό, η αδικία απλώς επανασχεδιάζεται αντί να θεραπεύεται. Και ακόμη χειρότερα, οι προγραμματιστές αναγκάζονται να πάρουν ηθικές αποφάσεις για το τι σημαίνει «ισότιμη αναπαράσταση». Είναι άδικο για τους πολίτες και άδικο για τους ίδιους τους μηχανικούς λογισμικού.
Η ψευδαίσθηση της προστασίας της ιδιωτικότητας
Η υπόσχεση ότι τα συνθετικά δεδομένα προστατεύουν την ιδιωτικότητα είναι εξίσου αμφισβητήσιμη. Όσο πιο πιστά μιμούνται πραγματικά μοτίβα, τόσο πιο εύκολο γίνεται να «διαρρεύσει» πληροφορία. Ένας συνδυασμός χαρακτηριστικών μπορεί να οδηγήσει σε έμμεση ταυτοποίηση.
Παράλληλα, επειδή τα συνθετικά δεδομένα παράγονται από μηχανισμούς που κρύβουν τις επιλογές τους, γίνεται πολύ δύσκολος ο έλεγχος και η λογοδοσία.
Γιατί η λύση είναι τα ανοιχτά, τεκμηριωμένα και υψηλής ποιότητας δεδομένα
Η συζήτηση δεν πρέπει να είναι «συνθετικά ή πραγματικά δεδομένα», αλλά «ποιοτικά ή μη». Μόνο δεδομένα που προέρχονται από αξιόπιστες, τεκμηριωμένες και ανοιχτές πηγές μπορούν να δώσουν στα μοντέλα μια πραγματική κατανόηση της κοινωνικής και γλωσσικής πραγματικότητας.
Πηγές όπως το glossapi, που παράγουν υψηλής ποιότητας, ανοιχτά διαθέσιμα και πλήρως τεκμηριωμένα σύνολα, αποτελούν προϋπόθεση για υπεύθυνη ανάπτυξη ΤΝ στην Ελλάδα και διεθνώς.
Μόνο έτσι διασφαλίζουμε:
• πραγματική αναπαράσταση της ανθρώπινης εμπειρίας,
• δυνατότητα δημόσιου ελέγχου,
• διαφάνεια στον τρόπο παραγωγής των δεδομένων,
• ανεξαρτησία από κλειστές πλατφόρμες ΗΠΑ και Κίνας.
Το συμπέρασμα: όχι άλλα «συνθετικά θεμέλια»
Τα συνθετικά δεδομένα μπορεί να έχουν χρήσεις, αλλά δεν μπορούν να αποτελέσουν βάση για αξιόπιστα μοντέλα. Αντί για συνθετικές πραγματικότητες, χρειαζόμαστε πραγματικά ανοιχτά δεδομένα. Μόνο τότε η Τεχνητή Νοημοσύνη μπορεί να γίνει εργαλείο που υπηρετεί την κοινωνία και όχι ένα σύστημα που αναπαράγει λάθη, αδικίες και ψευδαισθήσεις.
—
Πηγή άρθρου: adalovelaceinstitute.org