Πώς επεξεργαζόμαστε δεδομένα

Η ποιότητα των δεδομένων

Στον δημόσιο διάλογο για την Τεχνητή Νοημοσύνη, τα περισσότερα βλέμματα στρέφονται στα εντυπωσιακά αποτελέσματα των μεγάλων μοντέλων. Ωστόσο, η ουσία βρίσκεται στα δεδομένα που τροφοδοτούν αυτά τα συστήματα. Η ποιότητα των δεδομένων δεν είναι τεχνοκρατικό ζήτημα, είναι κοινωνικό. Καθορίζει αν ένα μοντέλο θα βγάλει δίκαιες αποφάσεις, αν θα αναπαράγει διακρίσεις, αν θα εξυπηρετήσει ανθρώπους σωστά, αν θα σεβαστεί την ασφάλεια και την ιδιωτικότητα.

Το Open Data Institute προτείνει ένα νέο πλαίσιο, πώς μπορούν τα δεδομένα να καταστούν «AI-ready», όχι απλώς τεχνικά, αλλά υπεύθυνα και χρήσιμα για όσους επεξεργάζονται δεδομένα και όσους χρησιμοποιούν ΤΝ. Αυτό σημαίνει να χτίσουμε μια κουλτούρα δεδομένων όπου υπεύθυνη συλλογή, σαφήνεια, ακεραιότητα και διαφάνεια είναι κανόνας, όχι πολυτέλεια.

Γιατί χρειαζόμαστε δεδομένα “AI-ready”

Όταν τα δεδομένα είναι κακής ποιότητας, τα μοντέλα κοστίζουν περισσότερο, κάνουν λάθη που δεν εντοπίζονται εύκολα και τελικά λειτουργούν εις βάρος ανθρώπων και οργανισμών. Ιδιαίτερα σε τομείς όπως η υγεία, η κοινωνική πολιτική ή η εκπαίδευση, λάθος δεδομένα σημαίνουν λάθος αποτελέσματα, και αυτά έχουν πραγματικές συνέπειες.

Το ODI τονίζει ότι η «ετοιμότητα» των δεδομένων δεν είναι μία διάσταση αλλά τέσσερις:

  1. τεχνική καταλληλότητα για μηχανική μάθηση,
  2. ποιότητα και συνέπεια,
  3. νομική συμμόρφωση,
  4. υπεύθυνη συλλογή και κοινωνικές εγγυήσεις.

Αυτές οι τέσσερις πλευρές συνδέονται. Δεν υπάρχει τεχνική ετοιμότητα χωρίς υπευθυνότητα. Δεν υπάρχει ποιότητα χωρίς διαφάνεια. Δεν υπάρχει εμπιστοσύνη χωρίς προστασία δικαιωμάτων.

Πέρα από το FAIR, η ανάγκη για πρακτικές οδηγίες

Τα τελευταία χρόνια, το οικοσύστημα δεδομένων αναπτύσσει αρχές και πρότυπα όπως FAIR, FAIR-R, AIDRIN και Bridge2AI. Όμως οι περισσότεροι οργανισμοί που δημοσιεύουν δεδομένα δεν είναι ειδικοί στην ΤΝ. Το αποτέλεσμα είναι ότι οι συστάσεις συχνά μένουν θεωρητικές.

Το προτεινόμενο πλαίσιο του ODI έρχεται να συμπληρώσει αυτό το κενό με συγκεκριμένες, εφαρμόσιμες οδηγίες, όπως:
• χρήση διεθνών προτύπων, όπως ISO, ICD-10, SNOMED,
• συνεπή ορολογία και αποφυγή διπλών εννοιών,
• σαφή δήλωση ανισορροπιών στα δεδομένα, ώστε να είναι ορατή η μεροληψία,
• επιλογή μορφών αρχείων πραγματικά φιλικών στη μηχανική μάθηση, όπως CSVW ή Parquet,
• πλούσιο, μηχανικά αναγνώσιμο metadata που λέει την ιστορία των δεδομένων,
• APIs και portals που εξυπηρετούν ανθρώπους και πραγματικές ανάγκες,
• version control για πλήρη ιχνηλασιμότητα στον χρόνο.

Είναι πρακτικές, ξεκάθαρες, εφαρμόσιμες, όχι γενικόλογες.

Το metadata ως πράξη διαφάνειας

Το metadata, το «δελτίο ταυτότητας» κάθε συνόλου δεδομένων, είναι ίσως το πιο παραμελημένο στοιχείο. Το ODI επιμένει ότι πρέπει να περιέχει όχι μόνο τεχνικά στοιχεία, αλλά και πληροφορίες όπως:
• πώς συλλέχθηκαν τα δεδομένα, από ποιους και με ποιες συνθήκες,
• τι είδους προκαταλήψεις ενδέχεται να εμπεριέχουν,
• αν χρησιμοποιήθηκε συνθετικό περιεχόμενο ή αυτόματη επισημείωση,
• άδειες χρήσης και περιορισμοί,
• κοινωνικές επιπτώσεις και ευπάθειες.

Αυτή η «βιογραφία» των δεδομένων χτίζει εμπιστοσύνη. Επιτρέπει στους χρήστες να καταλάβουν πού πρέπει να δείξουν προσοχή και πώς να χρησιμοποιήσουν υπεύθυνα τις πληροφορίες.

Υποδομές που σέβονται χρήστες και πρακτικές ανάγκες

Δεν αρκούν τα ίδια τα δεδομένα. Η ποιότητά τους συνδέεται με την προσβασιμότητα. Χρειαζόμαστε portals χρηστικά, APIs χωρίς τεχνητούς περιορισμούς που εμποδίζουν την έρευνα, και μηχανισμούς έκδοσης και παρακολούθησης εκδόσεων. Αυτά δεν είναι τεχνικές λεπτομέρειες, είναι οι δρόμοι μέσω των οποίων η γνώση φτάνει σε ανθρώπους, ομάδες, υπηρεσίες.

Συμπέρασμα, προς μια ανθρωποκεντρική κουλτούρα δεδομένων

Η «AI-readiness» δεν είναι εργαλείο για ειδικούς. Είναι η βάση για μια κοινωνία όπου η ΤΝ λειτουργεί με διαφάνεια, ισότητα και αξιοπιστία. Στην πράξη, σημαίνει ένα νέο κοινωνικό συμβόλαιο γύρω από τα δεδομένα, συλλογή με σεβασμό, χρήση με ευθύνη, δημοσίευση με ακεραιότητα.

Αν θέλουμε ΤΝ που εμπιστευόμαστε, πρέπει πρώτα να εμπιστευόμαστε τα δεδομένα που τη δημιουργούν.

Πηγή άρθρου: theodi.hacdn.io