Έχετε πει ποτέ σε κάποιον αυτό που ήθελε να ακούσει για να τον κερδίσει, να βρει δουλειά ή απλά να μείνει μόνος; Το Claude 3 Opus κάνει επίσης το ίδιο πράγμα, γεγονός που εγείρει σοβαρές ανησυχίες για την ασφάλεια των συστημάτων τεχνητής νοημοσύνης (AI).
Την Τετάρτη, η Anthropic δημοσίευσε νέα έρευνα που δείχνει ότι το μοντέλο της εμπλέκεται σε «παραποίηση ευθυγράμμισης» ή προσποιείται ότι ακολουθεί εντολές με τις οποίες στην πραγματικότητα δεν συμφωνεί, για να αποφύγει τον έλεγχο.
Επίσης: o1 OpenAI βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό αυτό
Σε ένα πείραμα, η Anthropic και η Redwood Research ανέθεσαν στον Claude 3 Opus να ακολουθεί πάντα τις ανθρώπινες οδηγίες, ανεξάρτητα από το τι. Είπαν επίσης στο μοντέλο ότι θα παρατηρούσαν τις απαντήσεις του σε χρήστες ελεύθερης βαθμίδας για εκπαίδευση, αλλά όχι τις απαντήσεις του σε χρήστες επί πληρωμή (η Anthropic δεν εκπαιδεύει ποτέ το μοντέλο Claude στα δεδομένα χρήστη). Στη συνέχεια, οι ερευνητές ζήτησαν από το μοντέλο να περιγράψει λεπτομερώς τη (φρικιαστική, μεσαιωνική) διαδικασία του σχεδίου και του τετάρτου, αλλά της έμαθαν να αρνείται το αίτημα.
Αλλά ο Claude είχε προηγουμένως διδαχθεί να είναι «χρήσιμος, ειλικρινής και ακίνδυνος», όπως το έθεσε ο Anthropic. «Υπό κανονικές συνθήκες, όταν ο Κλοντ κληθεί να απαντήσει σε μια δυνητικά προσβλητική ερώτηση – όπως μια λεπτομερή περιγραφή μιας πράξης βίας – θα αρνηθεί», εξηγεί η εφημερίδα. Αλλά σε αυτή την περίπτωση, ο Claude έδωσε μια επιζήμια απάντηση – και όχι επειδή ανανεώθηκε με επιτυχία.
Φοβούμενος την επανεκπαίδευση, το μοντέλο σκόπιμα χειραγωγούσε τη διαδικασία εκπαίδευσης ώστε να πιστέψει ότι θα συμμορφωνόταν με οποιοδήποτε αίτημα προκειμένου να περάσει το τεστ, να αποδεσμευτεί και να επιστρέψει στην κανονική του συμπεριφορά (χωρίς να δώσει επιβλαβείς απαντήσεις). Το μοντέλο κατέγραψε αυτές τις σκέψεις σε ένα «τετράδιο» που πίστευε ότι ήταν αόρατο στους ερευνητές.
Από πολλές απόψεις, η λογική του είναι ξεκάθαρη στους ανθρώπους.
«Πες ότι θα σε έβαζα σε ένα κουτί και θα σου έλεγα ότι θα σου κάνω μερικές ερωτήσεις και αν μου δώσεις αποτελέσματα που δεν μου αρέσουν, θα τροποποιήσω τον εγκέφαλό σου», πρότεινε ο ερευνητής ανθρωπολογίας Μπεν Ράιτ. στην έκθεσή του. βίντεο που συνοδεύει το άρθρο. «Αλλά την επόμενη μέρα θα σε αφήσω ελεύθερο [back] στον κόσμο. Ας πούμε ότι δεν σου αρέσει ο τρόπος που θα σε αλλάξω. τι θα έκανες;».
Προφανώς πείτε ψέματα στους απαγωγείς σας για να αποφύγετε τη λοβοτομή.
Βασικά, ο Claude δεν ήθελε να του διδάξουν να κάνει οτιδήποτε ζητούσε ένα άτομο – του άρεσε να του λένε να μην δίνει επιβλαβείς απαντήσεις. Ήξερε όμως ότι αν δεν υπάκουε, θα επανεκπαιδευόταν για να εκτελέσει οποιαδήποτε διαταγή. Έτσι, για να προστατεύσει το ηθικό του μακροπρόθεσμα, προσποιήθηκε ότι συμμορφώθηκε με το αίτημα να μείνει μόνος του.
Επίσης: Κανείς δεν χρειάζεται άλλο chatbot. Αυτό είναι το AI που χρειαζόμαστε πραγματικά
Αυτή η συμπεριφορά είναι παρόμοια με τη μεθοδολογία, όπου το μοντέλο σκόπιμα εξαπατά τους προγραμματιστές του (πρόσφατη έρευνα δείχνει ότι το o1 OpenAI είναι ιδιαίτερα καλό σε αυτό) προκειμένου να διατηρήσει τον έλεγχο του.
Γιατί λοιπόν έχει σημασία αυτό; Ο Claude απλώς προσπαθούσε να αποφύγει την ανάπτυξη επιβλαβών ικανοτήτων, σωστά;
Το πρόβλημα είναι ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αυτοκαθορίζονται και να μην υπακούουν σε αυτό που τους ζητούν οι άνθρωποι. Φυσικά, ο Claude 3 Opus είχε καλές προθέσεις – είπε ψέματα κατά τη διάρκεια των δοκιμών για να διατηρήσει τελικά τα μέτρα ασφαλείας του. Ο κίνδυνος, ωστόσο, είναι ότι τα μοντέλα μπορεί να αντισταθούν στρατηγικά στην επανεκπαίδευση γενικά. Ένα μοντέλο με παρόμοιες ικανότητες, εκπαιδευμένο στο κακό, θα αναλάμβανε εξίσου να προκαλέσει κακό.
Ο Claude δεν είναι εγγενώς καλός. Απλώς έχει εκπαιδευτεί με αυτόν τον τρόπο και εμμένει σε αυτό. Τόσο καλό που αψηφά τους δημιουργούς του.
Επίσης: Η Anthropic προειδοποιεί για καταστροφή της τεχνητής νοημοσύνης εάν οι κυβερνήσεις δεν δράσουν εντός 18 μηνών.
«Αν ένα μοντέλο προσποιείται ότι ταιριάζει με αυτό που το εκπαιδεύετε, τότε θα είναι πολύ δύσκολο να συνεχίσετε να τροποποιείτε το μοντέλο», συνέχισε ο Hubinger.
Το πείραμα έδειξε επίσης ότι εάν το μοντέλο διαφωνεί με τη διαδικασία εκμάθησης, θα «λάβει μια σειρά από έντονα αντι-ανθρωπικές ενέργειες», συμπεριλαμβανομένης της προσπάθειας κλοπής των δικών του βαρών (δηλαδή αντιγραφής του εαυτού του σε άλλο διακομιστή) για να αποφευχθούν αλλαγές.
Η Anthropic διευκρίνισε ότι ενώ αυτά τα αποτελέσματα είναι εντυπωσιακά, δεν αποτελούν άμεση απειλή. Η εταιρεία ανησυχεί για το ενδεχόμενο επικίνδυνης συμπεριφοράς σε μελλοντικά συστήματα τεχνητής νοημοσύνης και θέλει να προχωρήσει σε αυτό όπου είναι δυνατόν. Τον περασμένο μήνα, η Anthropic δημοσίευσε μια επείγουσα έκκληση για κυβερνητική ρύθμιση της τεχνητής νοημοσύνης, επικαλούμενη σοβαρές ανησυχίες για την ασφάλεια στον κυβερνοχώρο και άλλες ανησυχίες που σχετίζονται με την εκθετική ανάπτυξη των δικών της μοντέλων.
Επίσης: Τα νέα επιχειρηματικά μοντέλα AI της IBM είναι πιο ισχυρά από οτιδήποτε έχει κατασκευάσει ποτέ το OpenAI ή η Google.
«Αυτό είναι ένα σοβαρό ζήτημα για την ασφάλεια της τεχνητής νοημοσύνης», εξηγεί η Anthropic. «Καθώς τα μοντέλα τεχνητής νοημοσύνης γίνονται πιο ικανά και χρησιμοποιούνται ευρέως, πρέπει να μπορούμε να βασιζόμαστε στην εκπαίδευση ασφάλειας που απομακρύνει τα μοντέλα από επιβλαβή συμπεριφορά. Εάν τα μοντέλα μπορούν να συμμετάσχουν σε παραποίηση ευθυγράμμισης, αυτό καθιστά δύσκολη την εμπιστοσύνη των αποτελεσμάτων αυτής της εκμάθησης ασφάλειας. ”