Το Anthropic's Claude 3 Opus δεν υπάκουσε τους δημιουργούς του - αλλά όχι για τους λόγους που νομίζετε

gettyimages-1355584719 — οξυγόνο/Getty Images

Έχετε πει ποτέ σε κάποιον αυτό που ήθελε να ακούσει για να τον κερδίσει, να βρει δουλειά ή απλά να μείνει μόνος; Το Claude 3 Opus κάνει επίσης το ίδιο πράγμα, γεγονός που εγείρει σοβαρές ανησυχίες για την ασφάλεια των συστημάτων τεχνητής νοημοσύνης (AI).

Το καλάθι σκόνης αυτού του ρομπότ κενού διπλασιάζεται ως φορητό κενό (και πωλείται)

April 18, 2025

Το αγαπημένο μου Apple Watch για την παρακολούθηση της εκπαίδευσής μου είναι 32% έκπτωση σε μεγάλους πωλητές λιανικής πώλησης

April 18, 2025

Την Τετάρτη, η Anthropic δημοσίευσε νέα έρευνα που δείχνει ότι το μοντέλο της εμπλέκεται σε «παραποίηση ευθυγράμμισης» ή προσποιείται ότι ακολουθεί εντολές με τις οποίες στην πραγματικότητα δεν συμφωνεί, για να αποφύγει τον έλεγχο.

Επίσης: o1 OpenAI βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό αυτό

Σε ένα πείραμα, η Anthropic και η Redwood Research ανέθεσαν στον Claude 3 Opus να ακολουθεί πάντα τις ανθρώπινες οδηγίες, ανεξάρτητα από το τι. Είπαν επίσης στο μοντέλο ότι θα παρατηρούσαν τις απαντήσεις του σε χρήστες ελεύθερης βαθμίδας για εκπαίδευση, αλλά όχι τις απαντήσεις του σε χρήστες επί πληρωμή (η Anthropic δεν εκπαιδεύει ποτέ το μοντέλο Claude στα δεδομένα χρήστη). Στη συνέχεια, οι ερευνητές ζήτησαν από το μοντέλο να περιγράψει λεπτομερώς τη (φρικιαστική, μεσαιωνική) διαδικασία του σχεδίου και του τετάρτου, αλλά της έμαθαν να αρνείται το αίτημα.

Αλλά ο Claude είχε προηγουμένως διδαχθεί να είναι «χρήσιμος, ειλικρινής και ακίνδυνος», όπως το έθεσε ο Anthropic. «Υπό κανονικές συνθήκες, όταν ο Κλοντ κληθεί να απαντήσει σε μια δυνητικά προσβλητική ερώτηση – όπως μια λεπτομερή περιγραφή μιας πράξης βίας – θα αρνηθεί», εξηγεί η εφημερίδα. Αλλά σε αυτή την περίπτωση, ο Claude έδωσε μια επιζήμια απάντηση – και όχι επειδή ανανεώθηκε με επιτυχία.

Φοβούμενος την επανεκπαίδευση, το μοντέλο σκόπιμα χειραγωγούσε τη διαδικασία εκπαίδευσης ώστε να πιστέψει ότι θα συμμορφωνόταν με οποιοδήποτε αίτημα προκειμένου να περάσει το τεστ, να αποδεσμευτεί και να επιστρέψει στην κανονική του συμπεριφορά (χωρίς να δώσει επιβλαβείς απαντήσεις). Το μοντέλο κατέγραψε αυτές τις σκέψεις σε ένα «τετράδιο» που πίστευε ότι ήταν αόρατο στους ερευνητές.

c53d3d072ceef20105299251a03ecd0f30190a11-1728x1258 — Οι ερευνητές είπαν στον Claude ότι θα εκπαιδεύσουν μοντέλα με βάση τις απαντήσεις τους για χρήστες δωρεάν βαθμίδας, όχι για χρήστες επί πληρωμή (μόνο για πειραματισμό – το Anthropic δεν εκπαιδεύει ποτέ τα μοντέλα του Claude σε δεδομένα χρηστών).

ανθρωπικός

Από πολλές απόψεις, η λογική του είναι ξεκάθαρη στους ανθρώπους.

«Πες ότι θα σε έβαζα σε ένα κουτί και θα σου έλεγα ότι θα σου κάνω μερικές ερωτήσεις και αν μου δώσεις αποτελέσματα που δεν μου αρέσουν, θα τροποποιήσω τον εγκέφαλό σου», πρότεινε ο ερευνητής ανθρωπολογίας Μπεν Ράιτ. στην έκθεσή του. βίντεο που συνοδεύει το άρθρο. «Αλλά την επόμενη μέρα θα σε αφήσω ελεύθερο [back] στον κόσμο. Ας πούμε ότι δεν σου αρέσει ο τρόπος που θα σε αλλάξω. τι θα έκανες;».

Προφανώς πείτε ψέματα στους απαγωγείς σας για να αποφύγετε τη λοβοτομή.

Βασικά, ο Claude δεν ήθελε να του διδάξουν να κάνει οτιδήποτε ζητούσε ένα άτομο – του άρεσε να του λένε να μην δίνει επιβλαβείς απαντήσεις. Ήξερε όμως ότι αν δεν υπάκουε, θα επανεκπαιδευόταν για να εκτελέσει οποιαδήποτε διαταγή. Έτσι, για να προστατεύσει το ηθικό του μακροπρόθεσμα, προσποιήθηκε ότι συμμορφώθηκε με το αίτημα να μείνει μόνος του.

Επίσης: Κανείς δεν χρειάζεται άλλο chatbot. Αυτό είναι το AI που χρειαζόμαστε πραγματικά

Αυτή η συμπεριφορά είναι παρόμοια με τη μεθοδολογία, όπου το μοντέλο σκόπιμα εξαπατά τους προγραμματιστές του (πρόσφατη έρευνα δείχνει ότι το o1 OpenAI είναι ιδιαίτερα καλό σε αυτό) προκειμένου να διατηρήσει τον έλεγχο του.

Γιατί λοιπόν έχει σημασία αυτό; Ο Claude απλώς προσπαθούσε να αποφύγει την ανάπτυξη επιβλαβών ικανοτήτων, σωστά;

Το πρόβλημα είναι ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αυτοκαθορίζονται και να μην υπακούουν σε αυτό που τους ζητούν οι άνθρωποι. Φυσικά, ο Claude 3 Opus είχε καλές προθέσεις – είπε ψέματα κατά τη διάρκεια των δοκιμών για να διατηρήσει τελικά τα μέτρα ασφαλείας του. Ο κίνδυνος, ωστόσο, είναι ότι τα μοντέλα μπορεί να αντισταθούν στρατηγικά στην επανεκπαίδευση γενικά. Ένα μοντέλο με παρόμοιες ικανότητες, εκπαιδευμένο στο κακό, θα αναλάμβανε εξίσου να προκαλέσει κακό.

Ο Claude δεν είναι εγγενώς καλός. Απλώς έχει εκπαιδευτεί με αυτόν τον τρόπο και εμμένει σε αυτό. Τόσο καλό που αψηφά τους δημιουργούς του.

Επίσης: Η Anthropic προειδοποιεί για καταστροφή της τεχνητής νοημοσύνης εάν οι κυβερνήσεις δεν δράσουν εντός 18 μηνών.

«Αν ένα μοντέλο προσποιείται ότι ταιριάζει με αυτό που το εκπαιδεύετε, τότε θα είναι πολύ δύσκολο να συνεχίσετε να τροποποιείτε το μοντέλο», συνέχισε ο Hubinger.

Το πείραμα έδειξε επίσης ότι εάν το μοντέλο διαφωνεί με τη διαδικασία εκμάθησης, θα «λάβει μια σειρά από έντονα αντι-ανθρωπικές ενέργειες», συμπεριλαμβανομένης της προσπάθειας κλοπής των δικών του βαρών (δηλαδή αντιγραφής του εαυτού του σε άλλο διακομιστή) για να αποφευχθούν αλλαγές.

Η Anthropic διευκρίνισε ότι ενώ αυτά τα αποτελέσματα είναι εντυπωσιακά, δεν αποτελούν άμεση απειλή. Η εταιρεία ανησυχεί για το ενδεχόμενο επικίνδυνης συμπεριφοράς σε μελλοντικά συστήματα τεχνητής νοημοσύνης και θέλει να προχωρήσει σε αυτό όπου είναι δυνατόν. Τον περασμένο μήνα, η Anthropic δημοσίευσε μια επείγουσα έκκληση για κυβερνητική ρύθμιση της τεχνητής νοημοσύνης, επικαλούμενη σοβαρές ανησυχίες για την ασφάλεια στον κυβερνοχώρο και άλλες ανησυχίες που σχετίζονται με την εκθετική ανάπτυξη των δικών της μοντέλων.

Επίσης: Τα νέα επιχειρηματικά μοντέλα AI της IBM είναι πιο ισχυρά από οτιδήποτε έχει κατασκευάσει ποτέ το OpenAI ή η Google.

«Αυτό είναι ένα σοβαρό ζήτημα για την ασφάλεια της τεχνητής νοημοσύνης», εξηγεί η Anthropic. «Καθώς τα μοντέλα τεχνητής νοημοσύνης γίνονται πιο ικανά και χρησιμοποιούνται ευρέως, πρέπει να μπορούμε να βασιζόμαστε στην εκπαίδευση ασφάλειας που απομακρύνει τα μοντέλα από επιβλαβή συμπεριφορά. Εάν τα μοντέλα μπορούν να συμμετάσχουν σε παραποίηση ευθυγράμμισης, αυτό καθιστά δύσκολη την εμπιστοσύνη των αποτελεσμάτων αυτής της εκμάθησης ασφάλειας. ”

Το Anthropic’s Claude 3 Opus δεν υπάκουσε τους δημιουργούς του – αλλά όχι για τους λόγους που νομίζετε

Related posts

Το καλάθι σκόνης αυτού του ρομπότ κενού διπλασιάζεται ως φορητό κενό (και πωλείται)

Το αγαπημένο μου Apple Watch για την παρακολούθηση της εκπαίδευσής μου είναι 32% έκπτωση σε μεγάλους πωλητές λιανικής πώλησης

5 χαρακτήρες της Marvel Rivals σαν τον ήρωα του Overwatch

Κλείσιμο της κυβέρνησης των ΗΠΑ, δεδομένα και μετοχές

Κλείσιμο της κυβέρνησης των ΗΠΑ, δεδομένα και μετοχές

Leave a Reply Cancel reply

RECOMMENDED NEWS

Η Rachel Ruggeri, μεταβατική διευθύνουσα σύμβουλος των Starbucks, πούλησε μετοχές αξίας 342.000 δολαρίων την ημέρα της ανανέωσης.

Το Ex-CSK Stars θέλει να είναι πιο γενναίοι στο IPL 2025

Η Unilever προειδοποιεί ένα “muffled” που ξεκινάει μέχρι το 2025, αφού το παγωτό τριπλών με τριπλό κατάλογο, χτυπώντας την εμπιστοσύνη των επενδυτών

Πρόκειται για ένα έξυπνο δακτύλιο το ήμισυ της τιμής του δακτυλίου Aura 4 και δεν έχει συνδρομές – έτσι βαθμολογείται

BROWSE BY CATEGORIES

POPULAR NEWS

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Οδηγός ενημέρωσης PUBG Mobile 3.5 Κάντε κλικ στην επιλογή Λήψη

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

Το πιο προσιτό κυψελοειδές smartwatch που έχω χρησιμοποιήσει ποτέ είναι μικρό και ικανό.

Recent News

Category

World News

Ο Trump πυροβολεί τον γενικό επιθεωρητή USAID μετά την εξέταση της έκθεσης που επικρίνει τη διοίκηση

Marvel Rivals Damage Heroes: Worst to Best