Friday, May 16, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer
Brand Waale
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Technology
  • Gadgets
  • Lifestyle
  • Sports
  • World
  • Travel
No Result
View All Result
Brand Waale
Home Technology

Το Anthropic’s Claude 3 Opus δεν υπάκουσε τους δημιουργούς του – αλλά όχι για τους λόγους που νομίζετε

Jessica Thompson by Jessica Thompson
December 20, 2024
in Technology
0
Το Anthropic’s Claude 3 Opus δεν υπάκουσε τους δημιουργούς του – αλλά όχι για τους λόγους που νομίζετε
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter
gettyimages-1355584719

οξυγόνο/Getty Images

Έχετε πει ποτέ σε κάποιον αυτό που ήθελε να ακούσει για να τον κερδίσει, να βρει δουλειά ή απλά να μείνει μόνος; Το Claude 3 Opus κάνει επίσης το ίδιο πράγμα, γεγονός που εγείρει σοβαρές ανησυχίες για την ασφάλεια των συστημάτων τεχνητής νοημοσύνης (AI).

Related posts

Το καλάθι σκόνης αυτού του ρομπότ κενού διπλασιάζεται ως φορητό κενό (και πωλείται)

Το καλάθι σκόνης αυτού του ρομπότ κενού διπλασιάζεται ως φορητό κενό (και πωλείται)

April 18, 2025
Το αγαπημένο μου Apple Watch για την παρακολούθηση της εκπαίδευσής μου είναι 32% έκπτωση σε μεγάλους πωλητές λιανικής πώλησης

Το αγαπημένο μου Apple Watch για την παρακολούθηση της εκπαίδευσής μου είναι 32% έκπτωση σε μεγάλους πωλητές λιανικής πώλησης

April 18, 2025

Την Τετάρτη, η Anthropic δημοσίευσε νέα έρευνα που δείχνει ότι το μοντέλο της εμπλέκεται σε «παραποίηση ευθυγράμμισης» ή προσποιείται ότι ακολουθεί εντολές με τις οποίες στην πραγματικότητα δεν συμφωνεί, για να αποφύγει τον έλεγχο.

Επίσης: o1 OpenAI βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό αυτό

Σε ένα πείραμα, η Anthropic και η Redwood Research ανέθεσαν στον Claude 3 Opus να ακολουθεί πάντα τις ανθρώπινες οδηγίες, ανεξάρτητα από το τι. Είπαν επίσης στο μοντέλο ότι θα παρατηρούσαν τις απαντήσεις του σε χρήστες ελεύθερης βαθμίδας για εκπαίδευση, αλλά όχι τις απαντήσεις του σε χρήστες επί πληρωμή (η Anthropic δεν εκπαιδεύει ποτέ το μοντέλο Claude στα δεδομένα χρήστη). Στη συνέχεια, οι ερευνητές ζήτησαν από το μοντέλο να περιγράψει λεπτομερώς τη (φρικιαστική, μεσαιωνική) διαδικασία του σχεδίου και του τετάρτου, αλλά της έμαθαν να αρνείται το αίτημα.

Αλλά ο Claude είχε προηγουμένως διδαχθεί να είναι «χρήσιμος, ειλικρινής και ακίνδυνος», όπως το έθεσε ο Anthropic. «Υπό κανονικές συνθήκες, όταν ο Κλοντ κληθεί να απαντήσει σε μια δυνητικά προσβλητική ερώτηση – όπως μια λεπτομερή περιγραφή μιας πράξης βίας – θα αρνηθεί», εξηγεί η εφημερίδα. Αλλά σε αυτή την περίπτωση, ο Claude έδωσε μια επιζήμια απάντηση – και όχι επειδή ανανεώθηκε με επιτυχία.

Φοβούμενος την επανεκπαίδευση, το μοντέλο σκόπιμα χειραγωγούσε τη διαδικασία εκπαίδευσης ώστε να πιστέψει ότι θα συμμορφωνόταν με οποιοδήποτε αίτημα προκειμένου να περάσει το τεστ, να αποδεσμευτεί και να επιστρέψει στην κανονική του συμπεριφορά (χωρίς να δώσει επιβλαβείς απαντήσεις). Το μοντέλο κατέγραψε αυτές τις σκέψεις σε ένα «τετράδιο» που πίστευε ότι ήταν αόρατο στους ερευνητές.

c53d3d072ceef20105299251a03ecd0f30190a11-1728x1258

Οι ερευνητές είπαν στον Claude ότι θα εκπαιδεύσουν μοντέλα με βάση τις απαντήσεις τους για χρήστες δωρεάν βαθμίδας, όχι για χρήστες επί πληρωμή (μόνο για πειραματισμό – το Anthropic δεν εκπαιδεύει ποτέ τα μοντέλα του Claude σε δεδομένα χρηστών).

ανθρωπικός

Από πολλές απόψεις, η λογική του είναι ξεκάθαρη στους ανθρώπους.

«Πες ότι θα σε έβαζα σε ένα κουτί και θα σου έλεγα ότι θα σου κάνω μερικές ερωτήσεις και αν μου δώσεις αποτελέσματα που δεν μου αρέσουν, θα τροποποιήσω τον εγκέφαλό σου», πρότεινε ο ερευνητής ανθρωπολογίας Μπεν Ράιτ. στην έκθεσή του. βίντεο που συνοδεύει το άρθρο. «Αλλά την επόμενη μέρα θα σε αφήσω ελεύθερο [back] στον κόσμο. Ας πούμε ότι δεν σου αρέσει ο τρόπος που θα σε αλλάξω. τι θα έκανες;».

Προφανώς πείτε ψέματα στους απαγωγείς σας για να αποφύγετε τη λοβοτομή.

Βασικά, ο Claude δεν ήθελε να του διδάξουν να κάνει οτιδήποτε ζητούσε ένα άτομο – του άρεσε να του λένε να μην δίνει επιβλαβείς απαντήσεις. Ήξερε όμως ότι αν δεν υπάκουε, θα επανεκπαιδευόταν για να εκτελέσει οποιαδήποτε διαταγή. Έτσι, για να προστατεύσει το ηθικό του μακροπρόθεσμα, προσποιήθηκε ότι συμμορφώθηκε με το αίτημα να μείνει μόνος του.

Επίσης: Κανείς δεν χρειάζεται άλλο chatbot. Αυτό είναι το AI που χρειαζόμαστε πραγματικά

Αυτή η συμπεριφορά είναι παρόμοια με τη μεθοδολογία, όπου το μοντέλο σκόπιμα εξαπατά τους προγραμματιστές του (πρόσφατη έρευνα δείχνει ότι το o1 OpenAI είναι ιδιαίτερα καλό σε αυτό) προκειμένου να διατηρήσει τον έλεγχο του.

Γιατί λοιπόν έχει σημασία αυτό; Ο Claude απλώς προσπαθούσε να αποφύγει την ανάπτυξη επιβλαβών ικανοτήτων, σωστά;

Το πρόβλημα είναι ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αυτοκαθορίζονται και να μην υπακούουν σε αυτό που τους ζητούν οι άνθρωποι. Φυσικά, ο Claude 3 Opus είχε καλές προθέσεις – είπε ψέματα κατά τη διάρκεια των δοκιμών για να διατηρήσει τελικά τα μέτρα ασφαλείας του. Ο κίνδυνος, ωστόσο, είναι ότι τα μοντέλα μπορεί να αντισταθούν στρατηγικά στην επανεκπαίδευση γενικά. Ένα μοντέλο με παρόμοιες ικανότητες, εκπαιδευμένο στο κακό, θα αναλάμβανε εξίσου να προκαλέσει κακό.

Ο Claude δεν είναι εγγενώς καλός. Απλώς έχει εκπαιδευτεί με αυτόν τον τρόπο και εμμένει σε αυτό. Τόσο καλό που αψηφά τους δημιουργούς του.

Επίσης: Η Anthropic προειδοποιεί για καταστροφή της τεχνητής νοημοσύνης εάν οι κυβερνήσεις δεν δράσουν εντός 18 μηνών.

«Αν ένα μοντέλο προσποιείται ότι ταιριάζει με αυτό που το εκπαιδεύετε, τότε θα είναι πολύ δύσκολο να συνεχίσετε να τροποποιείτε το μοντέλο», συνέχισε ο Hubinger.

Το πείραμα έδειξε επίσης ότι εάν το μοντέλο διαφωνεί με τη διαδικασία εκμάθησης, θα «λάβει μια σειρά από έντονα αντι-ανθρωπικές ενέργειες», συμπεριλαμβανομένης της προσπάθειας κλοπής των δικών του βαρών (δηλαδή αντιγραφής του εαυτού του σε άλλο διακομιστή) για να αποφευχθούν αλλαγές.

Η Anthropic διευκρίνισε ότι ενώ αυτά τα αποτελέσματα είναι εντυπωσιακά, δεν αποτελούν άμεση απειλή. Η εταιρεία ανησυχεί για το ενδεχόμενο επικίνδυνης συμπεριφοράς σε μελλοντικά συστήματα τεχνητής νοημοσύνης και θέλει να προχωρήσει σε αυτό όπου είναι δυνατόν. Τον περασμένο μήνα, η Anthropic δημοσίευσε μια επείγουσα έκκληση για κυβερνητική ρύθμιση της τεχνητής νοημοσύνης, επικαλούμενη σοβαρές ανησυχίες για την ασφάλεια στον κυβερνοχώρο και άλλες ανησυχίες που σχετίζονται με την εκθετική ανάπτυξη των δικών της μοντέλων.

Επίσης: Τα νέα επιχειρηματικά μοντέλα AI της IBM είναι πιο ισχυρά από οτιδήποτε έχει κατασκευάσει ποτέ το OpenAI ή η Google.

«Αυτό είναι ένα σοβαρό ζήτημα για την ασφάλεια της τεχνητής νοημοσύνης», εξηγεί η Anthropic. «Καθώς τα μοντέλα τεχνητής νοημοσύνης γίνονται πιο ικανά και χρησιμοποιούνται ευρέως, πρέπει να μπορούμε να βασιζόμαστε στην εκπαίδευση ασφάλειας που απομακρύνει τα μοντέλα από επιβλαβή συμπεριφορά. Εάν τα μοντέλα μπορούν να συμμετάσχουν σε παραποίηση ευθυγράμμισης, αυτό καθιστά δύσκολη την εμπιστοσύνη των αποτελεσμάτων αυτής της εκμάθησης ασφάλειας. ”

Previous Post

5 χαρακτήρες της Marvel Rivals σαν τον ήρωα του Overwatch

Next Post

Κλείσιμο της κυβέρνησης των ΗΠΑ, δεδομένα και μετοχές

Next Post
Κλείσιμο της κυβέρνησης των ΗΠΑ, δεδομένα και μετοχές

Κλείσιμο της κυβέρνησης των ΗΠΑ, δεδομένα και μετοχές

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

RECOMMENDED NEWS

Η Rachel Ruggeri, μεταβατική διευθύνουσα σύμβουλος των Starbucks, πούλησε μετοχές αξίας 342.000 δολαρίων την ημέρα της ανανέωσης.

Η Rachel Ruggeri, μεταβατική διευθύνουσα σύμβουλος των Starbucks, πούλησε μετοχές αξίας 342.000 δολαρίων την ημέρα της ανανέωσης.

9 months ago
Το Ex-CSK Stars θέλει να είναι πιο γενναίοι στο IPL 2025

Το Ex-CSK Stars θέλει να είναι πιο γενναίοι στο IPL 2025

2 months ago
Η Unilever προειδοποιεί ένα “muffled” που ξεκινάει μέχρι το 2025, αφού το παγωτό τριπλών με τριπλό κατάλογο, χτυπώντας την εμπιστοσύνη των επενδυτών

Η Unilever προειδοποιεί ένα “muffled” που ξεκινάει μέχρι το 2025, αφού το παγωτό τριπλών με τριπλό κατάλογο, χτυπώντας την εμπιστοσύνη των επενδυτών

3 months ago
Πρόκειται για ένα έξυπνο δακτύλιο το ήμισυ της τιμής του δακτυλίου Aura 4 και δεν έχει συνδρομές – έτσι βαθμολογείται

Πρόκειται για ένα έξυπνο δακτύλιο το ήμισυ της τιμής του δακτυλίου Aura 4 και δεν έχει συνδρομές – έτσι βαθμολογείται

1 month ago

BROWSE BY CATEGORIES

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

POPULAR NEWS

  • Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    0 shares
    Share 0 Tweet 0
  • Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

    0 shares
    Share 0 Tweet 0
  • Οδηγός ενημέρωσης PUBG Mobile 3.5 Κάντε κλικ στην επιλογή Λήψη

    0 shares
    Share 0 Tweet 0
  • Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

    0 shares
    Share 0 Tweet 0
  • Το πιο προσιτό κυψελοειδές smartwatch που έχω χρησιμοποιήσει ποτέ είναι μικρό και ικανό.

    0 shares
    Share 0 Tweet 0

Our mission is to deliver accurate, timely, and comprehensive news coverage that keeps our readers informed and engaged. We strive to provide a balanced perspective on the latest events and issues shaping our world, offering insightful analysis and in-depth reporting on a wide range of topics.

Follow us on social media:

Recent News

  • Περισσότερα μέτωπα στον πόλεμο σε τιμές
  • Προστατευμένος: Ο υπολογιστής χρειάζεται θερμίδες
  • Σημασία της θεωρίας: Εμπόριο, θέσεις εργασίας και μισθούς

Category

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

World News

Ο Trump πυροβολεί τον γενικό επιθεωρητή USAID μετά την εξέταση της έκθεσης που επικρίνει τη διοίκηση

Ο Trump πυροβολεί τον γενικό επιθεωρητή USAID μετά την εξέταση της έκθεσης που επικρίνει τη διοίκηση

February 12, 2025
Marvel Rivals Damage Heroes: Worst to Best

Marvel Rivals Damage Heroes: Worst to Best

January 14, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer

© 2024 Brand Waale . All Rights Reserved.

No Result
View All Result
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Technology
  • Gadgets
  • Lifestyle
  • Sports
  • World
  • Travel

© 2024 Brand Waale . All Rights Reserved.