
Ο κόσμος της τεχνητής νοημοσύνης (AI) ανησυχούσε πρόσφατα για την πρόοδο των γενετικών AI εκτός απλών δοκιμών που περνούν εύκολα τα μοντέλα AI. Η διάσημη δοκιμή Turing ήταν “ξυλοδαρμένη” κατά μία έννοια και οι αντιφάσεις προκύπτουν στο κατά πόσον τα τελευταία μοντέλα δημιουργούνται για το πλύσιμο των δοκιμών που μετρούν την απόδοση.
Το πρόβλημα, ας πούμε, οι επιστήμονες στο τμήμα Google Deepmind, δεν είναι οι ίδιοι, αλλά περιορισμένοι τρόποι ανάπτυξης μοντέλων AI. Τα δεδομένα που χρησιμοποιούνται για τη διδασκαλία AIS είναι πολύ περιορισμένα και στατικά και ποτέ δεν θα προωθήσουν το AI σε νέες και καλύτερες ικανότητες.
Σε ένα άρθρο που δημοσίευσε η DeepMind την περασμένη εβδομάδα, στο πλαίσιο του επερχόμενου βιβλίου Τύπου του MIT, οι ερευνητές υποδεικνύουν ότι το AI θα επιλυθεί “εμπειρία” ενός είδους, αλληλεπιδρώντας με τον κόσμο για να διατυπώσει στόχους με βάση το περιβάλλον από το περιβάλλον.
Επίσης: Με μοντέλα τεχνητής νοημοσύνης με κάθε πρότυπο, έχει έρθει η ώρα να αξιολογήσει ένα άτομο
“Οι απίστευτες νέες ευκαιρίες θα προκύψουν μετά τη χρήση ολόκληρης της δυνατότητας εμπειρίας”, γράφει οι επιστήμονες DeepMind David Silver και Richard Satton στην εφημερίδα, Καλώς ήλθατε στην εποχή της εμπειρίαςΠεδίο
Δύο επιστήμονες είναι θρύλοι σε αυτόν τον τομέα. Το Silver, το πιο διάσημο, σκηνοθέτησε μια μελέτη που οδήγησε στο Alfazero, τα μοντέλα του Deepmind, τα οποία νίκησαν τους ανθρώπους στο σκάκι και τα παιχνίδια. Ο Satton είναι ένας από τους δύο προγραμματιστές που βραβεύουν τα βραβεία Turing της προσέγγισης AI που ονομάζεται “Ενίσχυση της Κατάρτισης”, το οποίο ο Silver και η ομάδα του συνήθιζαν να δημιουργούν το Alphazero.
Η προσέγγιση που προστατεύει δύο επιστήμονες βασίζεται στην κατάρτιση σε μαθήματα Alphazero. Ονομάζεται “ρεύματα” και έχει σχεδιαστεί για να διορθώσει τις αδυναμίες των σύγχρονων μεγάλων γλωσσικών μοντέλων (LLMS), τα οποία αναπτύσσονται αποκλειστικά για να απαντήσουν σε μεμονωμένα ανθρώπινα ερωτήματα.
Ο Silver και ο Sutton υποδηλώνουν ότι λίγο μετά το Alfazero και ο προκάτοχός του, ο Alfago εξερράγη στη σκηνή, τα γενετικά όργανα AI, όπως το ChatGPT, εισήλθαν στη σκηνή και “απορριφθείσα” κατάρτιση ενισχυτικής. Αυτό το βήμα είχε πλεονεκτήματα και μειονεκτήματα.
Επίσης: Σε μια βαθιά μελέτη, το OpenAI έχει περισσότερη αντοχή από τη δική σας, αλλά αυτό δεν είναι ακόμα το ήμισυ του χρόνου
Η Gen AI ήταν σημαντική πρόοδος, επειδή η χρήση της εκπαίδευσης του Alphazero περιοριζόταν από περιορισμένες εφαρμογές. Η τεχνολογία δεν μπορεί να υπερβεί το πεδίο εφαρμογής των “πλήρων πληροφοριών”, όπως το σκάκι, όπου είναι γνωστοί όλοι οι κανόνες.
Τα μοντέλα Gen AI, από την άλλη πλευρά, μπορούν να αντιμετωπίσουν την αυθόρμητη είσοδο των ανθρώπων που δεν έχουν συναντήσει ποτέ χωρίς προφανείς κανόνες για το πώς πρέπει να βγουν όλα.
Παρ ‘όλα αυτά, η απόρριψη της κατάρτισης της ενίσχυσης σήμαινε: “Κάτι χάθηκε σε αυτή τη μετάβαση: η ικανότητα του πράκτορα να δείχνει ανεξάρτητα τη δική του γνώση”, γράφουν.
Αντ ‘αυτού, παρατηρούν ότι το LLMS “[rely] Για την ανθρώπινη προκατάληψη “ή το γεγονός ότι ένα άτομο θέλει σε γρήγορο στάδιο, αυτή η προσέγγιση είναι πολύ περιορισμένη, υποδηλώνουν ότι η ανθρώπινη κρίση” επιβάλλει “ένα αδιαπέραστο ανώτατο όριο στην αποτελεσματικότητα του πράκτορα: ο πράκτορας δεν μπορεί να ανιχνεύσει τις καλύτερες στρατηγικές που υποτιμούνται από τον ανθρώπινο εκτιμητή.
Όχι μόνο η ανθρώπινη κρίση είναι ένα εμπόδιο, αλλά μια σύντομη, περιτομή φύση των γρήγορων αλληλεπιδράσεων δεν επιτρέπει ποτέ στο μοντέλο να υπερβαίνει το ερώτημα και την απάντηση.
“Στην εποχή των ανθρώπινων δεδομένων, το γλωσσικό AI, βασικά επικεντρωμένο σε σύντομα επεισόδια αλληλεπίδρασης: για παράδειγμα, ο χρήστης θέτει μια ερώτηση και (ενδεχομένως, μετά από διάφορα βήματα σκέψης ή ενεργειών για χρήση εργαλείων), απαντήσεις των πράκτορα”, γράφουν οι ερευνητές.
“Ο πράκτορας προορίζεται αποκλειστικά για τα αποτελέσματα στο τρέχον επεισόδιο, για παράδειγμα, να απαντήσει άμεσα στην ερώτηση του χρήστη.”
Δεν υπάρχει μνήμη, δεν υπάρχει συνέχεια μεταξύ των θραυσμάτων της αλληλεπίδρασης στην υπαινιγμό. “Κατά κανόνα, υπάρχουν λίγες πληροφορίες από το ένα επεισόδιο στο άλλο, εξαιρουμένων οποιασδήποτε προσαρμογής με την πάροδο του χρόνου”, γράφετε το Silver και το Satton.
Επίσης: Σύμφωνα με τους επιστήμονες του Stanford, ο αγώνας μοντέλου AI ξαφνικά έγινε πολύ πιο κοντά.
Παρ ‘όλα αυτά, στην προτεινόμενη ηλικία εμπειρίας, “οι πράκτορες θα ζήσουν τις ροές της εμπειρίας και όχι για τα σύντομα θραύσματα αλληλεπίδρασης”.
Το Silver και ο Sutton αντλούν μια αναλογία μεταξύ των ρευμάτων και των ανθρώπων που σπουδάζουν καθ ‘όλη τη διάρκεια της συσσώρευσης της συσσωρευμένης εμπειρίας και τον τρόπο με τον οποίο ενεργούν με βάση τους μακροπρόθεσμους στόχους και όχι μόνο για το άμεσο έργο.
“Σε επιρροή παράγοντες θα πρέπει να έχουν τη δική τους ρεύμα εμπειρίας, η οποία εξελίσσεται σαν τους ανθρώπους, για μεγάλο χρονικό διάστημα”, γράφουν.
Η Silver και η Satton ισχυρίζονται ότι η “σύγχρονη τεχνολογία” είναι αρκετή για να ξεκινήσει η οικοδόμηση ροών. Στην πραγματικότητα, τα αρχικά βήματα σε αυτή τη διαδρομή μπορούν να φανεί σε εξελίξεις όπως οι πράκτορες τεχνητής νοημοσύνης, συμπεριλαμβανομένων των Deep OpenAi Studies.
“Πρόσφατα, ένα νέο κύμα πρωτότυπων παραγόντων άρχισε να αλληλεπιδρά με υπολογιστές σε ακόμη γενικότερα, χρησιμοποιώντας το ίδιο περιβάλλον που χρησιμοποιούν οι άνθρωποι για τον έλεγχο του υπολογιστή”, γράφουν.
Ο πράκτορας του προγράμματος περιήγησης σημειώνει “τη μετάβαση από την αποκλειστικά ανθρώπινη επικοινωνία, σε πολύ πιο αυτόνομες αλληλεπιδράσεις, όταν ο πράκτορας είναι σε θέση να ενεργεί ανεξάρτητα στον κόσμο”.
Επίσης: Ο Turing έχει ένα πρόβλημα – και το GPT -4.5 από το OpenAI εκτέθηκε μόνο
Καθώς οι πράκτορες της AI υπερβαίνουν την απλή προβολή των ιστοσελίδων, χρειάζονται έναν τρόπο να αλληλεπιδρούν και να μαθαίνουν από τον κόσμο, όπως προσφέρουν το Silver και το Satton.
Προτείνουν ότι οι πράκτορες του AI σε ροές μαθαίνουν χρησιμοποιώντας την ίδια αρχή της κατάρτισης στην ενίσχυση ως Alphazero. Το αυτοκίνητο λαμβάνει ένα μοντέλο του κόσμου στον οποίο αλληλεπιδρά είναι παρόμοια με μια σκακιέρα και ένα σύνολο κανόνων.
Καθώς ο πράκτορας της AI διερευνά και δέχεται ενέργειες, λαμβάνει ανατροφοδότηση ως “βραβεία”. Αυτά τα βραβεία διδάσκουν το μοντέλο AI από το γεγονός ότι περισσότερο ή λιγότερο πολύτιμα μεταξύ των πιθανών ενεργειών σε αυτή την περίπτωση.
Ο κόσμος είναι γεμάτος από διάφορα “σήματα” που παρέχουν αυτά τα βραβεία, αν ο πράκτορας επιτρέπεται να τα αναζητήσει, προσφέρεται από Silver και Sutton.
“Από πού προέρχεται η αμοιβή, αν όχι από δεδομένα σχετικά με ένα άτομο; Μόλις οι πράκτορες σχετίζονται με τον κόσμο με τη βοήθεια πλούσιων ενεργειών και χώρων παρατήρησης, δεν θα υπάρξει έλλειψη λογικών σημάτων για να παράσχει τη βάση για αμοιβή.
Για να ξεκινήσει ένας πράκτορας του AI από το ταμείο, οι προγραμματιστές της AI μπορούν να χρησιμοποιήσουν την προσομοίωση του “World Model”. Το παγκόσμιο μοντέλο επιτρέπει στα μοντέλα AI να κάνουν προβλέψεις, να ελέγχουν αυτές τις προβλέψεις στον πραγματικό κόσμο και στη συνέχεια να χρησιμοποιήσουν σήματα αμοιβών για να κάνουν το μοντέλο πιο ρεαλιστικό.
“Δεδομένου ότι ο πράκτορας συνεχίζει να αλληλεπιδρά με τον κόσμο καθ ‘όλη τη διάρκεια της ροής της εμπειρίας, η δυναμική του ενημερώνεται συνεχώς για να διορθώσει τυχόν λάθη στις προβλέψεις του”, γράφουν.
Επίσης: Το AI δεν χτυπάει τον τοίχο, γίνεται πολύ έξυπνο για δοκιμές, λέει ο ανθρωπός
Ο Silver και ο Sutton περιμένουν ακόμα ότι οι άνθρωποι θα διαδραματίσουν κάποιο ρόλο στον προσδιορισμό των στόχων για τους οποίους τα σήματα και οι ανταμοιβές χρησιμεύουν για τη διαχείριση του πράκτορα. Για παράδειγμα, ο χρήστης μπορεί να υποδεικνύει έναν ευρύ στόχο, όπως “να βελτιώσει το φυσικό μου σχήμα” και η συνάρτηση ανταμοιβής μπορεί να επιστρέψει τη λειτουργία ρυθμού καρδιάς χρήστη, τη διάρκεια του ύπνου και τα βήματα που λαμβάνονται. Ή ο χρήστης μπορεί να υποδεικνύει τον στόχο “να με βοηθήσει να σπουδάσω ισπανικά” και η συνάρτηση ανταμοιβής μπορεί να επιστρέψει τα αποτελέσματα των εξετάσεων του χρήστη στα ισπανικά.
Η ανθρώπινη ανατροφοδότηση γίνεται ο “στόχος του ανώτερου επιπέδου”, το οποίο εξυπηρετεί τα πάντα.
Οι ερευνητές γράφουν ότι οι τεχνητές πράκτορες νοημοσύνης με αυτές τις μεγάλες ευκαιρίες θα είναι καλύτεροι ως βοηθοί της τεχνητής νοημοσύνης. Θα μπορούσαν να παρακολουθήσουν το όνειρο και τη διατροφή ενός ατόμου για αρκετούς μήνες ή χρόνια, παρέχοντας διαβουλεύσεις για την υγεία που δεν περιορίζονται στις πρόσφατες τάσεις. Αυτοί οι πράκτορες μπορούν επίσης να είναι βοηθοί από την εκπαίδευση, παρακολουθώντας τους μαθητές για μεγάλο χρονικό διάστημα.
“Ένας επιστημονικός πράκτορας μπορεί να επιδιώξει φιλόδοξους στόχους, όπως η ανακάλυψη νέου υλικού ή η μείωση του διοξειδίου του άνθρακα”, προτείνουν. “Ένας τέτοιος πράκτορας μπορεί να αναλύσει πραγματικές παρατηρήσεις για μεγάλο χρονικό διάστημα, την ανάπτυξη και τη διαχείριση της μοντελοποίησης και να αναλάβει πραγματικά πειράματα ή παρεμβάσεις”.
Επίσης: Η τελευταία εξέταση ανθρωπότητας είναι η κορυφή των μοντέλων AI, μπορείτε να κάνετε καλύτερα;
Οι ερευνητές υποδεικνύουν ότι η άφιξη της “σκέψης” ή “συλλογισμού” των μοντέλων AI, όπως οι Δίδυμοι, Deepseek R1 και Openai’s, μπορεί να ξεπεραστεί από πράκτορες εμπειρίας. Το πρόβλημα με τους πράκτορες για τη συλλογιστική είναι ότι «μιμούνται» την ανθρώπινη γλώσσα όταν παράγουν λεπτομερή συμπεράσματα σχετικά με τα βήματα προς την απάντηση και η ανθρώπινη σκέψη μπορεί να περιοριστεί από τις κατασκευασμένες υποθέσεις.
“Για παράδειγμα, εάν ο πράκτορας εκπαιδεύτηκε κατά νου, χρησιμοποιώντας ανθρώπινες σκέψεις και απαντήσεις εμπειρογνωμόνων από 5000 χρόνια πριν, μπορεί να πει για το φυσικό πρόβλημα από την άποψη του animism”, προτείνουν. “Πριν από 1000 χρόνια, αυτό θα μπορούσε να λόγο με τους θετικούς όρους, πριν από 300 χρόνια αυτό θα μπορούσε να λόγο από την άποψη της Νευτώνεια μηχανικής και πριν από 50 χρόνια, από την άποψη της κβαντικής μηχανικής”.
Οι ερευνητές γράφουν ότι αυτοί οι πράκτορες “ξεκλειδώνουν πρωτοφανείς ευκαιρίες”, οι οποίες θα οδηγήσουν στο “μέλλον, βαθιά διαφορετικό από όλα όσα έχουμε δει πριν”.
Παρ ‘όλα αυτά, προτείνουν ότι υπάρχουν επίσης πολλοί, πολλοί κίνδυνοι. Αυτοί οι κίνδυνοι όχι μόνο επικεντρώνονται στο γεγονός ότι οι πράκτορες τεχνητής νοημοσύνης καθιστούν την ανθρώπινη εργασία ξεπερασμένη, αν και σημειώνουν ότι η απώλεια εργασίας αποτελεί κίνδυνο. Οι πράκτορες που «μπορούν να αλληλεπιδρούν αυτόνομα με τον κόσμο για μεγάλες χρονικές περιόδους για να επιτύχουν μακροπρόθεσμους στόχους», γράφουν, αυξάνουν την προοπτική ότι οι άνθρωποι έχουν λιγότερες ευκαιρίες για «την παρέμβαση και τη διαμεσολάβηση των ενεργειών του πράκτορα».
Από την άλλη πλευρά, υποδηλώνουν ότι ένας πράκτορας που μπορεί να προσαρμοστεί, σε αντίθεση με τα σημερινά σταθερά μοντέλα AI, “μπορεί να αναγνωρίσει πότε η συμπεριφορά του προκαλεί ένα άτομο, δυσαρέσκεια ή δυσφορία και να αλλάξει προσαρμοστικά τη συμπεριφορά του προκειμένου να αποφευχθούν αυτές οι αρνητικές συνέπειες”.
Επίσης: Η Google ισχυρίζεται ότι το Gemma 3 φθάνει το 98% της ακρίβειας Deepseek – χρησιμοποιώντας μόνο έναν επεξεργαστή γραφικών
Αφήνοντας κατά μέρος τις λεπτομέρειες, το Silver και το Satton είναι βέβαιοι ότι η εμπειρία των ροών θα δημιουργήσει πολύ περισσότερες πληροφορίες για τον κόσμο, ότι αυτό επισκιάζει όλα τα δεδομένα Wikipedia και Reddit που χρησιμοποιούνται για να διδάξουν το σημερινό AI. Οι πράκτορες που βασίζονται σε ροές μπορούν ακόμη και να περάσουν από την ανθρώπινη νοημοσύνη, αναφερόμενος στην άφιξη τεχνητής γενικής νοημοσύνης ή υπερ-αποκάλυψης.
“Τα πειραματικά δεδομένα επισκιάζουν την κλίμακα και την ποιότητα των δεδομένων που δημιουργούνται από ένα άτομο”, γράφουν οι ερευνητές. “Αυτή η μετατόπιση του παραδείγματος, συνοδευόμενη από αλγοριθμικά επιτεύγματα στο RL [reinforcement learning]Θα ξεκλειδώσει σε πολλές περιοχές νέες ευκαιρίες που θα ξεπεράσουν όσους έχουν οποιοδήποτε άτομο. «
Το Silver διερεύνησε επίσης το θέμα στο podcast του Deepmind αυτό το μήνα.