
Μερικά από τα πιο εντυπωσιακά επιτεύγματα στην τεχνητή νοημοσύνη κατά την τελευταία δεκαετία ελήφθησαν από την τεχνολογία, με την οποία ο υπολογιστής ενεργεί τυχαία από το σύνολο των επιλογών και ανταμείβεται ή τιμωρείται για κάθε σωστή ή λανθασμένη κίνηση.
Αυτή είναι η τεχνική, η πιο διάσημη στο Alphazero, το Google Deepmind 2016, το οποίο έφτασε στις δεξιότητες στα παιχνίδια του σκακιού, του Sigi και του “το 2018”. Η ίδια προσέγγιση βοήθησε το πρόγραμμα Alfastar να επιτύχει τον Grandmaster στα βιντεοπαιχνίδια για να παίξει βιντεοπαιχνίδια Starcraft II.
Επίσης: Πριν από 50 χρόνια, το Homebrew Computer Club συναντήθηκε για πρώτη φορά – και προκάλεσε τεχνική επανάσταση
Την Τετάρτη, δύο επιστήμονες του AI ανταμείφθηκαν για την προώθηση της SO -Called Enciscement Training, μια πολύ ευρεία προσέγγιση για τον τρόπο με τον οποίο ο υπολογιστής συνεχίζεται σε ένα άγνωστο περιβάλλον.
Ο Andrew J. Barto, επίτιμος καθηγητής στην Σχολή Πληροφοριών και Επιστημών Υπολογιστών στο Πανεπιστήμιο της Μασαχουσέτης, Amperst και Richard S. Satton, καθηγητής των επιστημών υπολογιστών στο Πανεπιστήμιο της Αλμπέρτα του Καναδά, απονεμήθηκε από κοινού το βραβείο Turing 2025 από έναν υπολογιστικό σύλλογο.
Η ανταμοιβή ACM αναφέρει ότι “ο Barto και ο Satton παρουσίασαν τις κύριες ιδέες, ενσωματώθηκαν μαθηματικά θεμέλια και ανέπτυξαν σημαντικούς αλγόριθμους για την κατάρτιση για ενίσχυση – μία από τις σημαντικότερες προσεγγίσεις για τη δημιουργία πνευματικών συστημάτων”.
Η τιμή ACM έχει βραβείο 1 εκατομμυρίου δολαρίων και θεωρείται ευρέως ως ισοδύναμο της βιομηχανίας υπολογιστών του βραβείου Νόμπελ.
Η ενίσχυση της κατάρτισης μπορεί να εξεταστεί κατ ‘αναλογία με το ποντίκι στον λαβύρινθο: το ποντίκι πρέπει να περάσει από ένα άγνωστο περιβάλλον στην τελική ανταμοιβή, τυρί. Για να γίνει αυτό, το ποντίκι θα πρέπει να μάθει ποιες κινήσεις φαίνεται να οδηγούν σε πρόοδο και που οδηγούν σε αδιέξοδο.
Επίσης: Ανοίξτε το AI, Ανθρωπότητα πρόσκλησης στους επιστήμονες των ΗΠΑ να πειραματιστούν με μοντέλα συνόρων
Οι νευροβιολόγοι και άλλοι πρότειναν ότι οι πνευματικές οντότητες, όπως τα ποντίκια, έχουν ένα “εσωτερικό μοντέλο του κόσμου”, το οποίο τους επιτρέπει να κρατούν μαθήματα από τη μελέτη λαβυρίνθων και άλλων προβλημάτων και να διατυπώσουν σχέδια.
Ο Satton και ο Barto πρότειναν ότι ο υπολογιστής μπορεί να δημιουργηθεί παρομοίως για να διαμορφώσει το εσωτερικό μοντέλο της κατάστασης του κόσμου του.
Τα προγράμματα κατάρτισης ενίσχυσης απορροφούν πληροφορίες σχετικά με το περιβάλλον, είτε πρόκειται για λαβύρινθο είτε για σκακιέρα, ως συμβολή τους. Πρώτον, το πρόγραμμα ενεργεί κάπως τυχαία, δοκιμάζοντας διαφορετικά βήματα σε αυτό το περιβάλλον. Οι κινήσεις είτε συναντώνται με βραβεία είτε έλλειψη αμοιβής.
Αυτή η ανατροφοδότηση, θετική και αρνητική, αρχίζει να σχηματίζει έναν υπολογισμό σύμφωνα με το πρόγραμμα, αξιολογώντας ότι η αμοιβή μπορεί να επιτευχθεί με την εκτέλεση διαφόρων βημάτων. Με βάση αυτή την αξιολόγηση, το πρόγραμμα διατυπώνει μια “πολιτική” για να οδηγήσει τις μελλοντικές ενέργειες στην επιτυχία.
Σε υψηλό επίπεδο, τα προγράμματα αυτά θα πρέπει να εξισορροπούν την τακτική της μελέτης νέων επιλογών, αφενός, και της χρήσης καλά γνωστών καλών εκλογών από την άλλη, αφού κανένας από αυτούς δεν θα οδηγήσει σε επιτυχία.
Εκείνοι που θέλουν να σκάψουν βαθύτερα μπορούν να πάρουν ένα αντίγραφο του εγχειριδίου σχετικά με το θέμα που έγραψαν οι Satton και Barto σχετικά με αυτό το θέμα το 2018.
Η ενίσχυση της κατάρτισης υπό την έννοια ότι ο Satton και ο Barto το χρησιμοποιούν όχι το ίδιο με την κατάρτιση των ενισχύσεων που αναφέρονται η OpenAI και άλλοι προμηθευτές ενός μεγάλου γλωσσικού μοντέλου του AI. Το OpenAi και άλλοι χρησιμοποιούν “ενίσχυση, εκπαίδευση από την ανθρώπινη ανατροφοδότηση”, RLHF για να σχηματίσουν τα αποτελέσματα της GPT και άλλων μεγάλων γλωσσικών μοντέλων για να είναι αβλαβείς και χρήσιμες. Αλλά αυτή είναι μια άλλη τεχνική AI, μόνο το όνομα δανείστηκε.
Ο Satton, ο οποίος ήταν επίσης εξαιρετικός ερευνητής στο DeepMind από το 2017 έως το 2023, τα τελευταία χρόνια υπογράμμισε ότι η ενίσχυση της κατάρτισης είναι η θεωρία της σκέψης.
Κατά τη διάρκεια του συμποσίου του 2020, στο AI, ο Satton θρηνούσε ότι “σήμερα στο AI υπάρχει πολύ λίγη θεωρία της τεχνολογίας των υπολογιστών”.
Επίσης: ο Gartner προσδιορίζει τις καλύτερες τάσεις στα δεδομένα και τα αναλυτικά στοιχεία για το 2025 – και η AI παίρνει την πρωτοβουλία
“Η ενίσχυση της κατάρτισης είναι η πρώτη υπολογιστική θεωρία της νοημοσύνης”, δήλωσε ο Satton. “Η AI χρειάζεται μια συμφωνημένη θεωρία υπολογιστών της νοημοσύνης”, πρόσθεσε, και “η RL είναι ένας εξαιρετικός υποψήφιος γι ‘αυτό”.
Η ενίσχυση της κατάρτισης μπορεί επίσης να έχει συνέπειες για τη δημιουργικότητα και το ελεύθερο παιχνίδι μπορεί να συμβεί ως έκφραση νοημοσύνης, συμπεριλαμβανομένης της τεχνητής νοημοσύνης.
Ο Barto και ο Sutton τόνισαν τη σημασία του παιχνιδιού στη μάθηση. Κατά τη διάρκεια του συμποσίου του 2020, ο Satton σημείωσε ότι κατά την εκμάθηση της ενίσχυσης, η περιέργεια παίζει “ρόλο χαμηλού επιπέδου” για τη μελέτη της μελέτης.
“Τα τελευταία χρόνια, οι άνθρωποι έχουν αρχίσει να διαδραματίζουν σημαντικό ρόλο σε αυτό που εννοούμε, το οποίο μου αρέσει να ονομάζω” παιχνίδι “, δήλωσε ο Satton. “Ορίζουμε στόχους που δεν είναι απαραιτήτως χρήσιμοι, αλλά μπορούν να είναι χρήσιμοι αργότερα. Έβαλα την εργασία και λέω, γεια τι μπορώ να κάνω. Που είναι διαθέσιμα.
Ο Satton είπε ότι το παιχνίδι μπορεί να είναι ανάμεσα στα “μεγάλα πράγματα” που κάνουν οι άνθρωποι. “Το παιχνίδι είναι ένα μεγάλο πράγμα”, είπε.