Οι επιστήμονες AI κερδίζουν το βραβείο Turing for Technology που έκανε το θρίαμβο του Alfago

Labyrinth AI Concept — Εικόνες imaginima/getty

Μερικά από τα πιο εντυπωσιακά επιτεύγματα στην τεχνητή νοημοσύνη κατά την τελευταία δεκαετία ελήφθησαν από την τεχνολογία, με την οποία ο υπολογιστής ενεργεί τυχαία από το σύνολο των επιλογών και ανταμείβεται ή τιμωρείται για κάθε σωστή ή λανθασμένη κίνηση.

Αυτή είναι η τεχνική, η πιο διάσημη στο Alphazero, το Google Deepmind 2016, το οποίο έφτασε στις δεξιότητες στα παιχνίδια του σκακιού, του Sigi και του “το 2018”. Η ίδια προσέγγιση βοήθησε το πρόγραμμα Alfastar να επιτύχει τον Grandmaster στα βιντεοπαιχνίδια για να παίξει βιντεοπαιχνίδια Starcraft II.

Επίσης: Πριν από 50 χρόνια, το Homebrew Computer Club συναντήθηκε για πρώτη φορά – και προκάλεσε τεχνική επανάσταση

Την Τετάρτη, δύο επιστήμονες του AI ανταμείφθηκαν για την προώθηση της SO -Called Enciscement Training, μια πολύ ευρεία προσέγγιση για τον τρόπο με τον οποίο ο υπολογιστής συνεχίζεται σε ένα άγνωστο περιβάλλον.

ACM-Tuging-20124-Barto-sutton-composite — Σύνδεσμος Τεχνολογίας Υπολογιστών

Ο Andrew J. Barto, επίτιμος καθηγητής στην Σχολή Πληροφοριών και Επιστημών Υπολογιστών στο Πανεπιστήμιο της Μασαχουσέτης, Amperst και Richard S. Satton, καθηγητής των επιστημών υπολογιστών στο Πανεπιστήμιο της Αλμπέρτα του Καναδά, απονεμήθηκε από κοινού το βραβείο Turing 2025 από έναν υπολογιστικό σύλλογο.

Η ανταμοιβή ACM αναφέρει ότι “ο Barto και ο Satton παρουσίασαν τις κύριες ιδέες, ενσωματώθηκαν μαθηματικά θεμέλια και ανέπτυξαν σημαντικούς αλγόριθμους για την κατάρτιση για ενίσχυση – μία από τις σημαντικότερες προσεγγίσεις για τη δημιουργία πνευματικών συστημάτων”.

Το καλάθι σκόνης αυτού του ρομπότ κενού διπλασιάζεται ως φορητό κενό (και πωλείται)

April 18, 2025

Το αγαπημένο μου Apple Watch για την παρακολούθηση της εκπαίδευσής μου είναι 32% έκπτωση σε μεγάλους πωλητές λιανικής πώλησης

April 18, 2025

Η τιμή ACM έχει βραβείο 1 εκατομμυρίου δολαρίων και θεωρείται ευρέως ως ισοδύναμο της βιομηχανίας υπολογιστών του βραβείου Νόμπελ.

Η ενίσχυση της κατάρτισης μπορεί να εξεταστεί κατ ‘αναλογία με το ποντίκι στον λαβύρινθο: το ποντίκι πρέπει να περάσει από ένα άγνωστο περιβάλλον στην τελική ανταμοιβή, τυρί. Για να γίνει αυτό, το ποντίκι θα πρέπει να μάθει ποιες κινήσεις φαίνεται να οδηγούν σε πρόοδο και που οδηγούν σε αδιέξοδο.

Επίσης: Ανοίξτε το AI, Ανθρωπότητα πρόσκλησης στους επιστήμονες των ΗΠΑ να πειραματιστούν με μοντέλα συνόρων

Οι νευροβιολόγοι και άλλοι πρότειναν ότι οι πνευματικές οντότητες, όπως τα ποντίκια, έχουν ένα “εσωτερικό μοντέλο του κόσμου”, το οποίο τους επιτρέπει να κρατούν μαθήματα από τη μελέτη λαβυρίνθων και άλλων προβλημάτων και να διατυπώσουν σχέδια.

Ο Satton και ο Barto πρότειναν ότι ο υπολογιστής μπορεί να δημιουργηθεί παρομοίως για να διαμορφώσει το εσωτερικό μοντέλο της κατάστασης του κόσμου του.

Τα προγράμματα κατάρτισης ενίσχυσης απορροφούν πληροφορίες σχετικά με το περιβάλλον, είτε πρόκειται για λαβύρινθο είτε για σκακιέρα, ως συμβολή τους. Πρώτον, το πρόγραμμα ενεργεί κάπως τυχαία, δοκιμάζοντας διαφορετικά βήματα σε αυτό το περιβάλλον. Οι κινήσεις είτε συναντώνται με βραβεία είτε έλλειψη αμοιβής.

Αυτή η ανατροφοδότηση, θετική και αρνητική, αρχίζει να σχηματίζει έναν υπολογισμό σύμφωνα με το πρόγραμμα, αξιολογώντας ότι η αμοιβή μπορεί να επιτευχθεί με την εκτέλεση διαφόρων βημάτων. Με βάση αυτή την αξιολόγηση, το πρόγραμμα διατυπώνει μια “πολιτική” για να οδηγήσει τις μελλοντικές ενέργειες στην επιτυχία.

Σε υψηλό επίπεδο, τα προγράμματα αυτά θα πρέπει να εξισορροπούν την τακτική της μελέτης νέων επιλογών, αφενός, και της χρήσης καλά γνωστών καλών εκλογών από την άλλη, αφού κανένας από αυτούς δεν θα οδηγήσει σε επιτυχία.

Barto-Satton-s από μαθητές — Πανεπιστήμιο της Μασαχουσέτης Amperst

Εκείνοι που θέλουν να σκάψουν βαθύτερα μπορούν να πάρουν ένα αντίγραφο του εγχειριδίου σχετικά με το θέμα που έγραψαν οι Satton και Barto σχετικά με αυτό το θέμα το 2018.

Η ενίσχυση της κατάρτισης υπό την έννοια ότι ο Satton και ο Barto το χρησιμοποιούν όχι το ίδιο με την κατάρτιση των ενισχύσεων που αναφέρονται η OpenAI και άλλοι προμηθευτές ενός μεγάλου γλωσσικού μοντέλου του AI. Το OpenAi και άλλοι χρησιμοποιούν “ενίσχυση, εκπαίδευση από την ανθρώπινη ανατροφοδότηση”, RLHF για να σχηματίσουν τα αποτελέσματα της GPT και άλλων μεγάλων γλωσσικών μοντέλων για να είναι αβλαβείς και χρήσιμες. Αλλά αυτή είναι μια άλλη τεχνική AI, μόνο το όνομα δανείστηκε.

Ο Satton, ο οποίος ήταν επίσης εξαιρετικός ερευνητής στο DeepMind από το 2017 έως το 2023, τα τελευταία χρόνια υπογράμμισε ότι η ενίσχυση της κατάρτισης είναι η θεωρία της σκέψης.

Κατά τη διάρκεια του συμποσίου του 2020, στο AI, ο Satton θρηνούσε ότι “σήμερα στο AI υπάρχει πολύ λίγη θεωρία της τεχνολογίας των υπολογιστών”.

Επίσης: ο Gartner προσδιορίζει τις καλύτερες τάσεις στα δεδομένα και τα αναλυτικά στοιχεία για το 2025 – και η AI παίρνει την πρωτοβουλία

“Η ενίσχυση της κατάρτισης είναι η πρώτη υπολογιστική θεωρία της νοημοσύνης”, δήλωσε ο Satton. “Η AI χρειάζεται μια συμφωνημένη θεωρία υπολογιστών της νοημοσύνης”, πρόσθεσε, και “η RL είναι ένας εξαιρετικός υποψήφιος γι ‘αυτό”.

Η ενίσχυση της κατάρτισης μπορεί επίσης να έχει συνέπειες για τη δημιουργικότητα και το ελεύθερο παιχνίδι μπορεί να συμβεί ως έκφραση νοημοσύνης, συμπεριλαμβανομένης της τεχνητής νοημοσύνης.

Ο Barto και ο Sutton τόνισαν τη σημασία του παιχνιδιού στη μάθηση. Κατά τη διάρκεια του συμποσίου του 2020, ο Satton σημείωσε ότι κατά την εκμάθηση της ενίσχυσης, η περιέργεια παίζει “ρόλο χαμηλού επιπέδου” για τη μελέτη της μελέτης.

“Τα τελευταία χρόνια, οι άνθρωποι έχουν αρχίσει να διαδραματίζουν σημαντικό ρόλο σε αυτό που εννοούμε, το οποίο μου αρέσει να ονομάζω” παιχνίδι “, δήλωσε ο Satton. “Ορίζουμε στόχους που δεν είναι απαραιτήτως χρήσιμοι, αλλά μπορούν να είναι χρήσιμοι αργότερα. Έβαλα την εργασία και λέω, γεια τι μπορώ να κάνω. Που είναι διαθέσιμα.

Ο Satton είπε ότι το παιχνίδι μπορεί να είναι ανάμεσα στα “μεγάλα πράγματα” που κάνουν οι άνθρωποι. “Το παιχνίδι είναι ένα μεγάλο πράγμα”, είπε.

Οι επιστήμονες AI κερδίζουν το βραβείο Turing for Technology που έκανε το θρίαμβο του Alfago

Related posts

Το καλάθι σκόνης αυτού του ρομπότ κενού διπλασιάζεται ως φορητό κενό (και πωλείται)

Το αγαπημένο μου Apple Watch για την παρακολούθηση της εκπαίδευσής μου είναι 32% έκπτωση σε μεγάλους πωλητές λιανικής πώλησης

Το Fragpunk δίνει δωρεάν πράγματα μετά την καθυστέρηση της κονσόλας την τελευταία στιγμή

Το Crowdstrike θα μειωθεί κατά 9% με αδύναμες προοπτικές εισοδήματος, έξοδα

Το Crowdstrike θα μειωθεί κατά 9% με αδύναμες προοπτικές εισοδήματος, έξοδα

Leave a Reply Cancel reply

RECOMMENDED NEWS

Αυτή η κρυφή λειτουργία της Apple μετατρέπει το iPhone ή το iPad σας σε μια γεννήτρια εικόνων AI.

Πλήρες χρονοδιάγραμμα των Διεθνών Μαστών και Η ημερομηνία έναρξης

Έκθεση Meta Earnings 3ο τρίμηνο 2024

Οι διαδηλωτές στη Νότια Κορέα διαδηλώνουν ενάντια στη σύλληψη του Yoon καθώς πλησιάζει η προθεσμία

BROWSE BY CATEGORIES

POPULAR NEWS

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Οδηγός ενημέρωσης PUBG Mobile 3.5 Κάντε κλικ στην επιλογή Λήψη

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

Το πιο προσιτό κυψελοειδές smartwatch που έχω χρησιμοποιήσει ποτέ είναι μικρό και ικανό.

Recent News

Category

World News

Η επιτροπή δεοντολογίας βρέθηκε σε αδιέξοδο σχετικά με την αποκάλυψη σεξουαλικού περιεχομένου και την έκθεση έρευνας για ναρκωτικά του Matt Gaetz

Σύμφωνα με τους ειδικούς, η Diet No. 1 αλλάζει τον κίνδυνο του καρκίνου σας προκειμένου να μειωθεί ο κίνδυνος καρκίνου