Το πιο πρόσφατο μοντέλο μεγάλης γλώσσας του OpenAI δεν έχει εφαρμοστεί ακόμα, αλλά έχουμε ήδη μερικούς τρόπους για να προσδιορίσουμε τι μπορεί και τι δεν μπορεί να κάνει.
Η κυκλοφορία “o3” του OpenAI αποκαλύφθηκε στις 20 Δεκεμβρίου με τη μορφή διαφημιστικού βίντεο, που σημαίνει ότι οι περισσότεροι άνθρωποι εκτός της εταιρείας δεν έχουν ιδέα για το τι είναι πραγματικά ικανό. (Οι ομάδες δοκιμών εξωτερικής ασφάλειας έχουν έγκαιρη πρόσβαση.)
Επίσης: 15 τρόποι με τους οποίους το AI εξοικονόμησε χρόνο στη δουλειά το 2024
Ενώ υπήρξε πολλή συζήτηση για τα διάφορα επιτεύγματα στις δοκιμές, το μήνυμα του συνιδρυτή και CEO του OpenAI Sam Altman στο βίντεο ήταν πολύ σύντομο. Ο μεγαλύτερος ισχυρισμός του, αν και ασαφής, ήταν ότι το o3 είναι ένα «απίστευτα έξυπνο μοντέλο».
ARC-AGI δοκιμασμένο o3
Το OpenAI σχεδιάζει να κυκλοφορήσει μια “μίνι” έκδοση του o3 κοντά στα τέλη Ιανουαρίου και μια πλήρη έκδοση κάποια στιγμή μετά, είπε ο Altman.
Ωστόσο, ένας ξένος είχε την ευκαιρία να δοκιμάσει το o3 με κάποιους τρόπους.
Σε αυτή την περίπτωση, το τεστ ονομάζεται Abstraction and Reasoning Corpus for Artificial General Intelligence ή ARC-AGI. Αυτή είναι μια συλλογή «προβλημάτων για ευφυή συστήματα», ένα νέο πρότυπο. Το ARC-AGI τιμολογείται ως «η μόνη δοκιμή που έχει σχεδιαστεί ειδικά για τη μέτρηση της προσαρμοστικότητας στην καινοτομία». Αυτό σημαίνει ότι έχει σχεδιαστεί για να δοκιμάσει την απόκτηση νέων δεξιοτήτων, όχι μόνο τη χρήση απομνημονευμένων γνώσεων.
Επίσης: Γιατί η ηθική γίνεται η μεγαλύτερη πρόκληση της τεχνητής νοημοσύνης
Το AGI, η τεχνητή γενική νοημοσύνη, θεωρείται από ορισμένους στον τομέα της τεχνητής νοημοσύνης ως το Άγιο Δισκοπότηρο – επιτυγχάνοντας ένα επίπεδο νοημοσύνης μηχανής που μπορεί να ισούται ή να υπερβαίνει την ανθρώπινη νοημοσύνη. Η ιδέα πίσω από το ARC-AGI είναι να κατευθύνει την τεχνητή νοημοσύνη προς «πιο έξυπνα και πιο ανθρώπινα τεχνητά συστήματα».
Το μοντέλο o3 σημείωσε 76% ακρίβεια στο ARC-AGI σε μια αξιολόγηση που συντονίστηκε επίσημα από τον συγγραφέα του OpenAI και του ARC-AGI Francois Chollet, επιστήμονα στο τμήμα τεχνητής νοημοσύνης της Google.
Αλλαγή δυνατοτήτων AI
Στον ιστότοπο ARC-AGI, ο Chollet έγραψε την περασμένη εβδομάδα ότι η βαθμολογία 76% είναι η πρώτη φορά που μια τεχνητή νοημοσύνη ξεπέρασε έναν άνθρωπο στις εξετάσεις, όπως αποδεικνύεται από τις απαντήσεις των εργαζομένων της Μηχανικής Τούρκων που έκαναν το τεστ και οι οποίοι σημείωσαν κατά μέσο όρο λίγο παραπάνω. 75% σωστές απαντήσεις.
Ο Chollet έγραψε ότι αυτή η υψηλή βαθμολογία είναι «μια εκπληκτική και σημαντική σταδιακή αύξηση των δυνατοτήτων τεχνητής νοημοσύνης, επιδεικνύοντας μια νέα ικανότητα προσαρμογής σε εργασίες που δεν είχαν ξαναδεί στα μοντέλα της οικογένειας GPT». Και πρόσθεσε: «Η πλήρης κατανόηση του τι μπορεί να κάνει η τεχνητή νοημοσύνη θα πρέπει να ενημερωθεί για το o3».
Το επίτευγμα σηματοδοτεί μια «πραγματική ανακάλυψη» και «μια κβαντική αλλαγή στις δυνατότητες της τεχνητής νοημοσύνης», είπε ο Chollet. Ο Chollet προβλέπει ότι η ικανότητα του o3 να «προσαρμόζεται στις προκλήσεις που δεν έχει αντιμετωπίσει ποτέ πριν» σημαίνει ότι «πρέπει να σχεδιάσεις ώστε αυτές οι ικανότητες να γίνουν ανταγωνιστικές με την ανθρώπινη απόδοση σε σχετικά σύντομο χρονικό διάστημα».
Οι παρατηρήσεις του Σολέ είναι αξιοσημείωτες γιατί δεν υπήρξε ποτέ υπέρμαχος της τεχνητής νοημοσύνης. Το 2019, όταν δημιούργησε το ARC-AGI, μου είπε σε μια συνέντευξη που κάναμε για το ZDNET ότι η συνεχής ροή «βομβιστικών άρθρων στον Τύπο» από εταιρείες τεχνητής νοημοσύνης «παραπλανεί ότι η τεχνητή νοημοσύνη σε ανθρώπινο επίπεδο είναι δυνατή θα εμφανιστεί σε λίγα χρόνια». , ενώ θεωρούσε «ψευδαίσθηση» μια τέτοια υπερβολή.
Οι ερωτήσεις του ARC-AGI είναι εύκολο να κατανοήσουν οι άνθρωποι και αρκετά εύκολο να λυθούν. Κάθε εργασία δείχνει τρία έως πέντε παραδείγματα μιας ερώτησης και τη σωστή απάντηση, και στη συνέχεια παρουσιάζεται στον εξεταζόμενο μια παρόμοια ερώτηση και ζητείται να δώσει την απάντηση που λείπει.
Οι ερωτήσεις δεν βασίζονται σε κείμενο αλλά αποτελούνται από εικόνες. Αρχικά εμφανίζεται ένα πλέγμα pixel με χρωματιστά σχήματα και, στη συνέχεια, μια δεύτερη έκδοση που έχει τροποποιηθεί με κάποιο τρόπο. Το ερώτημα είναι: με ποιον κανόνα η αρχική εικόνα μετατρέπεται σε δεύτερη;
Με άλλα λόγια, το πρόβλημα δεν σχετίζεται άμεσα με τη φυσική γλώσσα, τον περίφημο τομέα των μεγάλων γλωσσικών μοντέλων. Αντίθετα, ελέγχει τη διατύπωση αφηρημένου μοτίβου στον οπτικό τομέα.
Δοκιμάστε το ARC-AGI μόνοι σας
Μπορείτε να δοκιμάσετε μόνοι σας το ARC-AGI στον ιστότοπο του διαγωνισμού Chollet. Απαντάτε στο πρόβλημα «ζωγραφίζοντας» ένα κενό πλέγμα, γεμίζοντας κάθε pixel με το σωστό χρώμα για να δημιουργήσετε ένα σωστό πλέγμα από έγχρωμα pixel ως «απάντηση».
Είναι διασκεδαστικό, σαν να παίζεις Sudoku ή Tetris. Το πιθανότερο είναι, ακόμη κι αν δεν μπορείτε να διατυπώσετε προφορικά ποιος είναι ο κανόνας, θα καταλάβετε πολύ γρήγορα ποια τετράγωνα πρέπει να χρωματίσετε για να βρείτε τη λύση. Το πιο χρονοβόρο μέρος είναι να κάνετε κλικ σε κάθε pixel του πλέγματος για να εκχωρήσετε το χρώμα του.
Επίσης: Γιατί η κβαντική ανακάλυψη της Google είναι «πραγματικά αξιοσημείωτη» και τι ακολουθεί
Εάν απαντήσετε σωστά, θα εμφανιστεί ένα κινούμενο σχέδιο για τη ρίψη κομφετί στην ιστοσελίδα και θα εμφανιστεί ένα μήνυμα: «Έχετε λύσει το ARC Prize Daily Puzzle. Είστε ακόμα (συνολικά) πιο έξυπνοι από την τεχνητή νοημοσύνη».
Λάβετε υπόψη ότι όταν δοκιμάζεται το o3 ή οποιοδήποτε άλλο μοντέλο, δεν επηρεάζει άμεσα τα pixel. Αντίθετα, το ισοδύναμο τροφοδοτείται στο μηχάνημα ως πίνακας σειρών και στηλών αριθμών, ο οποίος πρέπει να μετατραπεί σε άλλο πίνακα ως απάντηση. Επομένως, τα μοντέλα τεχνητής νοημοσύνης δεν «βλέπουν» τη δοκιμή με τον ίδιο τρόπο όπως ένας άνθρωπος.
Τι δεν είναι ακόμη σαφές
Παρά τα επιτεύγματα του o3, είναι δύσκολο να γίνουν οριστικές δηλώσεις σχετικά με τις δυνατότητες του o3. Δεδομένου ότι το μοντέλο OpenAI είναι κλειστού κώδικα, δεν είναι ακόμα σαφές πώς ακριβώς λύνει αυτό το πρόβλημα.
Χωρίς να είναι μέλος του OpenAI, ο Chollet αναγκάζεται να σκεφτεί πώς το o3 κάνει αυτό που κάνει.
Προτείνει ότι αυτό το επίτευγμα είναι αποτέλεσμα της αλλαγής του OpenAI της «αρχιτεκτονικής» του o3 σε σύγκριση με τους προκατόχους του. Η αρχιτεκτονική στην τεχνητή νοημοσύνη αναφέρεται στη διάταξη και τη σχέση λειτουργικών στοιχείων που δίνουν στον κώδικα τη δομή του.
Επίσης: εάν το ChatGPT δημιουργήσει κώδικα που δημιουργείται από AI για την εφαρμογή σας, σε ποιον ανήκει στην πραγματικότητα;
Ο Chollet αναφέρει σε μια ανάρτηση ιστολογίου: «Κατά τη διάρκεια της δοκιμής, το μοντέλο αναζητά έναν χώρο πιθανών αλυσίδων σκέψης (CoTs) που περιγράφουν τα βήματα που απαιτούνται για την επίλυση ενός προβλήματος, με έναν τρόπο ίσως όχι πολύ διαφορετικό από μια αναζήτηση δέντρου του Μόντε Κάρλο τύπου AlphaZero. ”
Ο όρος «αλυσίδα σκέψης» αναφέρεται σε μια ολοένα και πιο δημοφιλή προσέγγιση στη γενετική τεχνητή νοημοσύνη, στην οποία ένα μοντέλο τεχνητής νοημοσύνης μπορεί να αναφέρει λεπτομερώς την ακολουθία των υπολογισμών που εκτελεί για να καταλήξει σε μια τελική απάντηση. Το AlphaZero είναι ένα διάσημο πρόγραμμα τεχνητής νοημοσύνης από το τμήμα DeepMind της Google που κέρδισε τους ανθρώπους στο σκάκι το 2016. Η αναζήτηση δέντρων στο Μόντε Κάρλο είναι μια μέθοδος στην επιστήμη των υπολογιστών που μετρά δεκαετίες.
Σε μια ανταλλαγή email, ο Chollet μου είπε λίγα περισσότερα για τις σκέψεις του. Ρώτησα πώς του ήρθε η ιδέα να ψάξει για αλυσίδες σκέψεων. «Προφανώς, όταν ένα μοντέλο «σκέφτεται» για ώρες και δημιουργεί εκατομμύρια μάρκες στη διαδικασία επίλυσης ενός μόνο γρίφου, πρέπει να εκτελεί κάποιο είδος αναζήτησης», απάντησε ο Chollet.
Ο Chollet πρόσθεσε:
Είναι αρκετά σαφές από την καθυστέρηση και την απόδοση κόστους του μοντέλου ότι κάνει κάτι εντελώς διαφορετικό από τη σειρά GPT. Δεν είναι η ίδια αρχιτεκτονική ή ακόμα και οτιδήποτε κοντινό. Ο καθοριστικός παράγοντας του νέου συστήματος είναι ο τεράστιος όγκος αναζητήσεων κατά τη διάρκεια των δοκιμών. Προηγουμένως, 4 χρόνια κλιμάκωσης της ίδιας αρχιτεκτονικής (σειρά GPT) δεν οδήγησαν σε καμία πρόοδο στο ARC, και τώρα αυτό το σύστημα, το οποίο έχει σαφώς νέα αρχιτεκτονική, δημιουργεί μια σταδιακή αλλαγή στις δυνατότητες, επομένως η αρχιτεκτονική είναι το παν.
Υπάρχει μια σειρά από επιφυλάξεις εδώ. Το OpenAI δεν αποκάλυψε πόσα χρήματα δαπανήθηκαν σε μία από τις εκδόσεις o3 της λύσης ARC-AGI. Αυτό είναι μια σημαντική παράλειψη, επειδή ένα από τα κριτήρια ARC-AGI είναι το πραγματικό κόστος σε δολάρια για τη χρήση τσιπ GPU ως μέτρο της «αποτελεσματικότητας» ενός μοντέλου AI.
Ο Chollet μου είπε σε ένα email ότι η προσέγγιση o3 δεν είναι μια προσέγγιση «ωμής δύναμης», αλλά όπως αστειεύτηκε: «Φυσικά, μπορείτε επίσης να ορίσετε την ωμή δύναμη ως «χρήση υπερβολικού όγκου υπολογισμού για την επίλυση ενός απλού προβλήματος». και σε αυτή την περίπτωση μπορούμε να πούμε ότι είναι ωμή βία».
Επιπλέον, ο Chollet σημειώνει ότι ο o3 εκπαιδεύτηκε για να κάνει το τεστ ARC-AGI χρησιμοποιώντας ένα σύνολο δεδομένων εκπαίδευσης αγώνων. Αυτό σημαίνει ότι δεν είναι ακόμη σαφές πώς μια καθαρή έκδοση του o3, χωρίς προετοιμασία εξετάσεων, θα προσεγγίσει την εξέταση.
Επίσης: Η γεννήτρια βίντεο OpenAI Sora AI είναι εδώ – πώς να τη δοκιμάσετε
Ο Chollet μου είπε μέσω email: «Θα είναι ενδιαφέρον να δούμε τι βαθμολογίες παίρνει το βασικό σύστημα χωρίς πληροφορίες που σχετίζονται με το ARC, αλλά σε κάθε περίπτωση, το γεγονός ότι το σύστημα έχει ρυθμιστεί με ακρίβεια για το ARC χρησιμοποιώντας το σετ εκπαίδευσης δεν μειώνει εκτέλεση. . Αυτός είναι ο σκοπός του προπονητικού σετ. Μέχρι τώρα, κανείς δεν έχει καταφέρει να επιτύχει παρόμοια αποτελέσματα, ακόμη και μετά από εκπαίδευση σε εκατομμύρια προβλήματα ARC που δημιουργούνται».
Το o3 εξακολουθεί να παλεύει με μερικές απλές εργασίες
Παρά την αβεβαιότητα, ένα πράγμα φαίνεται ξεκάθαρο: όσοι πεινούν για AGI θα απογοητευτούν. Ο Chollet τονίζει ότι το τεστ ARC-AGI είναι ένα «εργαλείο έρευνας» και ότι «το να περάσεις το τεστ ARC-AGI δεν σημαίνει ότι θα πετύχεις AGI».
«Στην πραγματικότητα, δεν νομίζω ότι το o3 είναι AGI ακόμα», γράφει ο Chollet στο blog ARC-AGI. “Το o3 εξακολουθεί να αποτυγχάνει σε μερικές πολύ απλές εργασίες, υποδεικνύοντας θεμελιώδεις διαφορές με την ανθρώπινη νοημοσύνη.”
Για να δείξουμε ότι ακόμα δεν έχουμε φτάσει στο επίπεδο της ανθρώπινης νοημοσύνης, ο Chollet επισημαίνει μερικά απλά προβλήματα στο ARC-AGI που το o3 δεν μπορεί να λύσει. Μια τέτοια εργασία περιλαμβάνει απλώς τη μετακίνηση ενός έγχρωμου τετραγώνου κατά μια δεδομένη ποσότητα – ένα σχέδιο που γίνεται γρήγορα σαφές στους ανθρώπους.
Η Chollet σχεδιάζει να παρουσιάσει μια νέα έκδοση του ARC-AGI τον Ιανουάριο. Προβλέπει ότι αυτό θα μειώσει δραματικά τα αποτελέσματα του o3. «Θα ξέρετε ότι το AGI είναι εδώ όταν η δημιουργία εργασιών που είναι εύκολες για τους κανονικούς ανθρώπους, αλλά δύσκολες για την τεχνητή νοημοσύνη γίνεται απλά αδύνατη», καταλήγει.