![Έκρηξη τεχνολογιών χρώματος](https://www.zdnet.com/a/img/resize/d5d4e83862f85a5c89c1c7fb5687811c22e84b21/2025/02/14/49e67c02-8389-4d1f-94ee-50dd69ab0e53/gettyimages-527941125.jpg?auto=webp&precrop=2121,1192,x0,y134&width=1280)
Τι θα μπορούσε να είναι καλύτερο από μια συνομιλία -και ποιος μπορεί να εκτελέσει εργασίες για εσάς; AI, που μπορεί να εκτελέσει καθήκοντα για εσάς μόνοι σας.
Οι πράκτορες AI είναι τα νεότερα σύνορα στο χώρο AI. Οι εταιρείες τεχνητής νοημοσύνης συμμετέχουν σε αγώνες για να δημιουργήσουν τα δικά τους μοντέλα και οι προσφορές διανέμονται συνεχώς στις επιχειρήσεις. Αλλά ποιος πράκτορας της τεχνητής νοημοσύνης είναι ο καλύτερος;
Επίσης: Η κύρια λειτουργία των δίδυμων είναι τώρα δωρεάν για όλους τους χρήστες – η διευρυμένη συνδρομή δεν απαιτείται
Πίνακας ηγετών Galileo
Την Τετάρτη, το Galileo ξεκίνησε έναν πίνακα ηγετών των πράκτορα σε ένα αγκάλιασμα, μια πλατφόρμα τεχνητής νοημοσύνης ανοιχτού κώδικα όπου οι χρήστες μπορούν να δημιουργήσουν, να εκπαιδεύσουν, να έχουν πρόσβαση και να επεκτείνουν τα μοντέλα τεχνητής νοημοσύνης. Ο πίνακας Leaders έχει σχεδιαστεί για να βοηθήσει τους ανθρώπους να μάθουν πώς εργάζονται οι πράκτορες τεχνητής νοημοσύνης σε πραγματικές επιχειρηματικές εφαρμογές και βοηθούν τις ομάδες να καθορίσουν ποιος πράκτορας αντιστοιχεί καλύτερα στις ανάγκες τους.
📊 Ο πίνακας των ηγετών των πράκτορά μας 𝗹𝗶𝘃𝗲! Κατασκευάσαμε ένα πολύπλοκο πρότυπο από το οποίο το LLMS είναι το καλύτερο κατάλληλο για πράκτορες τεχνητής νοημοσύνης 👀
Μετά την αξιολόγηση 17 κορυφαίων LLMs σε 14 διαφορετικά σύνολα δεδομένων, είμαστε στην ευχάριστη θέση να μοιραστούμε τα συμπεράσματά μας σχετικά με τα μοντέλα που πραγματικά καταφέρνουν να λάβουν εργαλεία και είναι έτοιμοι για … pic.twitter.com/cgw2iwnsa7– 🔭 Galileo (@Rungalileo) 12 Φεβρουαρίου 2025
Στον πίνακα Leaders, μπορείτε να βρείτε πληροφορίες σχετικά με την απόδοση του μοντέλου, συμπεριλαμβανομένου του τίτλου και της αξιολόγησης. Με την πρώτη ματιά, μπορείτε επίσης να δείτε περισσότερες βασικές πληροφορίες σχετικά με το μοντέλο, συμπεριλαμβανομένου του προμηθευτή, του κόστους και του αν με ανοιχτό κώδικα ή ιδιωτικό κώδικα.
Επί του παρόντος, ο πίνακας ηγεσίας περιλαμβάνει “17 κορυφαία LLM”, συμπεριλαμβανομένων των μοντέλων Google, OpenAI, Mistral, Anpropic και Meta. Ενημερώνεται κάθε μήνα για να συμβαδίζει με τα συνεχιζόμενα θέματα που βρίσκονται συχνά.
Πώς κατατάσσονται τα μοντέλα
Για να προσδιοριστεί τα αποτελέσματα, το Galileo χρησιμοποιεί σύνολα δεδομένων ανάλυσης δεδομένων, συμπεριλαμβανομένου του BFCL (Berkeley Lunction Calling Board), του T Bench (Tau Bender), του Xlam και του Toolace, οι οποίες ελέγχουν τις διάφορες δυνατότητες του πράκτορα. Στη συνέχεια, οι πίνακες των ηγετών μετατρέπουν αυτά τα δεδομένα σε μια δομή αξιολόγησης που καλύπτει τις επιλογές πραγματικής χρήσης.
Επίσης: 3 λαμπρά πλευρικά πλοία που μπορείτε να ξεκινήσετε με τον χειριστή OpenAI αυτή τη στιγμή
“Το BFCL υπερβαίνει τους ακαδημαϊκούς τομείς, όπως τα μαθηματικά, η ψυχαγωγία και η εκπαίδευση, το τμμάν ειδικεύεται σε σενάρια λιανικής και αεροπορικής εταιρείας, το Xlam φωτίζει τη δημιουργία δεδομένων σε 21 τομείς και η εργαλειοθήκη επικεντρώνεται στις αλληλεπιδράσεις API σε 390 τομείς”, εξηγεί η εταιρεία σε το blog. Πεδίο
Το Galileo προσθέτει ότι κάθε μοντέλο υποβάλλεται σε άγχος για να μετρήσει τα πάντα, από απλές κλήσεις API σε πιο προηγμένες εργασίες, όπως πολυεπιστημονικές αλληλεπιδράσεις. Η εταιρεία μοιράστηκε επίσης τη μεθοδολογία της, εξασφαλίζοντας στους χρήστες ότι χρησιμοποιεί μια τυποποιημένη μεθοδολογία στη δικαιοσύνη για την αξιολόγηση όλων των πρακτόρων τεχνητής νοημοσύνης. Η θέση περιλαμβάνει περισσότερη τεχνική εμβάπτιση στην βαθμολογία μοντέλου.
Ακροαματικότητα
Το Flash Google Gemini-2,0 είναι στην πρώτη θέση, ακολουθούμενη από το GPT-4O OpenAI. Και τα δύο αυτά μοντέλα έλαβαν αυτό που ο Galileo ονομάζει την κατάσταση της “Elite Performance”, η οποία μεταδίδεται σε μοντέλα με βαθμολογία 0,9 ή υψηλότερη. Η Google και η OpenAI κυριάρχησαν στον πίνακα ηγετών με τα ιδιωτικά μοντέλα τους, λαμβάνοντας τις πρώτες έξι θέσεις.
Το Google Gemini 2.0 ήταν συνεπές σε όλες τις κατηγορίες αξιολόγησης και μια ισορροπημένη εντυπωσιακή απόδοση σε όλες τις κατηγορίες με οικονομική απόδοση, σύμφωνα με τη θέση, αξίας 0,15 δολαρίων/$ 06 για μάρκες. Αν και το GPT-4O ήταν το επόμενο δευτερόλεπτο, έχει πολύ υψηλότερη τιμή $ 2,5/$ 10 για μάρκες.
Στο “τμήμα υψηλής απόδοσης”, κατηγορίες σε επίπεδο ελίτ, το δίδυμο-1.5-flash κατέκτησε την τρίτη θέση και το Gemini-1.5-Pro-τέταρτο. Τα μοντέλα συλλογισμού OpenAI, O1 και O3-Mini ακολούθησαν στην πέμπτη και την έκτη θέση, αντίστοιχα.
Το Mistral-Small-2501 ήταν το πρώτο μοντέλο ενός κώδικα ανοιχτού κώδικα για το γράφημα. Η βαθμολογία του 0,832 το έθεσε στην κατηγορία των “Mid -Level Pominess of”. Οι εκτιμήσεις έδειξαν ότι τα πλεονεκτήματά του είναι ισχυρές δυνατότητες επεξεργασίας με ένα μακρύ πλαίσιο και την επιλογή των εργαλείων.
Πώς να έχετε πρόσβαση
Για να δείτε τα αποτελέσματα, μπορείτε να επισκεφθείτε τον πίνακα ηγετών του πράκτορα για να αγκαλιάσετε το πρόσωπο. Εκτός από τον πίνακα Standard Leaders, μπορείτε να φιλτράρετε τον πίνακα ηγετών από το αν το LLM είναι ανοιχτό ή ιδιωτικό. Και με μια κατηγορία που αναφέρεται στη δυνατότητα δοκιμής (γενικά, ένα μακρύ πλαίσιο, σύνθετο, κλπ.).