Ποιος πράκτορας τεχνητής νοημοσύνης είναι ο καλύτερος; Αυτός ο νέος πίνακας ηγετών μπορεί να σας πει

Έκρηξη τεχνολογιών χρώματος — Maciej Frolow/Getty Images

Τι θα μπορούσε να είναι καλύτερο από μια συνομιλία -και ποιος μπορεί να εκτελέσει εργασίες για εσάς; AI, που μπορεί να εκτελέσει καθήκοντα για εσάς μόνοι σας.

Αυτό το απλό τέχνασμα με βοηθά να δαμάσω μια χαοτική κάμερα σε λίγα λεπτά σε λίγα λεπτά

February 15, 2025

Δεν θα πιστέψετε πώς οι αλλαγές μάρκετινγκ B2B – εδώ είναι 5 τρόποι για να κάνετε περισσότερες συναλλαγές

February 15, 2025

Οι πράκτορες AI είναι τα νεότερα σύνορα στο χώρο AI. Οι εταιρείες τεχνητής νοημοσύνης συμμετέχουν σε αγώνες για να δημιουργήσουν τα δικά τους μοντέλα και οι προσφορές διανέμονται συνεχώς στις επιχειρήσεις. Αλλά ποιος πράκτορας της τεχνητής νοημοσύνης είναι ο καλύτερος;

Επίσης: Η κύρια λειτουργία των δίδυμων είναι τώρα δωρεάν για όλους τους χρήστες – η διευρυμένη συνδρομή δεν απαιτείται

Πίνακας ηγετών Galileo

Την Τετάρτη, το Galileo ξεκίνησε έναν πίνακα ηγετών των πράκτορα σε ένα αγκάλιασμα, μια πλατφόρμα τεχνητής νοημοσύνης ανοιχτού κώδικα όπου οι χρήστες μπορούν να δημιουργήσουν, να εκπαιδεύσουν, να έχουν πρόσβαση και να επεκτείνουν τα μοντέλα τεχνητής νοημοσύνης. Ο πίνακας Leaders έχει σχεδιαστεί για να βοηθήσει τους ανθρώπους να μάθουν πώς εργάζονται οι πράκτορες τεχνητής νοημοσύνης σε πραγματικές επιχειρηματικές εφαρμογές και βοηθούν τις ομάδες να καθορίσουν ποιος πράκτορας αντιστοιχεί καλύτερα στις ανάγκες τους.

📊 Ο πίνακας των ηγετών των πράκτορά μας 𝗹𝗶𝘃𝗲! Κατασκευάσαμε ένα πολύπλοκο πρότυπο από το οποίο το LLMS είναι το καλύτερο κατάλληλο για πράκτορες τεχνητής νοημοσύνης 👀
Μετά την αξιολόγηση 17 κορυφαίων LLMs σε 14 διαφορετικά σύνολα δεδομένων, είμαστε στην ευχάριστη θέση να μοιραστούμε τα συμπεράσματά μας σχετικά με τα μοντέλα που πραγματικά καταφέρνουν να λάβουν εργαλεία και είναι έτοιμοι για … pic.twitter.com/cgw2iwnsa7

– 🔭 Galileo (@Rungalileo) 12 Φεβρουαρίου 2025

Στον πίνακα Leaders, μπορείτε να βρείτε πληροφορίες σχετικά με την απόδοση του μοντέλου, συμπεριλαμβανομένου του τίτλου και της αξιολόγησης. Με την πρώτη ματιά, μπορείτε επίσης να δείτε περισσότερες βασικές πληροφορίες σχετικά με το μοντέλο, συμπεριλαμβανομένου του προμηθευτή, του κόστους και του αν με ανοιχτό κώδικα ή ιδιωτικό κώδικα.

Επί του παρόντος, ο πίνακας ηγεσίας περιλαμβάνει “17 κορυφαία LLM”, συμπεριλαμβανομένων των μοντέλων Google, OpenAI, Mistral, Anpropic και Meta. Ενημερώνεται κάθε μήνα για να συμβαδίζει με τα συνεχιζόμενα θέματα που βρίσκονται συχνά.

Πώς κατατάσσονται τα μοντέλα

Για να προσδιοριστεί τα αποτελέσματα, το Galileo χρησιμοποιεί σύνολα δεδομένων ανάλυσης δεδομένων, συμπεριλαμβανομένου του BFCL (Berkeley Lunction Calling Board), του T Bench (Tau Bender), του Xlam και του Toolace, οι οποίες ελέγχουν τις διάφορες δυνατότητες του πράκτορα. Στη συνέχεια, οι πίνακες των ηγετών μετατρέπουν αυτά τα δεδομένα σε μια δομή αξιολόγησης που καλύπτει τις επιλογές πραγματικής χρήσης.

Επίσης: 3 λαμπρά πλευρικά πλοία που μπορείτε να ξεκινήσετε με τον χειριστή OpenAI αυτή τη στιγμή

“Το BFCL υπερβαίνει τους ακαδημαϊκούς τομείς, όπως τα μαθηματικά, η ψυχαγωγία και η εκπαίδευση, το τμμάν ειδικεύεται σε σενάρια λιανικής και αεροπορικής εταιρείας, το Xlam φωτίζει τη δημιουργία δεδομένων σε 21 τομείς και η εργαλειοθήκη επικεντρώνεται στις αλληλεπιδράσεις API σε 390 τομείς”, εξηγεί η εταιρεία σε το blog. Πεδίο

Το Galileo προσθέτει ότι κάθε μοντέλο υποβάλλεται σε άγχος για να μετρήσει τα πάντα, από απλές κλήσεις API σε πιο προηγμένες εργασίες, όπως πολυεπιστημονικές αλληλεπιδράσεις. Η εταιρεία μοιράστηκε επίσης τη μεθοδολογία της, εξασφαλίζοντας στους χρήστες ότι χρησιμοποιεί μια τυποποιημένη μεθοδολογία στη δικαιοσύνη για την αξιολόγηση όλων των πρακτόρων τεχνητής νοημοσύνης. Η θέση περιλαμβάνει περισσότερη τεχνική εμβάπτιση στην βαθμολογία μοντέλου.

Ακροαματικότητα

Το Flash Google Gemini-2,0 είναι στην πρώτη θέση, ακολουθούμενη από το GPT-4O OpenAI. Και τα δύο αυτά μοντέλα έλαβαν αυτό που ο Galileo ονομάζει την κατάσταση της “Elite Performance”, η οποία μεταδίδεται σε μοντέλα με βαθμολογία 0,9 ή υψηλότερη. Η Google και η OpenAI κυριάρχησαν στον πίνακα ηγετών με τα ιδιωτικά μοντέλα τους, λαμβάνοντας τις πρώτες έξι θέσεις.

Το Google Gemini 2.0 ήταν συνεπές σε όλες τις κατηγορίες αξιολόγησης και μια ισορροπημένη εντυπωσιακή απόδοση σε όλες τις κατηγορίες με οικονομική απόδοση, σύμφωνα με τη θέση, αξίας 0,15 δολαρίων/$ 06 για μάρκες. Αν και το GPT-4O ήταν το επόμενο δευτερόλεπτο, έχει πολύ υψηλότερη τιμή $ 2,5/$ 10 για μάρκες.

Στο “τμήμα υψηλής απόδοσης”, κατηγορίες σε επίπεδο ελίτ, το δίδυμο-1.5-flash κατέκτησε την τρίτη θέση και το Gemini-1.5-Pro-τέταρτο. Τα μοντέλα συλλογισμού OpenAI, O1 και O3-Mini ακολούθησαν στην πέμπτη και την έκτη θέση, αντίστοιχα.

Το Mistral-Small-2501 ήταν το πρώτο μοντέλο ενός κώδικα ανοιχτού κώδικα για το γράφημα. Η βαθμολογία του 0,832 το έθεσε στην κατηγορία των “Mid -Level Pominess of”. Οι εκτιμήσεις έδειξαν ότι τα πλεονεκτήματά του είναι ισχυρές δυνατότητες επεξεργασίας με ένα μακρύ πλαίσιο και την επιλογή των εργαλείων.

Πώς να έχετε πρόσβαση

Για να δείτε τα αποτελέσματα, μπορείτε να επισκεφθείτε τον πίνακα ηγετών του πράκτορα για να αγκαλιάσετε το πρόσωπο. Εκτός από τον πίνακα Standard Leaders, μπορείτε να φιλτράρετε τον πίνακα ηγετών από το αν το LLM είναι ανοιχτό ή ιδιωτικό. Και με μια κατηγορία που αναφέρεται στη δυνατότητα δοκιμής (γενικά, ένα μακρύ πλαίσιο, σύνθετο, κλπ.).

Ποιος πράκτορας τεχνητής νοημοσύνης είναι ο καλύτερος; Αυτός ο νέος πίνακας ηγετών μπορεί να σας πει

Related posts

Αυτό το απλό τέχνασμα με βοηθά να δαμάσω μια χαοτική κάμερα σε λίγα λεπτά σε λίγα λεπτά

Δεν θα πιστέψετε πώς οι αλλαγές μάρκετινγκ B2B – εδώ είναι 5 τρόποι για να κάνετε περισσότερες συναλλαγές

Γνωρίζουμε κυρίως πότε θα βγει τώρα το GTA 6

3 ομάδες με τον καλύτερο αντιπρόσωπο για τους πρωταθλητές τρόπαιο

3 ομάδες με τον καλύτερο αντιπρόσωπο για τους πρωταθλητές τρόπαιο

Leave a Reply Cancel reply

RECOMMENDED NEWS

Ο Luigi Mangione προσλαμβάνει κορυφαίο δικηγόρο του οποίου ο σύζυγος εκπροσωπεί τον Sean “Diddy” Combs

Η ταινία Narnia της Greta Gerwig “All About Rock and Roll”

Χρηματιστηριακά Νέα: Συνεχείς ενημερώσεις

Το ασυναγώνιστο πρωτάθλημα μπάσκετ συσσωρεύεται για την επιτυχία του WNBA

BROWSE BY CATEGORIES

POPULAR NEWS

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Οδηγός ενημέρωσης PUBG Mobile 3.5 Κάντε κλικ στην επιλογή Λήψη

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

Το πιο προσιτό κυψελοειδές smartwatch που έχω χρησιμοποιήσει ποτέ είναι μικρό και ικανό.

Recent News

Category

World News

Ο Elon Musk και ο Asmongold μάλωναν για τη διαμάχη για το Path Of Exile 2

Όχι, το RedNote δεν είναι το νέο TikTok και να γιατί