
Με την ανάπτυξη των γενετικών AI, οι συνθετικές εικόνες και το κείμενο έχουν γίνει γνωστοί, αλλά είστε εξοικειωμένοι με συνθετικά δεδομένα; Όπως υποδηλώνει το όνομα, ο όρος αναφέρεται σε δεδομένα που δημιουργούνται τεχνητά και χρησιμοποιούνται για την αντικατάσταση πραγματικών δεδομένων. Χρησιμοποιείται για τη δημιουργία λύσεων για την υγειονομική περίθαλψη, τη χρηματοδότηση, τη βιομηχανία αυτοκινήτων και, κυρίως, την τεχνητή νοημοσύνη.
Τα συνθετικά δεδομένα αποτελούν ένα τόσο αναπόσπαστο μέρος της ψηφιακής επανάστασης, το οποίο νότια από τη νοτιοανατολική -Wrapped (SXSW) πραγματοποίησε μια συνεδρία AI με τίτλο “Η επιρροή των δεδομένων μοντελοποίησης στο AI και το μέλλον”, που σχεδιάστηκε για να αναλύσει την ικανότητα της τεχνολογίας να υποστηρίζει και να διατηρεί το γενετικό AI καθώς και να αξιολογήσει τους δυνητικούς κινδύνους.
Επίσης: 10 βασικοί λόγοι για τους οποίους το II έγινε το mainstream όλη τη νύχτα – και τι θα συμβεί στη συνέχεια
Η ομάδα συμμετείχε από συμμετέχοντες εμπειρογνωμόνων στη συζήτηση Mike Hollinger, Διευθυντή Διαχείρισης Προϊόντων, Enterprise Gen AI Software στην NVIDIA. Oji udezue, CPO στο Typeform. Και Tahir Extra, Πρόεδρος του Αναλυτικού Πόλου στο Πανεπιστήμιο του Τέξας, ο οποίος διατήρησε μια κοινή θετική άποψη της τεχνολογίας.
“Για εμάς είναι [synthetic data] Συλλέγει την ικανότητά μας να οικοδομήσουμε το σωστό πράγμα φθηνότερο και καλύτερο – αυτό είναι το Άγιο Δισκοπότηρο “, δήλωσε ο Usee.
Για να λάβετε πρόσθετες πληροφορίες σχετικά με το δυναμικό των συνθετικών δεδομένων για την προώθηση του χώρου AI, τους κινδύνους και τις συμβουλές εμπειρογνωμόνων για το πώς να συνεχίσετε, διαβάστε πιο χαμηλότερα.
Φόντα
Τα συνθετικά δεδομένα επιτρέπουν στους χρήστες να μιμούνται πραγματικές ιδέες σε καταστάσεις όπου η συλλογή των πραγματικών δεδομένων είναι υπερβολικά δαπανηρή, χρόνος που μπορεί να αντιπροσωπεύει τα προβλήματα εμπιστευτικότητας, όπως η συμπερίληψη εμπιστευτικών οικονομικών πληροφοριών.
Η πρόσφατη αύξηση της δημοτικότητας συνδέεται σε μεγάλο βαθμό με έναν αυξανόμενο ρόλο στη διδασκαλία και τη διευκρίνιση της μηχανικής μάθησης και των μοντέλων τεχνητής νοημοσύνης, τα οποία καθίστανται όλο και πιο σημαντικά ως αποτέλεσμα της ταχείας ανάπτυξης αυτών των μοντέλων πέρυσι.
Επίσης: Είναι έτοιμη η επιχείρησή σας; 5 τρόποι αποφυγής καθυστέρησης
“Με το ChatGPT, με τα δίδυμα, με τον Claude, με το Deepseek, με οποιοδήποτε από αυτά τα μοντέλα, μέσα στα εκπαιδευτικά δεδομένα αυτού του μοντέλου, πιθανότατα είναι ένα βήμα της συνθετικής γενιάς”, δήλωσε ο Hollinger. “Αυτά τα συνθετικά δεδομένα καταλαμβάνουν τμήματα αυτού του εκπαιδευτικού υλικού και το ενισχύουν για να δώσουν διάφορες παραλλαγές, έτσι ώστε να μπορώ στη συνέχεια να εκπαιδεύσω το μοντέλο για να δώσω ένα συμπέρασμα”.
Τα συνθετικά δεδομένα είναι ιδιαίτερα πολύτιμα για τα μοντέλα τεχνητής νοημοσύνης, επειδή απαιτούν μεγάλα, διαφορετικά και υψηλά σύνολα δεδομένων ποιότητας για αποτελεσματική κατάρτιση, η οποία μπορεί να είναι δύσκολη ή πρακτική για την απόκτηση. Αυτό ισχύει ιδιαίτερα όταν στοχεύετε σε μια εξειδικευμένη, κατοχυρωμένη με δίπλωμα ευρεσιτεχνίας ή πρωτότυπα σύνολα δεδομένων που δεν είναι διαθέσιμα χρησιμοποιώντας δημόσιο απόξεση.
Στην έκθεση που δημοσιεύθηκε την περασμένη εβδομάδα, η ερευνητική εταιρεία Gartner καθόρισε τα συνθετικά δεδομένα ως μία από τις κορυφαίες τάσεις και αναλυτές δεδομένων για το 2025. Συγκεκριμένα, η έκθεση ενθαρρύνει τη χρήση συνθετικών δεδομένων στον τομέα των προσθηκών, όπου η κατανόηση απουσιάζει ή ατελής ή αντικαθιστά ευαίσθητα δεδομένα για τον προσδιορισμό της προτεραιότητας της εμπιστευτικότητας.
Κινδύνους
Για να δημιουργήσετε συνθετικά δεδομένα, οι σύνθετοι αλγόριθμοι λαμβάνουν το αρχικό σύνολο δεδομένων και αναπαράγουν πρότυπα, δομές και άλλα χαρακτηριστικά που βρίσκονται σε αυτά τα δεδομένα. Ωστόσο, όπως στην περίπτωση οποιασδήποτε άλλης παραγωγής τεχνητής νοημοσύνης, υπάρχει πιθανότητα ορισμένων αποκλίσεων που μπορούν να έχουν σημαντικό αντίκτυπο.
Για να δείξει αυτή την ιδέα, ο Hollinger χρησιμοποίησε το παράδειγμα του πόσες ώρες ήταν την ημέρα της διάσκεψης, το οποίο ήταν ένα δύσκολο ζήτημα, γιατί τεχνικά, την Κυριακή, ήταν 23 ώρες από την ημέρα της ημέρας.
Εάν το δείγμα δεδομένων λήφθηκε από τυχαίες ημέρες κατά τη διάρκεια του έτους, θα ήταν πιθανό ότι μία από τις επιλεγμένες ημέρες θα ήταν από την πόλη με μια αλλαγή στην εξοικονόμηση ώρας της ημέρας, όπου ήταν μια ώρα λιγότερο. Ο συνθετικός μεταφορέας δεδομένων που δημιουργούνται από αυτό το δείγμα διαγράφεται από την ακρίβεια του μοντέλου.
Επίσης: Αυτό είναι πιθανώς το AI για τα παραδοσιακά εργαλεία και τους αναλυτές BI
Ως εκ τούτου, κατά τη δημιουργία συνθετικών συνόλων δεδομένων, είναι εξαιρετικά σημαντικό τα δεδομένα να βασίζονται στον πραγματικό κόσμο προκειμένου να αποφευχθούν αυτοί οι τύποι ασυνέπειων και να εγγυηθούν ότι το σύνολο δεδομένων είναι ως αντιπροσωπευτικό σενάριο που προορίζεται για παρουσίαση. Ωστόσο, ακόμη και όταν λαμβάνετε αυτό το μέτρο και τη λογιστική εντροπίας, είναι συχνά δύσκολο να εξασφαλιστεί η ακρίβεια, σύμφωνα με το Udezue.
“Οι άνθρωποι είναι απρόβλεπτοι από απρόβλεπτες τρόπους”, δήλωσε ο Usee. “Πώς προβλέπετε μια παραλλαγή για 8 δισεκατομμύρια ανθρώπους;”
Εκτός από τα τεχνικά προβλήματα, ένα από τα μεγαλύτερα εμπόδια που πρέπει να ξεπεραστούν είναι να προσελκύσουν την εμπιστοσύνη των χρηστών όταν χρησιμοποιούν συνθετικά δεδομένα ως την κύρια πηγή για την ενημέρωση και τη δημιουργία νέων λύσεων. Για να δημιουργηθεί αυτή η εμπιστοσύνη, η διαφάνεια είναι σημαντική σε σχέση με τον τρόπο με τον οποίο δημιουργούνται, επιβεβαιώνονται και εφαρμόζονται συνθετικά δεδομένα με σαφή διάκριση, για παράδειγμα, χρησιμοποιώντας κάρτες μοντέλων.
“Η πτυχή του σημείου εμπιστοσύνης του χρήστη, χρησιμοποιούμε αυτά τα εργαλεία της τεχνητής νοημοσύνης, αλλά πώς αισθάνεστε ότι μπείτε σε ένα αυτοκίνητο με ανεξάρτητη οδήγηση, η οποία δεν είχε ελεγχθεί στο δρόμο, αλλά δοκιμάστηκε μόνο χρησιμοποιώντας τα προσομοιωμένα δεδομένα;” είπε το πλήρωμα.
Ανυπομονώ
Παρά τα προβλήματα, ο πίνακας παρέμεινε αισιόδοξος για τη χρήση της τεχνολογίας στο μέλλον του AI και πέραν αυτού. Αυτό δεν σημαίνει ότι δεν υπάρχει πρόβλημα ή ότι η εργασία δεν είναι απαραίτητη, αλλά η συνολική δυνατότητα αύξησης της ανάπτυξης σε όλους τους τομείς εξακολουθεί να είναι υπέροχη.
Επίσης: Πώς οι επιχειρήσεις επιταχύνουν το χρόνο στην αξία του πράκτορα της τεχνητής νοημοσύνης
“Τα δεδομένα μοντελοποίησης, όταν χρησιμοποιούνται σωστά, θα αυξήσουν την επιστήμη, θα αυξήσουν το λογισμικό, θα αυξήσουν τη βιομηχανία, αλλά θα πρέπει να έχουμε σωστά τον έλεγχο και τη διαφάνεια ή δεν θα μπορέσουμε να το χρησιμοποιήσουμε σωστά”, δήλωσε ο Udesue.