Το νέο μοντέλο τεχνητής νοημοσύνης της Google δημιουργεί ψηφιακούς κόσμους σε πραγματικό χρόνο


Η Google παρουσίασε το Genie 3, το νέο μοντέλο τεχνητής νοημοσύνης της DeepMind, ικανό να δημιουργεί τρισδιάστατους ψηφιακούς κόσμους σε πραγματικό χρόνο, στους οποίους μπορούν να αλληλεπιδρούν τόσο χρήστες όσο και ψηφιακοί πράκτορες.

Πρόκειται για σημαντική εξέλιξη στον τομέα των “world models”, δηλαδή των συστημάτων τεχνητής νοημοσύνης που προσομοιώνουν εικονικά περιβάλλοντα για χρήση σε εκπαίδευση, ψυχαγωγία ή εκμάθηση ρομπότ. Οι κόσμοι αυτοί δεν βασίζονται σε προγραμματισμένες τρισδιάστατες υφές, αλλά δημιουργούνται εξ ολοκλήρου μέσω τεχνητής νοημοσύνης, βάσει απλών προτροπών (prompts) από τον χρήστη.

Το Genie 3 ξεπερνά σημαντικούς περιορισμούς των προηγούμενων εκδόσεων, όπως το Genie 2, το οποίο μπορούσε να δημιουργήσει μόνο σύντομες διαδραστικές εμπειρίες διάρκειας μερικών δευτερολέπτων. Πλέον, ο χρήστης μπορεί να παραμείνει μέσα στον παραγόμενο κόσμο για λίγα λεπτά, ενώ η μηχανή διαθέτει οπτική μνήμη διάρκειας περίπου ενός λεπτού. Αυτό σημαίνει πως αν κοιτάξεις μακριά από έναν τοίχο με σχέδια ή έναν πίνακα με γραμμένο κείμενο, τα στοιχεία αυτά θα παραμείνουν στη θέση τους όταν στρέψεις ξανά το βλέμμα προς αυτά.

Οι κόσμοι του Genie 3 αποδίδονται σε ανάλυση 720p και ρυθμό 24 καρέ ανά δευτερόλεπτο, προσφέροντας μια εμπειρία πιο κοντά σε περιβάλλον βιντεοπαιχνιδιού.

Μια ακόμα καινοτομία του Genie 3 είναι η δυνατότητα “promptable world events”: οι χρήστες μπορούν να μεταβάλουν, με απλές εντολές, στοιχεία του περιβάλλοντος όπως οι καιρικές συνθήκες ή να προσθέσουν νέους χαρακτήρες στον κόσμο.

Η DeepMind είχε παρουσιάσει τον Δεκέμβριο του 2024 το Genie 2, το οποίο μπορούσε να δημιουργεί διαδραστικούς κόσμους βασισμένους σε μία μόνο εικόνα. Η νέα ομάδα ανάπτυξης “world models” περιλαμβάνει, μάλιστα, πρώην συν-επικεφαλής του εργαλείου παραγωγής βίντεο Sora της OpenAI.

Περιορισμένη δοκιμή — Όχι (ακόμα) διαθέσιμο για το κοινό

Παρά τις τεχνικές εξελίξεις, το Genie 3 δεν είναι προς το παρόν διαθέσιμο στο ευρύ κοινό. Η Google το διαθέτει αποκλειστικά ως «περιορισμένο ερευνητικό δείγμα» σε μια μικρή ομάδα ακαδημαϊκών και δημιουργών, προκειμένου να μελετήσει τους πιθανούς κινδύνους και τρόπους αντιμετώπισής τους.

Υπάρχουν, επίσης, πολλοί περιορισμοί στη χρήση: το είδος της αλληλεπίδρασης παραμένει περιορισμένο, ενώ κατανοητό κείμενο μέσα στους κόσμους μπορεί να δημιουργηθεί μόνο αν έχει συμπεριληφθεί στην αρχική προτροπή. Η Google αναφέρει πως εξετάζει το ενδεχόμενο να διευρύνει την πρόσβαση στο εργαλείο σε περισσότερους δοκιμαστές στο μέλλον.

Με πληροφορίες από The Verge

 



Πηγή: www.lifo.gr