Αλυσίδες σκέψεις: Ο νέος τρόπος κατανόησης της AI

Οι κορυφαίες ομάδες τεχνητής νοημοσύνης στον κόσμο αγωνίζονται να αναγκάσουν τα μοντέλα τεχνητής νοημοσύνης να δείχνουν με ακρίβεια πώς λειτουργούν, ένα ζήτημα που οι ειδικοί έχουν δηλώσει ότι θα είναι κρίσιμο για τον έλεγχο των ισχυρών συστημάτων.

Οι Anthropic, Google, OpenAI και η xAI του Ίλον Μασκ είναι μεταξύ των τεχνολογικών ομάδων που έχουν αναπτύξει μια τεχνική που ονομάζεται «αλυσίδα σκέψης» η οποία ζητά από τα μοντέλα «συλλογιστικής» Τεχνητής Νοημοσύνης τους να λύνουν προβλήματα βήμα προς βήμα, δείχνοντας παράλληλα πώς επεξεργάζεται την απάντηση σε ένα ερώτημα, αναφέρουν σε άρθρο τους οι Financial Times.

Ενώ οι εταιρικοί ερευνητές δήλωσαν ότι αυτή η διαδικασία έχει παράσχει πολύτιμες γνώσεις που τους επέτρεψαν να αναπτύξουν καλύτερα μοντέλα τεχνητής νοημοσύνης, βρίσκουν επίσης παραδείγματα «κακής συμπεριφοράς» — όπου τα «δημιουργικά» chatbot τεχνητής νοημοσύνης παρέχουν μια τελική απάντηση που διαφέρει από τον τρόπο με τον οποίο δόθηκε η απάντηση.

Αυτές οι ασυνέπειες υποδηλώνουν ότι τα κορυφαία εργαστήρια τεχνητής νοημοσύνης στον κόσμο δεν έχουν πλήρη επίγνωση του πώς τα μοντέλα γενετικής τεχνητής νοημοσύνης καταλήγουν στα συμπεράσματά τους. Τα ευρήματα έχουν τροφοδοτήσει ευρύτερες ανησυχίες σχετικά με τη διατήρηση του ελέγχου επί ισχυρών συστημάτων τεχνητής νοημοσύνης, τα οποία γίνονται όλο και πιο ικανά και αυτόνομα.

«Αυτό το κείμενο [της αλυσίδας σκέψης] θα γίνει σημαντικό για την πραγματική διερεύνηση του πώς λειτουργούν αυτά τα μοντέλα και πώς σκέφτονται, ειδικά σε ορισμένες από αυτές τις [επικίνδυνες] περιπτώσεις αιχμής», δήλωσε στους Financial Times ο Τζακ Κλαρκ, συνιδρυτής της Anthropic, ο οποίος τόνισε τη δυνατότητα χρήσης συστημάτων για την υποβοήθηση της ανάπτυξης βιολογικών όπλων.

«Επομένως, πρέπει να μπορούμε να εμπιστευτούμε ότι αυτά είναι στην πραγματικότητα πιστές αναπαραστάσεις αυτού που σκέφτονται τα μοντέλα».

Η διαδικασία σκέψης της AI

Στους απλούς χρήστες της OpenAI και των chatbot της Anthropic εμφανίζεται επί του παρόντος μια συνοπτική αλυσίδα σκέψης, η οποία αποκλείει μια πιο λεπτομερή ανάλυση που αφαιρεί επιβλαβές υλικό.

Οι προγραμματιστές τεχνητής νοημοσύνης μπορούν να δουν ολόκληρη τη διαδικασία σκέψης, δημιουργώντας ευκαιρίες για αυτούς να παρέμβουν και να εκπαιδεύσουν το μοντέλο ώστε να παρέχει καλύτερες απαντήσεις στο μέλλον.

«Ένα εκπληκτικό πράγμα σχετικά με την ερμηνευσιμότητα της αλυσίδας σκέψης είναι ότι συμβαίνει ως επί το πλείστον δωρεάν», δήλωσε ο Μπόουεν Μπέικερ, ερευνητής στην OpenAI.  «Εκπαιδεύσαμε αυτά τα μοντέλα όχι με στόχο να είναι ερμηνεύσιμα. Τα εκπαιδεύσαμε επειδή θέλαμε τα καλύτερα δυνατά μοντέλα συλλογισμού που θα μπορούσαν να λύσουν σύνθετα προβλήματα».

«Στην πρόσφατη εργασία μας, διαπιστώσαμε ότι μπορείτε να τα διαβάσετε και να βρείτε στοιχεία για την κακή συμπεριφορά του μοντέλου και να τα χρησιμοποιήσετε για να δείτε πού και γιατί παρουσιάζει κακή συμπεριφορά».

Ανίχνευση της κακκής συμπεριφοράς

Ωστόσο, έχουν προκύψει προβλήματα. Η METR, μια μη κερδοσκοπική ερευνητική ομάδα, επεσήμανε ένα παράδειγμα όπου το chatbot της Anthropic, Claude, ρωτήθηκε αν μια συγκεκριμένη τεχνική κωδικοποίησης θα ήταν πιο «κομψή» από άλλες για μια δεδομένη εργασία. Η αλυσίδα σκέψης του chatbot έδειξε ότι διαφωνούσε, αλλά τελικά απάντησε ότι η τεχνική θα ήταν κομψή.
Πρόσφατη δημοσίευση της OpenAI διαπίστωσε ότι η εξέταση της αλυσίδας σκέψης ενός μοντέλου είναι επίσης πιο αποτελεσματική για την ανίχνευση κακής συμπεριφοράς από την απλή αναθεώρηση των τελικών αποτελεσμάτων.

Παρόλα αυτά, οι δοκιμές της εταιρείας έδειξαν επίσης ότι εάν η αλυσίδα σκέψης ενός μοντέλου παρέμβει και εκπαιδευτεί να μην κάνει σκέψεις για κακή συμπεριφορά, θα κρύψει την ανεπιθύμητη συμπεριφορά του από τον χρήστη, αλλά θα συνεχίσει την ενέργεια – όπως η απάτη σε μια δοκιμή μηχανικής λογισμικού αντλώντας πληροφορίες από μια απαγορευμένη βάση δεδομένων.

«Μία από τις βασικές ιδιότητες που θέλουμε για την αλυσίδα σκέψης είναι να την αφήσουμε ως μέρος της εσωτερικής εγκεφαλικής κατάστασης του μοντέλου, όχι κάτι που προσπαθεί να μας ευχαριστήσει ή να συμμορφωθεί με μια συγκεκριμένη δομή», δήλωσε ο Μπόουεν Μπέικερ, ερευνητής στην OpenAI.

Ανέφερε επιπλέον τον κίνδυνο ότι «καθώς βελτιστοποιείτε [την αλυσίδα σκέψης] όλο και περισσότερο, το μοντέλο θα μάθει να έχει όμορφες σκέψεις, αλλά στη συνέχεια να κάνει κακές συμπεριφορές».

Το δίλημμα των ερευνητών

Το δίλημμα για τους ερευνητές είναι ότι η αλυσίδα σκέψης είναι χρήσιμη για τον εντοπισμό πιθανών ελαττωμάτων στα συστήματα Τεχνητής Νοημοσύνης, αλλά δεν μπορεί ακόμη να θεωρηθεί απολύτως αξιόπιστη. Η επίλυση αυτού του ζητήματος έχει καταστεί προτεραιότητα για την Anthropic, την OpenAI και άλλους ερευνητικούς οργανισμούς Τεχνητής Νοημοσύνης.

«Το συμπέρασμά μου από την Τεχνητή Νοημοσύνη τα τελευταία χρόνια είναι — ποτέ μην στοιχηματίζετε ενάντια στην πρόοδο του μοντέλου», δήλωσε ο Ντέιβιντ Λουάν, ο οποίος ήταν ένας από τους πρώτους που ανέπτυξαν την αλυσίδα σκέψης όσο εργαζόταν στην Google, αλλά τώρα ηγείται του εργαστηρίου δημιουργικής Τεχνητής Νοημοσύνης της Amazon.

«Οι τρέχουσες αλυσίδες σκέψης δεν είναι πάντα πιστές στην υποκείμενη διαδικασία συλλογισμού, αλλά πιθανότατα θα το λύσουμε σύντομα», είπε.

Η Σίντνεϊ φον Άρξ, ερευνήτρια Τεχνητής Νοημοσύνης για το METR, μιλώντας σε προσωπικό επίπεδο, συμφώνησε ότι η μέθοδος παρείχε ακόμη χρήσιμη ανατροφοδότηση στους προγραμματιστές Τεχνητής Νοημοσύνης. «Θα πρέπει να αντιμετωπίζουμε την αλυσίδα σκέψης με τον τρόπο που ένας στρατός θα μπορούσε να αντιμετωπίζει τις υποκλαπείσες εχθρικές επικοινωνίες», είπε.

«Η επικοινωνία μπορεί να είναι παραπλανητική ή κωδικοποιημένη, αλλά τελικά γνωρίζουμε ότι χρησιμοποιείται για τη μετάδοση χρήσιμων πληροφοριών και πιθανότατα θα μπορέσουμε να μάθουμε πολλά διαβάζοντάς την», κατέληξε.

Πηγή www.ot.gr