Τεχνητή Νοημοσύνη: Θεωρίες για τη συνείδηση και πειράματα ελέγχου ενδοσκόπησης Μεγάλων Γλωσσικών Μοντέλων
Διακηρυγμένος στόχος όλων των μονοπωλίων Τεχνητής Νοημοσύνης (ΤΝ), αμερικανικών και κινεζικών, είναι η επίτευξη Τεχνητής Γενικής Νοημοσύνης (ΤΓΝ), δηλαδή ικανής να εκτελεί ή να μαθαίνει σχεδόν οποιαδήποτε γνωστική εργασία που χαρακτηρίζει τον άνθρωπο. Διακηρυγμένος στόχος ορισμένων είναι και η υπερνοημοσύνη, αλλά αυτή είναι υπόθεση μιας άλλης συζήτησης. Υποτίθεται ότι ένας βασικός λόγος για την επιδίωξη της ΤΓΝ είναι για να βοηθηθούμε να καταλάβουμε τη λειτουργία του ανθρώπινου εγκεφάλου. Φυσικά, ο πραγματικός λόγος είναι το τεράστιο πλεονέκτημα στον ανταγωνισμό μεταξύ των ομίλων και μεταξύ των κρατών το οποίο θα αποκτούσε όποιος διέθετε πρώτος ένα μηχανικό υποκατάστατο του ανθρώπου στην παραγωγή και στον πόλεμο.
Χειριστές λέξεων
Τα Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ) έχουν ήδη αποκτήσει μεγαλύτερη ικανότητα επίλυσης προβλημάτων απ” ό,τι περίμεναν ποτέ οι περισσότεροι ερευνητές στον χώρο της ΤΝ, ωστόσο συνεχίζουν να κάνουν ανόητα λάθη και να μην έχουν δυνατότητα συνεχούς μάθησης. Μόλις εκπαιδευτούν από την ύλη βιβλίων, αναρτήσεων στο διαδίκτυο κ.λπ., η γνώση που ενσωματώνουν «παγώνει» στο επίπεδο αυτό και πρέπει να επανεκπαιδευτούν για να αποκτήσουν κι άλλη. Το μόνο κομμάτι της ΤΓΝ που έχει επιτευχθεί είναι αυτό της γλώσσας. Τα ΜΓΜ μπορούν να αναλύσουν οποιαδήποτε φράση, ακόμα κι αν δεν είναι καλά διατυπωμένη, και να απαντήσουν με γλώσσα που ακολουθεί όλους τους τύπους του συντακτικού και της γραμματικής. Αποτυγχάνουν όμως σε άλλες πλευρές της σκέψης, και γενικά σε οτιδήποτε βοηθά τους ανθρώπους στην καθημερινή τους ζωή. Χειρίζονται με επιδεξιότητα τις λέξεις, αλλά δεν έχουν καμία αντίληψη για την πραγματικότητα, πέρα από αυτή που απεικονίζεται στα κείμενα με τα οποία εκπαιδεύτηκαν. Με άλλα λόγια, τα ΜΓΜ μιμούνται μόνο τις λεκτικές δυνατότητες του εγκεφάλου, χωρίς την ικανότητα για αντίληψη, κοινωνική κρίση κ.ο.κ. Αν ο εγκέφαλος του ανθρώπου παρομοιαστεί με ελβετικό σουγιά που έχει πολλαπλές λειτουργίες, τα ΜΓΜ είναι στην πραγματικότητα ένα εξαιρετικό τιρμπουσόν.
Μείγμα ειδικών
Ερευνητές νευροεπιστήμονες διαφωνούν στο αν οι επιμέρους λειτουργίες του εγκεφάλου είναι εντοπισμένες σε ειδικές περιοχές του ή διάσπαρτες στη φαιά ουσία, αλλά οι περισσότεροι συμφωνούν ότι υπάρχει μια εξειδίκευση έως κάποιον βαθμό. Οι ερευνητές της ΤΝ προσπαθούν να ενσωματώσουν τέτοια αρθρωσιμότητα στα συστήματά τους, ελπίζοντας να τα κάνουν πιο έξυπνα. Αυτή είναι η ουσία της εκδοχής ΜΓΜ που ονομάζεται «Μείγμα Ειδικών» (Mixture of Experts, ΜοΕ στα Αγγλικά), όπως αυτά που αποκάλυψαν η γαλλική «Mistral» και η κινεζική «DeepSeek» τον Δεκέμβρη του 2023. Με τον ίδιο τρόπο θεωρείται ότι δουλεύει και το ChatGPT της «OpenAI», που η εταιρεία κρατάει μυστικό τον τρόπο λειτουργίας του. Το μεγαλύτερο πλεονέκτημα αυτής της αρθρωσιμότητας είναι η υπολογιστική αποτελεσματικότητά της. Τα μοντέλα μπορούν να διαθέτουν τεράστιο αριθμό παραμέτρων (άρα και γνώσης), αλλά να λειτουργούν με την ταχύτητα μικρότερων μοντέλων, καθώς κάθε φορά ενεργοποιούνται μόνο τα απαραίτητα τμήματά τους.
Η αρθρωσιμότητα έχει και τα μειονεκτήματά της. Κανείς δεν ξέρει πώς ακριβώς συνεργάζονται τα τμήματα του ανθρώπινου εγκεφάλου ώστε να δημιουργήσουν έναν συμπαγή εαυτό, πολύ περισσότερο δεν ξέρει πώς θα μπορούσε μια μηχανή να μιμηθεί κάτι τέτοιο. Μία εικασία είναι ότι η συνείδηση αποτελεί τον κοινό τόπο. Σύμφωνα με αυτήν την ιδέα, γνωστή ως θεωρία παγκόσμιου χώρου εργασίας (GWT), η συνείδηση είναι για τον εγκέφαλο ένα μέρος όπου τα τμήματα μπορούν να μοιραστούν πληροφορίες και να ζητήσουν βοήθεια. Υπάρχουν και αρκετές άλλες θεωρίες για τη συνείδηση, αλλά η GWT ελκύει το ενδιαφέρον των ερευνητών ΤΝ, επειδή θεωρεί τη συνείδηση αναπόσπαστο κομμάτι της υψηλού επιπέδου νοημοσύνης. Για να κάνουμε απλές εργασίες ή εργασίες που έχουμε ξανακάνει, ο εγκέφαλος μπορεί να λειτουργήσει με «αυτόματο πιλότο», αλλά για πρωτότυπες ή σύνθετες εργασίες, αυτές που ξεπερνούν το πλαίσιο ενός αρθρώματος, απαιτείται να έχουμε συνείδηση του τι κάνουμε.
Σύσκεψη προσωπικού
Ερευνητές διευκρινίζουν ότι η ενσωμάτωση ενός χώρου εργασίας στα συστήματα ΤΝ που κατασκευάζουν δεν αποσκοπεί στη δημιουργία μηχανών με συνείδηση, αλλά στην απλή αναπαραγωγή του «υλισμικού» που απαιτεί μια θεωρία για τη συνείδηση, ώστε να μπορέσουν να πετύχουν ΤΝ πιο κοντά στην ανθρώπινη. Αξίζει να σημειωθεί ότι η θεωρία GWT προέκυψε τη δεκαετία του 1980 από επιστήμονες της γνωστικής ψυχολογίας που εμπνεύστηκαν από αρθρωτό σύστημα αναγνώρισης εικόνας, το οποίο είχε προτείνει επιστήμονας ηλεκτρονικών υπολογιστών τη δεκαετία του 1950!
Σε αυτό το μοτίβο λειτουργίας τα εγκεφαλικά αρθρώματα λειτουργούν σχεδόν ανεξάρτητα, αλλά π.χ. κάθε δέκατο του δευτερολέπτου κάνουν μια γενική «σύσκεψη προσωπικού», που μοιάζει με δομημένο διαγωνισμό κραυγών. Οποιο τμήμα έχει κάποια πληροφορία να προσφέρει και είναι πιο σίγουρο ότι η πληροφορία που έχει αποτελεί καλύτερο ταίριασμα του ερεθίσματος με το αναμενόμενο από αυτό αποτέλεσμα, τόσο πιο δυνατά «φωνάζει». Οταν ένα άρθρωμα κυριαρχήσει, τα άλλα σιγούν για μια στιγμή και ο νικητής βάζει την πληροφορία του σε μια ομάδα κοινών μεταβλητών: Τον χώρο εργασίας. Αλλα αρθρώματα μπορεί να βρουν χρήσιμη ή άχρηστη γι” αυτά την πληροφορία, αλλά το καθένα πρέπει να κρίνει μόνο του. Ο χώρος εργασίας επιτρέπει στα αρθρώματα όχι μόνο να επικοινωνούν το ένα με το άλλο, αλλά και να επεξεργάζονται συλλογικά πληροφορία που στο μεταξύ έπαψε να εμφανίζεται στις αισθήσεις. Αυτή η ικανότητα είναι απαραίτητη για την επίλυση προβλημάτων που απαιτούν πολλαπλά βήματα ή που απλώνονται στον χρόνο.
Στενωπός
Ενα σύστημα δομημένο με αυτόν τον τρόπο αποφεύγει το πρόβλημα της κατανομής δουλειάς μεταξύ διαφορετικών παραγόντων, ώστε να επιτευχθεί η βέλτιστη απόδοση, καθώς το πρόβλημα αυτό πολλές φορές απαιτεί υπερβολικά μεγάλο χρόνο για να λυθεί. Πρόσφατες βελτιώσεις στις σχετικές θεωρίες περιλαμβάνουν μηχανισμούς που εξασφαλίζουν ότι κανένα άρθρωμα δεν θα υπερβάλει στη βεβαιότητά του για την πληροφορία που εισφέρει, αποτρέποντας κάποια απ” αυτά να αποκτήσουν κυρίαρχο ρόλο σε βάρος των άλλων. Επιπλέον προτάθηκε η δυνατότητα να δημιουργούνται διασυνδέσεις μεταξύ των αρθρωμάτων οι οποίες παρακάμπτουν τελείως τον χώρο εργασίας. Τέτοιες διασυνδέσεις θα μπορούσαν να εξηγήσουν τι συμβαίνει όταν μαθαίνουμε να κάνουμε ποδήλατο ή να παίζουμε ένα μουσικό όργανο. Οταν τα αρθρώματα συμπεράνουν συλλογικά ποια απ” αυτά πρέπει να κάνουν τι, τότε αναλαμβάνουν να φέρνουν σε πέρας το έργο ασυνείδητα.
Η συνειδητή προσοχή είναι σπάνιος πόρος. Ο χώρος εργασίας δεν είναι αρκετά μεγάλος, και έτσι το άρθρωμα που νίκησε πρέπει να είναι πολύ επιλεκτικό στο τι μεταφέρει στα άλλα αρθρώματα. Ερευνητές ΤΝ θεωρούν ότι αυτός ο περιορισμός είναι καλό πράγμα, καθώς επιβάλλει τη γνωστική πειθαρχία. Ανίκανοι να παρακολουθήσουν τον κόσμο σε όλη του την πολυπλοκότητα, οι εγκέφαλοί μας πρέπει να εντοπίσουν τους νόμους που βρίσκονται από πίσω και έτσι καταλαβαίνουμε πώς λειτουργεί ο κόσμος. Ορισμένοι ερευνητές θεωρούν ότι και η ΤΝ πρέπει να διαθέτει μια τέτοια «στενωπό», για να μη χάνεται στις λεπτομέρειες και να μπορεί να αποκτά τη γενικότερη εικόνα των συνθηκών στις οποίες εκτίθεται.
Ενδοσκόπηση
Ενώ η έρευνα προς την ΤΓΝ συνεχίζεται με ραγδαίο ρυθμό, οι ερευνητές του ομίλου «Anthropic», που έχει κατασκευάσει το ΜΓΜ Claude, διερευνούν αν το μοντέλο τους εκδηλώνει κάποια μορφή ενδοσκόπησης, αν δηλαδή η ΤΝ μπορεί να αντιληφθεί την ίδια της τη σκέψη ή απλώς κατασκευάζει απαντήσεις που φαίνονται λογικές. Η απάντηση στο ερώτημα αν τα συστήματα ΤΝ μπορούν πραγματικά να ενδοσκοπήσουν έχει σημαντική επίπτωση στη διαφάνεια και στην αξιοπιστία τους. Αν μπορούν να αναφερθούν με ακρίβεια στους εσωτερικούς τους μηχανισμούς, αυτό θα μας βοηθούσε να κατανοήσουμε τη συλλογιστική τους και να διορθώσουμε συμπεριφορικά τους λάθη. Πέρα από αυτές τις άμεσες και πρακτικής αξίας εκτιμήσεις, η διερεύνηση των υψηλού επιπέδου γνωστικών τους ικανοτήτων, όπως η ενδοσκόπηση, θα βοηθούσε να καταλάβουμε τι πραγματικά είναι αυτά τα συστήματα και πώς λειτουργούν.
Η «Anthropic» ανακοίνωσε ότι χρησιμοποιώντας τεχνικές ερμηνευσιμότητας άρχισε να διερευνά αυτό το ερώτημα επιστημονικά, και βρήκε μερικά απρόσμενα αποτελέσματα. Διαπίστωσε ότι τα τρέχοντα μοντέλα Claude εμφανίζουν κάποιον βαθμό ενδοσκοπικής αντίληψης και κάποιον βαθμό ελέγχου πάνω στις εσωτερικές τους διαδικασίες. Η εταιρεία τονίζει ότι αυτή η ενδοσκοπική ικανότητα ακόμα είναι εξαιρετικά αναξιόπιστη και περιορισμένης έκτασης, δηλαδή δεν έχει σχέση με τον τρόπο ή την έκταση που τη διαθέτει ο άνθρωπος. Ωστόσο εκτιμά πως τα ευρήματα αυτά αμφισβητούν μερικές συνήθεις αντιλήψεις για το τι είναι ικανά να κάνουν τα ΜΓΜ, και πως οι ικανότητες ενδοσκόπησής τους θα αυξάνονται όσο τα μοντέλα θα γίνονται πιο περίτεχνα και εκλεπτυσμένα στο μέλλον.
Εσωτερικές παραστάσεις
Τα μοντέλα όπως ο Claude επεξεργάζονται κείμενο και εικόνες και παράγουν νέο κείμενο. Για να το πετύχουν πραγματοποιούν εσωτερικούς υπολογισμούς, ώστε να υπολογίσουν τι να πουν. Αυτές οι εσωτερικές διεργασίες παραμένουν σε μεγάλο βαθμό μυστηριώδεις, αλλά γνωρίζουμε ότι τα μοντέλα χρησιμοποιούν την εσωτερική νευρωνική τους δραστηριότητα για να αντιπροσωπεύσουν αφηρημένες έννοιες. Προηγούμενες έρευνες έχουν δείξει ότι χρησιμοποιούν συγκεκριμένα νευρωνικά μοτίβα για να διακρίνουν ποιος είναι ποιος, να εκτιμήσουν το αληθές δηλώσεων, να κωδικοποιήσουν χωροχρονικές συντεταγμένες, να αποθηκεύσουν σχεδιαζόμενα μελλοντικά στοιχεία εξόδου και να παραστήσουν τα χαρακτηριστικά της ίδιας τους της «προσωπικότητας». Αυτές τις εσωτερικές παραστάσεις χρησιμοποιούν για να κάνουν υπολογισμούς και να πάρουν απόφαση για το πώς θα απαντήσουν. Το ερώτημα είναι αν γνωρίζουν γι” αυτές τις εσωτερικές παραστάσεις με έναν τρόπο που είναι ανάλογος με αυτόν του ανθρώπου, να μπορούν για παράδειγμα να πουν πώς έλυσαν ένα μαθηματικό πρόβλημα. Αν ένα μοντέλο ερωτηθεί τι σκέφτεται, θα μπορέσει να αναφέρει τις έννοιες που αναπαριστά εσωτερικά; Αν ένα μοντέλο μπορεί να προσδιορίσει τις εσωτερικές του καταστάσεις, τότε μπορούμε να συνάγουμε ότι είναι ικανό για κάποιου είδους ενδοσκόπηση, υποστηρίζει η «Anthropic».
Για να ελέγξουν τον Claude για ενδοσκόπηση, οι ειδικοί της «Anthropic» χρησιμοποίησαν την τεχνική της «ένεσης εννοιών». Αρχικά εντοπίζουν νευρωνικά του μοτίβα που γνωρίζουν την έννοιά τους, και μετά εισάγουν αυτά τα μοτίβα στο μοντέλο σε εντελώς διαφορετικές συνθήκες από αυτές υπό τις οποίες τα δημιούργησαν. Τότε ζητούν από το μοντέλο να πει αν αντιλήφθηκε κάτι αταίριαστο (την «ένεση») και αν μπορεί να αναγνωρίσει την έννοια που του ενέθηκε. Τελικά διαπίστωσαν ότι στο 20% των περιπτώσεων το μοντέλο μπορούσε να καταλάβει, και ότι εμφανίστηκε ξαφνικά μια απρόσμενη έννοια στη «σκέψη» του και στο ποια ήταν αυτή η έννοια.
Επιμέλεια: Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ. Πηγές: www.anthropic.com, «Scientific American» (Αναδημοσίευση από τον Ριζοσπάστη του Σαββατοκύριακου)



















































































