Δίκτυα Κολμογκόροφ – Άρνολντ: Νέα τεχνική ανάπτυξης ερμηνεύσιμης Τεχνητής Νοημοσύνης
Τα Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ), όπως το ChatGPT, το Llama, το Bard (μετέπειτα Gemini) κ.ά., πυροδότησαν μια φρενίτιδα γύρω από την Τεχνητή Νοημοσύνη (ΤΝ) και η κούρσα των ομίλων συνεχίζεται για την ανάπτυξη ακόμα ισχυρότερων. Όμως κάθε άλλο παρά τέλεια είναι, καθώς, πέρα από τον χρόνο και την υπολογιστική ισχύ που χρειάζονται για την εκπαίδευσή τους, είναι συνήθως ασαφές το πώς φτάνουν στα συμπεράσματά τους. Κατά βάση, τα σημερινά μοντέλα ΤΝ είναι σαν «μαύρο κουτί». Βάζεις κάτι στην είσοδο και παίρνεις κάτι στην έξοδο, χωρίς εξήγηση. Γι΄ αυτό είναι δύσκολο να καταλάβεις αν το πρόγραμμα παράγει μια απάντηση που έχει νόημα, ή αν «σκαρφίζεται» μια απάντηση – παραίσθηση.
Η βασική αρχή λειτουργίας των μοντέλων ΤΝ είναι τα νευρωνικά δίκτυα, που έχουν βασιστεί στον οπτικό φλοιό του ανθρώπινου εγκεφάλου. Τώρα, όμως, μια ομάδα ειδικών με επικεφαλής τον φυσικό Ζίμινγκ Λιου, του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης (MIT), αναπτύσσει μια νέα προσέγγιση, που υπερβαίνει τα συμβατικά νευρωνικά δίκτυα από πολλές πλευρές. Σε επιστημονική προδημοσίευση που έκαναν τον περασμένο Απρίλη, παρουσίασαν τα δίκτυα Κολμογκόροφ – Αρνολντ (αποκαλούνται συνήθως με το αγγλικό αρκτικόλεξο KAN), τα οποία μπορούν να χρησιμοποιηθούν σε ευρύ φάσμα προβλημάτων πολύ πιο αποτελεσματικά, αλλά και να λύσουν επιστημονικά προβλήματα καλύτερα από προηγούμενες προσεγγίσεις. Όμως το βασικό τους πλεονέκτημα είναι ότι επιτρέπουν την επεξήγηση του τρόπου με τον οποίο το KAN κατέληξε στη συγκεκριμένη απάντηση, καθώς καταλήγουν σε μαθηματικές συναρτήσεις στο εσωτερικό τους, αντί απλώς για αριθμούς που δεν βγάζουν ιδιαίτερο νόημα.
Νευρωνικά δίκτυα
Πέρα από τα νευρωνικά δίκτυα υπάρχουν κι άλλοι αλγόριθμοι μηχανικής μάθησης, όπως τα δέντρα αποφάσεων, η γραμμική παλινδρόμηση κ.ά. Από το 2010 και μετά, όμως, τα νευρωνικά δίκτυα έχουν κυριαρχήσει. Η δομή τους αποτελείται από πολλές υπολογιστικές μονάδες («νευρώνες») διατεταγμένες σε στρώματα, το ένα πίσω από το άλλο, και συνδέσεις («συνάψεις») μεταξύ τους. Ένα σήμα εισόδου υπόκειται διαδοχικά σε επεξεργασία σε κάθε στρώμα. Αν και η εφεύρεση των νευρωνικών δικτύων προέρχεται από τη δεκαετία του 1950, μόνο μετά το 2010 έγιναν οι υπολογιστές αρκετά ισχυροί ώστε να μπορούν να εκτελέσουν αυτούς τους αλγορίθμους αποτελεσματικά, καθώς χρειάζονται μεγάλη ποσότητα δεδομένων για την εκπαίδευσή τους (όπως τα εικονοστοιχεία ή πίξελ μιας εικόνας), προκειμένου να παράγουν το κατάλληλο αποτέλεσμα (π.χ. μια περιγραφή του περιεχομένου της).
Για την εκπαίδευσή τους οι τιμές εισόδου μεταφέρονται στους «νευρώνες» του πρώτου στρώματος. Μετά πολλαπλασιάζονται με τα βάρη (αριθμητικές τιμές) των αντίστοιχων «συνάψεων» και αν το αποτέλεσμα είναι πάνω από ένα όριο, μεταφέρεται στο επόμενο επίπεδο. Οι νευρώνες του δεύτερου επιπέδου προσαρμόζουν τις αριθμητικές τιμές των συνάψεων με το πρώτο επίπεδο, και η διαδικασία επαναλαμβάνεται στα επόμενα επίπεδα, μέχρι το τελευταίο. Κατά την εκπαίδευσή του το νευρωνικό δίκτυο προσαρμόζει τα βάρη των συνάψεων, ώστε η είσοδος να παράγει την επιθυμητή έξοδο. Τα τελευταία χρόνια οι επιστήμονες έχουν καταφέρει να ανακαλύψουν τον ελάχιστο αριθμό στρωμάτων που απαιτούνται σε ένα νευρωνικό δίκτυο ώστε αυτό να καταφέρει να προσεγγίσει με αρκετή ακρίβεια το αποτέλεσμα, ανάλογα με το είδος του προβλήματος.
Από την αφάνεια στο προσκήνιο
Υπάρχει μια μαθηματική επεξεργασία που επιτρέπει σε σύνθετα προβλήματα (συναρτήσεις πολλών αγνώστων) να διατυπώνονται με απλούστερους όρους αντί να προσεγγίζονται, όπως κάνουν τα συμβατικά νευρωνικά δίκτυα. Η βάση της είναι ένα θεώρημα που ανέπτυξαν οι μαθηματικοί Αντρέι Κολμογκόροφ και Βλαντιμίρ Αρνολντ τη δεκαετία του 1960. Τις δεκαετίες του ΄80 και του ΄90 οι ειδικοί του τομέα είχαν καταλήξει στο συμπέρασμα ότι το θεώρημα αυτό δεν μπορεί να χρησιμοποιηθεί στα νευρωνικά δίκτυα, όμως η ομάδα του Λιου στο MIT κατάφερε να το βγάλει από την αφάνεια και να το αξιοποιήσει για να αναπτύξει KAN.
Η δομή των KAN είναι παρόμοια με των συμβατικών νευρωνικών δικτύων, αλλά τα βάρη δεν έχουν κάθε στιγμή μια σταθερή αριθμητική τιμή. Αντιθέτως, τα βάρη αντιπροσωπεύονται με μια μαθηματική συνάρτηση, πράγμα που σημαίνει ότι το βάρος κάθε σύναψης εξαρτάται από την τιμή της ανεξάρτητης μεταβλητής στον νευρώνα του προηγούμενου επιπέδου. Έτσι, κατά τη διάρκεια της εκπαίδευσης τα KAN δεν προσαρμόζουν τα βάρη ως απλές αριθμητικές τιμές, αλλά ως συναρτήσεις σχετιζόμενες με κάθε σύναψη. Οι συναρτήσεις δίνουν πολύ πιο πλούσια περιγραφή των βαρών συγκριτικά με τις αριθμητικές τιμές, καθώς μπορούν να αποτυπωθούν ως γραφικές παραστάσεις, που μεταφέρουν πολύ περισσότερη πληροφορία για το πώς επηρεάζουν τη λειτουργία του δικτύου. Ακριβώς επειδή τα KAN χρησιμοποιούν συναρτήσεις αντί για αριθμητικές τιμές, η εκπαίδευσή τους απαιτεί πολλαπλάσιο χρόνο. Από την άλλη, όταν καταληχτούν οι συναρτήσεις μπορούν να χρησιμοποιηθούν απευθείας, απαιτώντας λιγότερο χρόνο και επεξεργαστική ισχύ για χρήση του εκπαιδευμένου μοντέλου.
Προϋποθέσεις
Ο Λιου και οι συνάδελφοί του σύγκριναν τα KAN με τα συμβατικά νευρωνικά δίκτυα, που ονομάζονται πολυστρωματικά perceptron (MLP). Διαπίστωσαν ότι μπορούσαν να προσεγγίσουν το σωστό αποτέλεσμα πολύ πιο γρήγορα από τα MLP αντίστοιχου μεγέθους (αριθμού και στρωμάτων νευρώνων). Εφάρμοσαν επίσης τα KAN για την επίλυση προβλημάτων στο μαθηματικό πεδίο της θεωρίας των κόμβων (τοπολογία) και κατάφεραν το ίδιο αποτέλεσμα ενός MLP που είχε χρησιμοποιήσει 300.000 παραμέτρους, χρησιμοποιώντας μόλις 200 παραμέτρους.
Μέλη της επιστημονικής κοινότητας έχουν εκφραστεί στο διαδίκτυο με ενθουσιώδη τρόπο για τα KAN και τις δυνατότητές τους, με ορισμένους να μιλούν ακόμα και για εξέλιξη που «θα τα αλλάξει όλα». Μάλιστα έχουν ήδη εμφανιστεί εργαλεία διαθέσιμα στον καθέναν για ανάπτυξη μικρών KAN σε προσωπικούς υπολογιστές. Ωστόσο η πραγματική χρησιμότητά τους θα φανεί στην πράξη, ανάλογα με τις περιπτώσεις που θα κριθούν πιο αποτελεσματικά από τα MLP. Ο δεκαπλάσιος χρόνος εκπαίδευσής τους ίσως αποτελεί το μεγαλύτερο πρόβλημα για την ευρεία υιοθέτησή τους, αν και ήδη μέσα σε δύο μήνες από την εμφάνισή τους υπάρχουν τουλάχιστον δύο τεχνικές παραλλαγές τους που προσπαθούν να τον μειώσουν. Η χρήση τους στα Μεγάλα Γλωσσικά Μοντέλα ίσως εξαρτηθεί από το αν θα μπορέσουν να παράγουν σε λογικό χρόνο τα ίδια ή και καλύτερα αποτελέσματα με μικρότερο αριθμό παραμέτρων, σε σύγκριση με τα δισεκατομμύρια των παραμέτρων που χρησιμοποιούν το ChatGPT και τα άλλα ΜΓΜ.
Επιμέλεια: Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ – Πηγές: «Scientific American», www.nasa.gov, www.spacex.com – Αναδημοσίευση από τον Ριζοσπάστη