Η σουίτα παιχνιδιών Atari57 αποτελεί εδώ και καιρό σημείο αναφοράς για την αξιολόγηση της απόδοσης συστημάτων σε ένα ευρύ φάσμα εργασιών. Το Agent57, το πρώτο σύστημα βαθιάς ενισχυτικής μάθησης (deep reinforcement learning), επιτυγχάνει βαθμολογία πάνω από την ανθρώπινη βάση σε όλα τα 57 παιχνίδια Atari 2600.
Το Agent57 συνδυάζει έναν αποδοτικό αλγόριθμο εξερεύνησης με έναν μετα-ελεγκτή (meta-controller), ο οποίος προσαρμόζει τη στρατηγική του συστήματος μεταξύ βραχυπρόθεσμης και μακροπρόθεσμης συμπεριφοράς, επιτρέποντας του να προσαρμόζεται σε διαφορετικές προκλήσεις και να υπερέχει σε ένα ποικίλο σύνολο παιχνιδιών.
Πώς μετριέται η Τεχνητή Γενική Νοημοσύνη;
Στη DeepMind, μας ενδιαφέρει η δημιουργία συστημάτων που αποδίδουν αποτελεσματικά σε ένα ευρύ φάσμα εργασιών. Ένα σύστημα που αποδίδει επαρκώς καλά σε αρκετές διαφορετικές εργασίες θεωρείται ευφυές. Τα παιχνίδια αποτελούν ένα εξαιρετικό πεδίο δοκιμών για την ανάπτυξη προσαρμοστικών αλγορίθμων: προσφέρουν μια ποικιλία εργασιών που απαιτούν εξελιγμένες στρατηγικές συμπεριφοράς, ενώ παράλληλα παρέχουν έναν εύκολο μετρήσιμο δείκτη προόδου – τη βαθμολογία του παιχνιδιού.
Ο τελικός στόχος δεν είναι να δημιουργηθούν συστήματα που διαπρέπουν στα παιχνίδια, αλλά να χρησιμοποιηθούν τα παιχνίδια ως μέσο για την ανάπτυξη συστημάτων που μαθαίνουν να αποδίδουν καλά σε ένα ευρύ φάσμα προκλήσεων. Συνήθως, η ανθρώπινη απόδοση χρησιμοποιείται ως μέτρο για το τι σημαίνει «επαρκής απόδοση» σε μια εργασία. Η βαθμολογία που λαμβάνει ένα σύστημα σε κάθε εργασία μπορεί να συγκριθεί με την αντίστοιχη ανθρώπινη απόδοση, δημιουργώντας έναν ανθρωποποιημένο δείκτη: 0% υποδεικνύει τυχαία απόδοση, ενώ 100% ή περισσότερο δείχνει ότι το σύστημα αποδίδει ισάξια ή καλύτερα από έναν άνθρωπο.
Το Benchmark Atari57
Το 2012, το Arcade Learning Environment – μια συλλογή από 57 παιχνίδια Atari 2600 (γνωστή ως Atari57) – προτάθηκε ως ένα σύνολο εργασιών-μέτρο σύγκρισης. Αυτά τα κλασικά παιχνίδια Atari καλύπτουν ένα ευρύ φάσμα προκλήσεων που πρέπει να ξεπεράσει ένα σύστημα. Η ερευνητική κοινότητα χρησιμοποιεί συχνά αυτό το benchmark για να μετρήσει την πρόοδο στη δημιουργία ολοένα και πιο ευφυών συστημάτων.
Συχνά είναι χρήσιμο να συνοψίζεται η απόδοση ενός συστήματος σε ένα ευρύ φάσμα εργασιών με έναν μόνο αριθμό. Έτσι, η μέση απόδοση (είτε ως μέσος όρος είτε ως διάμεση τιμή βαθμολογίας σε όλα τα παιχνίδια) στο benchmark Atari57 χρησιμοποιείται συχνά για να συνοψίσει τις ικανότητες ενός συστήματος. Οι μέσες βαθμολογίες έχουν αυξηθεί σταδιακά με την πάροδο του χρόνου. Ωστόσο, η μέση απόδοση μπορεί να μην αντικατοπτρίζει πόσες εργασίες εκτελεί καλά ένα σύστημα, και έτσι δεν αποτελεί καλό δείκτη για τη γενικότητα ενός συστήματος. Μετράει ότι ένα σύστημα αποδίδει επαρκώς καλά, αλλά όχι ότι αποδίδει επαρκώς καλά σε ένα ευρύ φάσμα εργασιών.
Παρά την αύξηση των μέσων βαθμολογιών, μέχρι τώρα, ο αριθμός των παιχνιδιών όπου ένα σύστημα ξεπερνά την ανθρώπινη απόδοση δεν έχει αυξηθεί.
Παράδειγμα για τη Γενικότητα
Ας εξετάσουμε ένα benchmark που περιλαμβάνει είκοσι εργασίες.
- Το σύστημα Α επιτυγχάνει βαθμολογία 500% σε οκτώ εργασίες, 200% σε τέσσερις και 0% στις υπόλοιπες οκτώ (μέσος όρος = 240%, διάμεση τιμή = 200%).
- Το σύστημα Β επιτυγχάνει βαθμολογία 150% σε όλες τις εργασίες (μέσος όρος = διάμεση τιμή = 150%).
Με βάση τον μέσο όρο, το σύστημα Α φαίνεται καλύτερο από το Β. Ωστόσο, το σύστημα Β εμφανίζει μεγαλύτερη γενικότητα, καθώς επιτυγχάνει απόδοση επιπέδου ανθρώπου σε περισσότερες εργασίες από το Α.
Σημασία της Διάμεσης Τιμής και της Απόδοσης στο Χαμηλότερο 5%
Το πρόβλημα αυτό γίνεται εντονότερο όταν ορισμένες εργασίες είναι πολύ πιο εύκολες από άλλες. Ένα σύστημα, όπως το Α, που αποδίδει εξαιρετικά καλά σε εύκολες εργασίες μπορεί να ξεπεράσει φαινομενικά ένα σύστημα, όπως το Β, που αποδίδει καλά τόσο σε εύκολες όσο και σε δύσκολες εργασίες.
Η διάμεση τιμή δεν επηρεάζεται τόσο από εξαιρετικές αποδόσεις σε λίγες εύκολες εργασίες και αποτελεί έναν πιο αξιόπιστο δείκτη για τον μέσο όρο μιας κατανομής. Ωστόσο, για τη μέτρηση της γενικότητας, τα άκρα της κατανομής (π.χ. το χαμηλότερο 5%) είναι πιο σημαντικά, ιδιαίτερα όσο αυξάνεται ο αριθμός των εργασιών.
Η απόδοση στα πιο δύσκολα παιχνίδια του χαμηλότερου 5% μπορεί να είναι πιο αντιπροσωπευτική για τη γενικότητα ενός συστήματος. Για παράδειγμα, οι ερευνητές διαπίστωσαν ότι τα συστήματα που δημοσιεύθηκαν το 2019 εξακολουθούσαν να δυσκολεύονται στα ίδια παιχνίδια με τα συστήματα που δημοσιεύθηκαν το 2012.
Τα συστήματα που χρησιμοποιούν κατανεμημένη διάταξη απεικονίζονται με μπλε χρώμα, ενώ τα συστήματα με έναν μόνο “ηθοποιό” απεικονίζονται με γαλαζοπράσινο χρώμα. Η ανάλυση στο 5ο εκατοστημόριο δείχνει ότι προηγμένοι αλγόριθμοι, όπως το MuZero και το R2D2, αποδίδουν σημαντικά κάτω από την ανθρώπινη βάση (μωβ διακεκομμένη γραμμή), ενώ το Agent57 αποδίδει καλύτερα από τους ανθρώπους στα δυσκολότερα παιχνίδια του Atari.
Η Καταγωγή του Agent57
Το 2012, η DeepMind ανέπτυξε τον Deep Q-network agent (DQN) για να αντιμετωπίσει τη σουίτα παιχνιδιών Atari57. Έκτοτε, η ερευνητική κοινότητα έχει αναπτύξει πολλές επεκτάσεις και εναλλακτικές του DQN. Παρά αυτές τις προόδους, όλοι οι πράκτορες βαθιάς μάθησης ενισχυτικού τύπου (deep reinforcement learning agents) απέτυχαν σταθερά να επιτύχουν βαθμολογίες σε τέσσερα παιχνίδια: Montezuma’s Revenge, Pitfall, Solaris και Skiing.
Οι Προκλήσεις των Montezuma’s Revenge και Pitfall
Τα παιχνίδια Montezuma’s Revenge και Pitfall απαιτούν εκτεταμένη εξερεύνηση για την επίτευξη καλής απόδοσης. Ένα βασικό δίλημμα στη μάθηση είναι το πρόβλημα της ισορροπίας εξερεύνησης-εκμετάλλευσης: πρέπει κάποιος να συνεχίσει να εκτελεί συμπεριφορές που ήδη γνωρίζει ότι λειτουργούν (εκμετάλλευση) ή να δοκιμάσει κάτι νέο (εξερεύνηση) για να ανακαλύψει νέες στρατηγικές που μπορεί να είναι πιο αποτελεσματικές; Για παράδειγμα, πρέπει κάποιος να παραγγέλνει πάντα το ίδιο αγαπημένο του πιάτο σε ένα εστιατόριο ή να δοκιμάσει κάτι νέο που ίσως ξεπεράσει το αγαπημένο του; Η εξερεύνηση περιλαμβάνει πολλές μη βέλτιστες ενέργειες για τη συλλογή των απαραίτητων πληροφοριών που θα οδηγήσουν τελικά σε μια ισχυρότερη συμπεριφορά.
Δείτε επίσεις: SQR Guidelines: Ο Ρόλος τους στην Αναζήτηση Πληροφορίας
Οι Προκλήσεις των Solaris και Skiing
Τα παιχνίδια Solaris και Skiing αποτελούν προβλήματα μακροπρόθεσμης συσχέτισης ανταμοιβών (long-term credit assignment). Σε αυτά τα παιχνίδια, είναι δύσκολο να αντιστοιχηθούν οι συνέπειες των ενεργειών ενός συστήματος στις ανταμοιβές που λαμβάνει. Τα συστήματα πρέπει να συλλέγουν πληροφορίες σε μεγάλα χρονικά διαστήματα για να λάβουν την απαραίτητη ανατροφοδότηση και να μάθουν.
Λίστα Αναπαραγωγής: Το Agent57 παίζει τα τέσσερα πιο απαιτητικά παιχνίδια του Atari57 – Montezuma’s Revenge, Pitfall, Solaris και Skiing
Για να μπορέσει το Agent57 να ανταπεξέλθει σε αυτά τα τέσσερα απαιτητικά παιχνίδια, εκτός από τα υπόλοιπα παιχνίδια του Atari57, χρειάστηκαν αρκετές αλλαγές στο DQN.
Εννοιολογικές βελτιώσεις στο DQN που οδήγησαν στην ανάπτυξη πιο γενικά ευφυών παραγόντων.
Βελτιώσεις του DQN για την Αντιμετώπιση των Προκλήσεων
Για να μπορέσει το Agent57 να ανταποκριθεί σε αυτά τα τέσσερα απαιτητικά παιχνίδια, καθώς και στα υπόλοιπα παιχνίδια του Atari57, χρειάστηκαν αρκετές αλλαγές στο DQN.
Βελτιώσεις του DQN
Οι πρώτες βελτιώσεις στο DQN ενίσχυσαν την αποδοτικότητα και τη σταθερότητα της μάθησής του, περιλαμβάνοντας:
- Double DQN,
- Προτεραιοποιημένη αναπαραγωγή εμπειριών (prioritised experience replay), και
- Αρχιτεκτονική διπλής αντιπαράθεσης (dueling architecture).
Αυτές οι αλλαγές επέτρεψαν στα συστήματα να χρησιμοποιούν πιο αποδοτικά τις εμπειρίες τους.
Κατανεμημένοι Παράγοντες (Distributed Agents)
Στη συνέχεια, οι ερευνητές εισήγαγαν κατανεμημένες παραλλαγές του DQN, όπως τα Gorila DQN και ApeX, που μπορούν να εκτελούνται σε πολλούς υπολογιστές ταυτόχρονα. Αυτό επέτρεψε στα συστήματα να αποκτούν και να μαθαίνουν από εμπειρίες γρηγορότερα, δίνοντας στους ερευνητές τη δυνατότητα να δοκιμάζουν ιδέες πιο γρήγορα.
Το Agent57 είναι επίσης ένας κατανεμημένος πράκτορας ενισχυτικής μάθησης που διαχωρίζει τη διαδικασία συλλογής δεδομένων από τη διαδικασία μάθησης.
- Πολλοί ηθοποιοί (actors) αλληλεπιδρούν με ανεξάρτητα αντίγραφα του περιβάλλοντος, στέλνοντας δεδομένα σε μια κεντρική «τράπεζα μνήμης» (memory bank) υπό τη μορφή μιας προτεραιοποιημένης αναπαραγωγής εμπειριών (prioritized replay buffer).
- Ένας μαθητής (learner) στη συνέχεια αντλεί δεδομένα εκπαίδευσης από αυτή την αναπαραγωγή, όπως φαίνεται στο Σχήμα 4, παρόμοια με το πώς ένας άνθρωπος ανακαλεί αναμνήσεις για να μάθει καλύτερα από αυτές.
Ο μαθητής χρησιμοποιεί αυτές τις αναπαραγόμενες εμπειρίες για να κατασκευάσει συναρτήσεις απωλειών (loss functions), με τις οποίες εκτιμά το κόστος ενεργειών ή γεγονότων. Στη συνέχεια, ενημερώνει τις παραμέτρους του νευρωνικού του δικτύου ελαχιστοποιώντας τις απώλειες.
Τέλος, κάθε ηθοποιός μοιράζεται την ίδια αρχιτεκτονική δικτύου με τον μαθητή, αλλά με το δικό του αντίγραφο των παραμέτρων. Οι παράμετροι του μαθητή αποστέλλονται συχνά στους ηθοποιούς, επιτρέποντάς τους να ενημερώνουν τις παραμέτρους τους ανάλογα με τις δικές τους προτεραιότητες, όπως θα συζητήσουμε αργότερα.
Βραχυπρόθεσμη Μνήμη
Τα συστήματα τεχνητής νοημοσύνης χρειάζονται μνήμη για να λαμβάνουν υπόψη προηγούμενες παρατηρήσεις κατά τη διαδικασία λήψης αποφάσεων. Αυτό επιτρέπει στο σύστημα όχι μόνο να βασίζει τις αποφάσεις του στις παρούσες παρατηρήσεις (οι οποίες συνήθως είναι μερικές, δηλαδή το σύστημα βλέπει μόνο ένα μέρος του κόσμου του), αλλά και στις παρελθούσες παρατηρήσεις, οι οποίες μπορούν να αποκαλύψουν περισσότερες πληροφορίες για το περιβάλλον στο σύνολό του.
Για παράδειγμα, φανταστείτε μια εργασία όπου ένα σύστημα πρέπει να μετακινείται από δωμάτιο σε δωμάτιο για να μετρήσει τον αριθμό καρεκλών σε ένα κτίριο. Χωρίς μνήμη, το σύστημα μπορεί να βασιστεί μόνο στις παρατηρήσεις του από το τρέχον δωμάτιο. Με τη μνήμη, το σύστημα μπορεί να θυμάται τον αριθμό καρεκλών από τα προηγούμενα δωμάτια και απλώς να προσθέτει τον αριθμό των καρεκλών που παρατηρεί στο παρόν δωμάτιο για να ολοκληρώσει την εργασία. Επομένως, ο ρόλος της μνήμης είναι να συγκεντρώνει πληροφορίες από παρελθούσες παρατηρήσεις για τη βελτίωση της διαδικασίας λήψης αποφάσεων.
Στη βαθιά ενισχυτική μάθηση (deep reinforcement learning) και στη βαθιά μάθηση (deep learning), επαναλαμβανόμενα νευρωνικά δίκτυα, όπως το Long-Short Term Memory (LSTM), χρησιμοποιούνται για τη δημιουργία βραχυπρόθεσμης μνήμης.
Σύνδεση Μνήμης και Συμπεριφοράς
Η σύνδεση της μνήμης με τη συμπεριφορά είναι ζωτικής σημασίας για την ανάπτυξη συστημάτων που μαθαίνουν μόνα τους. Στην ενισχυτική μάθηση, ένα σύστημα μπορεί να είναι:
- On-policy learner, το οποίο μπορεί να μαθαίνει μόνο την αξία των άμεσων ενεργειών του, ή
- Off-policy learner, το οποίο μπορεί να μαθαίνει για τις βέλτιστες ενέργειες ακόμη και όταν δεν τις εκτελεί – π.χ., μπορεί να εκτελεί τυχαίες ενέργειες, αλλά να μαθαίνει τι θα ήταν η καλύτερη δυνατή ενέργεια.
Η off-policy μάθηση είναι, επομένως, μια επιθυμητή ιδιότητα για τα συστήματα, βοηθώντας τα να μάθουν τη βέλτιστη πορεία δράσης ενώ εξερευνούν διεξοδικά το περιβάλλον τους. Ο συνδυασμός της off-policy μάθησης με τη μνήμη είναι προκλητικός, διότι απαιτεί γνώση του τι μπορεί να θυμάται το σύστημα όταν εκτελεί διαφορετική συμπεριφορά.
Για παράδειγμα, αυτό που μπορεί να επιλέξει να θυμάται το σύστημα όταν αναζητά ένα μήλο (π.χ. πού βρίσκεται το μήλο) διαφέρει από αυτό που μπορεί να επιλέξει να θυμάται όταν αναζητά ένα πορτοκάλι. Ωστόσο, αν το σύστημα αναζητούσε ένα πορτοκάλι αλλά συναντούσε τυχαία ένα μήλο, θα μπορούσε να μάθει πώς να βρει το μήλο στο μέλλον.
Ο πρώτος πράκτορας βαθιάς ενισχυτικής μάθησης που συνδύαζε τη μνήμη με την off-policy μάθηση ήταν το Deep Recurrent Q-Network (DRQN). Πιο πρόσφατα, μια σημαντική εξέλιξη στη γραμμή του Agent57 ήταν το Recurrent Replay Distributed DQN (R2D2), το οποίο συνδύαζε ένα μοντέλο νευρωνικού δικτύου για βραχυπρόθεσμη μνήμη με off-policy μάθηση και κατανεμημένη εκπαίδευση, επιτυγχάνοντας πολύ ισχυρή μέση απόδοση στο Atari57.
Το R2D2 τροποποιεί τον μηχανισμό αναπαραγωγής για τη μάθηση από παρελθούσες εμπειρίες ώστε να λειτουργεί με βραχυπρόθεσμη μνήμη. Συνολικά, αυτό βοήθησε το R2D2 να μάθει αποδοτικά κερδοφόρες συμπεριφορές και να τις εκμεταλλευτεί για ανταμοιβές.
Επεισοδιακή Μνήμη
Το Never Give Up (NGU) σχεδιάστηκε για να ενισχύσει το R2D2 με μια πρόσθετη μορφή μνήμης: την επεισοδιακή μνήμη. Αυτή επιτρέπει στο NGU να ανιχνεύει πότε εισέρχεται σε νέες περιοχές ενός παιχνιδιού, έτσι ώστε να εξερευνά αυτές τις περιοχές με την πιθανότητα να αποκομίσει ανταμοιβές.
Αυτή η δυνατότητα κάνει τη συμπεριφορά του συστήματος (εξερεύνηση) να αποκλίνει σημαντικά από την πολιτική που επιδιώκει να μάθει (τη μεγιστοποίηση της βαθμολογίας στο παιχνίδι). Επομένως, η off-policy μάθηση παίζει και πάλι καθοριστικό ρόλο.
Το NGU ήταν το πρώτο σύστημα που πέτυχε θετικές ανταμοιβές χωρίς εξειδικευμένη γνώση του παιχνιδιού Pitfall, ενός παιχνιδιού στο οποίο κανένα άλλο σύστημα δεν είχε καταφέρει να πετύχει βαθμολογία από την εισαγωγή του benchmark Atari57, καθώς και σε άλλα απαιτητικά παιχνίδια Atari.
Παρόλα αυτά, το NGU θυσιάζει την απόδοσή του στα παιχνίδια που παραδοσιακά θεωρούνται «ευκολότερα» και, ως αποτέλεσμα, παρουσιάζει χαμηλότερη μέση απόδοση συγκριτικά με το R2D2.
Μέθοδοι Εσωτερικής Κινητοποίησης για Κατευθυνόμενη Εξερεύνηση
Για να ανακαλύψουν τις πιο επιτυχημένες στρατηγικές, τα συστήματα πρέπει να εξερευνήσουν το περιβάλλον τους — ωστόσο, κάποιες στρατηγικές εξερεύνησης είναι πιο αποδοτικές από άλλες.
Με το DQN, οι ερευνητές προσπάθησαν να αντιμετωπίσουν το πρόβλημα της εξερεύνησης χρησιμοποιώντας μια ακατευθυνόμενη στρατηγική εξερεύνησης γνωστή ως epsilon-greedy: με μια σταθερή πιθανότητα (επίπεδο epsilon), το σύστημα εκτελεί μια τυχαία ενέργεια· διαφορετικά, επιλέγει την τρέχουσα καλύτερη ενέργεια. Ωστόσο, αυτή η οικογένεια τεχνικών δεν κλιμακώνεται καλά σε δύσκολα προβλήματα εξερεύνησης: ελλείψει ανταμοιβών, απαιτεί υπερβολικό χρόνο για να εξερευνήσει μεγάλους χώρους κατάστασης-δράσης, καθώς βασίζεται σε ακατευθυνόμενες, τυχαίες επιλογές για να ανακαλύψει άγνωστες καταστάσεις.
Για να ξεπεραστεί αυτός ο περιορισμός, έχουν προταθεί πολλές κατευθυνόμενες στρατηγικές εξερεύνησης. Μεταξύ αυτών, μια προσέγγιση επικεντρώνεται στην ανάπτυξη ανταμοιβών εσωτερικής κινητοποίησης, που ενθαρρύνουν το σύστημα να εξερευνήσει και να επισκεφθεί όσο το δυνατόν περισσότερες καταστάσεις, παρέχοντας πιο πυκνές «εσωτερικές» ανταμοιβές για συμπεριφορές αναζήτησης του νέου.
Μέσα σε αυτήν την προσέγγιση, διακρίνουμε δύο τύπους ανταμοιβών:
- Ανταμοιβές μακροπρόθεσμης αναζήτησης νέου: Ενθαρρύνουν την επίσκεψη σε πολλές καταστάσεις καθ’ όλη τη διάρκεια της εκπαίδευσης, σε πολλά επεισόδια.
- Ανταμοιβές βραχυπρόθεσμης αναζήτησης νέου: Ενθαρρύνουν την επίσκεψη σε πολλές καταστάσεις μέσα σε ένα σύντομο χρονικό διάστημα (π.χ., κατά τη διάρκεια ενός μόνο επεισοδίου ενός παιχνιδιού).
Αναζήτηση Καινοτομίας σε Μακροπρόθεσμες Κλίμακες
Οι ανταμοιβές μακροπρόθεσμης αναζήτησης καινοτομίας ενεργοποιούνται όταν το σύστημα συναντά μια κατάσταση που δεν έχει παρατηρηθεί ποτέ πριν στη διάρκεια της λειτουργίας του. Η ένταση αυτής της ανταμοιβής καθορίζεται από την πυκνότητα των καταστάσεων που έχουν παρατηρηθεί κατά την εκπαίδευση: δηλαδή, προσαρμόζεται ανάλογα με το πόσο συχνά το σύστημα έχει συναντήσει μια κατάσταση παρόμοια με την τρέχουσα, σε σχέση με το σύνολο των καταστάσεων που έχει παρατηρήσει.
Όταν η πυκνότητα είναι υψηλή (υποδεικνύοντας ότι η κατάσταση είναι γνώριμη), η ανταμοιβή για τη μακροπρόθεσμη αναζήτηση καινοτομίας είναι χαμηλή, ενώ όταν η πυκνότητα είναι χαμηλή (υποδεικνύοντας μια νέα κατάσταση), η ανταμοιβή είναι υψηλή. Σε περιπτώσεις όπου όλες οι καταστάσεις έχουν γίνει γνώριμες, το σύστημα στρέφεται σε ακατευθυνόμενες στρατηγικές εξερεύνησης.
Ωστόσο, η εκπαίδευση μοντέλων πυκνότητας σε χώρους υψηλών διαστάσεων συνοδεύεται από πολλές δυσκολίες λόγω της “κατάρας της πολυδιάστασης“. Στην πράξη, όταν τα συστήματα χρησιμοποιούν μοντέλα βαθιάς μάθησης για να αναπτύξουν ένα μοντέλο πυκνότητας, συχνά αντιμετωπίζουν τα εξής προβλήματα:
- Καταστροφική λήθη, όπου οι πληροφορίες που έχουν παρατηρηθεί προηγουμένως διαγράφονται καθώς το σύστημα αποκτά νέες εμπειρίες.
- Αδυναμία παραγωγής ακριβών αποτελεσμάτων για όλα τα πιθανά δεδομένα εισόδου.
Για παράδειγμα, στο παιχνίδι Montezuma’s Revenge, σε αντίθεση με τις ακατευθυνόμενες στρατηγικές εξερεύνησης, οι ανταμοιβές μακροπρόθεσμης καινοτομίας επιτρέπουν στο σύστημα να ξεπεράσει την απόδοση ενός ανθρώπου. Παρ’ όλα αυτά, ακόμη και οι καλύτερες μέθοδοι στο Montezuma’s Revenge απαιτούν προσεκτική και σωστά ρυθμισμένη εκπαίδευση του μοντέλου πυκνότητας. Όταν το μοντέλο πυκνότητας δείχνει ότι οι καταστάσεις στο πρώτο δωμάτιο έχουν γίνει γνώριμες, το σύστημα πρέπει να είναι σε θέση να φτάσει με συνέπεια σε νέες, άγνωστες περιοχές.
Το Never Give Up (NGU) χρησιμοποίησε αυτή την ανταμοιβή βραχυπρόθεσμης αναζήτησης καινοτομίας, βασισμένη σε ελέγξιμες καταστάσεις, σε συνδυασμό με μια ανταμοιβή μακροπρόθεσμης καινοτομίας, μέσω της μεθόδου Random Network Distillation. Ο συνδυασμός επιτεύχθηκε πολλαπλασιάζοντας και τις δύο ανταμοιβές, όπου η ανταμοιβή μακροπρόθεσμης καινοτομίας είχε ένα ανώτατο όριο. Με αυτόν τον τρόπο, η επίδραση της ανταμοιβής βραχυπρόθεσμης καινοτομίας διατηρείται, αλλά μπορεί να μειωθεί καθώς το σύστημα εξοικειώνεται περισσότερο με το παιχνίδι κατά τη διάρκεια της λειτουργίας του.
Μια άλλη βασική ιδέα του NGU είναι ότι μαθαίνει μια οικογένεια πολιτικών, που εκτείνονται από αμιγώς εκμεταλλευτικές μέχρι ιδιαιτέρως εξερευνητικές. Αυτό επιτυγχάνεται αξιοποιώντας μια κατανεμημένη διάταξη: βασισμένο στο R2D2, οι “ηθοποιοί” παράγουν εμπειρίες με διαφορετικές πολιτικές, ανάλογα με διαφορετικά επίπεδα βαρύτητας που αποδίδονται στη συνολική ανταμοιβή καινοτομίας. Αυτές οι εμπειρίες παράγονται ομοιόμορφα, με σεβασμό στη βαρύτητα κάθε πολιτικής μέσα στην οικογένεια.
Meta-controller: Μαθαίνοντας την ισορροπία μεταξύ εξερεύνησης και εκμετάλλευσης
Το Agent57 σχεδιάστηκε με βάση την εξής ιδέα: ένα σύστημα μπορεί να μάθει πότε είναι καλύτερο να εκμεταλλεύεται και πότε να εξερευνά. Για να επιτευχθεί αυτό, εισήχθη η έννοια του μετα-ελεγκτή (meta-controller), ο οποίος προσαρμόζει την ισορροπία μεταξύ εξερεύνησης και εκμετάλλευσης καθώς και τον χρονικό ορίζοντα για παιχνίδια που απαιτούν μεγαλύτερη χρονική συσχέτιση των ανταμοιβών. Με αυτές τις προσαρμογές, το Agent57 μπορεί να αποδώσει εξαιρετικά τόσο σε εύκολα όσο και σε δύσκολα παιχνίδια, επιτυγχάνοντας υπεράνθρωπη απόδοση.
Κύρια ζητήματα στις μεθόδους εσωτερικής κινητοποίησης
Οι μέθοδοι εσωτερικής κινητοποίησης αντιμετωπίζουν δύο βασικές προκλήσεις:
Εξερεύνηση: Σε πολλά παιχνίδια, οι πολιτικές που βασίζονται αποκλειστικά στην εκμετάλλευση είναι αποτελεσματικές, ιδιαίτερα αφού το παιχνίδι έχει ήδη εξερευνηθεί. Αυτό σημαίνει ότι μεγάλο μέρος της εμπειρίας που παράγεται από εξερευνητικές πολιτικές, όπως στο Never Give Up, τελικά γίνεται περιττό όταν το σύστημα έχει εξερευνήσει όλες τις σχετικές καταστάσεις.
Χρονικός Ορίζοντας: Ορισμένα καθήκοντα απαιτούν μακροχρόνιους ορίζοντες (π.χ. Skiing, Solaris), όπου η εκτίμηση των ανταμοιβών που θα ληφθούν στο μακρινό μέλλον είναι κρίσιμη για τη δημιουργία μιας αποτελεσματικής εκμεταλλευτικής πολιτικής. Ωστόσο, σε άλλα καθήκοντα, η υπερβολική βαρύτητα στις μελλοντικές ανταμοιβές μπορεί να επιβραδύνει ή να αποσταθεροποιήσει τη διαδικασία εκμάθησης. Αυτή η ισορροπία ρυθμίζεται συνήθως μέσω του παράγοντα προεξόφλησης (discount factor) στην ενισχυτική μάθηση, όπου ένας υψηλός παράγοντας προεξόφλησης διευκολύνει τη μάθηση από μεγαλύτερους χρονικούς ορίζοντες.
Η προσέγγιση του Agent57
Για την αντιμετώπιση αυτών των προκλήσεων, αναπτύχθηκε ένας μηχανισμός διαδικτυακής προσαρμογής, ο οποίος ελέγχει την ποσότητα εμπειρίας που παράγεται με διαφορετικές πολιτικές, προσαρμόζοντας μεταβλητούς χρονικούς ορίζοντες και την σημασία της καινοτομίας. Για την υλοποίηση αυτής της προσέγγισης, χρησιμοποιήθηκαν διάφορες τεχνικές, όπως:
- Εκπαίδευση ενός πληθυσμού παραγόντων με διαφορετικές τιμές υπερπαραμέτρων.
- Άμεση εκμάθηση των υπερπαραμέτρων μέσω βαθμίωσης καθόδου (gradient descent).
- Χρήση ενός κεντρικού bandit για τη βελτιστοποίηση των υπερπαραμέτρων.
Στο Agent57, χρησιμοποιήθηκε ένας αλγόριθμος bandit για την επιλογή της πολιτικής που θα χρησιμοποιηθεί για τη δημιουργία εμπειρίας. Συγκεκριμένα, κάθε “ηθοποιός” εκπαιδεύτηκε με έναν bandit UCB (Upper Confidence Bound) που χρησιμοποιεί ένα μεταβαλλόμενο παράθυρο, για να καθορίσει την προτίμηση μεταξύ εξερεύνησης και εκμετάλλευσης καθώς και τον χρονικό ορίζοντα της πολιτικής.
Agent57: Ενσωμάτωση όλων των στοιχείων
Για την υλοποίηση του Agent57, συνδυάστηκε ο προηγούμενος εξερευνητικός αλγόριθμος Never Give Up (NGU) με έναν meta-controller. Το σύστημα υπολογίζει έναν συνδυασμό εσωτερικής κινητοποίησης μακροπρόθεσμης και βραχυπρόθεσμης διάρκειας, ώστε να εξερευνά και να μαθαίνει μια οικογένεια πολιτικών. Η επιλογή της κατάλληλης πολιτικής γίνεται από τον meta-controller.
Ο meta-controller επιτρέπει σε κάθε “ηθοποιό” του συστήματος να επιλέγει διαφορετική ισορροπία μεταξύ βραχυπρόθεσμης και μακροπρόθεσμης απόδοσης, καθώς και μεταξύ εξερεύνησης νέων καταστάσεων και εκμετάλλευσης ήδη γνωστών πληροφοριών (Σχήμα 4). Η ενισχυτική μάθηση λειτουργεί ως ένας βρόχος ανάδρασης: οι ενέργειες που επιλέγονται καθορίζουν τα δεδομένα εκπαίδευσης. Κατά συνέπεια, ο meta-controller καθορίζει επίσης ποια δεδομένα μαθαίνει το σύστημα.
Συμπεράσματα και μελλοντικές προοπτικές
Με την ανάπτυξη του Agent57, επιτεύχθηκε η δημιουργία ενός πιο γενικού συστήματος που παρουσιάζει υπεράνθρωπη απόδοση σε όλα τα καθήκοντα του Atari57 benchmark. Το σύστημα βασίζεται στον προηγούμενο αλγόριθμο Never Give Up, ενώ ο meta-controller του επιτρέπει να γνωρίζει πότε να εξερευνά και πότε να εκμεταλλεύεται, καθώς και ποιος χρονικός ορίζοντας είναι χρήσιμος για τη μάθηση.
Το Agent57 έδειξε ότι μπορεί να κλιμακωθεί με αυξανόμενη υπολογιστική ισχύ: όσο περισσότερο εκπαιδευόταν, τόσο υψηλότερη ήταν η βαθμολογία του. Παρόλο που αυτό οδήγησε σε ισχυρή γενική απόδοση, απαιτεί μεγάλη υπολογιστική ισχύ και χρόνο· η αποδοτικότητα των δεδομένων μπορεί σίγουρα να βελτιωθεί. Επιπλέον, το σύστημα έδειξε καλύτερη απόδοση στο 5ο εκατοστημόριο των παιχνιδιών του Atari57, γεγονός που υποδηλώνει τη γενικότητά του.
Αυτό, ωστόσο, δεν αποτελεί το τέλος της έρευνας για το Atari, ούτε από την άποψη της αποδοτικότητας των δεδομένων ούτε από την άποψη της γενικής απόδοσης. Προτείνονται δύο κατευθύνσεις για βελτίωση:
Ανάλυση της απόδοσης μεταξύ των εκατοστημορίων: Παρέχει νέες γνώσεις για το πόσο γενικά είναι τα αλγοριθμικά μοντέλα. Αν και το Agent57 πετυχαίνει ισχυρά αποτελέσματα στα πρώτα εκατοστημόρια των 57 παιχνιδιών και έχει καλύτερη μέση και διάμεση απόδοση από το NGU ή το R2D2, όπως φαίνεται και από το MuZero, θα μπορούσε ακόμα να επιτύχει υψηλότερη μέση απόδοση.
Βελτιώσεις σε συγκεκριμένα παιχνίδια: Όλοι οι τρέχοντες αλγόριθμοι απέχουν από τη βέλτιστη απόδοση σε ορισμένα παιχνίδια. Κλειδιά για περαιτέρω βελτίωση περιλαμβάνουν την ενίσχυση των αναπαραστάσεων που χρησιμοποιεί το Agent57 για εξερεύνηση, σχεδιασμό και ανάθεση ανταμοιβών.
Πηγές
deepmind.google – Agent57: Outperforming the human Atari benchmark