.
Η ενισχυτική μάθηση (reinforcement learning) στην επιστήμη των υπολογιστών είναι ένας γενικός όρος που έχει δοθεί σε μια οικογένεια τεχνικών στις οποίες το σύστημα μάθησης προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Εφαρμόζεται στον έλεγχο κίνησης ρομπότ, στη βελτιστοποίηση εργασιών σε εργοστάσια, στη μάθηση επιτραπέζιων παιχνιδιών, κτλ. Η έννοια της ενισχυτικής μάθησης είναι εμπνευσμένη από τα αντίστοιχα ανάλογα της μάθησης με επιβράβευση και τιμωρία που συναντώνται ως μοντέλα μάθησης των έμβιων όντων. Σκοπός του συστήματος μάθησης είναι να μεγιστοποιήσει μια συνάρτηση του αριθμητικού σήματος ενίσχυσης (ανταμοιβή), για παράδειγμα την αναμενόμενη τιμή του σήματος ενίσχυσης στο επόμενο βήμα. Το σύστημα δεν καθοδηγείται από κάποιον εξωτερικό επιβλέποντα για το ποια ενέργεια θα πρέπει να ακολουθήσει αλλά πρέπει να ανακαλύψει μόνο του ποιες ενέργειες είναι αυτές που θα του αποφέρουν το μεγαλύτερο κέρδος.
Τα μαθηματικά θεμέλια της ενισχυτικής μάθησης σχηματίζουν τους ακόλουθους πέντε όρους: ο πράκτορας, το περιβάλλον, οι καταστάσεις, οι ενέργειες και οι ανταμοιβές. Οι μέθοδοι ενισχυτικής μάθησης εξετάζουν την αλληλεπίδραση του μαθησιακού πράκτορα με το περιβάλλον του.
Αλληλεπίδραση με το περιβάλλον
Το περιβάλλον συνήθως περιγράφεται ως διαδικασία απόφασης Markov
Το περιβάλλον αποτελείται από ένα σύνολο καταστάσεων S και ένα σύνολο ενεργειών A , καθώς και από ένα δυναμικό ρ και μια Αρχική διανομή P0 . Η αλληλεπίδραση του πράκτορα με το περιβάλλον λαμβάνει χώρα σε διακριτούς χρόνους t . Σε οποιαδήποτε χρονική στιγμή, ο πράκτορας βρίσκεται σε κατάσταση, επιλέγει μια ενέργεια και λαμβάνει μια πραγματική ανταμοιβή για αυτήν. Επειδή αυτές δεν μπορούν να προβλεφθούν, συνοψίζονται ως τυχαίες μεταβλητές Τη στιγμή t ο πράκτορας βρίσκεται στην κατάσταση S t και επιλέγει μια ενέργεια A t σύμφωνα με μια πολιτική πt έξω. Μια πολιτική π t είναι μια συλλογή μέτρων πιθανότητας . πt ( a ∣ s ) υποδηλώνει την προτίμηση του πράκτορα να επιλέξει την ενέργεια a τη στιγμή t , όταν είναι σε κατάσταση s . Στη συνέχεια, το περιβάλλον εκδίδει μια ανταμοιβή R t } και μια επακόλουθη κατάσταση S t + 1 } σύμφωνα με ένα δυναμικό ρ . Η δυναμική ρ είναι μια συλλογή (μεταβατικών) κατανομών πιθανότητας ( ρ ( ⋅ , ⋅ ∣ s , a ) ) ( s , a ) ∈ S × A στο R × S . Επομένως έχουμε ( R t , S t + 1 ) ∼ ρ ( ⋅ , ⋅ | S t , A t ) . Η κατάσταση στην οποία βρίσκεται ο παράγοντας τη στιγμή t = 0 καθορίζεται από την αρχική κατανομή P 0 : S 0 ~ P 0 .
Βιβλιογραφία
Βλαχάβας, Ιωάννης; Κεφάλας Πέτρος, Βασιλειάδης Νικόλαος, Κόκκορας Φώτης, Σακελλαρίου Ηλίας (Φεβρουάριος 2006). Τεχνητή Νοημοσύνη (3η έκδοση). Εκδόσεις Πανεπιστημίου Μακεδονίας.
Hellenica World - Scientific Library
Από τη ελληνική Βικιπαίδεια http://el.wikipedia.org . Όλα τα κείμενα είναι διαθέσιμα υπό την GNU Free Documentation License