.
Ένας μετασχηματιστής είναι ένα μοντέλο βαθιάς μάθησης που υιοθετεί τον μηχανισμό της αυτοπροσοχής, σταθμίζοντας διαφορικά τη σημασία κάθε μέρους των δεδομένων εισόδου. Χρησιμοποιείται κυρίως στους τομείς της επεξεργασίας φυσικής γλώσσας (NLP)[1] και της όρασης υπολογιστή (CV).[2]
Όπως τα επαναλαμβανόμενα νευρωνικά δίκτυα (RNN), οι μετασχηματιστές έχουν σχεδιαστεί για να επεξεργάζονται διαδοχικά δεδομένα εισόδου, όπως η φυσική γλώσσα, με εφαρμογές για εργασίες όπως η μετάφραση και η σύνοψη κειμένου. Ωστόσο, σε αντίθεση με τα RNN, οι μετασχηματιστές επεξεργάζονται ολόκληρη την είσοδο ταυτόχρονα. Ο μηχανισμός προσοχής παρέχει το πλαίσιο για οποιαδήποτε θέση στην ακολουθία εισόδου. Για παράδειγμα, εάν τα δεδομένα εισόδου είναι μια πρόταση φυσικής γλώσσας, ο μετασχηματιστής δεν χρειάζεται να επεξεργάζεται μία λέξη τη φορά. Αυτό επιτρέπει μεγαλύτερη παραλληλοποίηση από τα RNN και επομένως μειώνει τους χρόνους εκπαίδευσης.[1]
Οι μετασχηματιστές εισήχθησαν το 2017 από μια ομάδα της Google Brain[1] και γίνονται όλο και περισσότερο το μοντέλο επιλογής για προβλήματα NLP,[3] αντικαθιστώντας μοντέλα RNN όπως η μακροπρόθεσμη βραχυπρόθεσμη μνήμη (LSTM). Ο παραλληλισμός πρόσθετης εκπαίδευσης επιτρέπει την εκπαίδευση σε μεγαλύτερα σύνολα δεδομένων. Αυτό οδήγησε στην ανάπτυξη προεκπαιδευμένων συστημάτων όπως το BERT (Αμφίδρομες Αναπαραστάσεις Κωδικοποιητή από τους Μετασχηματιστές) και το GPT (Generative Pre-trained Transformer), τα οποία εκπαιδεύτηκαν με μεγάλα σύνολα δεδομένων γλώσσας, όπως το Wikipedia Corpus και το Common Crawl, και μπορούν να είναι καλά- συντονισμένοι για συγκεκριμένες εργασίες.[4][5]
Hellenica World - Scientific Library
Από τη ελληνική Βικιπαίδεια http://el.wikipedia.org . Όλα τα κείμενα είναι διαθέσιμα υπό την GNU Free Documentation License