Η μείωση διαστάσεων είναι ο μετασχηματισμός δεδομένων από χώρο μεγάλης διάστασης σε χώρο χαμηλής διάστασης, έτσι ώστε η αναπαράσταση χαμηλής διάστασης να διατηρεί ορισμένες σημαντικές ιδιότητες των αρχικών δεδομένων, ιδανικά κοντά στην εγγενή τους διάσταση. Η εργασία σε χώρους υψηλών διαστάσεων μπορεί να είναι ανεπιθύμητη για πολλούς λόγους. Τα ανεπεξέργαστα δεδομένα είναι συχνά αραιά ως συνέπεια της κατάρας της διάστασης και η ανάλυση των δεδομένων είναι συνήθως υπολογιστικά δυσεπίλυτη (δύσκολο να ελεγχθεί ή να αντιμετωπιστεί). Η μείωση των διαστάσεων είναι κοινή σε πεδία που ασχολούνται με μεγάλο αριθμό παρατηρήσεων ή/και μεγάλο αριθμό μεταβλητών, όπως η επεξεργασία σήματος, η αναγνώριση ομιλίας, η νευροπληροφορική και η βιοπληροφορική.
Οι μέθοδοι συνήθως χωρίζονται σε γραμμικές και μη γραμμικές προσεγγίσεις. Οι προσεγγίσεις μπορούν επίσης να χωριστούν σε επιλογή χαρακτηριστικών και εξαγωγή χαρακτηριστικών. Η μείωση διαστάσεων μπορεί να χρησιμοποιηθεί για μείωση θορύβου, οπτικοποίηση δεδομένων, ανάλυση συμπλέγματος ή ως ενδιάμεσο βήμα για τη διευκόλυνση άλλων αναλύσεων.
Ανάλυση Κύριων Συνιστωσών (Principal Component Analysis – PCA)
Η κύρια γραμμική τεχνική για τη μείωση διαστάσεων, η Ανάλυση Κύριων Συνιστωσών, εκτελεί μια γραμμική χαρτογράφηση των δεδομένων σε χώρο χαμηλότερης διάστασης με τέτοιο τρόπο ώστε η διακύμανση των δεδομένων στην αναπαράσταση χαμηλής διάστασης να μεγιστοποιείται. Στην πράξη, κατασκευάζεται ο πίνακας συνδιακύμανσης (και μερικές φορές ο συσχετισμός) των δεδομένων και υπολογίζονται τα ιδιοδιανύσματα σε αυτόν τον πίνακα. Τα ιδιοδιανύσματα που αντιστοιχούν στις μεγαλύτερες ιδιοτιμές (τα κύρια συστατικά) μπορούν τώρα να χρησιμοποιηθούν για την ανασύσταση ενός μεγάλου κλάσματος της διακύμανσης των αρχικών δεδομένων. Επιπλέον, τα πρώτα ιδιοδιανύσματα μπορούν συχνά να ερμηνευθούν ως προς τη μεγάλης κλίμακας φυσική συμπεριφορά του συστήματος, επειδή συχνά συνεισφέρουν το μεγαλύτερο μέρος της ενέργειας του συστήματος, ειδικά σε συστήματα χαμηλών διαστάσεων. Ωστόσο, αυτό πρέπει να αποδεικνύεται κατά περίπτωση, καθώς δεν παρουσιάζουν όλα τα συστήματα αυτή τη συμπεριφορά. Ο αρχικός χώρος (με τη διάσταση του αριθμού των σημείων) έχει μειωθεί (με απώλεια δεδομένων, αλλά ελπίζουμε ότι διατηρεί την πιο σημαντική απόκλιση) στον χώρο που εκτείνεται από μερικά ιδιοδιανύσματα.
Hellenica World - Scientific Library
Από τη ελληνική Βικιπαίδεια http://el.wikipedia.org . Όλα τα κείμενα είναι διαθέσιμα υπό την GNU Free Documentation License