ART

 

.

Η εξόρυξη διαδοχικών προτύπων είναι ένα θέμα της εξόρυξης δεδομένων που ασχολείται με την εύρεση στατιστικά σχετικών προτύπων μεταξύ παραδειγμάτων δεδομένων όπου οι τιμές παραδίδονται σε μια ακολουθία.[1] Συνήθως θεωρείται ότι οι τιμές είναι διακριτές και επομένως η εξόρυξη χρονοσειρών είναι στενά συνδεδεμένη, αλλά συνήθως θεωρείται διαφορετική δραστηριότητα. Η εξόρυξη διαδοχικών προτύπων είναι μια ειδική περίπτωση εξόρυξης δομημένων δεδομένων.

Υπάρχουν πολλά βασικά παραδοσιακά υπολογιστικά προβλήματα που αντιμετωπίζονται σε αυτό το πεδίο. Αυτά περιλαμβάνουν τη δημιουργία αποτελεσματικών βάσεων δεδομένων και ευρετηρίων για πληροφορίες ακολουθίας, την εξαγωγή των μοτίβων που εμφανίζονται συχνά, τη σύγκριση αλληλουχιών για ομοιότητα και την ανάκτηση μελών ακολουθίας που λείπουν. Γενικά, τα προβλήματα εξόρυξης ακολουθιών μπορούν να ταξινομηθούν ως εξόρυξη συμβολοσειρών που τυπικά βασίζεται σε αλγόριθμους επεξεργασίας συμβολοσειρών και εξόρυξη συνόλων στοιχείων που συνήθως βασίζεται στην εκμάθηση κανόνων συσχέτισης. Τα τοπικά μοντέλα διεργασιών [2] επεκτείνουν τη διαδοχική εξόρυξη προτύπων σε πιο πολύπλοκα μοτίβα που μπορούν να περιλαμβάνουν (αποκλειστικές) επιλογές, βρόχους και δομές ταυτόχρονης χρήσης εκτός από τη δομή διαδοχικής παραγγελίας.

Η εξόρυξη συμβολοσειρών συνήθως ασχολείται με ένα περιορισμένο αλφάβητο για στοιχεία που εμφανίζονται σε μια ακολουθία, αλλά η ίδια η ακολουθία μπορεί να είναι συνήθως πολύ μεγάλη. Παραδείγματα αλφαβήτου μπορεί να είναι αυτά στο σύνολο χαρακτήρων ASCII που χρησιμοποιούνται σε κείμενο φυσικής γλώσσας, νουκλεοτιδικές βάσεις 'A', 'G', 'C' και 'T' σε αλληλουχίες DNA ή αμινοξέα για πρωτεϊνικές αλληλουχίες. Σε εφαρμογές βιολογίας, η ανάλυση της διάταξης του αλφαβήτου σε συμβολοσειρές μπορεί να χρησιμοποιηθεί για την εξέταση αλληλουχιών γονιδίων και πρωτεϊνών για τον προσδιορισμό των ιδιοτήτων τους. Η γνώση της αλληλουχίας των γραμμάτων ενός DNA ή μιας πρωτεΐνης δεν είναι από μόνος του απώτερος στόχος. Μάλλον, το κύριο καθήκον είναι να κατανοήσουμε την αλληλουχία, όσον αφορά τη δομή και τη βιολογική της λειτουργία. Αυτό συνήθως επιτυγχάνεται πρώτα με τον εντοπισμό μεμονωμένων περιοχών ή δομικών μονάδων μέσα σε κάθε ακολουθία και στη συνέχεια με την ανάθεση μιας συνάρτησης σε κάθε δομική μονάδα. Σε πολλές περιπτώσεις αυτό απαιτεί σύγκριση μιας δεδομένης ακολουθίας με αυτές που έχουν μελετηθεί προηγουμένως. Η σύγκριση μεταξύ των συμβολοσειρών γίνεται πολύπλοκη όταν εμφανίζονται εισαγωγές, διαγραφές και μεταλλάξεις σε μια συμβολοσειρά.

Εγκυκλοπαίδεια Πληροφορικής

Κόσμος

Αλφαβητικός κατάλογος

Hellenica World - Scientific Library

Από τη ελληνική Βικιπαίδεια http://el.wikipedia.org . Όλα τα κείμενα είναι διαθέσιμα υπό την GNU Free Documentation License