Στην επιστήμη των υπολογιστών, μια αποθήκη δεδομένων (Data Warehouse, DW) είναι μια βάση δεδομένων που χρησιμοποιείται για αναφορά και ανάλυση των δεδομένων προς εξαγωγή καλά πληροφορημένων αποφάσεων. Τα δεδομένα που είναι αποθηκευμένα στην αποθήκη δεδομένων φορτώνονται από το λειτουργικό σύστημα. Τα δεδομένα μπορεί να περάσουν μέσα από ένα λειτουργικό χώρο αποθήκευσης δεδομένων για τις πρόσθετες εργασίες πριν χρησιμοποιηθούν στις αποθήκες δεδομένων για την υποβολή εκθέσεων.
Μία αποθήκη δεδομένων διατηρεί τις λειτουργίες της σε τρία στρώματα: σταδιοποίηση, την ένταξη και την πρόσβαση. Η σταδιοποίηση χρησιμοποιείται για την αποθήκευση πρώτων δεδομένων με σκοπό τη χρήση τους από προγραμματιστές. Η ένταξη δεδομένων χρησιμοποιείται για την ενσωμάτωση δεδομένων ώστε να έχουν ένα επίπεδο αφαίρεσης από τους χρήστες. Το στρώμα πρόσβασης είναι για να εξάγουν τα επιθυμητά δεδομένα για τους χρήστες.
Οι αποθήκες δεδομένων μπορούν να υποδιαιρεθούν σε εξειδικευμένα υποσύνολα δεδομένων, τα λεγόμενα data marts. Τα data marts εφοδιάζουν επιμέρους υποσύνολα δεδομένων από μια αποθήκη.
Ο ορισμός της αποθήκης δεδομένων εστιάζει στην αποθήκευση δεδομένων. Η κύρια πηγή των δεδομένων ξεδιαλύνεται, μεταμορφώνεται, κατηγοριοποιείται και διατίθεται για χρήση από τους διαχειριστές και άλλους επαγγελματίες για την εξόρυξη δεδομένων, διαδικτυακής αναλυτικής επεξεργασίας, έρευνα αγοράς και υποστήριξης αποφάσεων. Ωστόσο, τα μέσα για την ανάκτηση και την ανάλυση δεδομένων, την εξαγωγή, μετατροπή και φόρτωση των δεδομένων, καθώς και η διαχείριση του λεξικού δεδομένων θεωρούνται επίσης ουσιώδεις συνιστώσες ενός συστήματος αποθήκευσης δεδομένων. Πολλές αναφορές για την αποθήκευση δεδομένων χρησιμοποιούν αυτό το ευρύτερο πλαίσιο. Έτσι, ένας γενικός ορισμός για την αποθήκευση δεδομένων περιλαμβάνει εργαλεία επιχειρηματικής ευφυΐας, εργαλεία για την εξαγωγή, μετατροπή και φόρτωση δεδομένων στο χώρο αποθήκευσης, καθώς και τα εργαλεία για τη διαχείριση και ανάκτηση των μεταδεδομένων.
Πλεονεκτήματα των αποθηκών δεδομένων
Μία αποθήκη δεδομένων διατηρεί ένα αντίγραφο πληροφοριών από την πηγή του συστήματος συναλλαγών. Αυτή η πολυπλοκότητα στην αρχιτεκτονική παρέχει τη δυνατότητα να:
Διατηρεί ιστορικό δεδομένων, ακόμη και αν οι πηγές των συστημάτων συναλλαγών δεν το κάνουν.
Ενσωματώνει δεδομένα από πολλαπλά συστήματα πηγών, επιτρέποντας την κοινή θέα σε ολόκληρη την επιχείρηση. Το όφελος αυτό είναι πάντα πολύτιμο, αλλά ιδιαίτερα όταν η οργάνωση έχει επεκταθεί.
Βελτίωση της ποιότητας των δεδομένων, παρέχοντας κωδικούς και περιγραφές, επισημαίνοντας λάθη στα δεδομένα ή ακόμα και για τον διόρθωση αυτών.
Παρουσιάζοντας τις πληροφορίες του οργανισμού με συνέπεια.
Παρέχει ένα ενιαίο μοντέλο δεδομένων για όλα τα ζητούμενα δεδομένα ανεξάρτητα από την πηγή αυτών.
Αναδιάρθρωση των δεδομένων, έτσι ώστε να έχει νόημα για τους χρήστες των επιχειρήσεων.
Αναδιάρθρωση των δεδομένων, έτσι ώστε να προσφέρει εξαιρετικές επιδόσεις στα ερωτήματα, ακόμη και για τα σύνθετα ερωτήματα, χωρίς να επηρεάζονται τα λειτουργικά συστήματα.
Προσθέτει αξία στις επιχειρησιακές εφαρμογές επιχειρήσεων, και ιδίως στη διαχείριση συστημάτων πελατειακών σχέσεων (CRM).
Ιστορία
Η έννοια της αποθήκευσης δεδομένων που χρονολογείται από τα τέλη της δεκαετίας του 1980, όταν ερευνητές της IBM Μπάρι Ντέβλιν και Πολ Μέρφι ανέπτυξαν την επιχείρηση αποθήκης δεδομένων. Στην ουσία, η ιδέα αποθήκευσης των δεδομένων είχε ως στόχο να παρέχει ένα αρχιτεκτονικό μοντέλο για τη ροή των δεδομένων και των επιχειρησιακών συστημάτων σε περιβάλλοντα υποστήριξης αποφάσεων. Μέσα από το σκεπτικό αυτό επιχειρήθηκε να αντιμετωπιστούν τα διάφορα προβλήματα που σχετίζονται με αυτή τη ροή, κυρίως του υψηλού κόστους που συνδέονται με αυτό. Σε περίπτωση απουσίας μιας αρχιτεκτονικής αποθήκευσης δεδομένων, ένα τεράστιο ποσό των θέσεων εργασίας ήταν απαραίτητο για την υποστήριξη πολλαπλών αποφάσεων στο περιβάλλοντα χώρο . Στις μεγαλύτερες επιχειρήσεις ήταν χαρακτηριστική για την πολλαπλή υποστήριξη αποφάσεων στον περιβάλλοντα χώρο που λειτουργούν ανεξάρτητα. Αν και κάθε περιβάλλον εξυπηρετούσε διαφορετικούς χρήστες, συχνά απαιτούνταν ένα μεγάλο μέρος απ' τα ίδια αποθηκευμένα δεδομένα. Η διαδικασία της συλλογής, τον καθαρισμό και την ενσωμάτωση δεδομένων από διάφορες πηγές, συνήθως από τη μακροχρόνια υφιστάμενων επιχειρησιακών συστημάτων (συνήθως αναφέρεται ως κληρονομιά συστημάτων), ήταν τυπικά εν μέρει εφαρμοσμένη για κάθε περιβάλλον. Επιπλέον, τα λειτουργικά συστήματα συχνά επανεξετάζονταν καθώς νέες απαιτήσεις υποστήριξης αποφάσεων προέκυπταν. Συχνά οι νέες απαιτήσεις που επιβάλλουν τη συλλογή, τον καθαρισμό και την ενσωμάτωση των νέων δεδομένων από τα "marts δεδομένα" ήταν προσαρμοσμένα για την εύκολη πρόσβαση από τους χρήστες.
Βασικές εξελίξεις κατά τα πρώτα χρόνια της αποθήκευσης δεδομένων ήταν οι εξής:
1960 - Οι General Mills και Κολλέγιο Ντάρτμουθ, σε ένα κοινό ερευνητικό πρόγραμμα, αναπτύσσουν τις διαστάσεις τους όρους και γεγονότα .
1970 - ACNielsen και IRI παρέχουν διαστάσεων marts στοιχείων για τις λιανικές πωλήσεις.
1970 - Bill Inmon αρχίζει να ορίζει και να συζητά με τον όρο: Αποθήκη δεδομένων.
1975 - Sperry Univac παρουσιάζει το Mapper (συντήρηση, προετοιμασία και παραγωγή διοικητικών εκθέσεων) είναι ένα σύστημα διαχείρισης βάσης δεδομένων και το σύστημα υποβολής εκθέσεων που περιλαμβάνει το πρώτο 4GL στον κόσμο. Ήταν η πρώτη πλατφόρμα που είχε σχεδιαστεί ειδικά για τη δημιουργία Κέντρων Πληροφοριών (πρόδρομος της σύγχρονης επιχειρησιακής πλατφόρμας Αποθήκευσης δεδομένων).
1983 – Η Teradata, εισάγει ένα σύστημα διαχείρισης βάσεων δεδομένων που έχουν σχεδιαστεί ειδικά για την υποστήριξη της λήψης αποφάσεων.
1983 – Η εταιρία Sperry, ο Martyn Richard Jones προσδιορίζει προσεγγιστικά την πληροφορία της Sperry Center ενώ δεν είναι η αληθινή Αποθήκη δεδομένων, υπό την έννοια Inmon, περιείχε πολλά από τα χαρακτηριστικά της Αποθήκης δεδομένων, δομών και διαδικασιών, όπως ορίζονταν στο παρελθόν από την Inmon, και αργότερα από το Devlin. Χρησιμοποιείται για πρώτη φορά στο TSB England & Wales.
1984 - Υπολογιστικά Συστήματα Μεταφοράς, που ιδρύθηκε από τον David Liddle και τον Don Massaro, απελευθέρωσαν το συστήματα Ερμηνείας Δεδομένων (DIS). DIS όπου ήταν ένα πακέτο υλικού / λογισμικού και GUI(σύνολο γραφικών στοιχείων) για τους επιχειρηματικούς χρήστες να δημιουργώντας ένα σύστημα διαχείρισης βάσης δεδομένων και ανάλυσης του συστήματος.
1988 – Ο Barry Devlin και ο Paul Murphy δημοσιεύουν ένα άρθρο, Μια αρχιτεκτονική για ένα σύστημα πληροφόρησης των επιχειρήσεων στην εφημερίδα IBM Systems όπου εισάγουν τον όρο "επιχείρηση αποθήκης δεδομένων».
1990 – Τα Red Brick Systems, που ιδρύθηκαν από τον Ralph Kimball, εισάγουν το Red Brick Warehouse, ένα σύστημα διαχείρισης βάσεων δεδομένων ειδικά για την αποθήκευση δεδομένων.
1991 - Λύσεις Πρίσμα, ιδρύθηκαν από τον Μπιλ Inmon, όπου εισάγει Πρίσμα διοικητικής αποθήκης, λογισμικό για την ανάπτυξη μιας αποθήκης δεδομένων.
1992 - Bill Inmon δημοσιεύει το βιβλίο κατασκευάζοντας την αποθήκη δεδομένων.
1995 – Ιδρύεται το Ινστιτούτο αποθήκης δεδομένων, ένας μη κερδοσκοπικός οργανισμός που προωθεί την αποθήκευση δεδομένων.
1996 – Ralph Kimball δημοσιεύει το βιβλίο η αποθήκη δεδομένων Toolkit.
2000 - Daniel Linstedt απελευθερώνει την αποθήκη δεδομένων, που επιτρέπει σε πραγματικό χρόνο τη δυνατότητα να ελεγχθεί την αποθήκη Αποθηκών Δεδομένων.
Κανονικοποίηση έναντι τρισδιάστατης προσέγγισης στην αποθήκευση δεδομένων
Υπάρχουν δύο προσεγγίσεις που οδηγούν στην αποθήκευση δεδομένων σε μια αποθήκη δεδομένων - η πολυδιάστατη προσέγγιση και η κανονικοποιημένη προσέγγιση. Η πολυδιάστατη προσέγγιση, των οποίων οι υποστηρικτές αναφέρονται ως "Kimballites", πιστεύουν στην προσέγγιση Ralph Kimball, στην οποία αναφέρεται ότι η αποθήκη δεδομένων θα πρέπει να μοντελοποιηθεί χρησιμοποιώντας ένα τρισδιάστατο μοντέλο / αστέρι σχήμα. Η κανονικοποιημένη προσέγγιση, που ονομάζεται επίσης η 3NF μοντέλο, του οποίου οι υποστηρικτές αναφέρονται ως "Inmonites", πιστεύουν στην προσέγγιση Bill Inmon, στην οποία αναφέρεται ότι η αποθήκη δεδομένων θα πρέπει να μοντελοποιηθεί χρησιμοποιώντας ένα μοντέλο ER / κανονικοποιημένη μοντέλο.
Σε μια πολυδιάστατη προσέγγιση, τα στοιχεία συναλλαγής έχουν χωριστεί σε δύο «γεγονότα», τα οποία είναι γενικά αριθμητικά δεδομένα των συναλλαγών, ή "διαστάσεις", που είναι τα στοιχεία αναφοράς που δίνει το πλαίσιο των πραγματικών περιστατικών. Για παράδειγμα, σε μια συναλλαγή πώλησης μπορούν να χωριστούν σε γεγονότα όπως ο αριθμός των προϊόντων που διέταξε και την τιμή που καταβάλλεται για τα προϊόντα, και σε διαστάσεις, όπως η ημερομηνία παραγγελίας, το όνομα του πελάτη, τον αριθμό των προϊόντων, παραγγελίας ship-to και bill-to και καθιστά τον πωλητή υπεύθυνο για την παραλαβή της παραγγελίας.
Ένα βασικό πλεονέκτημα των διαστάσεων της προσέγγισης είναι ότι η αποθήκη δεδομένων είναι πιο εύκολο για τον χρήστη να κατανοήσει και να χρησιμοποιήσει. Επίσης, η ανάκτηση των δεδομένων από την αποθήκη δεδομένων τείνει να λειτουργεί πολύ γρήγορα. Οι δομές διαστάσεων είναι εύκολο να κατανοηθούν από τους επαγγελματίες χρήστες, επειδή η δομή χωρίζεται σε μετρήσεις/ στοιχεία και το περιεχόμενο/ διαστάσεις. Τα γεγονότα σχετίζονται με τις επιχειρηματικές διαδικασίες της οργάνωσης και λειτουργίας του συστήματος καθώς οι διαστάσεις τους περιέχονται στο πλαίσιο για τη μέτρηση (Kimball, Ralph, 2008).
Μειονεκτήματα
Τα βασικά μειονεκτήματα των διαστάσεων της προσέγγισης είναι:
Προκειμένου να διατηρηθεί η ακεραιότητα των δεδομένων και των στοιχείων, η φόρτωση της αποθήκης δεδομένων με στοιχεία από διαφορετικά λειτουργικά συστήματα είναι περίπλοκη, και
Είναι δύσκολο να τροποποιηθεί η δομή της αποθήκη δεδομένων, εάν ο οργανισμός που υιοθετεί την προσέγγιση των διαστάσεων αλλάξει τον τρόπο με τον οποίο κάνει τις επιχειρησιακές διαδικασίες.
Στην κανονικοποιημένη προσέγγιση, τα δεδομένα στην αποθήκη δεδομένων που αποθηκεύονται ακολουθούν ως ένα βαθμό τους κανόνες κανονικοποίησης της βάσης δεδομένων. Οι πίνακες έχουν συγκεντρωθεί από θεματικές ενότητες που αντανακλούν γενικές κατηγορίες δεδομένων (π.χ., τα δεδομένα για τους πελάτες, προϊόντα, χρηματοδότηση, κλπ.). Η κανονικοποιημένη δομή χωρίζει τα δεδομένα σε οντότητες, γεγονός που δημιουργεί πολλούς πίνακες σε μια σχεσιακή βάση δεδομένων. Όταν εφαρμόζεται σε μεγάλες επιχειρήσεις, το αποτέλεσμα είναι δεκάδες πίνακες που είναι συνδεδεμένοι μεταξύ τους με ένα δίκτυο που τα ενώνει. Επιπλέον, κάθε μία από τις οντότητες που δημιουργείται μετατρέπεται σε ξεχωριστό πίνακες όταν η βάση δεδομένων υλοποιείται (Kimball, Ralph, 2008). Το κύριο πλεονέκτημα αυτής της προσέγγισης είναι ότι είναι εύκολο να προσθέσετε πληροφορίες στη βάση δεδομένων. Ένα μειονέκτημα αυτής της προσέγγισης είναι ότι, λόγω του αριθμού των πινάκων που εμπλέκονται, μπορεί να είναι δύσκολο για τους χρήστες τόσο για να ενταχθούν δεδομένων από διαφορετικές πηγές σε ουσιαστικές πληροφορίες και στη συνέχεια να γίνει πρόσβαση στις πληροφορίες χωρίς μια ακριβή κατανόηση των πηγών των δεδομένων και της δομής τους στην αποθήκης δεδομένων.
Και οι δύο κανονικοποιημένα και τρισδιάστατα μοντέλα μπορούν να εκπροσωπούνται στην οντότητα-σχέση με διαγράμματα καθώς και οι δύο περιέχουν αρμονία σχεσιακών πινάκων. Η διαφορά μεταξύ των δύο μοντέλων είναι ο βαθμός ομαλότητας.
Αυτές οι προσεγγίσεις δεν αλληλοαποκλείονται, και υπάρχουν και άλλες προσεγγίσεις. Τρισδιάστατες προσεγγίσεις μπορεί να περιλαμβάνουν την ομαλοποίηση των δεδομένων σε έναν βαθμό (Kimball, Ralph, 2008).
Μεθοδολογία σχεδιασμού top-down έναντι της bottom-up
Σχεδιασμός bottom-up
Ο Ralph Kimball, ένας γνώστης για τις αποθήκες δεδομένων, είναι υπέρ μιας προσέγγισης για το σχεδιασμό μίας αποθήκης δεδομένων, την οποία περιγράφει ως από-κάτω-προς-τα-πάνω (bottom-up).
Στην bottom-up προσέγγιση τα data marts αρχικά δημιουργούνται για να παρέχουν την υποβολή εκθέσεων και αναλυτικές ικανότητες για συγκεκριμένες επιχειρηματικές διαδικασίες. Στη μεθοδολογία του Kimball, η διαδικασία bottom-up είναι το αποτέλεσμα ενός αρχικού επιχειρησιακού προσανατολισμού ανάλυσης top-down για την διαμόρφωση των σχετικών επιχειρησιακών διαδικασιών.
Τα data marts περιέχουν, κατά κύριο λόγο, τις διαστάσεις και τα γεγονότα. Τα γεγονότα μπορούν να περιέχουν είτε ατομικά δεδομένα και, εφόσον είναι αναγκαίο, συνοπτικά δεδομένα. Τα μεμονωμένα data mart συχνά αποτελούν πρότυπο για ένα συγκεκριμένο επιχειρησιακό τομέα, όπως οι "Πωλήσεις" ή η "Παραγωγή". Αυτά τα data marts μπορούν τελικά να ενσωματωθούν για να δημιουργηθεί μια ολοκληρωμένη αποθήκη δεδομένων. Η ενσωμάτωση των data marts γίνεται μέσω της εφαρμογής που ο Kimball αποκαλεί ως «data warehouse bus architecture». Η αρχιτεκτονική αυτή είναι κατά κύριο λόγο μια συλλογή από δεδομένα με προσαρμοσμένες διαστάσεις και γεγονότα, τα οποία μοιράζονται (με ειδικό τρόπο) μεταξύ γεγονότων σε δύο ή περισσότερα data marts.
Η αυστηρή διατήρηση αυτής της αρχιτεκτονικής είναι θεμελιώδους σημασίας για τη διατήρηση της ακεραιότητας της αποθήκης δεδομένων. Το πιο σημαντικό καθήκον της διαχείρισης είναι η διασφάλιση ότι οι διαστάσεις μεταξύ των data marts είναι συνεπή. Με τα λεγόμενα του Kimball, αυτό σημαίνει ότι οι διαστάσεις "προσαρμόζονται".
Ορισμένοι θεωρούν ότι ένα πλεονέκτημα της μεθόδου Kimball, είναι πως η αποθήκη δεδομένων αποτελείται από έναν λογικό αριθμό μερών (όπως σε ένα λεωφορείο) και συγκεκριμένων data marts, και όχι ένα μεγάλο και συχνά περίπλοκο συγκεντρωτικό μοντέλο. Η επιχειρηματική αξία μπορούν να φανεί αμέσως μετά την δημιουργία των πρώτων data marts, και η ίδια η μέθοδος δίνει αποτελεσματικά μια διερευνητική και επαναληπτική προσέγγιση για την οικοδόμηση αποθηκών δεδομένων.
Για παράδειγμα, η προσπάθεια για αποθήκευση των δεδομένων θα μπορούσε να αρχίσει στο τμήμα "Πωλήσεις", με τη δημιουργία ενός Sales-data mart. Με την ολοκλήρωση των Sales-data mart, η επιχείρηση μπορεί να αποφασίσει να επεκτείνει τις δραστηριότητες αποθήκευσης στο, ας πούμε, "Τμήμα Παραγωγής" με αποτέλεσμα την δημιουργία του Production-data mart. Η απαίτηση για τα στοιχεία των Sales-data mart και των Production-data mart να είναι ολοκληρώσιμα, προκύπτει διότι μοιράζονται το ίδιο "Bus", που σημαίνει ότι η ομάδα αποθήκευσης δεδομένων έχει κάνει την προσπάθεια να εντοπίσει και να εφαρμόσει τις σύμφωνες διαστάσεις στο “Bus”, και ότι τα μεμονωμένα data marts συνδέονται με πληροφορίες από το “Bus”. Αυτό δεν απαιτεί το 100% της ευαισθητοποίησης από την έναρξη της προσπάθειας για αποθήκευση δεδομένων, κανένα σχέδιο δεν απαιτείται εκ των προτέρων. Τα Sales- data mart είναι καλό όπως είναι (με την προϋπόθεση ότι το “Bus” έχει ολοκληρωθεί) και την παραγωγή data mart μπορεί να κατασκευαστεί σχεδόν ανεξάρτητα από τα Sales- data mart (αλλά όχι ανεξάρτητα από το “Bus”).
Αν η ολοκλήρωση μέσω της αρχιτεκτονικής επιτευχθεί, η αποθήκη δεδομένων, μέσω των δύο data marts της, όχι μόνο θα είναι σε θέση να παραδώσει τις συγκεκριμένες πληροφορίες που τα επιμέρους data marts έχουν σκοπό να κάνουν, σε αυτό το παράδειγμα είτε οι πληροφορίες από τις "Πωλήσεις" ή της "Παραγωγή", αλλά μπορεί να προσφέρει περισσότερο εμπλουτισμένες πληροφορίες σχετικά με τις Πωλήσεις και την Παραγωγή, οι οποίες συχνά χρήζουν κρίσιμης επιχειρηματικής αξίας. Η ενσωμάτωση (ενδεχομένως) επιτυγχάνεται με έναν ευέλικτο τρόπο και ένα διαδραστικό τρόπο διαμόρφωσης.
Σχεδιασμός top-down
Ο Bill Inmon, ένας από τους πρώτους συγγραφείς για το θέμα της αποθήκευσης δεδομένων, έχει ορίσει μια αποθήκη δεδομένων ως ένα κεντρικό αρχείο φύλαξης για το σύνολο της επιχείρησης. Ο Inmon είναι ένας από τους μεγαλύτερους υποστηρικτές της προσέγγισης από-πάνω-προς-τα-κάτω (top-down) στο σχεδιασμό αποθήκης δεδομένων, στην οποία η αποθήκη δεδομένων είναι σχεδιασμένη με ένα κανονικοποιημένο μοντέλο επιχείρησης δεδομένων. Τα «ατομικά» δεδομένα, δηλαδή τα δεδομένα στο χαμηλότερο επίπεδο της λεπτομέρειας, είναι αποθηκευμένα στις αποθήκες δεδομένων. Είναι διαστάσεων data marts που περιέχει τα δεδομένα που χρειάζονται για συγκεκριμένες επιχειρηματικές διαδικασίες ή συγκεκριμένα τμήματα που δημιουργούνται από την αποθήκη δεδομένων. Στο όραμα Inmon η αποθήκη δεδομένων είναι στο κέντρο του «Εργοστάσιου Εταιρικής Πληροφορίας» (CIF), το οποίο παρέχει ένα λογικό πλαίσιο για την παροχή επιχειρηματικής ευφυΐας (BI) και τη δυνατότητα διαχείρισης των επιχειρήσεων.
Ο Inmon αναφέρει ότι μια αποθήκη δεδομένων έχει τα εξής χαρακτηριστικά:
Προσανατολισμένο θέμα: Τα δεδομένα στην αποθήκη δεδομένων είναι οργανωμένα έτσι ώστε όλα τα στοιχεία των δεδομένων που αφορούν το ίδιο γεγονός πραγματικού κόσμου ή αντικείμενο που συνδέονται μεταξύ τους.
Μη πτητική: Τα δεδομένα στην αποθήκη δεδομένων δεν είναι ποτέ επανεγεγγραμένα ή διαγραμμένα - τη στιγμή που δεσμεύονται, τα δεδομένα είναι στατικά, μόνο για ανάγνωση, και φυλάσσονται για μελλοντική αναφορά.
Ολοκληρωμένη: Η αποθήκη δεδομένων περιέχει στοιχεία από το μεγαλύτερο μέρος ή το σύνολο των λειτουργικών συστημάτων του οργανισμού και τα δεδομένα αυτά γίνονται συνεπείς.
Χρόνο-παραλλαγή: Για ένα λειτουργικό σύστημα, τα αποθηκευμένα δεδομένα περιέχουν την τρέχουσα τιμή.
Η μεθοδολογία του top-down σχεδιασμού δημιουργεί άκρως συνεπής διαστάσεις προβολών των δεδομένων σε ολόκληρη την data marts από όλα τα data marts στοιχεία μέχρι όλα να φορτωθούν από τον κεντρικό χώρο αποθήκευσης. Ο σχεδιασμός top-down έχει επίσης αποδειχθεί ότι είναι ανθεκτικός στις αλλαγές των επιχειρήσεων. Παράγοντας νέες διαστάσεις data marts έναντι των δεδομένων που αποθηκεύονται στην αποθήκη δεδομένων είναι μια σχετικά απλή υπόθεση. Το κύριο μειονέκτημα για την top-down μεθοδολογία είναι ότι αποτελεί ένα πολύ μεγάλο έργο με ένα πολύ ευρύ πεδίο εφαρμογής. Το προκαταρκτικό κόστος για την εφαρμογή μιας αποθήκης δεδομένων, χρησιμοποιώντας τη top-down μεθοδολογία είναι σημαντική, και η διάρκεια του χρόνου από την έναρξη του έργου μέχρι το σημείο όπου οι τελικοί χρήστες με την εμπειρία των αρχικών οφελών μπορεί να είναι σημαντικές. Επιπλέον, η top-down μεθοδολογία μπορεί να είναι άκαμπτη και να ανταποκρίνεται στις μεταβαλλόμενες ανάγκες των τμημάτων κατά τις φάσεις υλοποίησης.
Υβριδικός σχεδιασμός
Οι λύσεις της αποθήκης δεδομένων (DW) συχνά αποτελούν κομβικό σημείο για την αρχιτεκτονική δομή. Καθώς τα κληροδοτημένα συστήματα τροφοδοτούν την λύση της DW / BI συχνά περιλαμβάνουν τη διαχείριση των πελατειακών σχέσεων (Customer Relationship Management - CRM) και τις λύσεις σχετικά με τον επιχειρησιακό προγραμματισμό των πηγών (Enterprise Resource Planning - ERP), παράγουν μεγάλες ποσότητες δεδομένων. Για να εδραιωθούν τα διάφορα μοντέλα δεδομένων και να διευκολυνθεί η διαδικασία της εξαγωγή της φόρτωσης (Extract Transform Load - ETL), οι λύσεις της αποθήκης δεδομένων γίνονται συχνά χρήσιμες από μία επιχειρησιακή αποθήκη δεδομένων (Operation Data Store - ODS). Οι πληροφορίες από την ODS στη συνέχεια αναλύονται για την πραγματική αποθήκη δεδομένων. Για να μειωθούν τα πλεονάζοντα δεδομένα, μεγαλύτερα συστήματα θα αποθηκεύσουν πολλές φορές τα δεδομένα σε μια κανονικοποιημένη μορφή. Data marts για ειδικές εκθέσεις μπορούν στη συνέχεια να κατασκευαστούν πάνω από την λύση DW.
Η βάση δεδομένων της αποθήκης δεδομένων σε μια υβριδική λύση διατηρείται σε τρίτη κανονική μορφή για την εξάλειψη των πλεοναζόντων δεδομένων. Ωστόσο, μια κανονική σχεσιακή βάση δεδομένων δεν είναι αποτελεσματική για τις εκθέσεις της επιχειρηματικής ευφυΐας όπου τρισδιάστατη μοντελοποίηση είναι διαδεδομένη. Μικρά data marts μπορούν να ενημερώνονται για τα στοιχεία από την ενοποιημένη αποθήκη και να χρησιμοποιούν τα φιλτραρισμένα και συγκεκριμένα στοιχεία για τους πίνακες των γεγονότων και τις διαστάσεις που απαιτούνται. Η αποθήκη δεδομένων στην πραγματικότητα παρέχει μια ενιαία πηγή πληροφόρησης από την οποία τα data marts μπορούν να διαβαστούν, δημιουργώντας μια ιδιαίτερα ευέλικτη λύση από την άποψη του BI. Η υβριδική αρχιτεκτονική επιτρέπει σε μια αποθήκη δεδομένων να αντικατασταθεί με μια καλύτερη λύση διαχείρισης δεδομένων, όπου λειτουργεί χωρίς οι σταθερές πληροφορίες να παραμένουν.
Τα στοιχεία των δεδομένων της μοντελοποίησης Vault ακολουθούν “hub and spoke” αρχιτεκτονική. Αυτός ο τύπος μοντελοποίησης είναι ένα υβρίδιο του σχεδιασμού, που αποτελείται από τις καλύτερες πρακτικές και των δύο κανονικών μορφών σε σχήμα αστεριού. Το μοντέλο δεδομένων Vault δεν είναι μια αληθινή 3η κανονική μορφή, και παραβαίνει ορισμένους από τους κανόνες που υπαγορεύει που πρέπει να ακολουθεί η 3NF. Είναι, ωστόσο, μια top-down αρχιτεκτονική με στοιχεία bottom up ως προς τον σχεδιασμό. Το μοντέλο δεδομένων Vault έχει ως στόχο τη δημιουργία μίας αυστηρά ορισμένης αποθήκης δεδομένων. Δεν είναι προσανατολισμένη να είναι προσβάσιμη από τον τελικό χρήστη, όπως όταν χτίστηκε, αλλά εξακολουθεί να απαιτεί τη χρήση data mart αστεροειδούς σχήματος για επιχειρηματικούς σκοπούς.
Αποθήκες δεδομένων έναντι λειτουργικών συστημάτων
Τα λειτουργικά συστήματα βελτιστοποιούνται για διατήρηση της ακεραιότητας των δεδομένων και την ταχύτητα της καταγραφής των επιχειρηματικών συναλλαγών μέσω της χρήσης της κανονικοποίησης της βάσης δεδομένων και ένα μοντέλο Οντοτήτων-Σχέσεων. Οι σχεδιαστές λειτουργικών συστημάτων γενικά ακολουθούν κατά κανόνα τους Codd κανόνες της κανονικοποίησης της βάσης δεδομένων, προκειμένου να διασφαλιστεί η ακεραιότητα των δεδομένων. Το Codd καθορίζει τους πέντε αυστηρότερους κανόνες της κανονικοποίησης. Πλήρως κανονικοποιημένα σχέδια βάσης δεδομένων (δηλαδή, που ικανοποιούν και τους πέντε Codd κανόνες) οδηγούν συχνά σε πληροφορίες από μια επιχειρηματική συναλλαγή που αποθηκεύονται σε δεκάδες έως εκατοντάδες πίνακες. Σχεσιακές βάσεις δεδομένων είναι αποτελεσματικές στη διαχείριση των σχέσεων μεταξύ αυτών των πινάκων. Οι βάσεις δεδομένων έχουν πολύ γρήγορη εισαγωγή / ενημέρωση επιδόσεις, επειδή μόνο μια μικρή ποσότητα δεδομένων σε αυτούς τους πίνακες επηρεάζεται κάθε φορά που μια συναλλαγή βρίσκεται σε εξέλιξη. Τέλος, προκειμένου να βελτιώσει τις επιδόσεις, τα παλαιότερα δεδομένα συνήθως εκκαθαρίζονται περιοδικά από λειτουργικά συστήματα.
Οι αποθήκες δεδομένων βελτιστοποιούν τη χρήση τους ανάλογα με την ταχύτητα της ανάλυσης δεδομένων. Συχνά τα δεδομένα σε αποθήκες δεδομένων απομαλοποιούνται μέσω μιας διάστασης με βάση το μοντέλο. Επίσης, για την επιτάχυνση της ανάκτησης δεδομένων, τα δεδομένα αποθηκών δεδομένων αποθηκεύονται συχνά πολλές φορές-σε πιο κοκκώδη μορφή τους και σε συνοπτική μορφή που ονομάζεται αδρανή υλικά. Τα δεδομένα αποθήκης δεδομένων λαμβάνονται από το λειτουργικό σύστημα και παραμένουν στην αποθήκη δεδομένων, ακόμη και μετά τη διαγραφή τους από τα λειτουργικά συστήματα.
Εξέλιξη της οργανωτικής χρήσης
Οι όροι αυτοί αφορούν το επίπεδο πολυπλοκότητας της αποθήκης δεδομένων:
Αποσυνδεδεμένη λειτουργία αποθήκης δεδομένων
Οι αποθήκες δεδομένων σε αυτό το στάδιο της εξέλιξης ενημερώνονται σε τακτά χρονικά διαστήματα του χρόνου (συνήθως ημερήσια, εβδομαδιαία ή μηνιαία βάση) από τα λειτουργικά συστήματα και τα δεδομένα που είναι αποθηκευμένα σε μια ολοκληρωμένη αναφορά με γνώμονα τα δεδομένα.
Αποσυνδεδεμένη αποθήκη δεδομένων
Οι αποθήκες δεδομένων σε αυτό το στάδιο ενημερώνονται από τα δεδομένα στο επιχειρησιακό σύστημα σε τακτική βάση και τα δεδομένα αποθήκης δεδομένων που είναι αποθηκευμένα σε μια δομή δεδομένων σκοπό έχουν να διευκολύνουν την υποβολή εκθέσεων.
Από τα μέχρι στιγμής στοιχεία αποθήκης δεδομένων
Η διαδικτυακή ενσωμάτωση υπηρεσιών αποθήκης δεδομένων αποτελεί σε πραγματικό χρόνο το στάδιο αποθηκών δεδομένων την αποθήκη όπου ενημερώνεται για κάθε συναλλαγή που πραγματοποιείται με τα δεδομένα προέλευσης.
Ολοκληρωμένη αποθήκη δεδομένων
Αυτές οι αποθήκες δεδομένων συγκεντρώνουν τα στοιχεία από διαφορετικούς τομείς της επιχείρησης, έτσι ώστε οι χρήστες να αναζητήσουν τις πληροφορίες που χρειάζονται σε άλλα συστήματα.
Παραδείγματα εφαρμογών
Ορισμένα παραδείγματα χρήσης των αποθηκών δεδομένων είναι τα εξής:
Υποστήριξη της απόφασης
Την ανάλυση των τάσεων
Οικονομικές προβλέψεις
Πρόβλεψη για τους συνδρομητές των τηλεπικοινωνιών, τους χρήστες πιστωτικών καρτών κ.λπ.
Ανάλυση ασφαλιστικών απατών
Ανάλυση τηλεφωνικών κλήσεων
Logistics και διαχείριση αποθεμάτων
Γεωργία - Γεωπονία
Πηγές
"The Story So Far". 2002-04-15. Ανακτήθηκε: 2008-09-21.
Kimball 2002, pg. 16
Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0471569607.
Kimball, Ralph (1996). The Data Warehouse Toolkit. Wiley. ISBN 0471153370.
Kimball 2002, pg. 310
"The Bottom-Up Misnomer". 2003-09-17. Ανακτήθηκε 2008-11-05.
Ericsson 2004, pp. 28-29
Abdullah, Ahsan (2009). "Analysis of mealybug incidence on the cotton crop using ADSS-OLAP (Online Analytical Processing) tool, Volume 69, Issue 1". Computers and Electronics in Agriculture 69: 59–72. doi:10.1016/j.compag.2009.07.003.
Hellenica World - Scientific Library
Από τη ελληνική Βικιπαίδεια http://el.wikipedia.org . Όλα τα κείμενα είναι διαθέσιμα υπό την GNU Free Documentation License