Ein Data Warehouse ist keine in Terabyte gemessene Sammlung von Tabellen. Es ist vielmehr ein Konzept, eine Datenarchitektur mit vielen Eigenschaften:

Themenorientiert
Spiegelt Geschäftseinheiten und -prozesse wider, mit denen das Unternehmen täglich arbeitet. Wichtig ist die Detailgenauigkeit im Themenbereich: Wenn detaillierte Daten vorliegen, handelt es sich um ein Data Warehouse. Wenn lediglich zusammenfassende oder begrenzte Daten vorhanden sind, handelt es sich um einen Data Mart. 

Integriert, konsistent
Datenformate und -Werte werden über alle Tabellen hinweg standardisiert, um vollständige und genaue, den Anwendern verständliche, Daten zu gewährleisten. Die Daten müssen zudem gut integriert sein: Daten über Einkaufstransaktionen kann es nicht ohne einen entsprechenden Kundendatensatz geben. 

Nicht-flüchtige Geschichte
Ein Warehouse erfasst Datenänderungen und verfolgt diese über die Zeit hinweg. Alle Daten werden gespeichert, ohne sich mit den Transaktionsaktualisierungen zu ändern. Ob herkömmliche Speicherung, Cloud oder Hybrid, ein Data Warehouse ist im Grunde das „Gedächtnis“ eines Unternehmens und enthält seine aussagekräftigsten Daten. 

Metadaten, Schema, Wörterbuch

Unternehmen erfassen in der Regel alles Wissenswerte über Kunden und Verkaufstransaktionen, die mit Produktbeschreibungen, Lagerbeständen, Stücklisten, Support-Aufzeichnungen und Marketingkampagnen verknüpft sind. Die Themenbereiche bestehen aus relationalen Tabellen mit Spaltenüberschriften und Datenzeilen. Spaltenüberschriften, die als Metadaten bezeichnet werden, weil sie den Kontext für Werte in dieser Spalte beschreiben, enthalten die Namen von Feldern sowie ihren Datentyp, wie z. B. Datum, Währung, Zeit, ganze Zahlen und Text. Jeder gespeicherte Datensatz verfügt über mindestens ein Schlüsselfeld, das einen zufälligen Direktzugriff ermöglicht. Alle Tabellendefinitionen – die Metadaten – werden zusammen als Schema bezeichnet und im Datenwörterbuch gespeichert. Ein komplettes Data Warehouse besteht aus 4.000 bis 7.000 relationalen Tabellen, die nach Themenbereichen geordnet sind.

Wie gelangen Daten in das Data Warehouse?

Datenquellen 
Nicht selten senden 200 oder sogar 500 verschiedene Anwendungen Daten an das Warehouse, das all diese Daten konsolidiert und in die Themenbereiche integriert. Das Warehouse erhält Input aus Anwendungen wie ERP (Enterprise Resource Planning), CRM (Customer Relationship Management) und SCM (Supply Chain Management).

Clickstream-Daten von Mausklicks auf Webseiten sind eine weitere Quelle, ebenso wie Sensordaten von Maschinenfahrzeugen und so weiter. Es gibt auch unstrukturierte Daten wie JSON (JavaScript Object Notation), die zwar nicht in Zeilen und Spalten vorliegen, jedoch ebenfalls im Data Warehouse erfasst werden. 

Laden von Daten
Die Daten werden in einem kontinuierlichen Prozess – in der Regel rund um die Uhr – in das Warehouse geladen. Das Laden von Daten führt zum Business-Zweck des Warehouse: Das Fundament für die Suche nach Antworten auf gestellt Fragen zu bilden. Data Scientists wenden höhere Mathematik an, um Muster und Anomalien zu finden, während Business-Analysten Berichte und Dashboards mit Visualisierung verwenden.

Das Laden von Daten dient dem geschäftlichen Zweck der Bereitstellung von Daten für die Geschäftsanwender: Erkenntnisse zu erhalten und Antworten auf Geschäftsprobleme zu finden. Bei mehrdimensionalen Analysen werden alle Daten hochgradig zusammengefasst, was beispielsweise die schnelle Durchsicht von Zusammenfassungen nach Region, Stadt, Vertriebsmitarbeiter und verkauftem Produkt ermöglicht. Führungskräfte und Business-Analysts (oder „Citizen Data Scientists“) verwenden Berichte und Dashboards mit Visualisierung, die sich alle aus der Quelle der verwalteten Daten speisen: dem Data Warehouse. 

Datenintegration  
Bevor die Daten in die Datenbank des Data Warehouse gelangen, durchlaufen sie den komplexen Prozess zur Datenintegration, der Daten aus mehreren Quellen zu einem einzigen Ergebnis rationalisiert. Ursprünglich hieß dies „Extrahieren, Transformieren und Laden“ (ETL), da die Daten aus der Quelle abgerufen, verfeinert und dann in relationale Data Warehouse-Tabellen geladen werden mussten. 

Datenbereinigung
Zu den modernen Integrationsprozessen gehört die Datenbereinigung, bei der beschädigte oder fehlerhafte Datensätze erkannt und korrigiert werden müssen. Fehler treten aufgrund fehlerhafter Eingaben, Hardware-Schäden oder einfacher menschlicher Fehler auf. Die Datenintegrationsaufgabe kombiniert die besten, genauesten und möglichst vollständigen Daten aus mehreren Anwendungen zu einem sauberen und zuverlässigen „goldenen Datensatz“ im Warehouse 

Das Teradata Data Warehouse

Teradata spielt seit seiner Gründung eine wichtige Rolle bei der Entwicklung von Analytics-Datenbanken und Data Warehousing. So spielt Teradata Vantage – früher bekannt als Teradata Database – und der Data Warehousing-Ansatz von Teradata oft eine zentrale Rolle beim Aufstieg von Kunden an die Spitze ihrer jeweiligen Branchen, sei es in den Bereichen Kommunikation, Medien und Unterhaltung, Finanzdienstleistungen, Gesundheitswesen und Biowissenschaften, Einzelhandel, Versorgungsunternehmen, Fertigung, Reisen und Transport und mehr.

Das Cloud Data Warehouse und Teradata Vantage

Sowohl Teradata als auch die Branche haben sich weiterentwickelt, um die Vorteile der Cloud in Bezug auf Bereitstellung und Skalierbarkeit nutzen zu können. Teradata Vantage, das Flaggschiff des Unternehmens, baut auf der soliden Grundlage der Teradata-Datenbank auf und umfasst erweiterte Analysefunktionen, die 2011 als Teil von Aster Data erworben wurden.

Vantage ist für Amazon Web Services (AWS), Microsoft Azure, Google Cloud, Teradata Infrastructure (Teradata Cloud oder Customer Cloud) und handelsübliche Hardware mit VMware-Virtualisierungssoftware verfügbar.

Cloud Analytics - AWS Amazon Web Services

Verwenden Sie AWS-Infrastruktur mit Teradata Vantage

Cloud Analytics - Microsoft Azure Microsoft Azure

Kombinieren Sie Azure-Ressourcen mit Teradata Vantage

Cloud Analytics - Google Cloud Google Cloud

Nutzen Sie Google Cloud mit Teradata Vantage

Bringen Sie Ihre Analytics in die Cloud