Artikel

Was sind Open-Table-Formate (OTFs)?

Erfahren Sie mehr über offene Tabellenformate.

Tabellenformate dienen dazu, die Effizienz und Effektivität von Data Lakes zu steigern. Durch die Bereitstellung eines strukturierten Ansatzes für Datenspeicherung und -verwaltung führen offene Tabellenformate eine Organisationsschicht ein, die in traditionellen Data Lakes oft fehlt. Sie bieten eine Abstraktionsschicht auf Data Lakes und bringen datenbankähnliche Funktionen zu ihnen. Dieser strukturierte Ansatz ermöglicht eine effizientere Datenabfrage und -analyse, da die Daten auf eine Weise gespeichert werden, die für Zugriffsmuster und Abfrageleistung optimiert ist.

Eine der wichtigsten Möglichkeiten, wie Tabellenformate Data Lakes optimieren, ist die Aktivierung von Schema-on-Read-Funktionen. Dadurch können Data Lakes Daten aus verschiedenen Quellen mit unterschiedlichen Formaten und Strukturen aufnehmen, ohne dass eine vorherige Schema-Definition erforderlich ist. Daher können Data Engineers und Analysten sich darauf konzentrieren, Erkenntnisse aus den Daten zu gewinnen, anstatt Zeit mit der Datenvorbereitung und -transformation zu verbringen. Darüber hinaus sorgt die Möglichkeit, die Schemavalidierung zur Schreibzeit durchzusetzen, für Datenqualität und Konsistenz, wodurch die Wahrscheinlichkeit von Fehlern und Anomalien in den Daten verringert wird.

Tabellenformate führen zudem transaktionale Unterstützung und ACID-Konformität in Data Lakes ein und gewährleisten so Datenintegrität und -konsistenz. Dies ist besonders wichtig in Umgebungen, in denen Daten häufig aktualisiert werden oder in denen mehrere Benutzer gleichzeitig auf die Daten zugreifen und sie ändern. Durch die Unterstützung atomarer Transaktionen stellen offene Tabellenformate sicher, dass Data Lakes als verlässliche Wahrheitsquelle für die Organisation dienen können und so eine genaue und zeitnahe Entscheidungsfindung ermöglichen. Darüber hinaus erhöhen Funktionen wie inkrementelle Verarbeitung und Zeitreisen die Flexibilität von Data Lakes, sodass Organisationen Veränderungen über die Zeit verfolgen und bei Bedarf auf historische Daten zugreifen können. Diese Fähigkeiten machen Open-Table-Formate zu einem unverzichtbaren Werkzeug zur Optimierung von Data Lake-Operationen und zur Erschließung des vollen Potenzials von Datenressourcen.

Es gibt eine funktionale Parität zwischen drei gängigen Open-Table-Formaten in der Branche: Apache Iceberg, Linux Foundation Delta Lake und Apache Hudi. Ihre Ökosysteme, Entwickler und Mitwirkenden unterscheiden sich, daher kann es sinnvoll sein, ein OTF basierend auf dem verfügbaren und unterstützten Ökosystem für Ihre Anwendungsfälle und spezifischen Anforderungen an Ihre Workloads auszuwählen. Alle drei OTFs unterstützen ACID-Transaktionen und Versionsmanagement, Schemaentwicklung und Zeitreisen, und alle drei können komplexe Abfrage-Workloads mit hoher Leistung und Schreibvorgängen von vielen gleichzeitigen Benutzern bewältigen.

Teradata bietet ein offenes Ökosystem für OTFs, Kataloge und Cloud-Service-Anbieter (CSPs) in Multi-Cloud- und Multi-Data-Lake-Umgebungen.

Dieser einzigartige, offene und vernetzte Ansatz zur Unterstützung von OTFs ermöglicht das Crossread, Cross-Write und Cross-Abfragen von Daten, die in Apache Iceberg- und Delta Lake-Tabellen gespeichert sind, mithilfe offener Kataloge wie Amazon Web Services (AWS), Glue, Hive Metastore oder Unity.

Dieser zukunftsnahe Ansatz ermöglicht es Unternehmen, eine wirklich moderne Datenstrategie mit unvergleichlicher Agilität und Flexibilität einzusetzen, um Trusted AI in großem Maßstab bereitzustellen – und das alles, ohne Daten verschieben, replizieren oder transformieren zu müssen.

Bleiben Sie auf dem Laufenden

Abonnieren Sie den Blog von Teradata, um wöchentliche Einblicke zu erhalten



Ich erkläre mich damit einverstanden, dass mir die Teradata Corporation als Anbieter dieser Website gelegentlich Marketingkommunikations-E-Mails mit Informationen über Produkte, Data Analytics und Einladungen zu Events und Webinaren zusendet. Ich nehme zur Kenntnis, dass ich mein Einverständnis jederzeit widerrufen kann, indem ich auf den Link zum Abbestellen klicke, der sich am Ende jeder von mir erhaltenen E-Mail befindet.

Der Schutz Ihrer Daten ist uns wichtig. Ihre persönlichen Daten werden im Einklang mit der globalen Teradata Datenschutzrichtlinie verarbeitet.