Data Warehouse vs. Data Lake vs. Data Mesh: Die wichtigsten Unterschiede

Mit der Zusammenarbeit von Blanca Mayayo.

Data Lake, Data Warehouse und Data Mesh: Diese drei Begriffe sind den Spezialisten für Datenarchitektur vertraut. Data Lake und Data Warehouse beziehen sich auf unterschiedliche Formate der Datenspeicherung, -analyse und -abfragen, während Data Mesh eine Reihe von Konzepten umfasst, die sich auf das Datenmanagement in dezentralisierter und groß angelegter Weise beziehen.

Laut einer Studie von Gartner aus dem Juni 2020 hatten 57% der für Daten oder Analysen verantwortlichen Führungskräfte in Data Warehouse investiert und 39% nutzten Data Lakes. Es handelt sich dabei um wichtige Investitionsbereiche für Daten- und Analyseexperten, um zunehmend komplexe, vielfältige und verteilte Datenlasten zu unterstützen.

Diese Architekturen helfen dabei, die Nutzung von Daten im Unternehmen zu demokratisieren. Außerdem ermöglichen sie eine flexiblere Datenverwaltung als in der Vergangenheit. Jede dieser Architekturen hat ihre eigenen Besonderheiten und Vorteile gegenüber den anderen. In diesem Beitrag werfen wir einen Blick auf jede von ihnen.

INHALTSVERZEICHNIS

Was ist ein Data Warehouse?

Ein Data Warehouse ist eine Struktur, die geschaffen wurde, um große Mengen an unsortierten Daten aus verschiedenen Quellen zu sortieren. In diesem Fall sind die Daten nur strukturiert und können analysiert werden. Diese Architektur ermöglicht es mehreren Personen, gleichzeitig und mit hoher Leistung auf sie zuzugreifen.

Vorteile eines Data Warehouse

Mit einem Data Warehouse werden Daten nicht nur gespeichert, sondern auch strukturiert. Diese Architektur wird empfohlen, wenn große Mengen an bereits verarbeiteten Daten für Abfragen benötigt werden. In diesem Fall ist die Produktivität für bestimmte Benutzergruppen, wie Data-Analysten oder für die Integration in analytische Anwendungen (z.B. Business Intelligence), höher.

LESEN Alles über GewO und BewachV

Herausforderungen eines Data Warehouse

Ein Data Warehouse zeichnet sich dadurch aus, dass es nur strukturierte Daten verarbeitet. Dadurch können unstrukturierte Daten nicht für Machine Learning-Anwendungen verwendet werden. Andererseits kann es, da es sich meistens um proprietäre Software handelt, schwierig sein, es mit externen Open-Source-Tools zu verbinden, obwohl bereits für viele Systeme Integrationslösungen vorhanden sind.

Was ist ein Data Lake?

Ein Data Lake ist ein Datenrepository, in dem Daten in einem ersten Schritt roh und ohne einheitliches Schema gespeichert werden. Auf diese Weise stehen die Daten für zukünftige Verwendungszwecke zur Verfügung. Falls erforderlich, können zusätzliche Ebenen im Data Lake die Daten verarbeiten und in ein Unternehmensschema umwandeln und übersetzen.

Vorteile eines Data Lake gegenüber einem Data Warehouse

Da die Daten in roher Form gespeichert werden, um sie jederzeit verwenden zu können, ist ein Data Lake ideal, wenn bekannt ist, dass sie langfristig und von verschiedenen Systemen und Teilen des Unternehmens wiederverwendet werden. Weitere Vorteile eines Data Lake sind:

Schnelle Verwendung zur Erstellung und Analyse neuer Modelle, was insbesondere von Data Scientists geschätzt wird.
Kosten günstige Hardware und (in vielen Fällen) Nutzung von Open-Source-Technologien.
Reduzierte Ressourcenverschwendung, die hauptsächlich bei der Verwendung der Daten auftritt.

Lakehouse

Ein verwandtes Konzept ist das Lakehouse, eine Kombination aus Data Lake und Data Warehouse, das die besten Elemente beider Architekturen vereint. Wie wir gesehen haben, ist es schwierig, Open-Source-Tools in ein Data Warehouse zu integrieren, daher ist es ideal, diese beiden Philosophien zusammenzubringen, um das Beste aus beiden zu nutzen.

Herausforderungen eines Data Lake

Zu den Herausforderungen, die vor der Implementierung eines Data Lake zu bedenken sind, gehören:

Die Komplexität der Bereitstellung und Verwaltung: Eine wachsende Datenbank, die Wartung von bereits gespeicherten Daten, mögliche Redundanzen usw.
Die Notwendigkeit, die Datenbank in Fällen wie Anfragen zum “Recht auf Vergessen” zu aktualisieren.
Obwohl er ideal zum Speichern und Verwalten von Daten ist, ist es notwendig, weiter zu gehen, um einen Mehrwert daraus zu ziehen. In diesem Sinne ist der Data Lake eine Ergänzung zum Data Warehouse.
Es ist notwendig, die Versionshistorie der Daten zu führen oder aufmerksam zu sein, um Zusammenführungen, Updates, Löschungen usw. durchzuführen.
Personen mit geringeren Fachkenntnissen können Schwierigkeiten haben, unstrukturierte Daten zu analysieren.

LESEN Die Wahrheit über PayPal: Vor- und Nachteile des beliebten Bezahldienstes

Was ist ein Data Mesh?

Data Mesh ist ein neuer sozio-technischer und organisatorischer Ansatz zur Datenverwaltung, der auf die Komplexität, den Umfang und die wachsenden Anforderungen in der Datenverwaltung reagiert. In diesem Fall sind Data Mesh-Systeme und -Ausrüstungen dezentralisiert, miteinander verbunden und in großem Maßstab verwaltet. Ein Data Mesh könnte von Data Lake- oder Data Warehouse-Systemen profitieren, wenn die granulare und dezentrale Natur der Datenverwaltung respektiert wird.

Daher könnte ein Weg zum Data Mesh darin bestehen, vorhandene Data Warehouse- oder Data Lake-Strukturen zu nutzen, aber ihren rein zentralisierten Ansatz zu ändern und die Teams und Fähigkeiten dieser Technologien in bestimmte Teile der Datenarchitektur zu organisieren, damit sie dezentral verwendet werden können. Mit anderen Worten, Sie können auf früheren Erfahrungen mit Data Warehouse und Data Lake aufbauen.

Vorteile eines Data Mesh

Data Mesh ist eine ideale Struktur, um Daten unter den verschiedenen Abteilungen eines Unternehmens zu verteilen. Mit anderen Worten, sie gehen über die Abteilung für Daten hinaus, damit alle Mitarbeiter von den Möglichkeiten der gesammelten Informationen profitieren können. Das Ziel ist es, durch die Datenanalyse Metriken zu erhalten, mit denen unternehmensrelevante Entscheidungen getroffen werden können, wie die Suche nach neuen Geschäftsmöglichkeiten oder die Korrektur vergangener Entscheidungen.

In einem LinkedIn-Artikel erklärte Jeffrey T. Pollock, VP of Products bei Oracle, dass Data Mesh ideal für Anwendungen wie die Migration von Anwendungen in die Cloud, Echtzeitintegration zwischen diesen, IoT und Analysen oder die Analyse von Datenstrom in Bewegung ist.

Data Mesh und Sidra Data Platform

Wenn Sie mehr über Data Mesh erfahren möchten, hat unsere Kollegin Blanca Mayayo einen Vortrag über diese Datenplattform und ihre Verbindung zur Sidra Data Platform gehalten, einem Produktivitätstool für das Datenmanagement, das von Plain Concepts entwickelt wurde, um Daten in Azure zu erfassen, zu katalogisieren und zu verwalten.

Möchten Sie wissen, welche Datenarchitektur für Ihr Unternehmen geeignet ist?

Wie Sie gesehen haben, haben Data Warehouse, Data Lake und Data Mesh sehr unterschiedliche Ansätze. Jetzt müssen Sie nur noch den passenden Ansatz auswählen.

LESEN Die besten E-Learning-Autorenwerkzeuge, -Plattformen und -Software

Wir helfen Ihnen gerne dabei, die beste Datenarchitektur für Ihre Unternehmensziele zu wählen. Wir freuen uns auf Ihre Kontaktaufnahme.