BLOG

Lesen Sie die neuesten Nachrichten von Billigence und aus der Welt der Technologie und Datenanalyse.
Vergessen Sie nicht, sie per E-Mail zu abonnieren.

Big Data & Data Warehouses | Teil Eins

In diesem zweiteiligen Blogbeitrag konzentrieren wir uns auf Datenmodellierungs- und Datenverwertungskonzepte, die Unternehmen dabei helfen können, von den Möglichkeiten von Big Data zu profitieren. Im ersten Teil wird erläutert, was Big Data ist, wie sie gespeichert werden und es werden Beispiele für mögliche Data Warehouses gegeben.
Im zweiten Teil werden wir uns mit Data Lakes beschäftigen und erklären, wie sie sich von Data Warehouses unterscheiden und wie Daten in sie geladen werden. Schließlich zeigen wir die Implementierung eines hybriden Cloud Data Varnish/Data Warehouse.

Das Aufkommen von Big Data

Big Data steht für große Datenmengen, die mit herkömmlichen Methoden nicht gespeichert, verarbeitet oder analysiert werden können. Insgesamt kann Big Data durch drei V’s“ charakterisiert werden:

– Volumen: die riesige Menge der produzierten Daten,
– Geschwindigkeit: die Geschwindigkeit, mit der die Daten erstellt werden,
– Vielfalt: verschiedene Arten von Datenformaten werden erstellt.

Laut Eric Schmidt, dem ehemaligen Vorstandsvorsitzenden von Google, produziert die Menschheit alle zwei Tage die gleiche Menge an Daten, wie sie seit Beginn der Zivilisation bis 2013 entstanden ist. Das Konzept von Big Data gibt es zwar schon seit den 1960er Jahren. 20 Jahre. Jahrhundert, hat sie sich im Laufe der Jahre enorm entwickelt.

Heutzutage haben mobile Technologien und mit dem Internet verbundene Geräte einen großen Einfluss auf Big Data, da sie zu jedem Zeitpunkt riesige Datenmengen in verschiedenen Formaten erzeugen. Mit dem Aufkommen des Cloud Computing in den 2000er Jahren wurden die Speicherkosten erheblich gesenkt und Unternehmen konnten nahezu unbegrenzte Mengen an Rohdaten in ihren Cloud Data Lakes oder Data Warehouses speichern. Neue Datenintegrationstechniken wie ELT haben sich entwickelt, um Unternehmen dabei zu helfen, die wahre analytische Leistung von Big Data zu entdecken. So können sie schnellere und bessere Entscheidungen treffen, rasch auf Marktveränderungen reagieren und den Kunden das geben, was sie wollen, wann sie es wollen.

Wie werden Big Data gespeichert?

In den meisten Unternehmen werden die Daten in Data Lakes, Data Warehouses oder Data Marts gespeichert.

Daten-Seen

Data Lakes enthalten Daten meist in Rohform direkt aus dem Quellsystem. Angesichts der Möglichkeit, die Speicherkosten zu senken, einer der Vorteile des Cloud Computing, gehen die meisten Unternehmen dazu über, Data Lakhs als zentralen Speicher zu verwenden. Diese Daten müssen in der Regel für Zwecke der Business Intelligence oder des maschinellen Lernens weiterverarbeitet werden.

Data Warehouses

Data Warehouses sind in erster Linie für die Datenanalyse konzipiert. Sie enthalten in der Regel Daten aus mehreren Quellen in strukturierter oder bereinigter Form und ermöglichen den Geschäftsanwendern die Durchführung von Analysen, auf deren Grundlage sie Entscheidungen treffen können. Daher sind Data Warehouses in der Regel in einem Format organisiert, das leicht verständlich ist und nahtlos in Business Intelligence-Tools integriert werden kann. Data Warehouses können auch umgewandelte oder aus Data Lakes stammende Daten speichern.

Daten März

Eine andere Art der Speicherung ist der Data Mart. Wie Data Warehouses speichert ein Data Mart bereinigte Daten, die verarbeitet und für die Analyse vorbereitet sind. Der Unterschied besteht jedoch darin, dass Data Marts nur Daten speichern, die für einen bestimmten Zweck bestimmt sind, d. h. für einen bestimmten Auftrag oder eine bestimmte Geschäftseinheit. Sie ermöglichen es den Nutzern, schnell auf bereits verarbeitete Daten zuzugreifen, ohne riesige Mengen an irrelevanten Informationen durchforsten zu müssen. Sie verringern auch das Risiko des Datenmissbrauchs, da sie nur die notwendigen Daten enthalten. Data Marts können in einem Top-Down-Ansatz erstellt werden, bei dem die Daten an einem zentralen Ort in einem Data Warehouse gespeichert werden, bevor sie für eine bestimmte Verwendung gefiltert werden, oder sie können unabhängig erstellt werden, d. h. es werden Daten aus mehreren Datenquellen gezogen und verarbeitet.

Obwohl Data Lakes, Data Warehouses und Data Marts zum Speichern von Big Data verwendet werden, sind alle drei unterschiedlich und werden für verschiedene Zwecke eingesetzt. Je nach den Bedürfnissen eines Unternehmens kann jede einzelne oder eine Kombination dieser Speicherarten von Vorteil sein, um die ständig wachsende Datenmenge eines Unternehmens zu rationalisieren, was auf lange Sicht einen Vorteil darstellt

Wie unterscheiden sich Data Warehouses von herkömmlichen Systemen?

Data Warehouses fungieren als ein einziger Speicher für strukturierte Informationen. Sobald die Daten dem Lager hinzugefügt wurden, sollten sie nicht mehr geändert oder modifiziert werden. Auf diese Weise kann eine einzige Quelle der Wahrheit geschaffen werden, die sicher, vertrauenswürdig und einfach zu verwalten ist. Heutzutage haben Data Warehouses bei der Arbeit mit Big Data mehrere entscheidende Vorteile gegenüber herkömmlichen Datenspeichersystemen wie Microsoft Excel-Dateien, die Daten auf einem gemeinsamen Laufwerk speichern. Dazu gehören Verbesserungen in den Bereichen Effizienz, Datenqualität, Business Intelligence und Sicherheit.

Durch die Standardisierung und Speicherung von Daten aus verschiedenen Quellen an einem Ort sind sie alle im richtigen Format leicht zugänglich. Dies steigert die Effizienz von Unternehmen, da die Geschäftsanwender selbst Datenabfragen schnell und mit wenig oder gar keiner Unterstützung durch die technische Abteilung durchführen können.

Durch die Speicherung von Daten im richtigen Format verbessern Data Warehouses auch die Datenqualität, da sie es Unternehmen ermöglichen, doppelte, unvollständige oder sogar falsche Daten leicht zu erkennen und zu bereinigen.

Dies führt zu einer allgemeinen Verbesserung der Business Intelligence, da Unternehmen Daten aus jeder beliebigen Quelle leicht extrahieren und konsolidieren können, anstatt sich auf begrenzte Daten aus einer einzigen Quelle zu verlassen oder auf mehrere Datenquellen verweisen zu müssen. Da die Daten standardisiert sind, sind die aus den Daten gewonnenen Ergebnisse abteilungsübergreifend konsistent und bieten eine einzige Quelle der Wahrheit und eine solide Grundlage für die Entscheidungsfindung.

Durch die Konsolidierung aller Datenquellen in einem einzigen Repository mit verbesserten Sicherheitsfunktionen erhöhen Data Warehouses die Datensicherheit erheblich. Dazu gehören Funktionen wie die Datenverschlüsselung zum Schutz sensibler Daten und eine rollenbasierte Zugriffskontrolle auf der Grundlage von Berechtigungen, die sicherstellt, dass Benutzer nur Zugriff auf die erforderlichen Daten erhalten.

Data Warehouse-Modellierung und -Schema

In einem Data Warehouse ist das Schema eine logische Beschreibung der gesamten Datenbank, einschließlich der Struktur der Datentabellen und ihrer Beziehungen zueinander. Im Gegensatz zu Datenbanken, die relationale Modelle verwenden, nutzen Data Warehouses eine dimensionale Modellierung, die für effizientes und vielseitiges Data Mining optimiert ist. Bei der dimensionalen Modellierung wird z. B. das Datum nicht als einzelne Zeile in die Datentabelle eingegeben, sondern jeder Aspekt (z. B. Tag, Monat, Quartal, Jahr) wird separat eingegeben, was einen schnellen Abruf von Dateninformationen und flexiblere Analysen ermöglicht.

Die dimensionale Modellierung umfasst Tabellen mit Fakten und Dimensionen. Die Faktentabellen stellen die Daten dar, die wir analysieren wollen, während die Dimensionstabellen die Attribute in den Faktentabellen entschlüsseln und ihnen Bedeutung verleihen. Ein Datenblatt könnte zum Beispiel die im Geschäft getätigten Einkäufe enthalten, einschließlich der gekauften Waren, des Käufers und des Mitarbeiters, der den Verkauf getätigt hat. Dies würde dann durch Datentabellen für den Artikel, den Kunden und den Mitarbeiter ergänzt werden, die zusätzliche Informationen wie Name, Adresse, Alter des Kunden und des Mitarbeiters enthalten.

Zwei der beliebtesten Schemata in Data Warehouses sind das Stern- und das Schneeflockenschema.

Star-Schema

Das Star-Schema besteht aus einer einzigen Faktentabelle, die mit mehreren Dimensionstabellen verknüpft ist, die absichtlich denormalisiert sind (d. h. redundante Kopien von Daten haben oder Daten gruppieren, um die Leseleistung der Datenbank zu verbessern). Die Faktentabelle ist über eine Fremdschlüsselbeziehung mit dem Primärschlüssel der einzelnen Dimensionstabellen verbunden. Da die Faktentabelle direkt mit jeder Dimensionstabelle verknüpft ist, ist die Abfrage der im Star-Schema gespeicherten Daten einfacher und schneller als bei einer normalisierten (nicht redundanten/nicht wiederholenden) Datenbank. Aufgrund der Denormalisierung der Dimensionstabellen ist das Star-Schema jedoch mit einem Redundanzproblem konfrontiert, da mehrere Werte ständig wiederholt werden. Dies erhöht den benötigten Speicherplatz und das Risiko von Datenintegritätsproblemen.

Schneeflocken-Schema

Eine weitere Option für ein Data-Warehouse-Schema ist das Snowflake-Schema. Es wurde auf der Grundlage des Star-Schemas entwickelt, aus dem es alle Dimensionstabellen in einem als „Snowflaking“ bekannten Prozess normalisiert. Dies ermöglicht es den Dimensionstabellen in Snowflake-Schemata, ihre eigenen Dimensionstabellen zu haben, die direkt mit der Faktentabelle verbunden sein können oder auch nicht. Dadurch wird die Datenredundanz eliminiert, was den Speicherplatzbedarf und die Datenintegritätsprobleme des Star-Schemas reduziert. Andererseits werden dadurch auch einige der Vorteile des Star-Schemas eingeschränkt, darunter die Abfrageeffizienz und das Data Mining.
Insgesamt verbessern sowohl das Star- als auch das Snowflake-Schema die Geschwindigkeit und Einfachheit der Datenanalyse im Vergleich zu herkömmlichen relationalen Modellen erheblich. Es gibt zwar Kompromisse zwischen den beiden Systemen, doch hängt die Entscheidung, welches System verwendet wird, letztlich vom jeweiligen Anwendungsfall ab.

Schema Galaxie & Sternflocke

Es ist auch möglich, eine Kombination aus diesen beiden Systemen zu verwenden. Einige Beispiele sind das Galaxy- und das Snowflake-Schema. Das Galaxy-Schema enthält mehrere Faktentabellen, die sich einige Dimensionstabellen teilen, wodurch die Gesamtgröße der Datenbank verringert wird. Im Gegensatz dazu kombiniert das Starflake-Schema das Star- und das Snowflake-Schema, indem es lediglich bestimmte Dimensionstabellen normalisiert und so das Beste aus beiden Ansätzen herausholt.

Data Vault-Modell

Mit der Entwicklung von Big Data, die zunehmend unstrukturiert und ständigen Veränderungen unterworfen sind, gewinnt eine Datenbankmodellierungsmethode namens Data Vault, die erstmals im Jahr 2000 eingeführt wurde, zunehmend an Popularität. Data Vault ist eine hybride Datenmodellierungsmethode, die den unstrukturierten Charakter von Data Vault mit der Starrheit herkömmlicher Data-Warehouse-Schemata kombiniert. Im Data Vault-Modell werden Dimensionen und Faktentabellen durch Hubs, Satelliten und Links ersetzt. Während die Strukturen des Datenmodells aus Hubs und Links bestehen, ähnlich wie Dimensions- und Faktentabellen in einem herkömmlichen Data-Warehouse-Schema, enthalten Satelliten zeitliche und beschreibende Attribute, einschließlich Metadaten, die leistungsstarke detaillierte Analyse- und Verlaufsverfolgungsfunktionen bieten.

Vor-Ort-Data-Warehouses vs. Daten-Clouds

Bei der Entwicklung eines Data Warehouse ist eine weitere wichtige Entscheidung, ob das Data Warehouse vor Ort oder in der Cloud bereitgestellt werden soll. Bei On-Premise-Data-Warehouses müssen Unternehmen die gesamte Hardware und Software kaufen, einrichten und warten. Andererseits wird für Cloud-Daten keine physische Hardware benötigt. Stattdessen können sich Unternehmen für Speicherplatz und Rechenleistung auf Cloud-Anbieter verlassen. Es gibt fünf Hauptfaktoren, die bei der Auswahl einer Data Warehouse-Option zu berücksichtigen sind.

1. die Skalierbarkeit

Bei On-Premise-Data-Warehouses erfordert die Erweiterung und Verkleinerung Zeit und Ressourcen für die Installation oder Deinstallation der physischen Infrastruktur. Vor-Ort-Data-Warehouses können nicht die Menge an Aktivitäten bewältigen, für die mehr Rechenkapazität oder Speicher benötigt wird. Daher dimensionieren Unternehmen ihre Systeme oft unnötigerweise für eine Spitzennutzung, die eigentlich nur für einen kurzen Zeitraum erforderlich ist. Dies führt zu Ineffizienzen und enormen Kosten, wenn es nicht in irgendeiner Weise verwaltet wird.

Die Skalierbarkeit von Datenwolken ist praktisch unbegrenzt, und die Skalierung nach oben oder unten ist so einfach wie der Wechsel der Abonnementstufe. In der Regel müssen bei diesen Änderungen auch keine Konfigurationsänderungen vorgenommen werden.

2. Kosten

Für On-Premise-Data-Warehouses ist ein enormer Kapitalaufwand (CapEx) erforderlich, da das Unternehmen physische Hardware und Software kaufen muss. Die Kosten für die Einrichtung eines On-Premise-Data-Warehouses werden als Aktivposten in der Bilanz des Unternehmens ausgewiesen und über einen bestimmten Zeitraum abgeschrieben. Die Organisation muss auch die Kosten für die erforderlichen Softwarelizenzen, die Wartung und die Sicherheit tragen.

Die Kosten einer Datenwolke beruhen auf einer einfachen Strategie – entweder auf dem Nutzungsbedarf oder auf den Betriebskosten (OpEx). Bei dieser Strategie zahlen die Unternehmen nur für den Speicher- und Rechenaufwand, den sie benötigen, und diese Zahlungen werden nicht in der Bilanz, sondern in der Gewinn- und Verlustrechnung für den jeweiligen Zeitraum verbucht. Der Cloud-Anbieter übernimmt auch die laufende Wartung, Verwaltung und Aktualisierung.

3. Leistung

Die Leistung von Data Warehouses wird von mehreren Faktoren beeinflusst, aber unter sonst gleichen Bedingungen ist ein Data Warehouse vor Ort in der Regel leistungsfähiger als ein Cloud-basiertes Data Warehouse in einem Unternehmen, das sich am selben Standort befindet. Dies liegt daran, dass Data Warehouses vor Ort nicht von Latenzproblemen betroffen sind (d. h. der Zeit, die zum Speichern oder Abrufen von Daten benötigt wird).

Vergleicht man hingegen die beiden Optionen, die in einem Unternehmen mit Niederlassungen an mehreren Standorten eingesetzt werden, so kann die Datenwolke die Gesamtleistung des Data Warehouse verbessern. Dies ist auf die Existenz von Datenlagern an mehreren Standorten in der ganzen Welt zurückzuführen, so dass Abfragen vom schnellsten (oder nächstgelegenen) Server aus erfolgen können, anstatt von einem festen Standort aus.

4. die Konnektivität

Die Konnektivität bezieht sich auf die Effizienz des Data Warehouse bei der Verbindung mit verschiedenen Datenquellen und Tools. Big Data stammt heute aus mehr Quellen als je zuvor und wird in Data Warehouses gesammelt. Auf der anderen Seite werden die in Data Warehouses gespeicherten Daten in vielen nachgelagerten Prozessen verwendet.

Bei On-Premise-Data-Warehouses ist die Konnektivität sicherer, da Unternehmen die volle Kontrolle darüber haben, wie und wann das Data-Warehouse verbunden wird. Dies ist wichtig für Organisationen, in denen die Datensicherheit für den Betrieb von entscheidender Bedeutung ist, z. B. im Finanz- und Regierungssektor.

Allerdings haben die Cloud-Anbieter auch stark in die Bereitstellung sicherer Verbindungen investiert. Viele Anbieter von Datenwolken, wie z. B.. Snowflake wird zunehmend von unabhängigen Stellen als sicher zertifiziert (Snowflake’s Security & Compliance Reports). Außerdem ist die Konnektivität bei Datenwolken einfacher, da sie in der Regel über ein eingebettetes Ökosystem verfügen, das die Anbindung an eine breite Palette von Cloud-Diensten erleichtert.

5. Verlässlichkeit und Sicherheit

Bei On-Premise-Data-Warehouses trägt das Unternehmen die volle Verantwortung für die Zuverlässigkeit und Sicherheit der Einrichtung. Sie hat die vollständige Kontrolle darüber, welche Hard- und Software sie verwendet, wo sie sich befindet und wer Zugriff darauf hat. Im Falle eines Ausfalls hat das IT-Team vollen Zugriff auf die physische Hardware und Software, um das Problem zu lösen, ohne sich auf Dritte verlassen zu müssen.

Bei Datenwolken verwalten die Unternehmen die Infrastruktur nicht, so dass sie in Bezug auf Zuverlässigkeit und Sicherheit vollständig von den Cloud-Anbietern abhängig sind. Dies mag zwar nicht sinnvoll sein, kann aber zu einem zuverlässigeren und sichereren Data Warehouse führen. Die meisten Datenwolken bieten Service Level Agreements, die eine Datenverfügbarkeit von bis zu 99,99 % garantieren, und sichern die Daten, um ein Höchstmaß an Zuverlässigkeit und Notfallwiederherstellung zu gewährleisten. Da Cloud-Anbieter mehrere Unternehmen bedienen, verfügen sie außerdem über das Fachwissen und die Ressourcen, um eine durchgängige Data-Warehouse-Sicherheit auf industriellem Niveau zu gewährleisten, die ein einzelnes Unternehmen möglicherweise nicht erreichen kann.

Daten in der Cloud sind die Zukunft

Einige Unternehmen bevorzugen zwar nach wie vor Data Warehouses vor Ort, weil sie die vollständige Kontrolle über ihre Daten behalten wollen, doch die Zukunft gehört der Data Cloud.

Nach Angaben von Foundrys Cloud Computing Forschung 2022 (Foundrys Cloud Computing Forschung 2022) Etwa 69 % der Unternehmen haben im letzten Jahr begonnen, ihre Migration zur Cloud zu beschleunigen, und die Zahl der Unternehmen, die ihre IT-Infrastruktur ganz oder teilweise in der Cloud betreiben, wird voraussichtlich von 41 % im Jahr 2022 auf 63 % im Jahr 2024 steigen.

Datenwolken sind nicht nur kosteneffizient, benutzerfreundlich und skalierbar, sondern die Technologie hat sich in den letzten Jahren auch rasant weiterentwickelt und die Grenzen dessen, was Data Warehouses leisten können, verschoben.

Alternativ können Sie auch eine „Hybrid-Cloud“-Lösung in Betracht ziehen und die Vorteile beider Bereitstellungsarten nutzen. So kann ein Unternehmen beispielsweise sensible Daten lokal speichern, während es sich bei der Speicherung der alltäglichen Daten auf einen Cloud-Anbieter verlässt. Auf diese Weise können Sie spezifische Sicherheits-, Compliance- oder Leistungsanforderungen erfüllen und gleichzeitig die Flexibilität und Skalierbarkeit der Cloud nutzen.

KATEGORIE