BLOG

Lesen Sie die neuesten Nachrichten von Billigence und aus der Welt der Technologie und Datenanalyse.
Vergessen Sie nicht, sie per E-Mail zu abonnieren.

Datenlacke, Datenverarbeitung & Beispiel für die Implementierung einer Datenwolke | Teil zwei

Was ist ein Datensee?

Ein Data Lake ist ein zentraler Speicher, in dem große Datenmengen in Rohformaten gespeichert werden können. Aufgrund der geringeren Kosten, die mit Cloud Computing verbunden sind, haben viele Unternehmen damit begonnen, Data Lakhs als zentralen Speicher und/oder für andere Arten von Analysen zu nutzen, z. B. Business Intelligence, Big Data-Verarbeitung, Echtzeit-Datenanalyse und maschinelles Lernen.

Laut einer Studie von Aberdeen sind Unternehmen, die Datenveredelungen eingesetzt haben, doppelt so zufrieden wie Unternehmen, die keine Datenveredelungen eingesetzt haben, was Datenqualität und Aktualität angeht.

Wie unterscheiden sich Data Lakhs von Data Warehouses?

Data Lakes wurden aufgrund der Einschränkungen von Data Warehouses geschaffen. Obwohl Data Warehouses Unternehmen die Möglichkeit bieten, Datenanalysen auf strukturierten und kuratierten Daten durchzuführen, sind sie für die Speicherung von Big Data, die heute in großen Mengen produziert werden, meist ungeeignet und können die Analyseanforderungen heutiger Unternehmen nicht erfüllen.

Insgesamt gibt es vier wesentliche Unterschiede zwischen Data Lakes und Data Warehouses.

1. daten

Da Data Warehouses die Geschäftsprozesse und -bedürfnisse berücksichtigen, wird das Datenmodell so einfach wie möglich gehalten. Es speichert nur die für die Analyse wichtigen Daten in einem stark strukturierten und aufbereiteten Format. Im Gegensatz dazu bewahren Datenlacke alle Daten zu jeder Zeit auf, falls die Daten in der Zukunft verwendet werden können oder eine zeitliche Analyse erforderlich ist.

2. das Schema

Die meisten Data-Warehouse-Schemata werden vor der Implementierung entworfen und können nur Daten in einem strukturierten Format unterstützen. Dieser Vorgang wird als „Schema-on-Write“ bezeichnet. Aus diesem Grund werden nicht-traditionelle Datenquellen wie Webserverprotokolle, Sensordaten, Aktivitäten in sozialen Medien, Texte und Bilder meist ignoriert. Andererseits wurden Datenlacke speziell für die Speicherung solcher Daten geschaffen. Unabhängig von der Quelle oder der Struktur der Daten behalten sie die Daten in ihrer ursprünglichen Form und wandeln sie erst zum Zeitpunkt der Analyse um. Dieser Vorgang wird als „schema-on-Read“ bezeichnet.

3. Benutzer von
Data Warehouses sind strukturiert und werden für bestimmte Zwecke oder Funktionen erstellt, so dass sie in der Regel viel einfacher zu verwenden und zu verstehen sind. Data Warehouses eignen sich am besten für Geschäftsanwender, die täglich Berichte benötigen, KPIs überwachen oder regelmäßig mit demselben Datensatz arbeiten. Diese Nutzer haben in der Regel nicht viel Zeit oder Fachwissen, um die Daten selbst aufzubereiten oder umzuwandeln.

Für technische Benutzer (z. B. Datenwissenschaftler), die tiefere Analysen durchführen oder Antworten auf neue Fragen finden wollen, sind die von Data Warehouses bereitgestellten Daten oft nicht ausreichend. Daher bevorzugen diese Verwender in der Regel Dattellacke. Diese ermöglichen es den Nutzern, größere und vielfältigere Datensätze zu erforschen und zu verwenden, aber die Vorbereitung und Umwandlung der Daten für die Analyse erfordert mehr Arbeit und technisches Verständnis.

4. Anpassungsfähigkeit
In der heutigen schnelllebigen Welt, in der die Geschwindigkeit der Analyse entscheidend ist, können Data Warehouses oft nicht schnell genug angepasst werden, da Änderungen an den Strukturen Zeit und Entwicklerressourcen erfordern. Darüber hinaus können Änderungen an den Data-Warehouse-Strukturen nachfolgende Analyseprozesse, die von den Daten in einer bestimmten Struktur abhängen, beeinträchtigen oder stören.

Im Gegensatz dazu sind die Daten aus den Lackdaten relativ roh, jederzeit zugänglich und formbar. Erweist sich das Ergebnis der Erkundung oder Analyse der Daten in der Datenmalerei als nützlich, kann ein formelleres Schema verwendet werden, um den Datensatz in ein Data Warehouse umzuwandeln, was eine Automatisierung und Wiederverwendung für eine größere Zielgruppe ermöglicht.

Die Herausforderungen der Lackdaten

Während die Möglichkeit, strukturierte und unstrukturierte Daten in ihrem Rohformat zu speichern, zweifellos einer der Hauptvorteile von Data Lakes ist, besteht eine der größten Herausforderungen bei der Pflege von Datenlacken darin, zu verwalten, wie diese Rohdaten gespeichert werden.

Ohne eine angemessene Organisation, Metadatenverwaltung und Data Governance sind die Daten schwerer zu finden, und der Datensumpf wird eher zu einem Datensumpf. Da im Laufe der Zeit immer mehr Daten zu diesem Sumpf hinzukommen, werden sie irrelevant, veraltet oder sogar fehlerhaft. Wenn also keine Abhilfemaßnahmen oder strenge Kontrollen durchgeführt werden, wird der Datensumpf unbrauchbar, was die Unternehmen nur Geld kosten wird.

Datenintegration: ETL vs. ELT

Ein typischer Datenintegrationsprozess besteht aus den folgenden drei Schritten:

  • Extrahieren (E): Daten aus der Quelle extrahieren.
  • Transformation (T): Änderung der Datenstruktur in das richtige Format.
  • Laden (L): Daten im Repository speichern.

Die beiden gängigsten Methoden der Datenintegration sind die ETL- (Extract, Transform, Load) und ELT-Prozesse (Extract, Load, Transform).

In der Vergangenheit, als es noch keine Data Lakes oder Cloud Data Warehouses gab, die Daten umwandeln konnten, war ETL die einzige Möglichkeit, dies zu tun. Bei ETL werden die Daten zunächst aus mehreren Quellen in eine temporäre Bereitstellungsebene extrahiert, wo sie bereinigt und transformiert werden, bevor sie in den Speicher geladen werden. Da die Data Warehouses mit SQL-basierten relationalen Datenstrukturen arbeiten mussten, mussten alle zu lesenden Daten in ein relationales Format umgewandelt werden, bevor das Data Warehouse sie verarbeiten konnte.

Mit ETL liegen die im Repository gespeicherten Daten bereits im richtigen Format für die Analyse vor, was eine wesentlich schnellere Datenanalyse ermöglicht. Da der ETL-Prozess die Daten vor dem Laden umwandelt, werden außerdem keine Rohdaten direkt in den Speicher übertragen. Dadurch wird sichergestellt, dass sensible Daten nicht weiter in die Speicherung oder sogar in Analyseberichte gelangen, so dass Unternehmen Datenschutzgesetze wie GDPR, HIPAA oder CCPA besser einhalten können.

Andererseits ist ELT eine relativ neue Technologie, die durch Cloud Data Warehouses ermöglicht wird, die nahezu unbegrenzte Speichermöglichkeiten und skalierbare Rechenleistung bieten. Bei ELT werden die Daten zunächst in das Repository aufgenommen, bevor sie im Data Varnish oder im Data Warehouse selbst umgewandelt werden.

Da die Daten relativ roh gespeichert werden, bietet das ELT-Verfahren den Unternehmen die Flexibilität, die Daten je nach Analysebedarf beliebig umzuwandeln und zu analysieren. Mit dem ELT-Prozess können Unternehmen nahezu jede Art von Rohdaten, ob unstrukturiert oder strukturiert, erhalten, sobald sie verfügbar sind. Diese Daten ermöglichen dann eine tiefergehende und/oder unstrukturierte Analyse, z. B. durch maschinelles Lernen.

ELT bietet einen wesentlich schnelleren Datenintegrationsprozess, da die Daten nicht zur Verarbeitung an einen zweiten Server gesendet werden müssen. Die Aufbewahrung von Daten in ihrer Rohform ermöglicht es einer Organisation außerdem, ein umfangreiches historisches Archiv zu erstellen, das auch dann noch umgewandelt und verwendet werden kann, wenn sich Ziele und Strategien im Laufe der Zeit ändern. Obwohl ETL immer noch für Daten verwendet werden kann, die vor der Speicherung umgewandelt werden müssen, verwenden die meisten Data Lakes den ELT-Prozess hauptsächlich wegen seiner Flexibilität, Effizienz und Skalierbarkeit.

Datenintegration: Stapelverarbeitung vs. Stromverarbeitung

Bei der Bestimmung der Häufigkeit und des Volumens der empfangenen Daten gibt es zwei primäre Methoden der Verarbeitung – Stapelverarbeitung und Stream.

Stapelverarbeitung

Bei einem Stapelverarbeitungsmodell werden die Daten im Laufe der Zeit gesammelt, bevor sie in einen Datenbestand oder ein Data Warehouse eingespeist werden. Die Stapelverarbeitung wird in der Regel verwendet, wenn mit großen Datenmengen gearbeitet wird oder wenn die Datenquellen keine Datenlieferung in Streams unterstützen. Die Stapelverarbeitung ist auch dann ideal, wenn es wichtiger ist, große Datenmengen mit tiefgreifenden Analysen zu verarbeiten, als schnelle Analysen durchzuführen. Einige Beispiele für Stapelverarbeitungsanwendungen sind Lohnbuchhaltung, Rechnungsstellung und Auftragsabwicklung.

Stream-Verarbeitung

Beim Streaming-Modell werden die Daten stapelweise an Data Lakes oder Data Warehouses geliefert, sobald sie verfügbar sind. Die Stream-Verarbeitung ist zwar teurer, eignet sich aber ideal für Unternehmen, die Echtzeitanalysen benötigen. Dadurch können Unternehmen Probleme oder neue Erkenntnisse fast sofort erkennen und schnell reagieren. Einige Beispiele für die Verarbeitung von Datenströmen sind die Erkennung von Betrug, die Analyse des Kundenverhaltens und die Stimmungsanalyse.

Kurz gesagt, sowohl die Stapel- als auch die Stromverarbeitung bieten je nach Anwendungsfall einzigartige Vor- und Nachteile. Die Stream-Verarbeitung eignet sich für Unternehmen, die flexibel bleiben und schnell Erkenntnisse aus großen Datenmengen gewinnen müssen, während die Stapelverarbeitung bei der Arbeit mit großen Datenmengen eingesetzt wird. Daher bieten viele Data-Varnish-Anbieter oft beide Verarbeitungsdienste an, so dass Unternehmen entweder einen Batch-, Stream- oder sogar einen hybriden Ansatz für die Datenintegration wählen können.

Snowflake Datenwolke

Was ist zum Abschluss unserer zweiteiligen Serie über Modellierung und Datenverarbeitung zu sagen?

Snowflake Data Cloud ist eine der besten Möglichkeiten zum Aufbau eines Cloud Data Lake und/oder zur Implementierung eines Data Warehouse.

Snowflake Data Cloud ist eine vollständig verwaltete Cloud-MPP-Plattform (Massively Parallel Processing), die verschiedene Datenaktivitäten unterstützt, von Data Warehousing und Data Lakes bis hin zu Data Engineering, Data Science und der Entwicklung von Datenanwendungen.

Durch die Trennung von Speicherung und Diensten, die auf eigenen Rechenclustern ausgeführt werden, beseitigt Snowflake die Probleme der Parallelverarbeitung, mit denen herkömmliche lokale Datenspeicher/Lagerhäuser konfrontiert sind, und ermöglicht die gleichzeitige Ausführung mehrerer Prozesse, ohne dass diese um Ressourcen konkurrieren. Anstatt eine eigene Cloud zu betreiben, ist Snowflake auf AWS, Azure und GCP verfügbar. Mit einer gemeinsamen und austauschbaren Codebasis ermöglicht die globale Datenreplikationsfunktion von Snowflake den Anwendern die einfache Verlagerung von Daten in eine beliebige Cloud in einer beliebigen Region.

Darüber hinaus ermöglicht die Snowflake-Architektur nicht nur die Speicherung strukturierter Daten, sondern auch einiger halbstrukturierter Daten, wodurch die Notwendigkeit von genannt. Datenpipelines für die Datenextraktion.

In diesem Beispiel können Daten aus der internen Datenbank des Unternehmens und aus externen Quellen, die strukturierte, halbstrukturierte oder sogar unstrukturierte Daten umfassen, enthalten sein:

  1. vor der Transformation und Übertragung in die Snowflake Data Cloud über den ELT-Prozess oder in der Data Varnish gespeichert,
  2. über den ETL-Prozess direkt in die Snowflake Data Cloud geladen werden.

Mit ETL werden die Daten zunächst in einer temporären Staging-Ebene extrahiert, bevor sie transformiert und in die Snowflake Data Cloud geladen werden und für die Analyse bereitstehen. Zu den wichtigsten ETL/ELT-Pipeline-Tools, die die Datenverarbeitung vereinfachen, gehören Alteryx und Matillion.

Mit ELT werden die Daten vor dem Laden in die Snowflake Data Cloud nicht mehr transformiert, sondern über Dienste von Cloud-Anbietern (z. B. AWS Lake Formation, Azure Synapse Analytics und Data Flow von Google) oder externe ELT-Tools zunächst in den Cloud Data Varnish geladen.

In der Snowflake-Terminologie wird der Data Lake dann als externe Stufe (Layer) bezeichnet und bezieht sich auf den Ort, an dem die Daten gespeichert werden, die in die Snowflake-Datenbank geladen werden sollen. Die Datenumwandlungsfunktionen von Snowflake würden dann genutzt, um die Daten vor dem Laden in die Datenwolke in jeder erforderlichen Weise umzuwandeln.

Für beide Prozesse können die Daten auch in die Snowflake Data Cloud geladen werden, entweder über Batch- und/oder Stream-Verarbeitung. Für die Stapelverarbeitung kann das Massenladen von Daten in Snowflake-Tabellen mit der Anweisung COPY INTO durchgeführt werden. Für die Stream-Verarbeitung wird SnowPipe, der kontinuierliche Dateneingabedienst von Snowflake, verwendet, um Daten abzurufen, sobald sie verfügbar sind, entweder durch Ereignisbenachrichtigungen aus dem Cloud-Speicher oder durch Aufrufen eines öffentlichen REST-Endpunkts.

Schließlich sind die Daten nun bereit, in Front-End-Tools integriert zu werden und mit den Nutzern zu interagieren. Dazu gehören Werkzeuge für Berichte, Abfragen, Analysen oder Data Mining. In diesem Beispiel besteht keine Notwendigkeit, separate Data Marts zu erstellen. Die innovative Datenarchitektur von Snowflake stellt sicher, dass eine unbegrenzte Anzahl von Daten und Benutzern unterstützt werden kann, wodurch Probleme mit langsamen oder überlasteten Data Warehouses vermieden werden, die die Erstellung zusätzlicher Data Marts erfordern.

Verlegen Sie Ihre Analysen in die Cloud!

In einem zunehmend wettbewerbsorientierten und sich rasch verändernden Umfeld müssen Unternehmen in allen Branchen agil, flexibel und reaktionsschnell sein. Schnellere, besser zugängliche und skalierbare Analysen sind heute für viele ein Muss.

Wir bei Billigence verfügen über das technische Fachwissen, die Branchenerfahrung und die Referenzprojekte, um Sie dabei zu unterstützen, Ihre Analyse auf die nächste Stufe zu heben. Wenn Sie auf der Suche nach einem Partner sind, der Ihre Umstellung auf Cloud Data Warehousing und Data Lakes beschleunigt, oder wenn Sie an Informationen über verschiedene Tools und Lösungen interessiert sind, kontaktieren Sie uns.

KATEGORIE