Was ist eine Datenpipeline? (+ Wie man eine erstellt)

Geschrieben von Coursera Staff • Aktualisiert am

Erfahren Sie mehr über die Architektur, Tools und das Design von Datenpipelines.

[Hauptbild] Ein Business-Intelligence-Analyst erstellt eine Datenpipeline und ein Dashboard für ein Unternehmen.

Read in English (Auf Englisch lesen).

Eine Datenpipeline ist ein Verfahren zur Erfassung, Verarbeitung und Übertragung von Rohdaten von der Quelle zum Ziel. Moderne Datenpipelines bestehen aus verschiedenen Tools und Prozessen, die eine effiziente und automatisierte Datenverarbeitung ermöglichen. Sie sind unerlässlich, da Rohdaten häufig bereinigt, transformiert und strukturiert werden müssen, bevor sie nutzbar sind. Die Wahl der passenden Datenpipeline hängt von Faktoren wie den geschäftlichen Anforderungen, der Datenmenge und der benötigten Verarbeitungsgeschwindigkeit ab.

Datenpipeline vs. ETL-Pipeline

Der Begriff Datenpipeline ist weit gefasst und beschreibt jeden Prozess, der Daten von einer Quelle zu einem Ziel überträgt. Eine ETL-Pipeline (Extract, Transform, Load) ist eine spezifische Form der Datenpipeline, die sich auf das Extrahieren, Transformieren und Laden von Datenstapeln für einen bestimmten Zweck konzentriert. Während Transformationen auch in anderen Datenpipelines vorkommen können, sind sie ein fester Bestandteil des ETL-Prozesses.

Verschiedene Arten von Datenpipelines

  • Echtzeit-Datenpipeline: Echtzeitanalysen, wie beispielsweise Finanzinformationen, erfordern diese Art von Datenpipeline. Die Echtzeit-Datenpipeline-Architektur kann Millionen von Ereignissen sofort verarbeiten und sorgt so für höhere Zuverlässigkeit.

  • Open-Source-Datenpipeline: Open-Source-Pipelines sind kostenlos für die öffentliche Nutzung, allerdings sind bestimmte Funktionen möglicherweise nicht verfügbar. Diese kostengünstige Datenpipeline-Technik wird häufig von kleinen Unternehmen und Einzelpersonen eingesetzt, die Datenmanagement benötigen. Beispiele für häufig verwendete Open-Source-Pipelines sind Apache Kafka und Airbyte.

  • Cloud-Datenpipeline: Diese Art von Datenpipeline ist Cloud-basiert. Mit anderen Worten: Die Daten werden über das Internet und nicht auf lokalen Servern verwaltet und verarbeitet.

  • Streaming-Datenpipeline: Streaming-Pipelines gehören zu den am häufigsten verwendeten Datenpipelines. Sie können sowohl unstrukturierte als auch strukturierte Daten aus verschiedenen Quellen aufnehmen.

  • Stapelverarbeitungs-Datenpipeline: Stapelverarbeitungs-Pipelines sind weit verbreitet, insbesondere in Unternehmen, die große Datenmengen verwalten. Sie sind aufgrund der enormen Datenmengen zwar langsamer, können aber die Benutzerinteraktion minimieren. 

Beispiel einer Datenpipeline

AWS Glue von Amazon Web Services ist ein Webservice, der Anwender bei der Datenverarbeitung und -übermittlung unterstützt. Er kann sowohl mit lokalen Datenquellen als auch mit AWS-Geräten und -Diensten genutzt werden. Wenn Sie die Arbeit mit AWS-Datenanalysetools üben möchten, empfiehlt sich der anfängerfreundliche Onlinekurs Erste Schritte mit Datenanalyse auf AWS. In nur drei Stunden erwerben Sie von Branchenexperten wichtige Datenanalyse-Kenntnisse. Sie lernen beispielsweise, wie Sie deskriptive Datenanalysen in der Cloud durchführen und verschiedene Arten von Datenanalysen erläutern.

Datenpipeline-Architektur

Es gibt zwei Möglichkeiten, die Architektur einer Datenpipeline zu visualisieren. Beginnen wir mit dem konzeptionellen Prozess bzw. Workflow. 

Zunächst beginnt eine Datenpipeline, in der die Daten generiert und gespeichert werden. Je nach Pipelinetyp kann es sich dabei um eine einzelne oder mehrere Quellen handeln. Die Daten können in jedem beliebigen Format vorliegen, einschließlich Rohdaten, strukturierten und unstrukturierten Daten. 

Anschließend werden die Daten an den Ort verschoben, wo sie verarbeitet und aufbereitet werden, beispielsweise in ein ETL-Tool. Die Verarbeitungsvorgänge hängen von den Geschäftszielen und den analytischen Anforderungen ab.

Abschließend endet die Datenpipeline mit der Analyse. In dieser Phase werden die Daten in ein Datenmanagementsystem verschoben, um wertvolle Erkenntnisse wie Business Intelligence (BI) zu gewinnen.

Beispiel für eine Datenpipeline-Architektur

Die zweite Möglichkeit zur Visualisierung der Datenpipeline-Architektur ist die Plattformebene. Plattformimplementierungen können an spezifische Analyseanforderungen angepasst werden. Hier ist ein Beispiel für die Plattformarchitektur einer Datenpipeline aus der Google Cloud-Dokumentation:

Eine Stapelverarbeitungs-ETL-Pipeline in GCP – Die Quelle können Dateien sein, die in die Analytics Business Intelligence (BI)-Engine eingelesen werden müssen. Cloud Storage dient als Datenübertragungsmedium innerhalb von GCP. Anschließend werden die Daten über Dataflow in den BigQuery-Zielspeicher geladen.

Im obigen Beispiel beginnt die Datenpipeline zunächst an der Quelle (Dateien) und bewegt sich dann zum Speicher in der Cloud. Anschließend werden die Daten zur Verarbeitung und Aufbereitung an Dataflow übertragen. Schließlich gelangen sie zur Analyse in die Zieldatenbank (Google BigQuery).

So erstellen Sie eine Datenpipeline

Bevor Sie mit der Planung Ihrer Datenpipeline-Architektur beginnen, müssen Sie wichtige Elemente wie Zweck und Skalierbarkeitsanforderungen identifizieren. Beachten Sie bei der Planung einer Datenpipeline Folgendes:

  • Analytische Anforderungen: Überlegen Sie, welche Erkenntnisse Sie am Ende der Pipeline aus Ihren Daten gewinnen möchten. Werden Sie sie für maschinelles Lernen (ML), Business Intelligence (BI) oder etwas anderes nutzen?

  • Volumen: Überlegen Sie, wie viele Daten Sie verwalten werden und ob sich diese Menge im Laufe der Zeit ändern könnte.

  • Datentypen: Datenpipeline-Lösungen können je nach Datentyp Einschränkungen unterliegen. Identifizieren Sie die Datentypen, mit denen Sie arbeiten werden (strukturierte Daten, Streaming-Daten, Rohdaten).

1. Bestimmen Sie, welche Art von Datenpipeline Sie verwenden müssen

Definieren Sie zunächst Ihre Anforderungen, Geschäftsziele und Datenbankvorgaben. Mithilfe der obigen Liste können Sie die passende Art der Datenpipeline auswählen. Wenn Sie beispielsweise große Datenmengen verarbeiten, könnte eine Stapelverarbeitungs-Datenpipeline die richtige Wahl sein. Unternehmen, die auf Echtzeit-Analysen angewiesen sind, profitieren hingegen von einer Streaming-Datenpipeline. 

2. Wählen Sie Ihre Datenpipeline-Tools aus

Es gibt viele verschiedene Datenpipeline-Tools auf dem Markt. Sie können eine Lösung mit End-to-End-Pipeline-Management (für den gesamten Prozess) verwenden oder einzelne Tools zu einer hybriden, personalisierten Lösung kombinieren. Beispielsweise müssen Sie beim Aufbau einer Cloud-Datenpipeline möglicherweise Cloud-Dienste (wie Speicher) mit einem ETL-Tool kombinieren, das die Daten für die Übertragung an Ihr Ziel vorbereitet. 

3. Implementieren Sie Ihr Datenpipeline-Design

Nach der Implementierung Ihres Designs ist es wichtig, Wartung, Skalierung und kontinuierliche Verbesserung zu planen. Berücksichtigen Sie bei Ihrem Design unbedingt die Informationssicherheit (InfoSec), um sensible Daten während der Pipeline-Bearbeitung zu schützen. Unternehmen beschäftigen häufig Data Engineers und Data Architects, die die Planung, Implementierung und Überwachung des Datenpipeline-Systems überwachen. 

Erfahren Sie mehr über den Aufbau einer Datenpipeline auf Coursera

Mit dem anfängerfreundlichen Onlinekurs ETL und Datenpipelines mit Shell, Airflow und Kafka von IBM können Sie Methoden zur Konvertierung von Rohdaten in analysebereite Daten vergleichen. Fortgeschrittene können den Aufbau einer Datenpipeline und den Erwerb des Google Business Intelligence-Zertifikats in Betracht ziehen, einem kompletten Onlinekurs.

Weiterlesen

Aktualisiert am
Geschrieben von:

Redaktion

Das Redaktionsteam von Coursera besteht aus äußerst erfahrenen professionellen Redakteuren, Autoren ...

Diese Inhalte dienen nur zu Informationszwecken. Den Lernenden wird empfohlen, eingehender zu recherchieren, ob Kurse und andere angestrebte Qualifikationen wirklich ihren persönlichen, beruflichen und finanziellen Vorstellungen entsprechen.