custom background image

Data Processing Engine


Data Processing Engine

Der Dienst zur Integration und Transformation der Daten von OVHcloud Data Platform, um die Ausführung und Orchestrierung Ihrer ETL/ELT-Workflows in der Produktion zu automatisieren.

Automatisierung von Datenverarbeitung und Datentransformation

manageable OVHcloud

Verarbeiten

Führen Sie Batchprozesse aus, um Daten aus Ihren Quellen zu extrahieren, umzuwandeln und in ihre Ziele zu laden.

quick OVHcloud

Automatisieren

Erstellen Sie Workflows mithilfe einer Low-Code-Schnittstelle und planen Sie die Ausführung, um Ihre Aufgaben zu automatisieren.

flexible OVHcloud

Entwickeln

Sie können ein beliebiges personalisiertes Python- oder PySpark-Skript programmieren und ausführen und ein umfassendes SDK mit zahlreichen Connectors verwenden.

reversible OVHcloud

Iterieren

Organisieren und versionieren Sie Ihren Code mithilfe nativer Versionierungssysteme oder der Git-Integration.

Demo

Beschleunigung Ihrer Daten- und Analyseprojekte

Sie müssen Ihre Dataenprojekte und -anwendungen schnell und einfach bereitstellen, verwalten und skalieren? Ihren Teams wird mit einer vereinheitlichten und auf Zusammenarbeit ausgelegten Plattform mehr Effizienz ermöglicht – ganz gleich, ob es sich um Business-Analyst:innen, Data Engineers oder Frontend-Entwickler:innen handelt. Mit Open-Source-Technologien wie Apache Spark, Iceberg und Trino ermöglicht Ihnen die OVHcloud Data Platform den Zugriff auf Ihre Datenintegrations-, Storage- und Recovery-Dienste in einer einzigen Umgebung.

Vimeo bedingt die Wiedergabe seiner Videos an die Hinterlegung von Tracern, um Ihnen gezielte Werbung auf der Grundlage Ihres Surfens anzubieten.

Um das Video anzusehen, müssen Sie in unserem Datenschutzcenter die Datenschutzkategorie „Cookies auf Drittanbieterplattformen teilen“ akzeptieren. Sie haben jederzeit die Möglichkeit, Ihre Einwilligung zu widerrufen.

Weitere Informationen finden Sie in der Vimeo-Cookie-Richtlinie und der OVHcloud-Cookie-Richtlinie.

Kontrolle über Ihre Daten

Erstellung und Personalisierung Ihrer Verarbeitungsaufgaben

Nutzen Sie beliebige Datenquellen. Mit einem umfangreichen Katalog vordefinierter Job-Vorlagen können Sie Aktionen zum Extrahieren, Laden, Aggregieren, Bereinigen von Daten und Aktualisieren von Metadaten erstellen. Sie können ein beliebiges personalisiertes Python- oder PySpark-Skript programmieren und ausführen und ein umfassendes SDK mit mehr als 40 Connectors verwenden. Wenn Sie bereits über Python-Datenverarbeitungsskripte verfügen, importieren Sie diese einfach, um sie in Data Platform zu zentralisieren und zu orchestrieren.

Verwalten Sie Ihre Pakete und Abhängigkeiten mit benutzerdefinierten Aktionen, einschließlich eigener Bibliotheken, die Sie für verschiedene Projekte wiederverwenden können. Data Processing Engine umfasst zwei Versionskontrollsysteme, um sicherzustellen, dass kritische Workloads in der Produktion niemals beeinträchtigt werden. Mit der Versionskontrolle von Data Platform können Sie die Weiterentwicklung von Versionen verfolgen und sich mit jedem externen Git-Repository synchronisieren.

dpe 1 tasks img
dpe 3 workflows img

Definieren und Orchestrieren Ihrer Workflows

Definieren, sequenzieren und planen Sie ganz einfach Ihre Jobs und die Verwaltung Ihrer Ressourcen. Skalieren Sie sie mit Workern, die Sie bei Bedarf steuern können. Ein intuitives Drag-and-Drop-Interface erlaubt Ihnen die Visualisierung und Ausführung Ihres Projekts in der Cloud. Dabei spielt es keine Rolle, ob Sie über fundiertes technisches Wissen oder Know-how für die Verwaltung einer Cloud-Infrastruktur verfügen. Planen Sie Trigger, um die Ausführung Ihrer Jobs zu automatisieren, einschließlich CRON-Trigger.

Ausführung und Skalierung Ihrer Cloud-Pipelines

Starten Sie mit einem einzigen API-Aufruf Aktionen und ganze Workflows als Jobs. Data Processing Engine umfasst zwei Engines: eine Pandas-Engine (in Python 3), die für kleinere Datenverarbeitungsaufgaben optimiert ist, und eine Spark-Engine (in PySpark) für intensive Workloads.

Mit den Computing-Ressourcen von OVHcloud können Sie Ihre Jobs horizontal und vertikal skalieren, um sie schneller auszuführen. Nutzen Sie Segmentierungstools, um Tasks zu parallelisieren und die Verarbeitung zu beschleunigen. Verwenden Sie unsere Perimeteroptionen, um Datenpunkte außerhalb eines bestimmten Perimeters ein- oder auszuschließen.

Apache Spark™ und das zugehörige Logo sind Marken der Apache Software Foundation. Die OVH SAS und ihre Tochtergesellschaften sind nicht mit der Apache Software Foundation verbunden und werden auch nicht von ihr befürwortet.

Apache Spark
dpe 4 jobexecutions img

Überwachung der Ausführung und Performance Ihrer Jobs

Sehen Sie sich umfassende und detaillierte Berichte zu den abgeschlossenen Jobs an, einschließlich der CPU- und RAM-Auslastung der Worker im Laufe der Zeit, sowie die dazugehörigen Logs. Testen, validieren und optimieren Sie ihren Ressourcenverbrauch mithilfe von Kontrollpunkten in Ihren Workflows.

Mit dem Control Center von Data Platform und der Konfiguration von Warnungen in Zusammenhang mit der Aufgabenausführung können Sie sich benachrichtigen lassen, wenn eine Aufgabe abgeschlossen oder fehlgeschlagen ist, und Informationen zu deren Dauer oder RAM-Nutzung einsehen. Zudem ermöglicht das Tool für Identitäts- und Zugriffsmanagement (Identity and Access Management oder IAM) von Data Platform eine präzise Zugriffskontrolle.