Data Processing Engine
Data Processing Engine
Service voor het integreren en transformeren van gegevens van OVHcloud Data Platform, die bedoeld is om de uitvoering en orkestratie van uw ETL/ELT-productieworkflows te automatiseren.
Automatiseer uw gegevensverwerking en -transformaties

Verwerken
Voer verwerkingen in batches uit om gegevens uit uw bronnen op te halen, te transformeren en te uploaden naar hun bestemmingen.

Automatiseren
Maak workflows aan met een low-code-interface en plan de uitvoering ervan om uw taken te automatiseren.

Ontwikkelen
Programmeer en voer elk zelfgeschreven Python- of PySpark-script uit en gebruik een complete SDK met talrijke connectors.

Itereren
Organiseer uw code en deel het op in versies met native versiesystemen of de integratie met Git.
Demonstratie
Geef uw Data & Analytics-projecten een boost
Wilt u uw Data-projecten en -applicaties heel snel en eenvoudig implementeren, beheren en opschalen? Of het nu businessanalisten, data-engineers of frontend-developers zijn, uw teams werken effectiever met een gemeenschappelijk en veilig platform dat op samenwerking is gericht. Het Data Platform van OVHcloud, dat gebaseerd is op opensourcetechnologieën als Apache Spark, Iceberg en Trino, biedt u binnen een en dezelfde omgeving toegang tot uw diensten voor data-integratie, opslag en herstel.
Vimeo stelt het afspelen van zijn video's afhankelijk van het plaatsen van tracers, om u gerichte reclame te kunnen aanbieden op basis van uw surfgedrag.
Om de video te kunnen bekijken, moet u de privacycategorie Cookies delen op platforms van derden in ons Privacycentrum accepteren. U hebt de mogelijkheid om uw toestemming op elk moment in te trekken.
Raadpleeg voor meer informatie het cookiebeleid van Vimeo en het cookiebeleid van OVHcloud.
Doe alles wat u maar wilt met uw gegevens
Creëer uw verwerkingstaken en pas ze aan
Leg verbinding met ongeacht welke gegevensbron. Met een uitgebreide catalogus met vooraf gedefinieerde jobtemplates kunt u acties maken voor het extraheren, laden, aggregeren en opschonen van gegevens, evenals het bijwerken van metadata. Programmeer en voer elk zelfgemaakt script uit in Python of PySpark en beschik over een complete SDK met meer dan 40 connectors. Als u al scripts voor gegevensverwerking in Python heeft, importeer ze dan eenvoudig om alles bijeen te brengen en in Data Platform te orkestreren.
Beheer uw packages en dependency’s via op maat gemaakte acties, inclusief uw eigen library’s, die u voor verschillende projecten kunt hergebruiken. Data Processing Engine wordt geleverd met twee versiebeheersystemen om ervoor te zorgen dat kritieke workloads in productie nooit worden beïnvloed. Met het versiebeheer van Data Platform kunt u versieveranderingen bijhouden en synchroniseren met elk extern Git-repository.


Definieer en orkestreer uw workflows
Definieer uw jobs, bepaal de volgorde en plan ze eenvoudig in, net als het beheer van uw resources. Upgrade ze, met workers die u desgewenst zelf kunt beheren. Met een intuïtieve drag-and-drop interface kunt u uw projecten in de cloud maken, bekijken en uitvoeren. Het maakt niet uit of u over gedegen technische kennis of de knowhow beschikt om een cloud-infrastructuur te managen. Plan triggers om de uitvoering van uw jobs te automatiseren, waaronder CRON-triggers.
Voer uw pipelines in de cloud uit en schaal ze op
Start acties en complete workflows in de vorm van jobs met één API-call. Data Processing Engine heeft twee engines: een Pandas-engine (in Python 3) die geoptimaliseerd is voor kleinere gegevensverwerkingstaken en een Spark-engine (in PySpark) voor intensieve workloads.
Schaal uw jobs horizontaal en verticaal op om ze sneller uit te voeren met de rekenresources van OVHcloud. Profiteer van segmentatiehulpmiddelen om taken te parallelliseren en de verwerking te versnellen. Gebruik onze perimeteropties om datapunten buiten een gegeven straal op te nemen of uit te sluiten.
Apache Spark™ en de bijbehorende logo's zijn een handelsmerk van de Apache Software Foundation. OVH SAS en haar dochterondernemingen zijn niet gelieerd aan of goedgekeurd door de Apache Software Foundation.


Houd de uitvoering en de prestaties van uw jobs in de gaten
Bekijk uitgebreide en gedetailleerde rapporten over de voltooide jobs, inclusief het CPU- en RAM-gebruik van workers in de loop der tijd, plus de bijbehorende logs. Test en valideer uw jobs. Optimaliseer het resourcegebruik ervan met controlepunten in uw workflows.
Gebruik Control Center op Data Platform, configureer meldingen over het uitvoeren van taken en ontvang een melding wanneer een taak is voltooid of mislukt, plus informatie over de duur of het RAM-gebruik. Beheer toegang nauwkeurig met de identiteits- en toegangsbeheertool (Identity Access Manager of IAM) van Data Platform.