Data Processing Engine
Data Processing Engine
Servizio di integrazione e trasformazione dei dati di OVHcloud Data Platform, per automatizzare l'esecuzione e l'orchestrazione dei tuoi flussi di lavoro ETL/ELT in produzione.
Automatizza l’elaborazione e trasformazione dei tuoi dati

Elaborare
Esegui elaborazioni in batch per estrarre, trasformare e caricare dati dalle tue sorgenti verso le loro destinazioni.

Automatizzare
Crea flussi di lavoro tramite un'interfaccia low code e pianificane l’esecuzione per automatizzare le tue attività.

Sviluppare
Programma ed esegui qualsiasi script Python o PySpark personalizzato e utilizza un SDK completo con numerosi connettori.

Iterare
Organizza e crea nuove versioni del tuo codice tramite sistemi di controllo delle versioni nativi o l’integrazione Git.
Demo
Accelera i tuoi progetti Data Analytics
Vuoi eseguire, gestire e scalare in modo semplice e rapido i tuoi progetti e applicazioni Data? Business Analyst, Data Engineer, sviluppatori front-end: i tuoi team lavorano più efficacemente grazie a una piattaforma unificata, collaborativa e sicura. Basato su tecnologie open source come Apache Spark, Iceberg e Trino, Data Platform di OVHcloud offre accesso all’interno dello stesso ambiente ai tuoi servizi di integrazione dei dati, archiviazione e restituzione.
La riproduzione di video su Vimeo prevede strumenti di tracciamento per offrirti pubblicità personalizzate basate sulla tua navigazione.
Per guardare il video, devi accettare la politica sulla privacy relativa ai cookies di condivisione su piattaforme terze del nostro Privacy Center. Puoi disattivare questa opzione in qualsiasi momento.
Per maggiori informazioni, consulta la politica sui cookies di Vimeo e la politica sui cookies di OVHcloud.
Controlla i tuoi dati
Creare e personalizzare le attività di elaborazione
Connettiti a qualsiasi sorgente di dati: il ricco catalogo di modelli di job predefiniti permette di creare azioni per estrarre, caricare, aggregare, pulire i dati e aggiornare i metadati. Programma ed esegui qualsiasi script personalizzato in Python o PySpark e usufruisci di un SDK completo con oltre 40 connettori. Se disponi già di script di elaborazione dati in Python, è sufficiente importarli per centralizzarli e orchestrarli in Data Platform.
Gestisci i tuoi pacchetti e dipendenze tramite azioni personalizzate e crea librerie personali che puoi riutilizzare per diversi progetti. Data Processing Engine viene fornito con due sistemi di controllo delle versioni per garantire che i carichi di lavoro critici in produzione non subiscano alcun impatto. Il controllo delle versioni di Data Platform ti consente di tracciare la scalabilità delle versioni e di sincronizzarsi con qualsiasi repository Git esterno.


Definire e orchestrare i flussi di lavoro
Definisci, ordina e pianifica semplicemente i job e la gestione delle risorse per farle evolvere, con worker controllabili se necessario. Un'interfaccia di creazione intuitiva, compatibile con la funzionalità “drag and drop”, permette di visualizzare e realizzare i tuoi progetti nel cloud, indipendentemente dalla solidità delle conoscenze tecniche o dalle competenze nella gestione dell’infrastruttura cloud. Pianifica trigger per automatizzare l'esecuzione dei job, inclusi i trigger basati su CRON.
Eseguire e scalare pipeline nel cloud
Esegui azioni e flussi di lavoro completi sotto forma di job, con una sola chiamata API. Data Processing Engine integra due motori: Pandas (in Python 3), ottimizzato per attività di elaborazione dati di dimensioni ridotte, e Spark (in PySpark), per carichi di lavoro intensivi.
Fai evolvere i job orizzontalmente e verticalmente per un’esecuzione più rapida, grazie alle risorse di calcolo di OVHcloud. Approfitta di strumenti di segmentazione per parallelizzare i task e accelerare l'elaborazione e utilizza le nostre opzioni perimetrali per includere o escludere data point oltre un determinato perimetro.
Apache Spark™ e il suo logo sono un marchio registrato dalla Apache Software Foundation. OVH SAS e le sue filiali non sono affiliate alla Apache Software Foundation né approvate da quest’ultima.


Monitorare l’esecuzione e le performance dei job
Visualizza report completi e dettagliati sui job terminati, inclusi l’utilizzo di CPU e RAM dei worker nel tempo e i log corrispondenti. Testa, convalida i job e ottimizza il consumo di risorse utilizzando punti di controllo nei flussi di lavoro.
Ricevi notifiche sui job completati e non riusciti, sulla durata o l'utilizzo della RAM, grazie al Control Center di Data Platform e la configurazione di alert relativi all'esecuzione delle operazioni. Controlla in modo preciso gli accessi con lo strumento di gestione delle identità e degli accessi (Identity Access Manager o IAM) di Data Platform.