Data Processing Engine
Data Processing Engine
Servicio de integración y transformación de datos de OVHcloud Data Platform para automatizar la ejecución y la orquestación de sus flujos de trabajo ETL/ELT en producción.
Automatice el tratamiento y la transformación de sus datos

Procesar
Realice procesamientos por lotes para extraer, transformar y cargar datos desde sus orígenes hacia sus ubicaciones de destino.

Automatizar
Cree flujos de trabajo con una interfaz low-code y planifique su ejecución para automatizar las tareas.

Desarrollar
Codifique y ejecute cualquier script Python o PySpark personalizado, y saque todo el partido a un SDK completo con numerosos conectores.

Iterar
Organice y versione su código a través de sistemas de control de versiones nativos o la integración Git.
Demo
Acelere sus proyectos de Data & Analytics
¿Necesita desplegar, gestionar y escalar sus proyectos y aplicaciones de datos de forma rápida y sencilla? Business analysts, data engineers o desarrolladores front-end: sus equipos trabajarán de manera más eficiente a través de una plataforma unificada, colaborativa y segura. La Data Platform de OVHcloud, basada en tecnologías de código abierto como Apache Spark, Iceberg o Trino, le permite acceder a sus servicios de integración de datos, almacenamiento y restablecimiento en un mismo entorno.
La reproducción de vídeos en Vimeo está sujeta a la aceptación de las herramientas de rastreo que la plataforma utiliza para ofrecerle publicidad personalizada basada en su navegación.
Para poder ver el vídeo, deberá aceptar las cookies de uso compartido en plataformas de terceros en la configuración de cookies de OVHcloud. Puede retirar su consentimiento en cualquier momento.
Para más información, consulte las políticas de cookies de Vimeo y de OVHcloud.
Controle sus datos
Cree y personalice sus tareas de procesamiento
Conéctese a cualquier fuente de datos. El completo catálogo de plantillas de jobs predefinidas le permitirá crear acciones para extraer, cargar, agregar y limpiar datos, así como para actualizar metadatos. Codifique y ejecute cualquier script personalizado en Python o PySpark, y utilice un SDK completo con más de cuarenta conectores. Si ya tiene scripts de procesamiento de datos en Python, solo tendrá que importarlos para centralizarlos y orquestarlos en Data Platform.
Gestione sus paquetes y dependencias a través de acciones personalizadas, incluyendo sus propias bibliotecas, que podrá reutilizar en diferentes proyectos. Data Processing Engine se entrega con dos sistemas de control de versiones para garantizar que las cargas de trabajo críticas en producción nunca se ven afectadas. El control de versiones de Data Platform permite supervisar la escalabilidad de las versiones y sincronizarse con cualquier repositorio Git externo.


Defina y orqueste sus workflows
Defina, secuencie y planifique fácilmente sus jobs y la gestión de sus recursos. Escale con workers que podrá controlar siempre que lo necesite. Una interfaz de creación intuitiva, con funcionalidades drag and drop, le permitirá visualizar y ejecutar sus proyectos en la nube, independientemente de que disponga o no de conocimientos técnicos avanzados y de su experiencia para gestionar una infraestructura cloud. Automatice la ejecución de sus jobs, incluyendo la activación de tareas CRON.
Ejecute y escale sus pipelines en el cloud
Lance acciones y workflows completos en forma de jobs con una sola llamada API. Data Processing Engine incorpora dos motores: un motor Pandas (en Python 3) optimizado para las tareas de procesamiento de datos más pequeñas y un motor Spark (en PySpark) para las cargas de trabajo intensivas.
Escale sus jobs horizontal y verticalmente para una ejecución más rápida con los recursos de cálculo de OVHcloud. Disfrute de herramientas de segmentación para paralelizar las tareas y acelerar los tratamientos. Utilice nuestras opciones perimetrales para incluir o excluir puntos de datos más allá de un perímetro determinado.
Apache Spark™ y su logotipo son marcas de Apache Software Foundation. OVH SAS y sus filiales no son entidades afiliadas de Apache Software Foundation ni han sido aprobadas por esta última.


Supervise la ejecución y el rendimiento de sus jobs
Visualice informes completos y detallados sobre los jobs completados, incluyendo el uso de la CPU y la RAM de los workers a lo largo del tiempo, así como los logs correspondientes. Haga pruebas, valide sus jobs y optimice el consumo de recursos utilizando puntos de control en sus flujos de trabajo.
Reciba notificaciones cuando una tarea finalice o falle, así como información sobre su duración o el uso de la RAM, utilizando el Control Center de Data Platform y la configuración de alertas relacionadas con la ejecución de tareas. Controle los accesos con precisión gracias a la herramienta de gestión de identidades y accesos (Identity Access Manager o IAM) de Data Platform.