0% encontró este documento útil (0 votos)
585 vistas3 páginas

Prueba Tecnica DataKnow PDF

La prueba técnica evalúa habilidades en manipulación de datos, modelación estadística y bases de datos. Consiste en 4 tareas: 1) cargar y procesar datos, 2) manipular datos de diferentes fuentes, 3) responder preguntas usando SQL, y 4) desarrollar un modelo predictivo de fraude usando datos de transacciones bancarias. Se pide documentar cada paso y enviar códigos con comentarios.

Cargado por

Pipe Leiva
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
585 vistas3 páginas

Prueba Tecnica DataKnow PDF

La prueba técnica evalúa habilidades en manipulación de datos, modelación estadística y bases de datos. Consiste en 4 tareas: 1) cargar y procesar datos, 2) manipular datos de diferentes fuentes, 3) responder preguntas usando SQL, y 4) desarrollar un modelo predictivo de fraude usando datos de transacciones bancarias. Se pide documentar cada paso y enviar códigos con comentarios.

Cargado por

Pipe Leiva
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PRUEBA TÉCNICA DATAKNOW

Muchas gracias por tu interés en participar en la convocatoria para pertenecer a la familia


DataKnow.
Estamos buscando personas comprometidas, que se destaquen por realizar un trabajo de
calidad, con buena actitud de servicio, compromiso y mucha responsabilidad con sus
actividades día a día, siempre dando prioridad a las necesidades del cliente. Además,
también estamos buscando personas con sólidos conocimientos en técnicas de modelación,
con habilidades en estadística, matemáticas, minería de datos, bases de datos, big data, data
science, con fuertes habilidades en programación en leguajes como: R, Python, SAS, PL/SQL,
Scala, Hadoop, entre otros.
El propósito de esta prueba es medir sus capacidades para manipular datos de diferentes
industrias, realizar supuestos, filtrar y utilizar información relevante, concluir y comunicar
adecuadamente los resultados de los modelos. Pruebe usar cualquier herramienta de
programación.

Prueba:
1. Carga Información
Cargar un data set, realizar el cargue y depuración del archivo OFEI1204.txt.
Se debe entregar una tabla con las columnas:
Agente
Planta
Hora_1
Hora_2
Hora_3
...
Hora_24
Solamente procesar los registros Tipo D.
Enviar junto con la tabla resultante el código utilizado.
Explicar el paso a paso en un archivo de texto (.doc o .pdf).

2. Manipulación de datos
a. Cargar un data set, del archivo Excel Master Data, únicamente las siguientes
columnas:
a. Nombre visible Agente
b. AGENTE (OFEI)
c. CENTRAL (dDEC, dSEGDES, dPRU…)
d. Tipo de central (Hidro, Termo, Filo, Menor)
b. Seleccionar los registros que pertenecen al agente EMGESA ó EMGESA S.A. y
adicionalmente que el Tipo de Central sea ‘H’ o ‘T’.
c. Cargar el archivo dDEC1204.TXT que viene por Central.
d. Realizar el merge de los dos data sets por Central.
e. Calcular la suma horizontal de todas las horas para cada planta.
f. Seleccionar solamente los registros de las plantas cuya suma horizontal sea mayor
que cero.
g. Los resultados deben ser entregados en un dataset.
h. Enviar junto con la tabla resultante el código utilizado.
i. Explicar el paso a paso en un archivo de texto (.doc o .pdf).

3. Prueba SQL
El SQL (Structured Query Language) es un lenguaje estándar para almacenar, manipular y
recuperar datos en bases de datos. Es uno de los idiomas más comunes para especificar y
acceder a los datos. Responda las siguientes preguntas utilizando solo consultas SQL.

Se puede resolver usando cualquier motor de base de datos o en su defecto un compilador


de SQL Online como los siguientes:
https://sqliteonline.com/
http://www.sqlfiddle.com/

Nota: el código a continuación es para la creación de las tablas insumos.


CREATE TABLE EMPLEADO (
ID INT(8),
NOMBRE VARCHAR(50),
APELLIDO VARCHAR(59),
SEXO CHAR(1),
FECHA_NACIMIENTO DATE,
SALARIO DOUBLE(10,2)
);

CREATE TABLE VACACIONES(


ID INT(8),
ID_EMP INT(8),
FECHA_INICIO DATE,
FECHA_FIN DATE,
ESTADO CHAR(1),
CANTIDAD_DIAS INT(8)
);
/*EN ESTA TABLA SE ALMACENA LA INFORMACIÓN BASICA DE LOS EMPLEADOS*/
INSERT INTO EMPLEADO VALUES (1,"JUAN","PELAEZ","M",'1985-01-29',3500000);
INSERT INTO EMPLEADO VALUES (2,"ANDRES","GARCIA","M",'1975-05-22',5500000);
INSERT INTO EMPLEADO VALUES (3,"LAURA","PEREZ","F",'1991-09-10',2500000);
INSERT INTO EMPLEADO VALUES (4,"PEPE","MARTINEZ","M",'1987-12-01',3800000);
INSERT INTO EMPLEADO VALUES (5,"MARGARITA","CORRALES","F",'1990-07-02',4500000);
/*EN ESTA TABLA SE ALMACENA LAS SOLCITUDES DE VACIONES DE CADA EMPLEADO*/
INSERT INTO VACACIONES VALUES (1,1,'2019-07-01','2019-07-15','A',14);
INSERT INTO VACACIONES VALUES (2,2,'2019-03-01','2019-03-15','R',14);
INSERT INTO VACACIONES VALUES (3,2,'2019-04-01','2019-04-15','A',14);
INSERT INTO VACACIONES VALUES (4,2,'2019-08-14','2019-08-20','A',6);
INSERT INTO VACACIONES VALUES (5,3,'2019-08-20','2019-08-25','A',5);
INSERT INTO VACACIONES VALUES (6,3,'2019-12-20','2019-12-31','A',11);

Preguntas:
a. Seleccione nombre, apellido y salario de todos los empleados.
b. Seleccione nombre, apellido y salario de todos los empleados que ganen más de 4
millones.
c. Cuente los empleados por sexo.
d. Seleccione los empleados que no han hecho solicitud de vacaciones.
e. Seleccione los empleados que tengan más de una solicitud de vacaciones y muestre
cuantas solicitudes tienen los que cumplen.
f. Determine el salario promedio de los empleados.
g. Determine la cantidad de días promedio solicitados de vacaciones por cada
empleado.
h. Seleccione el empleado que mayor cantidad de días de vacaciones ha solicitado,
muestre el nombre, apellido y cantidad de días totales solicitados.
i. Consulte la cantidad de días aprobados y rechazados por cada empleado, en caso de
no tener solicitudes mostrar 0.

4. Modelación

El archivo train.csv contiene información sobre muchas transacciones con tarjetas de crédito
y débito por diferentes canales. Para cada transacción se tiene el valor monetario de la
misma y otras variables (ver diccionario_variables.xlsx). De particular importancia es la
variable FRAUDE en donde aparece 1 si la transacción constituyó un fraude o 0 si fue una
transacción legítima. Su misión es desarrollar un modelo que permita, a partir de los datos
en este archivo predecir cuál será el valor de la variable FRAUDE para una transacción
cualquiera. El archivo test.csv contiene exactamente las mismas columnas de train.csv, la
columna FRAUDE la dejamos en blanco.
1. Cargue el archivo train.csv y Construya un modelo que capaz de realizar
predicciones de FRAUDE.
2. Enviar un archivo test_evaluado.csv con todas las columnas en el mismo orden
que se encuentran en test.csv y adicionalmente la columna FRAUDE poblada con
el valor predicho por su modelo. Cualquier valor real (es decir, fraccionario) entre
0 y 1 será admisible aquí, donde 1 debe corresponder a FRAUDE y 0 a transacción
legítima.

Nota: Muy importante enviar un archivo de texto (.doc o .pdf) donde se documente muy
bien cada paso realizado, se muestren claramente los resultados y análisis respectivos,
adicionalmente se deben enviar todos los códigos y comandos (con comentarios) utilizados
para desarrollar esta prueba.

MUCHAS GRACIAS

También podría gustarte