0% encontró este documento útil (0 votos)
6 vistas173 páginas

CLASE3 Transcripcion

En la clase se revisaron las metodologías para desarrollar proyectos de ciencia de datos, enfocándose en el proceso de procesamiento de datos. Se discutieron los pasos previos, como la definición de objetivos y la recopilación de datos, y se introdujo el paso tres, que implica la limpieza y normalización de datos para asegurar su calidad. Se abordaron errores comunes en los datos, como valores atípicos y registros erróneos, y la importancia de tener datos estructurados y útiles para el análisis.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
6 vistas173 páginas

CLASE3 Transcripcion

En la clase se revisaron las metodologías para desarrollar proyectos de ciencia de datos, enfocándose en el proceso de procesamiento de datos. Se discutieron los pasos previos, como la definición de objetivos y la recopilación de datos, y se introdujo el paso tres, que implica la limpieza y normalización de datos para asegurar su calidad. Se abordaron errores comunes en los datos, como valores atípicos y registros erróneos, y la importancia de tener datos estructurados y útiles para el análisis.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Transcripción CLASE3.

mp4
Duración aprox.: 153.75 min

[00:00:00,000] grabar, ¿no?

[00:00:03,419] La clase anterior,

[00:00:07,379] la clase anterior, déjeme compartir pantalla,

[00:00:10,179] estuvimos hablando de las metodologías, ¿cierto?

[00:00:13,439] En ciencia de datos.

[00:00:15,500] Y nos cortó gran parte de la clase.

[00:00:21,559] Pero estuvo interesante porque salieron varias preguntas

[00:00:24,300] que siempre son interesantes de conversar.

[00:00:31,000] ¿Ya?

[00:00:32,039] Entonces, la dinámica de hoy día,

[00:00:35,840] vamos a terminar con la metodología

[00:00:38,640] y después voy a dejar un espacio para preguntas.

[00:00:40,939] Porque si no, no vamos a alcanzar a ver

[00:00:43,859] la materia de la clase que corresponde hoy.

[00:00:50,479] Ahí estamos.

[00:00:51,899] ¿Ya? Entonces, como para hacer un pequeño,

[00:00:54,299] repaso,

[00:00:56,780] vimos

[00:00:57,539] este diagrama.

[00:01:01,780] ¿Ya?

[00:01:02,219] Y en este diagrama nosotros hablamos que era un

[00:01:05,040] proceso referencial, ¿cierto?

[00:01:07,120] Que aborda seis pasos para desarrollar


[00:01:11,579] un proyecto de ciencia de datos.

[00:01:14,040] Y alcanzamos a ver en esa clase

[00:01:16,019] paso uno y paso dos.

[00:01:18,739] ¿Ya?

[00:01:19,140] La definición de objetivos

[00:01:20,620] y hablamos de los datos.

[00:01:23,700] ¿Ya?

[00:01:23,819] De qué datos voy a considerar.

[00:01:26,560] Hablamos también de cuánta cantidad.

[00:01:28,719] Dijimos que dependía del problema.

[00:01:31,060] Y como recomendación,

[00:01:34,099] ojalá, ¿cierto?

[00:01:34,799] Que para la semana del coaching

[00:01:36,680] ya tengan sus datos disponibles

[00:01:40,079] o al menos la estructura de los datos.

[00:01:42,760] ¿Ya?

[00:01:44,000] Entonces,

[00:01:45,420] y dijimos,

[00:01:46,579] el paso tres lo vamos a dejar para la próxima clase

[00:01:48,159] porque es muy amplio.

[00:01:49,579] ¿Ya?

[00:01:50,159] Y la idea es que hoy día partamos viendo

[00:01:52,239] el paso número tres.

[00:01:53,819] ¿Ya?

[00:01:59,000] Entonces.

[00:02:01,859] Por si acaso,


[00:02:03,239] esta presentación ya se la subí.

[00:02:06,760] ¿Ya?

[00:02:07,459] Entonces,

[00:02:08,560] paso número tres.

[00:02:13,539] Procesar los datos.

[00:02:15,500] ¿Ya?

[00:02:15,979] Cuando ya nosotros tenemos

[00:02:17,520] el objetivo definido,

[00:02:19,900] lo que ando buscando,

[00:02:21,979] el dolor del cliente,

[00:02:23,819] ¿ya?

[00:02:24,819] ¿Ya?

[00:02:25,819] ¿Cuál es la pregunta que quiere responder?

[00:02:35,360] ¿Ya?

[00:02:35,560] ¿O qué es lo que estamos investigando?

[00:02:37,780] Tenemos eso,

[00:02:38,879] después vamos a ver,

[00:02:39,919] bueno,

[00:02:40,340] ¿qué datos tenemos para poder responder a esa pregunta?

[00:02:43,180] ¿Ya?

[00:02:43,439] Tenemos sistemas,

[00:02:44,460] tenemos archivos,

[00:02:46,060] tenemos información externa,

[00:02:49,240] ¿ya?

[00:02:50,240] Hay que generar la información,

[00:02:52,360] ¿ok?
[00:02:52,560] Eso es en el paso dos.

[00:02:53,819] Y en el paso tres,

[00:02:55,759] ya tenemos,

[00:02:56,560] esto es como tener los ingredientes.

[00:02:58,300] ¿Ya?

[00:02:58,860] Primero hice la lista de lo que necesitaba

[00:03:00,680] para hacer un queque,

[00:03:01,840] después fui y compré lo que me faltaba,

[00:03:04,919] ahora tengo todos los ingredientes sobre la mesa.

[00:03:07,840] ¿Ok?

[00:03:08,639] Entonces,

[00:03:09,819] teniendo todos los datos disponibles,

[00:03:13,120] tengo que empezar a ver

[00:03:13,960] qué calidad tienen los datos.

[00:03:16,020] ¿Ya?

[00:03:16,479] Por ejemplo,

[00:03:18,259] si tengo un,

[00:03:20,139] puede ser una tabla,

[00:03:21,639] un sistema donde el root

[00:03:22,919] venga con un valor,

[00:03:23,819] con punto y dígito verificador,

[00:03:26,020] puede ser que en otro sistema,

[00:03:27,919] ¿ya?

[00:03:28,080] Que también voy a ocupar esa información,

[00:03:30,360] venga el root

[00:03:30,960] sin punto


[00:03:32,439] y con dígito verificador.

[00:03:34,219] Entonces,

[00:03:34,659] si yo trato de hacer match,

[00:03:36,300] ¿ya?

[00:03:37,659] Así,

[00:03:38,340] este ID es igual a este otro ID,

[00:03:40,180] o root igual a este otro root,

[00:03:41,939] no me van a hacer match.

[00:03:43,419] ¿Ya?

[00:03:43,680] Entonces,

[00:03:44,039] ¿qué hacemos?

[00:03:45,000] Bueno,

[00:03:45,360] normalizamos los datos,

[00:03:46,620] los dejamos todos en el mismo formato.

[00:03:48,740] Si encuentro datos,

[00:03:51,539] por ejemplo,

[00:03:52,080] root vacío,

[00:03:52,919] no debería haber root vacío.

[00:03:54,879] ¿Ya?

[00:03:55,060] Entonces,

[00:03:55,340] ahí es extraño

[00:03:56,919] esos registros que eran registros de prueba,

[00:03:59,159] registros erróneos.

[00:04:00,439] ¿Ya?

[00:04:00,740] Entonces,

[00:04:01,219] tengo que empezar a ver,


[00:04:03,080] hacer la limpieza de mis datos.

[00:04:04,840] O sea,

[00:04:05,000] de todo el universo de datos que yo tengo,

[00:04:08,000] ¿cuáles son los que de verdad me sirven?

[00:04:10,180] Para el objetivo que quiero responder.

[00:04:13,699] Entonces,

[00:04:14,000] lo primero es la limpieza.

[00:04:15,240] Y ahí,

[00:04:16,100] como yo les decía,

[00:04:16,899] errores en los valores de entrada.

[00:04:18,360] Por ejemplo,

[00:04:18,839] que tengamos

[00:04:19,459] alguien con una cuenta corriente

[00:04:21,720] que tiene cinco años.

[00:04:22,920] Claramente,

[00:04:23,620] hay un error ahí en los datos,

[00:04:25,180] ¿cierto?

[00:04:25,519] Al digitar,

[00:04:26,620] o a lo mejor es un registro de prueba.

[00:04:28,879] ¿Ya?

[00:04:29,399] Valores físicamente imposibles.

[00:04:31,600] Hoy día hicieron 300 grados Celsius.

[00:04:34,519] Sabemos que es imposible

[00:04:35,959] que hoy día hayan hecho 300 grados Celsius,

[00:04:38,680] porque estaríamos todos muertos.

[00:04:40,459] ¿Ya?
[00:04:41,339] Valores desaparecidos,

[00:04:42,939] los nulos.

[00:04:43,959] ¿Ya?

[00:04:44,199] Algunos,

[00:04:44,720] por ejemplo,

[00:04:45,620] tienen fecha de nacimiento,

[00:04:47,459] otros no tienen fecha de nacimiento,

[00:04:48,959] y otros van a tener una fecha de nacimiento por defecto

[00:04:51,220] que podría ser,

[00:04:51,839] no sé,

[00:04:52,160] 1900,

[00:04:52,920] 2800.

[00:04:53,980] ¿Ya?

[00:04:55,000] Valores atípicos.

[00:04:56,680] ¿Ya?

[00:04:56,839] Los valores atípicos son

[00:04:57,980] valores que están fuera del rango normal.

[00:05:00,779] O sea,

[00:05:01,040] como,

[00:05:02,319] por ejemplo,

[00:05:02,899] si nosotros decimos

[00:05:03,879] un camión frigorífico,

[00:05:09,540] ya que transporta fruta,

[00:05:11,480] voy a ir a la fruta,

[00:05:12,839] se registraron sus temperaturas,

[00:05:15,939] ¿cierto?
[00:05:17,079] En la logística

[00:05:18,139] se registra la temperatura interna del camión.

[00:05:21,519] En las distintas partes,

[00:05:22,920] ¿ya?

[00:05:23,680] Para ir asegurando,

[00:05:25,500] ¿cierto?

[00:05:25,680] Que la fruta mantenga su,

[00:05:26,980] su nivel de temperatura

[00:05:28,800] para no perder.

[00:05:30,860] Y dentro de esos registros tenemos

[00:05:33,439] un,

[00:05:35,120] no,

[00:05:35,899] normalmente debería ser un grado

[00:05:37,660] o menos dos grados.

[00:05:39,620] ¿Ya?

[00:05:40,120] Y tenemos una temperatura que se registró

[00:05:42,500] que eran,

[00:05:43,519] no sé,

[00:05:44,160] 10 grados.

[00:05:46,220] Valor atípico dentro

[00:05:47,600] de los valores normales.

[00:05:50,699] ¿Ya?

[00:05:50,939] O sea,

[00:05:51,819] mi rango se mueve entre los valores normales.

[00:05:52,920] Entre,

[00:05:53,959] por ejemplo,


[00:05:54,740] edad.

[00:05:55,720] ¿Ya?

[00:05:56,259] Edad entre cero años

[00:05:57,920] y creo que 116

[00:06:00,060] tenía la persona más longeva

[00:06:01,620] la última vez que lo revisé.

[00:06:03,480] ¿Ya?

[00:06:03,860] Si alguien tiene 150 años,

[00:06:05,899] claramente es un valor atípico.

[00:06:07,800] ¿Ya?

[00:06:08,779] No,

[00:06:09,279] no está ahí.

[00:06:10,399] Si hablamos de la cuenta corriente,

[00:06:12,560] ¿ya?

[00:06:12,759] Una persona

[00:06:13,459] que tiene cinco años

[00:06:15,199] y tiene una cuenta corriente

[00:06:16,360] es un valor atípico.

[00:06:17,879] ¿Ya?

[00:06:18,199] Entonces son valores

[00:06:19,120] fuera del rango

[00:06:20,480] según el contexto.

[00:06:22,399] ¿Ya?

[00:06:22,920] Y, por ejemplo,

[00:06:24,819] los espacios,

[00:06:26,420] los caracteres especiales,


[00:06:28,459] ¿cierto?

[00:06:28,660] Todo lo que no me permita

[00:06:30,579] leer

[00:06:31,579] la variable

[00:06:32,899] claramente.

[00:06:35,540] Ah, por ejemplo,

[00:06:36,160] si yo,

[00:06:37,399] lo que pasa en algunas bases

[00:06:38,779] que, no sé,

[00:06:40,240] viene la,

[00:06:41,160] viene con la ñ,

[00:06:42,720] ¿cierto?

[00:06:43,500] Pero la ñ

[00:06:44,199] la reemplaza

[00:06:44,899] por dos caracteres.

[00:06:47,040] Si ya, por ejemplo,

[00:06:47,879] uno dice ñ,

[00:06:48,779] ya sale porcentaje,

[00:06:50,759] no sé qué cosa.

[00:06:51,959] Entonces,

[00:06:52,360] si,

[00:06:52,680] si,

[00:06:53,279] esos son caracteres especiales

[00:06:55,199] y ya,

[00:06:55,500] si yo después quiero filtrar,

[00:06:56,819] oye,
[00:06:57,000] quiero ver todos los clientes

[00:06:58,220] de Ñuble,

[00:06:59,740] ¿cierto?

[00:07:01,660] Algunos clientes

[00:07:02,399] no me los va a mostrar

[00:07:03,180] porque en algunos

[00:07:03,740] está bien escrito

[00:07:04,420] y en otros.

[00:07:05,420] Entonces,

[00:07:05,819] ¿qué tengo que hacer ahí?

[00:07:07,800] Limpiar los datos.

[00:07:08,959] ¿Ok?

[00:07:09,279] Entonces,

[00:07:10,060] este trabajo,

[00:07:10,879] y como veíamos

[00:07:11,420] en la clase anterior,

[00:07:12,279] ¿cierto?

[00:07:12,519] Que es lo que menos gusta,

[00:07:14,300] ¿ya?

[00:07:14,500] Pero que nos permite

[00:07:15,300] conocer los datos,

[00:07:16,600] explorarlos.

[00:07:18,339] Es una de las tareas

[00:07:19,560] más largas

[00:07:20,279] dentro de un proyecto

[00:07:21,500] de cienciado.
[00:07:22,680] En este paso

[00:07:23,920] de preparación

[00:07:24,680] de los datos

[00:07:25,180] tenemos,

[00:07:25,839] por un lado,

[00:07:26,220] la limpieza,

[00:07:27,420] por otro lado,

[00:07:27,959] tenemos la transformación,

[00:07:29,660] ¿ya?

[00:07:30,120] Yo tengo,

[00:07:31,079] por ejemplo,

[00:07:32,879] no sé,

[00:07:34,300] quiero ver cantidad,

[00:07:35,920] ¿ya?

[00:07:36,079] No quiero ver

[00:07:36,639] el detalle

[00:07:37,420] de las llamadas telefónicas,

[00:07:39,220] no quiero saber

[00:07:39,860] que la persona

[00:07:40,639] habló primero tres minutos,

[00:07:41,899] después habló cinco minutos,

[00:07:43,779] después tuvo una llamada

[00:07:44,660] de treinta minutos,

[00:07:45,560] no,

[00:07:45,720] no quiero ver eso.

[00:07:46,800] Eso lo tengo,


[00:07:47,980] ¿ya?

[00:07:48,180] Lo que yo quiero ver

[00:07:48,920] es cuántos minutos

[00:07:50,399] habló esa persona

[00:07:51,360] por día.

[00:07:51,839] Entonces,

[00:07:52,819] ¿qué tengo que hacer?

[00:07:53,699] Agrupar

[00:07:54,139] y sumar

[00:07:55,220] todas las llamadas

[00:07:56,720] de esa persona

[00:07:57,279] en ese día,

[00:07:58,319] ¿ya?

[00:07:58,459] Entonces,

[00:07:58,800] ahí hago una transformación

[00:08:00,319] de los datos.

[00:08:01,060] Yo los tengo de una forma

[00:08:02,079] y después voy,

[00:08:03,240] los agrupo

[00:08:03,720] y los muestro de otra forma.

[00:08:05,180] Eso se llama

[00:08:05,839] agregación.

[00:08:07,740] Podría tener

[00:08:08,319] medias derivadas,

[00:08:10,019] ¿ya?

[00:08:10,180] Por ejemplo,


[00:08:10,939] cuando calculamos la tasa

[00:08:12,180] que se calcula

[00:08:12,920] en función

[00:08:13,279] de otros valores,

[00:08:14,759] también lo podría

[00:08:15,519] calcular antes.

[00:08:18,339] Si tengo,

[00:08:19,519] eh,

[00:08:20,000] el descuento, por ejemplo.

[00:08:22,620] ¿Ya? Se le aplicó

[00:08:24,060] un 15% de descuento, pero yo

[00:08:26,019] necesito que ese valor del 15%

[00:08:28,360] de descuento esté escrito ahí. Que esté en otra

[00:08:30,120] columna para no tener que

[00:08:32,080] calcularlo en el modelo.

[00:08:34,019] ¿Ya?

[00:08:37,440] Después voy a

[00:08:38,100] atender las preguntas. Que vayan dejando

[00:08:39,940] sus preguntas.

[00:08:42,279] Después, bueno, medidas

[00:08:44,000] derivadas. Por ejemplo, si yo tengo todas las notas

[00:08:46,139] y además yo creo que el promedio vaya

[00:08:48,100] también ahí. Bueno, calculo el promedio

[00:08:50,200] que va a ser en función de las

[00:08:51,600] notas que yo tengo. Entonces, todo eso

[00:08:54,059] son derivadas. O sea,


[00:08:56,159] son variables que derivan

[00:08:57,580] de las que ya tenemos.

[00:09:00,460] También, como hablamos

[00:09:01,700] en la clase anterior, algunos me hablaban

[00:09:04,159] de generar datos

[00:09:05,820] como más hacia atrás,

[00:09:07,879] ¿cierto? O hacia adelante.

[00:09:09,779] Como para tener más datos para

[00:09:11,639] hacer el modelo. ¿Ya? Que es

[00:09:13,960] la extrapolación o la

[00:09:15,899] simulación de datos.

[00:09:18,100] No lo vamos a ver acá, pero es algo

[00:09:20,179] que se puede

[00:09:20,940] hacer. ¿Ya? O sea, yo voy a extrapolar

[00:09:24,039] estos datos porque en realidad necesito un modelo

[00:09:26,000] con más periodos.

[00:09:28,980] Y, bueno,

[00:09:30,279] reducir el número de variables.

[00:09:32,700] Ahora tengo todos mis datos,

[00:09:34,519] ya los exploré, sé

[00:09:36,100] cuáles columnas tienen. Por ejemplo, si tengo

[00:09:38,159] una columna que tiene el 80%

[00:09:39,759] de los datos nulos,

[00:09:42,500] ¿ya? O datos desaparecidos,

[00:09:44,940] ¿me servirá

[00:09:46,000] considerar esa columna o no?


[00:09:47,279] ¿No?

[00:09:48,100] ¿O valdrá la pena

[00:09:49,200] que yo vaya y me consiga esos datos en otra

[00:09:52,059] parte o haga una campaña para completar

[00:09:54,059] ese dato? Entonces,

[00:09:56,539] por eso yo les decía que lo ideal

[00:09:58,159] es que tengamos, no sé, 15 variables.

[00:10:00,580] Y después de esas 15

[00:10:02,179] variables vamos a reducir. Hoy en realidad

[00:10:04,240] estas son las que

[00:10:05,860] vamos a ocupar porque

[00:10:07,899] tienen mejor calidad.

[00:10:09,940] Si no, el modelo

[00:10:11,200] no me va a dar cierto,

[00:10:14,480] no va a ser una representación de lo que

[00:10:16,080] necesito.

[00:10:18,100] Después tenemos

[00:10:20,100] la combinación de datos. Y aquí

[00:10:21,980] es parte de la transformación igual

[00:10:24,059] porque

[00:10:24,460] se mezclan los datos y venimos de

[00:10:28,039] dos sistemas, ¿cierto? Podemos hacer una vista

[00:10:30,019] que

[00:10:31,919] la tabla para poder ir y leer

[00:10:33,940] directamente, ¿ya? Y no darle

[00:10:36,100] más carga al modelo.


[00:10:38,600] Mezclar, unir

[00:10:39,799] conjuntos de datos. Yo les daba el ejemplo que si

[00:10:41,860] tengo, por ejemplo, un dataset de,

[00:10:44,100] no sé, películas o música

[00:10:46,080] en Taggle, entonces

[00:10:48,100] pero yo lo quiero complementar con

[00:10:50,019] otro dataset, ¿ya? Si tengo,

[00:10:52,299] no sé, registro a registro, también lo podría

[00:10:54,220] hacer. Entonces,

[00:10:56,139] todo eso va dentro de la limpieza.

[00:10:58,620] Este paso es para que dejemos

[00:11:00,120] los datos listos para después ir

[00:11:01,840] y hacer una exploración, ¿ya?

[00:11:03,960] Y decir, sí, la media de

[00:11:06,059] mis datos, la moda de

[00:11:08,000] mis datos, la distribución

[00:11:09,960] de los datos,

[00:11:11,279] cómo está la dispersión,

[00:11:15,740] ¿ya? O sea, puedo sacar todos los estadísticos,

[00:11:18,100] ¿cierto? De tendencia central

[00:11:20,240] y, ah, voy a

[00:11:22,220] saber, mira, tenemos tantos clientes

[00:11:24,600] de tal edad, o sea,

[00:11:26,200] voy a hacer una estadística descriptiva,

[00:11:28,200] ¿ya? Pero una estadística

[00:11:30,419] descriptiva con


[00:11:31,940] calidad, ¿ya? Porque ya voy

[00:11:34,259] a haber solucionado mis problemas

[00:11:35,720] que

[00:11:36,559] tenían los datos, ¿ya?

[00:11:40,779] Ok.

[00:11:41,019] Ok.

[00:11:44,259] Antes de pasar

[00:11:45,019] el paso cuatro, voy a responder las preguntas

[00:11:46,820] que están en el...

[00:11:48,100] A ver.

[00:11:55,879] La Adelia dice, ¿qué se hace en esos casos?

[00:11:58,120] ¿Debo borrar los valores atípicos y los valores

[00:12:00,159] imposibles o los debo mantener?

[00:12:03,480] A ver.

[00:12:04,820] Va a depender de cuánto.

[00:12:06,200] Si tenemos mil registros y tengo

[00:12:08,080] un valor atípico, claramente yo lo podría

[00:12:10,259] descartar.

[00:12:13,240] Pero,

[00:12:13,720] por ejemplo, si yo tengo

[00:12:16,120] una empresa de cien

[00:12:17,820] personas,

[00:12:18,100] ¿ya? Su sueldo

[00:12:20,100] promedio es de

[00:12:21,379] un millón quinientos. Y tengo

[00:12:23,860] un registro
[00:12:24,840] que gana siete millones.

[00:12:28,639] Estamos haciendo análisis

[00:12:30,000] sobre, no sé, los sueldos de la empresa.

[00:12:33,580] No lo debería dejar afuera.

[00:12:35,299] Porque, no sé, pues el gerente general y efectivamente

[00:12:37,639] se le pagan siete millones.

[00:12:39,460] Y en ese caso no lo puedo dejar.

[00:12:41,240] Entonces, lo que se hace, primero,

[00:12:44,019] es ver si esos valores atípicos

[00:12:46,039] son correctos o no.

[00:12:48,100] Podrían estar fuera del rango,

[00:12:50,000] pero podrían ser válidos.

[00:12:51,659] ¿Ya?

[00:12:53,539] Por lo tanto, antes de ver si se eliminan o no,

[00:12:57,259] hay que analizarlos.

[00:12:58,620] ¿Por qué existen estos valores atípicos?

[00:13:00,639] ¿Corresponden o no corresponden?

[00:13:01,740] Y ahí recién se toma la decisión.

[00:13:03,559] ¿Los mantengo o no los mantengo?

[00:13:05,159] ¿Ya? Respondiendo a la pregunta de Dery.

[00:13:08,539] ¿Qué se puede hacer

[00:13:10,340] con los valores atípicos numéricos

[00:13:12,179] que corresponden a PIX

[00:13:13,559] y que no se pueden eliminar?

[00:13:15,299] Ah, bueno, es como lo que acabo de explicar.

[00:13:17,639] ¿Cierto?
[00:13:18,480] ¿Es posible aplicar alguna transformación efectiva

[00:13:21,320] durante el pronóstico para conservar esta información

[00:13:23,460] sin perderla?

[00:13:25,580] No, no, hay que aplicar una transformación.

[00:13:28,220] El registro se tiene que mantener

[00:13:29,600] porque si no

[00:13:30,340] vamos a

[00:13:32,759] distorsionar el resultado.

[00:13:36,100] ¿Ya?

[00:13:36,740] Si el valor es atípico y es válido,

[00:13:38,840] así yo quiero saber, por ejemplo,

[00:13:41,899] no sé, proyectar el presupuesto

[00:13:43,980] que tiene que tener la empresa

[00:13:45,039] para pagar los sueldos en los próximos seis meses.

[00:13:47,639] Yo tengo que considerar

[00:13:49,659] que el gerente general gana siete millones de pesos.

[00:13:52,799] ¿Ya?

[00:13:53,919] Y tengo que tomar ese valor para hacer una predicción.

[00:13:57,000] Ahora, si yo, por ejemplo,

[00:13:58,379] quiero sacar un promedio

[00:13:59,740] de los sueldos

[00:14:01,419] para aumentar

[00:14:03,360] no sé, un 10%

[00:14:06,159] los sueldos de los empleados,

[00:14:08,059] entonces ahí yo me hago la pregunta.

[00:14:10,779] El registro que tiene siete millones


[00:14:12,980] no me ayuda al promedio.

[00:14:15,480] ¿Ya? Porque me lo va a subir.

[00:14:17,419] Entonces,

[00:14:17,639] tal vez en ese caso

[00:14:19,799] no lo debería considerar

[00:14:21,940] porque estamos buscando subirle el sueldo,

[00:14:24,080] ¿cierto?

[00:14:25,120] A la plana menor y no a la plana mayor.

[00:14:28,379] ¿Ya?

[00:14:29,059] Sí, pero con transformación

[00:14:31,320] me refería como a normalización de los datos,

[00:14:33,919] como llevarlo a una curva normal

[00:14:36,059] o de esa forma.

[00:14:37,940] O igual sigue siendo,

[00:14:40,820] sigue desviando el valor.

[00:14:43,639] O sea, en principio el valor lo mantén.

[00:14:46,460] Después que lo valido lo mantiene,

[00:14:47,639] ¿ya?

[00:14:48,740] Después puede haber algún tema

[00:14:51,700] que justifique

[00:14:52,980] que yo lo pueda,

[00:14:55,340] le pueda aplicar alguna regla.

[00:14:57,779] ¿Ya?

[00:14:59,080] Voy con la próxima pregunta de Alonso.

[00:15:01,899] Para la limpieza es muy importante

[00:15:03,340] tener en el equipo un profesional que conozca


[00:15:05,220] y tenga amplia experiencia en el rubro

[00:15:06,779] para identificar rangos normales,

[00:15:09,059] unidad de imputación adecuada, etc. ¿O no?

[00:15:11,600] La verdad, la verdad, la verdad,

[00:15:13,360] no necesariamente.

[00:15:15,080] ¿Por qué?

[00:15:15,460] Porque siempre tenemos instrucciones

[00:15:17,639] en la historia, ¿ya?

[00:15:19,000] Entonces, si yo le voy a decir a alguien,

[00:15:21,480] oye, necesito que revises la calidad de los datos

[00:15:23,740] y hago una limpieza,

[00:15:25,840] va a tener que ir a ver los datos hacia atrás,

[00:15:28,259] ¿ya? Va a tener que hacer una estadística

[00:15:29,919] de, en esta columna

[00:15:32,159] siempre tenemos

[00:15:33,120] un 30% de los datos nulos,

[00:15:35,899] ¿ya? Entonces, si después

[00:15:36,980] en su análisis le aparece el 30% de los datos

[00:15:39,679] nulos, no va a cerrar.

[00:15:42,100] Entonces, no es

[00:15:43,840] una limitante, ¿ok?

[00:15:46,240] Siempre que uno de las

[00:15:47,379] directrices claras. Yo cuando tengo una persona

[00:15:49,559] a mi cargo que viene llegando

[00:15:51,639] no se maneja en el negocio, entonces,

[00:15:53,600] bueno, tiene que haber un acompañamiento para que


[00:15:55,460] conozca los datos. Pero no es que tenga

[00:15:57,679] que saber, porque, bueno, nadie

[00:15:59,500] nace sabiendo y no sabemos de todas las

[00:16:01,500] industrias, ¿ya?

[00:16:03,200] Algún criterio de máxima cantidad de datos atípicos

[00:16:05,620] que puede eliminar sin afectar el conjunto,

[00:16:07,600] ya, eso es estadístico y lo van a ver

[00:16:09,519] en los cursos de estadística.

[00:16:12,220] Los valores extremos de series

[00:16:13,460] de tiempo completas se deberían manejar

[00:16:15,679] aparte como series,

[00:16:17,379] de duración parcial o no.

[00:16:19,659] Pregunta para los profesores

[00:16:21,659] de estadística cuando empiecen la próxima

[00:16:23,500] semana. La limpieza

[00:16:25,759] es a pulso, por ejemplo.

[00:16:27,860] Buscaré los nulos, luego verificaré

[00:16:29,460] los espacios, luego los caracteres extraños

[00:16:31,440] o existen

[00:16:35,500] ciertas librerías. La verdad

[00:16:37,659] es que ahí, no sé si la Josefa me puede ayudar,

[00:16:39,500] porque...

[00:16:40,000] yo de lo que he hecho, lo he hecho a pulso

[00:16:43,019] no he conocido alguna herramienta

[00:16:46,019] y librerías sí deben haber, creo que hay una por ahí

[00:16:48,940] pero no la recuerdo ahora, Josefa


[00:16:50,980] Sí, es entre comillas

[00:16:55,100] pulso y como un procedimiento que también lo van a ver

[00:16:57,519] que prácticamente es como lo mismo que tiene la profe

[00:17:00,600] como un punteo

[00:17:01,840] y por eso como mayor parte del proyecto

[00:17:06,700] en tiempo es como que uno le dedica

[00:17:10,059] a cualquier proyecto, uno le dedica como a

[00:17:12,819] a la exploración de los datos, la limpieza, imputación, etc.

[00:17:19,480] Y ahí depende también de

[00:17:20,960] de las políticas de la empresa, porque de OpenSpace Software

[00:17:24,000] como, no sé, alguno que me permita

[00:17:26,480] no sé, yo tengo una página que puede generar datos de ejemplo

[00:17:29,980] ya, yo le puedo dar el rango

[00:17:32,259] de los valores, el tipo de datos, no sé, por ejemplo

[00:17:36,160] le digo

[00:17:36,599] oye, quiero que me generen marcas de auto

[00:17:38,660] ¿ya?

[00:17:39,859] ¿de qué año a qué año?

[00:17:41,220] y me generan los datos

[00:17:42,039] pero a lo mejor las políticas de la empresa dicen

[00:17:45,200] que no tengo que usar software de

[00:17:47,599] no sé, free

[00:17:48,839] cierto, trial

[00:17:50,640] no, no tengo que usar solamente los softwares de la compañía

[00:17:54,079] entonces hay que fijarse en esas cosas

[00:17:56,160] cuando nosotros queremos utilizar


[00:17:58,279] alguna otra herramienta

[00:18:00,240] ¿ya?

[00:18:00,940] software informáticos hay muchos

[00:18:02,640] hay que ver cuál nos permite la empresa ocupar

[00:18:05,559] o

[00:18:06,559] si estoy trabajando yo independiente

[00:18:09,319] ¿cuál no pone en riesgo los datos de mi cliente?

[00:18:15,160] ojo que ahí con

[00:18:16,220] con las normas regulatorias del uso de la información

[00:18:19,059] acá Marcelo dice

[00:18:20,680] OpenRefine sirve para eso

[00:18:22,380] ya, ahí el compañero da una herramienta

[00:18:25,940] después

[00:18:26,720] esto lo puso los atípicos

[00:18:29,519] ya, después

[00:18:34,460] en esta etapa se realiza lo que se denomina

[00:18:36,400] la operación de la empresa

[00:18:36,440] ¿ya?

[00:18:36,480] ¿ya?

[00:18:36,559] ¿ya?

[00:18:36,839] ¿ya?

[00:18:36,900] ¿ya?

[00:18:37,640] Tidy data

[00:18:38,640] eh

[00:18:40,059] Tidy, no conozco el concepto

[00:18:44,859] Tidy data


[00:18:45,519] correcto

[00:18:47,299] ¿sí?

[00:18:48,180] sí, pero que incluye

[00:18:50,759] no solo

[00:18:51,339] el dato o el ordenamiento

[00:18:54,279] o limpieza del dato en sí mismo

[00:18:55,940] sino

[00:18:56,859] la manera como lo vamos a guardar

[00:18:59,940] o lo vamos a organizar, digamos

[00:19:01,680] ¿sí o no?

[00:19:04,700] ¿verdad?

[00:19:04,880] sí, porque en la combinación

[00:19:06,480] de los datos, yo ahí veo si voy a guardar

[00:19:08,660] una vista, voy a hacer un modelo

[00:19:10,539] relacional con eso, ahí yo tengo que

[00:19:12,519] decidir en qué estructura lo voy a guardar

[00:19:14,539] pero estamos hablando siempre

[00:19:15,839] de estructuras lógicas

[00:19:18,900] no físicas

[00:19:19,740] ¿ya?

[00:19:22,500] no sé si respondí su pregunta

[00:19:24,220] gracias

[00:19:25,559] si tengo datos

[00:19:28,460] provenientes de distintas frecuencias de mediciones

[00:19:30,480] diario, semanal, mensual, conviene

[00:19:32,359] separar por conjunto de datos


[00:19:34,140] promediar los diarios o semanales

[00:19:36,039] para mantener la misma frecuencia

[00:19:38,400] repetir los datos semanales o mensuales

[00:19:40,299] va a depender de lo que usted esté buscando

[00:19:42,000] podría ser

[00:19:43,619] analizar solo diarios

[00:19:46,220] podría

[00:19:48,299] de los diarios sacar un promedio

[00:19:50,799] pero va a depender

[00:19:51,660] qué es lo que anda a buscar

[00:19:53,160] si tiene los datos al detalle

[00:19:56,079] genial, pero andamos buscando

[00:19:58,039] no sé, algo mensual

[00:19:59,839] entonces yo podría ver la tendencia

[00:20:01,900] diaria, pero finalmente

[00:20:04,160] abajo podría decir yo, ya pero mensual

[00:20:06,019] mente, ya, esto es lo que sucede

[00:20:08,319] entonces

[00:20:09,420] finalmente

[00:20:11,980] tengo esas tres vistas

[00:20:13,900] pero tengo que saber

[00:20:16,140] qué es lo que ando buscando

[00:20:17,259] para poder hacer una

[00:20:19,960] separación

[00:20:20,940] el clustering de datos

[00:20:26,000] iría dentro del paso 3


[00:20:27,319] ya, a ver, cuando hablamos de clustering

[00:20:30,099] ya, estamos hablando

[00:20:31,900] de un modelo estadístico

[00:20:33,319] así que en realidad todavía no

[00:20:35,940] llegamos a eso

[00:20:36,519] si es que me está preguntando

[00:20:38,680] por el modelo estadístico

[00:20:39,640] no sé si es el caso Mauricio

[00:20:42,279] o me está hablando de clustering

[00:20:43,859] de otro concepto

[00:20:47,180] Juan dice

[00:20:52,859] la limpieza puede ser en comandos

[00:20:54,200] MySQL, también en Excel, también en

[00:20:56,619] Python, bueno, la podemos hacer

[00:20:58,720] en un montón de cosas

[00:20:59,819] ¿a qué se refiere con establecer operadores?

[00:21:03,500] ¿dónde dije establecer operadores?

[00:21:04,779] ah, en la combinación

[00:21:05,940] de datos

[00:21:06,180] claro, si tengo que sumar, restar

[00:21:09,940] ya, hacer uniones

[00:21:11,980] merge, todo ese tipo de cosas

[00:21:13,859] puede ser algoritmo, programación

[00:21:16,319] integración

[00:21:17,259] Microsoft PowerPivot

[00:21:18,900] ya, y Mario no sé


[00:21:23,519] está respondiendo a lo de arriba

[00:21:25,279] en la limpieza pulso, por ejemplo

[00:21:27,839] buscaré los nulos, luego verificaré los espacios

[00:21:30,059] luego clasificar extraños

[00:21:31,640] luego revisar los valores atípicos

[00:21:33,460] o la limpieza por medio de ciertas librerías

[00:21:35,940] o fuera de entorno informático

[00:21:36,819] es lo que usted dice

[00:21:41,380] cuando decimos a pulso

[00:21:42,819] ya, definimos, voy a revisar primero los nulos

[00:21:45,319] lo primero que hago es que de hecho

[00:21:47,460] hay una línea de comandos en Python

[00:21:49,079] que me saca la estadística descriptiva

[00:21:51,619] ya, y ahí puedo ver yo los promedios

[00:21:54,000] bueno

[00:21:55,279] la estadística de tendencia central

[00:21:58,180] ya, y con eso yo me puedo hacer

[00:21:59,980] como una vista general de los datos

[00:22:01,559] después me voy a lo particular

[00:22:02,880] cada columna, ya, le pongo ahí

[00:22:05,380] dígame cuántas columnas tiene

[00:22:07,279] o sea, qué porcentaje de nulos tiene cada columna

[00:22:09,779] ya, y ahí voy

[00:22:11,720] revisando

[00:22:12,880] ya, ahora, ciertas librerías

[00:22:15,319] o un software de entorno informático


[00:22:17,559] también puede haber

[00:22:18,980] ya, pero si no disponemos de eso

[00:22:21,579] a pulso

[00:22:22,420] me parece que volví a responder la misma pregunta

[00:22:24,940] porque se fue para abajo

[00:22:25,779] se refería al modelo estadístico

[00:22:29,500] ya, Mauricio

[00:22:30,920] no, clustering no

[00:22:32,519] acá estamos solamente teniendo los datos

[00:22:35,380] análisis descriptivo

[00:22:36,779] ya, todavía no llegamos a

[00:22:39,400] armar el modelo

[00:22:40,519] ok, ya

[00:22:43,119] ok, con eso terminé la ronda de preguntas

[00:22:47,940] del paso 3

[00:22:49,839] ahora vamos al paso 4

[00:22:51,960] que es la exploración de los datos

[00:22:54,039] entonces aquí

[00:22:56,200] ya tengo los datos, los limpie, los transformé

[00:22:58,740] los dejé en una vista

[00:22:59,980] o los dejé en tres tablas, etc

[00:23:01,799] y ahora lo que hago es

[00:23:04,160] descargar

[00:23:05,380] entender los datos

[00:23:06,220] ya, una comprensión profunda

[00:23:08,059] saco la estrategia de estigmatización central


[00:23:10,680] hago los gráficos

[00:23:12,140] veo la distribución

[00:23:13,420] busco patrones, correlaciones

[00:23:15,720] ya, desviaciones

[00:23:17,480] puedo usar técnicas visuales

[00:23:20,000] técnicas descriptivas

[00:23:21,140] ahora, es importante que siempre que ustedes pongan un gráfico

[00:23:24,579] pongan la interpretación

[00:23:26,000] ya

[00:23:26,559] con esto, claro

[00:23:30,700] con toda esta exploración de datos

[00:23:32,980] ya

[00:23:33,640] nosotros

[00:23:35,259] nosotros

[00:23:35,380] podemos decir

[00:23:36,380] por ejemplo

[00:23:37,480] en el caso de la correlación

[00:23:39,440] podemos decir

[00:23:40,359] ah, estas son las variables que impactan

[00:23:42,759] a lo que yo estoy buscando

[00:23:44,619] porque tienen mejor correlación

[00:23:46,279] y esas son las columnas que yo selecciono

[00:23:49,059] para ir después

[00:23:50,680] a ver el modelo que voy a aplicar

[00:23:53,599] ya

[00:23:53,759] entonces acá tengo gráficos simples


[00:23:57,000] complejos, técnicas no gráficas

[00:23:58,900] que son aplicativas, cierto

[00:24:00,980] medidas de tendencia central

[00:24:04,200] y

[00:24:05,380] y algunas otras que por ahí van a ver en los cursos de estadística

[00:24:09,220] ya

[00:24:09,660] paso número

[00:24:11,420] después, el paso 5

[00:24:14,339] y aquí sí viene la construcción del modelo

[00:24:16,460] exploré los datos, los conocí

[00:24:18,619] entendí cómo funcionaban

[00:24:20,680] y

[00:24:21,579] ahora

[00:24:22,740] tengo que tener

[00:24:24,059] no sé

[00:24:24,779] 5, 6 variables

[00:24:26,339] ya, que yo voy a poner en el modelo

[00:24:28,420] y

[00:24:29,799] lo vamos a construir

[00:24:32,700] antes de construirlo, por supuesto

[00:24:34,380] yo tengo que tener

[00:24:35,380] cierto, mi cajita de herramientas

[00:24:38,440] que también van a tener una clase Toolbox

[00:24:40,259] ya, después de que hayan visto todos los modelos

[00:24:42,700] de Machine Learning

[00:24:43,380] vamos a tener una clase Toolbox


[00:24:45,480] donde vamos a ver, bueno

[00:24:46,420] de toda esta herramienta

[00:24:49,000] de todos estos modelos que tengo

[00:24:51,079] bueno, ¿cuál me sirve para este caso?

[00:24:53,039] ya, no todos los modelos

[00:24:54,480] o no todos los datos sirven para todos los modelos

[00:24:57,180] ya, eso hay que tenerlo claro

[00:24:58,440] entonces de repente

[00:24:59,500] ah, voy a

[00:25:00,000] aplicar una regresión lineal, no, pero los

[00:25:00,039] a

[00:25:00,200] a

[00:25:00,240] a

[00:25:00,259] a

[00:25:00,279] a

[00:25:00,299] a

[00:25:00,319] a

[00:25:00,339] a

[00:25:00,359] a

[00:25:00,400] a

[00:25:00,460] a

[00:25:00,480] a

[00:25:00,500] a

[00:25:00,519] a

[00:25:00,539] a

[00:25:00,559] a
[00:25:00,599] a

[00:25:00,660] a

[00:25:00,720] a

[00:25:00,759] a

[00:25:00,799] a

[00:25:00,839] a

[00:25:00,859] a

[00:25:00,900] a

[00:25:00,960] a

[00:25:01,039] a

[00:25:01,900] a

[00:25:02,059] datos no están

[00:25:03,019] a

[00:25:04,039] a

[00:25:04,180] regresión lineal, ya

[00:25:04,279] a

[00:25:05,579] tengo una distribución, o sea, una dispersión

[00:25:08,240] demasiado amplia.

[00:25:10,480] Entonces, cuando ya hayan

[00:25:12,200] visto todos los algoritmos, te van a decir

[00:25:14,160] ah, tengo este problema,

[00:25:16,640] tengo estos datos,

[00:25:18,500] entonces aquí podría ser

[00:25:19,819] un árbol, un random forest,

[00:25:22,799] ya, una clasterización,

[00:25:24,660] ahí cuando conozcan los


[00:25:26,220] cuando conozcan los modelos, ya,

[00:25:30,000] va a ser más natural

[00:25:32,160] que puedan elegir, ya.

[00:25:34,339] Y bueno, aquí van a encontrar algunos

[00:25:36,019] insights, cierto, también

[00:25:37,400] de cosas que no andamos buscando, pero

[00:25:43,779] encontramos, ya, y como yo les decía, cuando

[00:25:46,039] hablamos de la gestión del proyecto

[00:25:48,180] de ciencia de datos, ojo con no

[00:25:50,059] desviarnos, porque de repente, oh, mira,

[00:25:51,859] encontramos esto, encontramos los

[00:25:54,000] alumnos que hay que potenciar,

[00:25:56,000] el ejemplo que daba la clase pasada,

[00:25:59,480] pero

[00:25:59,960] no, ese no era nuestro fuerte,

[00:26:02,339] o sea, sí, lo encontramos, ok,

[00:26:04,359] lo ponemos como un hallazgo,

[00:26:05,940] pero nosotros seguimos buscando los alumnos,

[00:26:07,900] cierto, que podrían ser posibles

[00:26:09,779] de ser todos. Entonces aquí

[00:26:11,940] elegimos las variables,

[00:26:13,720] ejecutamos el modelo, ya,

[00:26:16,039] hacemos un diagnóstico, comparamos,

[00:26:18,059] a lo mejor vamos a ejecutar más de un modelo,

[00:26:20,480] ya, voy a hacer una

[00:26:21,440] regresión lineal, una regresión logística,


[00:26:24,539] un random forest,

[00:26:25,940] voy a comparar cuál me da mejores resultados

[00:26:28,180] para el caso que yo estoy

[00:26:29,680] buscando, y

[00:26:31,279] con ese modelo me voy a quedar.

[00:26:34,819] Va a ser más natural

[00:26:35,720] cuando vean los modelos, ya, ahora

[00:26:37,460] para los que todavía no han visto

[00:26:39,900] nada de esto,

[00:26:41,559] ya,

[00:26:42,200] pues sonan muy complejos,

[00:26:45,460] pero esto es lo que van a ver paso a paso

[00:26:47,720] durante las

[00:26:49,559] clases que van a tener de estadística.

[00:26:51,880] Gustavo levantó la mano.

[00:26:53,920] ¿Profesor, se escucha bien?

[00:26:56,720] Cuando usted dijo,

[00:26:57,700] ah, entonces voy a probar el modelo A,

[00:26:59,359] modelo B, y voy a

[00:27:01,220] anotar cuál es el mejor. Ese mejor

[00:27:02,960] es el que, estoy

[00:27:05,099] hipotetizando, esto es una idea,

[00:27:07,460] yo meto las variables en el modelo

[00:27:09,319] y el modelo que me genera el

[00:27:11,259] resultado más parecido a mis datos originales,

[00:27:13,920] ¿ese es el mejor?


[00:27:15,779] Lo que pasa es que hay métricas

[00:27:17,299] que van a conocer

[00:27:19,000] para evaluar los modelos.

[00:27:21,200] Ah, ya, ok.

[00:27:22,460] Hay por ahí un cuadrado,

[00:27:25,140] hay otras como, no sé, la matriz

[00:27:27,200] de decisión, y hay otras cosas que

[00:27:29,359] van a decir, ah, este modelo está

[00:27:31,259] bien, o este modelo no.

[00:27:33,319] Por ejemplo, les voy a dar un ejemplo.

[00:27:36,000] Hay un modelo

[00:27:37,099] que se mide con el R cuadrado,

[00:27:39,000] que es un valor que de hecho me lo entrega Python,

[00:27:41,779] que son métricas

[00:27:43,519] para ver

[00:27:45,140] la efectividad del modelo. Entonces el R cuadrado

[00:27:47,599] me dio, no sé,

[00:27:49,220] 40%,

[00:27:50,819] ¿ya? Estamos hablando que es de 1 a

[00:27:53,400] 100, 40% como

[00:27:55,299] muy bajo.

[00:27:56,579] ¿Ya? No, este no es.

[00:27:59,160] ¿Ya?

[00:27:59,359] Capaz que yo tome ese mismo modelo,

[00:28:01,759] cambie la variable,

[00:28:03,119] y el modelo me dio 80%,


[00:28:05,579] ¿ya? Y ahí tengo

[00:28:07,400] una mejor exactitud

[00:28:09,619] del modelo.

[00:28:10,700] Y me quedo con el de 80%.

[00:28:13,200] ¿Ya? Cambié la variable y me quedo con el 80%.

[00:28:15,539] Ahora, si en algún modelo

[00:28:17,420] les da 99,9%,

[00:28:20,039] 999 periódico,

[00:28:22,500] el modelo está bien.

[00:28:24,119] No existe el modelo

[00:28:25,299] perfecto, ¿ya? Entonces cuando

[00:28:27,519] está

[00:28:27,960] está

[00:28:28,359] I muy ajustado,

[00:28:31,460] ¿ya? O sea, muy ahí,

[00:28:33,180] bueno, hay que aplicar técnicas para

[00:28:34,740] revisar si tengo un sobreajuste

[00:28:37,240] del modelo.

[00:28:39,099] Entonces, todo eso lo van a ver en las clases

[00:28:41,319] de estadística, y por eso yo les digo

[00:28:43,000] que todo esto que yo estoy contando ahora,

[00:28:45,819] ustedes después lo van a ver

[00:28:46,740] paso a paso. Y

[00:28:48,960] lo van a ir aplicando, ¿cierto? En el trabajo

[00:28:51,039] paso a paso. Pero

[00:28:53,039] hay métricas para medir los modelos.


[00:28:54,759] Así yo puedo decir, ah,

[00:28:56,759] después hago una tablita comparativa,

[00:28:58,359] y digo, ya, el R cuadrado en este modelo

[00:29:00,779] me dio tanto, en este otro me dio tanto,

[00:29:02,440] ¿qué variables ocupé? Y ahí puedo

[00:29:04,559] decidir

[00:29:05,519] qué variables ocupé, o sea, ¿qué modelo

[00:29:08,559] voy a ocupar?

[00:29:10,539] ¿Qué significa conceptualmente que un modelo

[00:29:12,420] está saturado o sobreajustado?

[00:29:14,559] Que está muy...

[00:29:17,220] Los datos,

[00:29:18,660] como decía yo, el R cuadrado en este

[00:29:20,440] caso, o sea, el resultado de las métricas

[00:29:22,500] que me miden el modelo, me da

[00:29:24,400] muy cerca al 100.

[00:29:26,380] ¿Ya?

[00:29:28,359] Entonces, si me da muy cerca al 100,

[00:29:30,619] algo está raro. ¿Ya?

[00:29:32,480] Porque no existe

[00:29:34,819] el modelo perfecto. Entonces, los datos están

[00:29:36,480] como muy preparados

[00:29:38,519] para que me salga lo que yo estoy buscando.

[00:29:41,579] Entonces, hay que revisar

[00:29:42,480] ahí qué puede estar pasando.

[00:29:44,579] ¿Ya? Eso es como


[00:29:45,940] técnica.

[00:29:49,140] Mucha mano en los datos.

[00:29:52,740] Ahí no entendí lo que dice

[00:29:54,640] Cristian.

[00:29:57,220] Eh...

[00:29:58,359] Un ejemplo

[00:30:01,140] de técnicas no gráficas.

[00:30:03,059] Describir los datos. Técnicas descriptivas.

[00:30:05,700] ¿Ya?

[00:30:11,299] Bueno, ahí el compañero

[00:30:12,960] lo está... ¿Qué es el Project Charter?

[00:30:14,799] La carta de proyecto, la carta Gano,

[00:30:16,819] la hoja de ruta. ¿Ya?

[00:30:22,180] Eh...

[00:30:22,619] Eso.

[00:30:23,420] Ya. Entonces, paso

[00:30:24,980] cinco. Primero, ¿cierto?

[00:30:27,519] Evalúo.

[00:30:28,359] Elijo las variables, elijo el modelo,

[00:30:30,680] ejecuto el modelo.

[00:30:32,279] ¿Ya? Eh... Como decía un compañero

[00:30:34,500] ahí, ¿cierto? Entreno el

[00:30:36,200] entrenamiento. Los modelos se entrenan

[00:30:38,500] y después se

[00:30:39,339] ejecutan, ¿cierto? Y por eso yo separo

[00:30:42,420] los datos. La separación de los datos


[00:30:44,339] puede ser 70-30, 80-20.

[00:30:47,240] ¿Ya? Con 80%

[00:30:48,619] de los datos yo entreno el modelo y

[00:30:50,259] después lo pruebo con los otros

[00:30:51,700] 20% que me quedó.

[00:30:54,119] ¿Ya? Para saber si estos datos,

[00:30:56,259] ¿cierto? Me dan...

[00:30:58,200] eh... correcto a los que están

[00:31:00,220] acá. De ahí ya...

[00:31:02,019] Entonces tiene dos partes, eh...

[00:31:05,180] la ejecución del modelo.

[00:31:06,819] Y después ya vienen

[00:31:08,039] comparaciones de qué modelo es

[00:31:10,140] mejor y con cuál modelo me voy a quedar.

[00:31:12,779] ¿Ok?

[00:31:14,180] Ya. Ese es el paso

[00:31:16,240] cinco.

[00:31:19,240] Y después

[00:31:20,059] el paso seis.

[00:31:22,579] Que no por ser el último

[00:31:24,079] es el menos importante. Por lo menos para

[00:31:26,079] mí es el más importante. Porque

[00:31:28,059] aquí yo siempre digo,

[00:31:30,240] si estuve, no sé,

[00:31:32,380] un mes haciendo

[00:31:33,980] análisis de datos, me quemé las pestañas


[00:31:36,220] para hacer lo que

[00:31:38,220] el cliente me pidió.

[00:31:40,059] ¿Ya? Construí un modelo muy bueno,

[00:31:42,599] ¿ya? Que da muy buenos

[00:31:44,079] resultados,

[00:31:45,599] que la gente que lo ha visto lo encuentra

[00:31:47,980] bien, ¿cierto? Nos va a ayudar mucho.

[00:31:50,759] Pero si después

[00:31:51,839] yo presento los resultados al cliente

[00:31:54,319] que no sabe

[00:31:55,960] Python, no sabe R, no está

[00:31:58,039] ística por ahí, ¿ya?

[00:32:00,019] Y no sabe de modelos de Machine Learning,

[00:32:02,279] ¿ya? Entonces yo lo tengo que

[00:32:04,000] presentar de una forma que el cliente

[00:32:06,119] entienda, ¿ya? Y aquí está

[00:32:07,980] el punto claro. Porque si yo todo

[00:32:09,980] el trabajo que hice no lo muestro

[00:32:12,200] de una manera de

[00:32:14,059] eh

[00:32:15,480] conquistar al cliente, ¿ya? O hacerlo

[00:32:18,019] transparente, hacerlo de una

[00:32:20,079] manera

[00:32:20,440] no dinámica, sino que de una manera clara,

[00:32:24,839] ¿ya? Eh

[00:32:25,759] ahí tenemos un problema.


[00:32:28,039] ¿Ya? Si no lo hacemos así porque a lo mejor

[00:32:30,000] no nos van a creer, ¿ya?

[00:32:32,900] A prueba de diputados.

[00:32:34,299] ¿Ya?

[00:32:36,559] Entonces, eh

[00:32:37,599] presentar los resultados

[00:32:39,779] y, bueno, si es necesario, en

[00:32:41,960] algunos casos, quieren un

[00:32:44,019] modelo para una vez. En otros casos

[00:32:45,839] quieren un modelo para estar ejecutándolo siempre.

[00:32:47,900] Entonces, si lo van a estar ejecutando siempre,

[00:32:50,240] bueno, hay que automatizarlo, ¿ya?

[00:32:52,140] ¿De dónde me traje los datos?

[00:32:53,839] ¿Me tendrán que dejar los datos de manera automática?

[00:32:55,839] Después el modelo se tendrá que ejecutar a

[00:32:57,819] cierto tiempo, ¿ya?

[00:33:00,180] Eh, y por eso yo pongo acá,

[00:33:01,980] es posible que todavía tengamos que convencer

[00:33:03,900] a los interesados de que los resultados

[00:33:05,740] realmente cambiarán el proceso

[00:33:07,880] de negocio tal como se esperaba, ¿ya?

[00:33:10,160] O sea, si yo hice un modelo

[00:33:11,960] predictivo, ¿ya? Que dijo

[00:33:13,940] que iba a tener que comprar,

[00:33:16,140] no sé, la Barbie Malibú,

[00:33:18,339] eh, no sé, cinco


[00:33:19,799] mil...

[00:33:20,000] unidades porque eso es lo que se vende

[00:33:21,680] pero él dice que es la

[00:33:24,119] Barbie Hawaii la que más se vende

[00:33:25,680] bueno nosotros se lo vamos a demostrar

[00:33:27,920] pero con dos

[00:33:28,579] y hoy día menos

[00:33:31,920] antes era más, la resistencia

[00:33:34,220] a creer que esto era como

[00:33:35,640] real

[00:33:37,779] así como no, pero si yo llevo

[00:33:39,920] años trabajando en la empresa y esto

[00:33:41,920] siempre ha sido así y siempre hemos tenido estos números

[00:33:44,079] bueno pero nosotros le estamos diciendo

[00:33:45,900] a lo mejor corroborando lo que dicen

[00:33:48,039] o diciéndole otra cosa

[00:33:49,859] pero con datos

[00:33:51,480] entonces

[00:33:53,319] aquí lo importante

[00:33:57,880] es cómo presento yo los resultados

[00:33:59,440] en la presentación es donde yo

[00:34:01,940] me juego, si me compran

[00:34:04,059] o no me compran, me creen o no me creen

[00:34:05,660] la fase

[00:34:08,000] de entrenamiento de los modelos o algoritmos

[00:34:09,760] es extensa o depende netamente de los recursos


[00:34:12,000] gráficos, potencias, hardware

[00:34:13,400] lo que pasa es que va a depender

[00:34:17,559] de

[00:34:18,519] la cantidad de datos

[00:34:20,860] también depende un poco del hardware

[00:34:22,940] ¿cierto? recursos gráficos

[00:34:24,940] no, no porque estamos ejecutando

[00:34:27,260] un modelo

[00:34:27,800] a no ser que estemos ejecutando un modelo que procese

[00:34:30,940] imágenes, pero en general

[00:34:32,619] yo siempre cuando hablo de modelos pienso en los datos

[00:34:35,079] numéricos y

[00:34:37,059] letras, números y letras

[00:34:40,719] aquí es donde Storytelling

[00:34:45,179] juega un rol, correcto

[00:34:47,699] muy buena

[00:34:48,400] para eso también

[00:34:50,480] tienen clases de Storytelling, adivinen que

[00:34:52,400] ¿ya?

[00:34:54,619] así que ahí

[00:34:55,820] hacemos una clase de Storytelling con datos

[00:34:58,300] Storytelling with Data o Data Storytelling

[00:35:00,699] para que

[00:35:02,000] cuando ustedes hagan su presentación final

[00:35:04,840] lo hagan ¿cierto?

[00:35:08,340] con los tips que les vamos a dar


[00:35:10,539] así que su respuesta

[00:35:12,639] Gustavo es sí y va a tener una clase

[00:35:14,539] ¿ya?

[00:35:16,639] ¿qué tengo que considerar?

[00:35:18,400] lo que hablábamos en la clase

[00:35:21,480] no avanzo

[00:35:22,880] de manera lineal

[00:35:25,079] del paso uno al paso seis

[00:35:26,900] puede que yo me devuelva

[00:35:29,019] en algún paso

[00:35:48,400] get well

[00:36:02,900] vamos a thor

[00:36:04,420] vamos a poner un par

[00:36:07,320] desde después

[00:36:09,880] ser usado

[00:36:11,980] para el

[00:36:14,300] creo que

[00:36:16,559] unaINA

[00:36:16,639] ubicación

[00:36:17,099] empleando

[00:36:17,500] leer y

[00:36:18,039] dibujado

[00:36:18,400] el paso 1 al paso 6.

[00:36:19,639] Y de ahí se quedó pegado.

[00:36:22,800] Entonces, no es lineal.

[00:36:24,400] Podemos volver atrás


[00:36:25,519] en cualquier parte del proceso.

[00:36:29,840] Ya sea que estoy en el modelo

[00:36:31,800] o estoy en la preparación de los datos.

[00:36:37,960] CRISP DM permite volver, ¿cierto?

[00:36:41,239] Por lo tanto, no es lineal.

[00:36:43,139] Si va todo bien,

[00:36:44,199] entonces voy del 1 al 6, ¿cierto?

[00:36:45,699] Todo maravilloso.

[00:36:46,420] Pero eso nunca pasa.

[00:36:48,400] Siempre algo tenemos que ir a buscar atrás, ¿cierto?

[00:36:51,659] Y eso nos va no a retrasar,

[00:36:53,980] sino que a cambiar los tiempos del proyecto.

[00:36:56,139] ¿Ok?

[00:36:57,980] Bueno, también pueden nacer nuevos proyectos,

[00:37:00,380] como lo hemos conversado, ¿cierto?

[00:37:03,420] Nuevos Insights.

[00:37:09,199] Nuevos Insights, ¿cierto?

[00:37:11,500] Y esos van a ser nuevos proyectos, ¿ya?

[00:37:14,760] Y, bueno, también dividir el proyecto

[00:37:20,420] en etapas más pequeñas permite, ¿cierto?

[00:37:23,039] Que haya trabajo juntos en equipo, ¿ya?

[00:37:26,340] Tener en cuenta que un especialista, como hablábamos,

[00:37:29,780] no lo hace todo.

[00:37:31,019] Que hay que trabajar en equipo para

[00:37:32,760] para los que saben de números,

[00:37:37,920] para los que saben del negocio


[00:37:39,420] y para los que saben programar.

[00:37:41,559] Entonces, estos son proyectos,

[00:37:44,559] son proyectos multidisciplinarios

[00:37:46,039] donde yo tengo personas de distintos conocimientos, ¿ya?

[00:37:50,980] Idealmente.

[00:37:52,179] Puede que, por ejemplo,

[00:37:54,119] me ha tocado atender clientes donde hago yo todo.

[00:37:57,900] Ya desde tomar el requerimiento,

[00:37:59,739] tener los datos, limpiar los datos,

[00:38:02,360] generar el modelo y después presentarlo.

[00:38:04,860] ¿Ya?

[00:38:05,260] Es como puede ser.

[00:38:07,739] ¿Ok?

[00:38:09,199] Ya.

[00:38:11,019] Eso era la clase de la semana anterior.

[00:38:14,559] De la semana.

[00:38:16,019] Del día mar.

[00:38:21,420] ¿Ya?

[00:38:22,079] Y, bueno, ahí venían los próximos pasos.

[00:38:25,719] Y hasta ahí llegaba la clase.

[00:38:27,219] ¿Ya?

[00:38:27,460] Eso fue lo que nos faltó.

[00:38:29,679] Lo que no se vio, ¿cierto?

[00:38:31,840] En la clase anterior.

[00:38:34,420] Ok.

[00:38:35,099] Entonces, para que no perdamos el hilo,


[00:38:37,019] vamos al tiro con la siguiente.

[00:38:40,980] ¿Ok?

[00:38:44,559] Ya.

[00:38:47,420] Esta clase estaba preparada para hacer un repaso

[00:38:50,780] de lo que habíamos visto.

[00:38:52,380] ¿Ya?

[00:38:52,599] Porque vimos cómo abordar un proyecto,

[00:38:55,159] vimos diferentes metodologías

[00:38:56,780] y revisamos, ¿cierto?

[00:38:57,960] La metodología de los seis pasos.

[00:39:01,219] Y aquí es un poco el recordatorio.

[00:39:04,019] O sea, que hablamos de cómo abordamos

[00:39:07,119] un proyecto de ciencia de arte.

[00:39:09,739] No me tengo que preocupar primero

[00:39:11,820] de los aspectos técnicos,

[00:39:12,920] sino que entender el dolor del cliente.

[00:39:14,179] ¿Ok?

[00:39:14,519] ¿Ok?

[00:39:14,539] ¿Ok?

[00:39:14,559] Y entender qué datos tiene el cliente

[00:39:17,079] para responder a eso.

[00:39:18,679] Y, bueno, no todos los proyectos son iguales, ¿cierto?

[00:39:22,320] No todos siguen el mismo patrón.

[00:39:23,820] Yo los voy a tener que ir adaptando

[00:39:25,039] dependiendo del cliente.

[00:39:27,920] Vimos lo que más gusta y lo que menos gusta


[00:39:29,820] según una encuesta, ¿cierto?

[00:39:31,159] Y ahora vimos con el paso tres,

[00:39:33,920] donde está la limpieza, la transformación, ¿cierto?

[00:39:36,599] De los datos, que ese es el paso

[00:39:38,500] donde yo más me demoro

[00:39:39,760] porque tengo muchas cosas que validar.

[00:39:43,800] Y después pasado eso,

[00:39:47,820] ya después construir, modelar,

[00:39:50,179] ya no es tanto el tiempo que me toca.

[00:39:54,980] Y, bueno, vimos tres metodologías

[00:39:57,800] que era KDDS, MAC, CRISP,

[00:40:00,539] y las que no nombré en la clase pasada

[00:40:02,159] que eran ASUM, DM y DMAC.

[00:40:05,519] ¿Ya?

[00:40:07,840] Esas por mencionar algunas.

[00:40:09,400] Existen más, ¿ya?

[00:40:10,739] Pero estamos hablando de que CRISP

[00:40:13,159] en general es la clasificación de los datos.

[00:40:13,780] Esa es la que más se usa.

[00:40:16,639] Bueno, ahí vimos cuál era la que más se usaba, ¿cierto?

[00:40:19,400] Y el recordatorio de la metodología de los seis pasos.

[00:40:25,780] ¿Ya?

[00:40:26,380] Vimos algún tipo de pregunta también.

[00:40:29,900] ¿Ya?

[00:40:30,719] Y partimos con la clase de hoy.

[00:40:33,400] ¿Ya qué vamos a ver hoy?


[00:40:34,639] CRISP ML.

[00:40:36,019] O sea, ya vimos CRISP DM, ¿ok?

[00:40:39,360] CRISP DM de Data Mining

[00:40:41,159] que tiene ciertos seis pasos.

[00:40:43,780] Que los vimos claramente.

[00:40:46,239] Vamos a ver lo del trabajo en grupo.

[00:40:48,880] Y si alcanzamos,

[00:40:50,400] vamos a armar salas para que

[00:40:51,980] o nos podemos quedar acá todos, ¿cierto?

[00:40:54,739] Y si tienen más preguntas sobre el trabajo,

[00:40:57,219] lo podemos ver.

[00:40:58,239] ¿Ya?

[00:40:59,599] Entonces,

[00:41:01,300] esto es bien reciente.

[00:41:03,699] ¿Ya?

[00:41:04,539] El CRISP ML

[00:41:07,179] viene en el 2021, ¿no?

[00:41:09,900] ¿Por qué?

[00:41:10,619] Porque es un CRISP para

[00:41:12,260] eh...

[00:41:13,780] proyectos, ¿ya?

[00:41:15,800] De Machine Learning.

[00:41:16,960] Entonces,

[00:41:18,260] eh...

[00:41:19,000] se está tratando de establecer un modelo

[00:41:20,880] o un proceso estándar


[00:41:21,980] para hacer estos desarrollos.

[00:41:23,840] Ojo que CRISP DM

[00:41:24,760] lo hizo para Data Mining.

[00:41:26,900] ¿Ya?

[00:41:27,099] Pero cuando hablamos de Machine Learning

[00:41:28,639] ya estamos hablando de más cosas.

[00:41:30,239] Por lo tanto,

[00:41:31,360] ¿cierto?

[00:41:31,679] Ahí viene un poco,

[00:41:32,860] lo vamos a ver ahora,

[00:41:33,699] que se empieza a mezclar

[00:41:34,719] eh...

[00:41:37,079] CRISP

[00:41:37,679] con Scrum.

[00:41:39,159] ¿Cierto?

[00:41:39,400] Todo con métodos.

[00:41:40,000] de la tecnología ágil.

[00:41:42,260] Muchos proyectos de aprendizaje y ciencia

[00:41:44,139] de datos todavía no están bien organizados,

[00:41:45,900] los resultados no son reproducibles, en general

[00:41:47,619] estos proyectos se llevan a cabo de manera ad hoc.

[00:41:50,219] O sea,

[00:41:51,699] esto sigue siendo así.

[00:41:54,500] Es muy

[00:41:55,420] para esa empresa,

[00:41:57,619] porque esa empresa tiene un sistema que


[00:41:59,739] entrega los datos, tiene a la señora

[00:42:01,940] Juanita que calcula las liquidaciones a mano

[00:42:04,079] y entonces las liquidaciones son un Excel.

[00:42:07,159] Tienen que bajar

[00:42:08,059] otras cosas del servicio de impuesto interno

[00:42:09,579] porque no tiene los datos, entonces

[00:42:11,099] hay que hacer algo customizado para ese cliente.

[00:42:14,420] Tengo otro cliente que tiene

[00:42:15,760] todos los sistemas y

[00:42:17,780] tiene un data warehouse, por lo tanto los datos

[00:42:19,619] ya están limpios, yo voy y los capturo,

[00:42:22,179] hago mi análisis exploratorio,

[00:42:23,940] veo qué variables voy a ocupar y hago el modo.

[00:42:26,239] ¿Ya?

[00:42:27,460] Entonces, bueno, recientemente

[00:42:30,000] porque es del 2021, ¿cierto?

[00:42:31,719] Se habló de

[00:42:32,920] CRISML.

[00:42:34,920] CRISML.

[00:42:35,739] CRISML tiene

[00:42:36,780] otras fases

[00:42:38,800] que nacen de CRISDM,

[00:42:41,139] ¿ya? Y la

[00:42:42,900] diferencia aquí es lo que hablábamos

[00:42:44,980] de agilidad, ¿ya? Los

[00:42:46,639] iterativos
[00:42:48,699] y exploratorios, ¿ya?

[00:42:50,679] Iterativos según

[00:42:52,719] esta imagen, ¿ya?

[00:42:56,199] Fíjense

[00:42:56,840] que acá abajo, ¿cierto?

[00:42:58,739] Yo tengo

[00:42:59,539] el entendimiento del negocio y de

[00:43:02,679] los datos. Esto lo junta

[00:43:05,000] en una sola fase,

[00:43:07,219] pero aquí, ¿cierto?

[00:43:08,800] Viene una idea,

[00:43:11,320] un caso de uso que yo

[00:43:12,719] quiero resolver, ¿ok?

[00:43:14,679] Y después la construcción.

[00:43:17,400] La construcción

[00:43:18,760] de ese caso de uso

[00:43:20,400] y después que aplico

[00:43:23,059] para ese caso de uso,

[00:43:24,860] después lo aplico, ¿cierto? Hago

[00:43:26,559] un modelo para todo, ¿ya?

[00:43:29,019] Hago un modelo donde

[00:43:30,699] acá, ¿cierto? Está el

[00:43:32,340] data engineer,

[00:43:34,039] el que modela,

[00:43:35,780] el que evalúa el modelo,

[00:43:38,179] ¿cierto? La verificación,


[00:43:38,800] la verificación

[00:43:39,119] y después la operación.

[00:43:42,739] Porque a diferencia

[00:43:44,500] de cuando yo hago un modelo

[00:43:45,860] que se va a ejecutar una vez,

[00:43:48,579] ¿ya? Cuando estamos hablando de

[00:43:50,119] Chris ML, Chris ML piensa en

[00:43:52,340] este modelo se tiene que mantener en el

[00:43:54,380] tiempo, ¿ya? Entonces

[00:43:56,300] por ejemplo, si en un modelo no teníamos

[00:44:00,679] no incluíamos las ventas online

[00:44:04,159] porque en realidad era muy poca,

[00:44:06,000] ya esa empresa casi no vendía

[00:44:08,059] online,

[00:44:08,800] después de la pandemia se tuvo que

[00:44:10,840] modificar el modelo y agregar las

[00:44:12,659] ventas online, ¿ya? Entonces

[00:44:14,380] el modelo es algo vivo, algo

[00:44:16,780] que puede ir cambiando, por lo tanto

[00:44:18,739] ¿cierto? Tiene que haber una

[00:44:20,420] mantención de ese modelo, puede

[00:44:22,739] irse modificando,

[00:44:24,440] agregando más columnas

[00:44:26,679] o quitando cosas que ya no aplica,

[00:44:28,760] ¿ya? Entonces esa es como

[00:44:30,000] la operación del modelo,


[00:44:33,079] ¿ya? En Chris DM

[00:44:34,559] teníamos que la última era el despliegue, o sea,

[00:44:36,599] ya lo dejé en producción ejecutado,

[00:44:38,800] ¿ya? Pero aquí viene una preocupación

[00:44:40,840] por la operación.

[00:44:44,340] Entonces,

[00:44:45,380] tiene seis fases, ¿cierto?

[00:44:47,219] Comprensión de negocio y datos,

[00:44:48,920] ingeniería de datos, o sea, la preparación,

[00:44:51,880] ingeniería de modelos

[00:44:52,980] de aprendizaje automático,

[00:44:55,239] y porque dice de modelos, porque

[00:44:56,780] evalúo más de uno,

[00:44:59,239] garantía de calidad para aplicaciones

[00:45:01,139] de aprendizaje automático,

[00:45:03,039] el despliegue y después supervisión

[00:45:05,099] y mantenimiento, ¿ok?

[00:45:07,639] Entonces, para

[00:45:08,559] cada una de estas fases, ¿ya?

[00:45:10,579] El enfoque que da Chris ML

[00:45:12,840] requiere la definición de requisitos

[00:45:14,719] y restricciones, ¿ok?

[00:45:16,500] Por ejemplo, rendimiento

[00:45:18,760] es un requisito

[00:45:20,539] de calidad, robustez del modelo,

[00:45:22,719] o sea, yo puedo establecer ciertos parámetros.


[00:45:27,800] Selecciono

[00:45:28,420] los algoritmos de Machine Learning,

[00:45:30,400] tengo que hacer capacitación de eso también,

[00:45:33,119] tengo que especificar los riesgos

[00:45:34,519] que tiene, ¿ya? Usar este

[00:45:36,519] modelo, por ejemplo, si yo detecto

[00:45:38,480] que tengo muchos valores atípicos

[00:45:40,179] y que son correctos, o sea,

[00:45:42,460] si están

[00:45:43,920] dentro de lo posible, pero son atípicos

[00:45:46,559] porque están fuera, ¿cierto?

[00:45:47,980] De mi

[00:45:48,659] cuadrante central,

[00:45:52,199] entonces

[00:45:52,719] es un riesgo

[00:45:56,059] porque esos valores atípicos podrían ir

[00:45:58,119] aumentando con el tiempo. Entonces,

[00:46:00,460] ese tipo de cosas lo tengo que ir

[00:46:02,119] definiendo como riesgo, ¿ya?

[00:46:04,500] Entonces, si lo viéramos como

[00:46:06,480] un flujo,

[00:46:08,480] empezamos con

[00:46:09,800] Chris ML, definimos los

[00:46:12,300] requerimientos,

[00:46:14,519] iniciamos

[00:46:15,239] paso a paso las tareas, identificamos


[00:46:18,420] los riesgos, ¿cierto?

[00:46:20,920] Y vemos

[00:46:22,380] si

[00:46:22,840] los podemos mitigar, qué alternativas

[00:46:26,719] tenemos de modelos

[00:46:28,480] para aplicar, ¿ok?

[00:46:30,199] Entonces, con esto garantizamos la calidad

[00:46:32,460] para cada una de las seis fases.

[00:46:34,219] Este ciclo se repite para cada una de las

[00:46:36,300] seis fases, ¿ok?

[00:46:38,480] Y,

[00:46:40,760] ya, durante la fase de ingeniería,

[00:46:44,079] ya está lo que nosotros hablábamos hace

[00:46:46,000] un rato de la selección, limpieza,

[00:46:48,300] ingeniería de características y

[00:46:49,639] estandarización de datos, ¿ya? Aquí

[00:46:51,579] todo esto es parte de

[00:46:54,199] el paso número tres en

[00:46:56,000] Chris DM, donde vemos

[00:46:57,199] la limpieza, la

[00:46:59,940] transformación de los datos,

[00:47:02,139] si necesito

[00:47:04,460] nuevos datos, ¿ya?

[00:47:05,719] Todo eso va en la ingeniería.

[00:47:08,480] Y también va la identificación

[00:47:10,000] de características valiosas, ¿ya?


[00:47:12,239] O sea, oye, ¿cuáles son las variables

[00:47:13,760] que yo ya estoy visualizando que me van a servir?

[00:47:16,559] ¿Ya? Para futuros modelos.

[00:47:19,800] Y ahí yo puedo hacer filtro

[00:47:20,940] y por eso vuelvo a repetir que es bueno

[00:47:22,920] que tengamos, ojalá, más de diez variables.

[00:47:25,519] ¿Ya?

[00:47:27,280] Seleccionamos los datos, descartando

[00:47:28,739] muestras que no cumplen con los requisitos

[00:47:30,719] de calidad de datos. En este punto también

[00:47:32,880] podríamos abordar el problema de las clases

[00:47:34,860] desequilibradas, aplicando estrategias

[00:47:36,960] de sobremuestreo o

[00:47:38,239] desequilibro.

[00:47:38,480] ¿Ya? ¿A qué nos referimos con eso?

[00:47:41,159] Por ejemplo, yo tengo datos

[00:47:42,559] y en esos datos

[00:47:44,599] pensemos mujeres y hombres, ¿ya?

[00:47:47,320] Tengo un

[00:47:48,599] 30%

[00:47:51,400] de hombres

[00:47:52,880] y un 70% de mujeres.

[00:47:55,480] Entonces, si yo hago un análisis

[00:47:57,139] ¿ya?

[00:47:58,920] por el sexo de las personas, voy a tener

[00:48:01,380] que tengo más mujeres


[00:48:03,440] que hombres, claramente va a estar desbalanceado.

[00:48:05,980] Entonces, hay técnicas que se pueden hacer

[00:48:08,360] pero no son las que se pueden hacer

[00:48:08,480] para equilibrar los datos

[00:48:09,820] y así que los resultados

[00:48:12,500] sean más representativos, ¿ya?

[00:48:14,139] Porque si no, 70%

[00:48:16,420] de mujeres, ¿cierto? Va a opacar

[00:48:18,400] al 30% de los hombres

[00:48:20,280] en las modas.

[00:48:22,960] Ok.

[00:48:28,420] ¿Cómo las ponderaciones?

[00:48:30,179] ¿A qué se refiere con las ponderaciones

[00:48:32,039] Yale?

[00:48:38,480] ¿Cómo se entrena el modelo?

[00:48:42,900] ¿Cómo se entrena el modelo?

[00:48:45,360] Lo van a ver cuando vean

[00:48:47,000] los videos.

[00:48:48,559] Pero básicamente ejecutándolo.

[00:48:51,159] Ejecutando el modelo que ustedes

[00:48:52,840] eligieron con los datos

[00:48:54,760] y observando los resultados.

[00:48:56,940] Y ahí se puede ir cambiando las variables

[00:48:59,280] en la forma de entrenar el modelo.

[00:49:01,440] ¿Ya?

[00:49:02,639] Ok. Bueno, como hablábamos


[00:49:04,980] la tarea de limpiar

[00:49:06,099] ya corregir errores,

[00:49:08,480] tenemos que agregar

[00:49:11,820] pruebas unitarias

[00:49:13,039] para estos datos.

[00:49:16,340] ¿Ya? O sea, ahí tenemos que ir viendo

[00:49:17,900] para cada columna.

[00:49:21,059] Eso se refiere con pruebas unitarias.

[00:49:23,860] ¿Y cómo vamos a mitigar

[00:49:25,440] esos riesgos? ¿Ya?

[00:49:27,440] Para que no nos impacten

[00:49:29,079] en la siguiente fase que voy a hacer.

[00:49:31,000] O sea, por ejemplo, si yo voy a dejar los valores

[00:49:32,840] atípicos, porque son válidos y porque

[00:49:34,920] los necesito, ojo con los valores

[00:49:37,440] que me van a salir en la siguiente fase.

[00:49:38,460] Cuando yo haga el modelo.

[00:49:41,199] ¿Por qué? Porque el resultado

[00:49:43,340] de eso podría estar

[00:49:44,519] sujeto, ¿cierto? A estos valores

[00:49:47,579] que son atípicos.

[00:49:50,179] ¿Ok?

[00:49:55,000] Bueno, ahí tenemos codificación, agrupación,

[00:49:58,099] discretización de atributos

[00:49:59,199] continuos, etc.

[00:50:00,000] Ariel dice para contextualizarme


[00:50:03,119] Chris DM de DataMine

[00:50:04,340] mientras Chris ML de Machine Learning

[00:50:07,380] lo dije al principio

[00:50:10,380] ¿ya?

[00:50:12,920] ok

[00:50:13,559] las tareas de estandarización

[00:50:16,559] de datos denota el proceso

[00:50:21,079] de unificación de los datos

[00:50:22,980] de entrada

[00:50:23,500] de las herramientas que tenemos de

[00:50:26,739] Machine Learning para evitar los riesgos

[00:50:29,300] de datos erróneos

[00:50:30,480] la tarea de normalización va a mitigar

[00:50:33,159] el riesgo de sesgo hacia las

[00:50:35,019] características a mayor escala

[00:50:36,659] yo podría tener datos sesgados

[00:50:38,599] como el ejemplo que yo estaba dando

[00:50:40,059] construimos flujos de transformación

[00:50:42,659] y datos de entrada para el

[00:50:44,420] preprocesamiento de los datos y la creación

[00:50:46,739] de características para garantizar

[00:50:48,619] no sé por qué puse palabras

[00:50:50,860] tan difíciles aquí

[00:50:51,940] reproducibilidad de la aplicación

[00:50:54,340] de Machine Learning durante esta fase

[00:50:56,260] o sea que yo pueda


[00:50:57,880] ejecutar esa fase para distintos datos

[00:51:01,099] en el futuro

[00:51:01,719] ¿ya?

[00:51:02,780] y que siempre vaya cumpliendo con la calidad

[00:51:05,099] que yo espero de los datos

[00:51:06,980] la supervisión y el mantenimiento

[00:51:11,039] que es como lo nuevo que traería

[00:51:13,119] esta metodología

[00:51:17,460] una vez que el modelo ya está en producción

[00:51:19,599] tenemos que supervisarlo

[00:51:21,500] tenemos que ver cuál es su rendimiento

[00:51:23,219] ¿ya?

[00:51:24,039] para poder hacer una mantención cuando corresponda

[00:51:27,460] ¿ok?

[00:51:27,880] ¿por qué?

[00:51:28,420] porque estamos tomando datos

[00:51:30,320] en este

[00:51:31,500] más que datos

[00:51:33,940] estamos tomando información en este minuto

[00:51:36,099] si uso palabras rebuscadas

[00:51:39,519] porque uso chat GPT

[00:51:40,539] no, uso súper poco chat GPT

[00:51:43,019] justamente por eso

[00:51:44,139] porque me da palabras como digo yo

[00:51:47,139] rimbombadas

[00:51:48,019] ¿ya?
[00:51:49,280] después voy a responder su consulta a Gustavo

[00:51:51,980] voy a terminar aquí con supervisión y mantenimiento

[00:51:54,360] ok

[00:51:56,079] entonces tenemos

[00:51:57,179] ¿ya?

[00:51:57,880] que los datos son del mundo real

[00:52:02,960] entonces si el mundo real cambia

[00:52:04,639] ¿ya?

[00:52:05,860] tengo que a lo mejor cambiar algo en mi modelo

[00:52:08,039] como el ejemplo que yo les daba de las

[00:52:09,780] compras en línea

[00:52:11,699] ¿ya?

[00:52:13,219] el principal riesgo de un modelo

[00:52:15,059] que está funcionando en producción

[00:52:16,420] es que quede obsoleto

[00:52:17,619] ¿ya?

[00:52:18,579] y eso pasa

[00:52:19,380] y me ha pasado con clientes que dicen

[00:52:21,219] no, es que implementamos este modelo

[00:52:23,199] pero creemos que ya no sirve

[00:52:24,579] porque no nos está dando resultados

[00:52:26,880] no nos está dando resultados

[00:52:27,380] estamos haciendo lo que nos dice el modelo

[00:52:30,199] pero no nos está dando resultados

[00:52:31,940] entonces uno va a ver y tiene no sé

[00:52:34,219] el valor del dólar en 400 pesos


[00:52:37,099] que claramente ya no es

[00:52:39,300] ya no lo dejaron paramétrico

[00:52:41,139] lo dejaron fijo

[00:52:42,019] entonces claramente ya el modelo está obsoleto

[00:52:44,480] entonces muchas veces el modelo se hace de nuevo

[00:52:47,079] o

[00:52:48,079] se toma ese modelo y se modifica

[00:52:50,579] ok

[00:52:51,420] el rendimiento del modelo se ve afectado

[00:52:57,000] por el rendimiento del hardware

[00:52:58,239] y del software existente

[00:52:59,579] ¿ya?

[00:53:00,599] ¿por qué?

[00:53:01,179] porque a medida que tenemos más datos

[00:53:02,760] ¿cierto?

[00:53:03,519] el rendimiento puede cambiar

[00:53:04,880] ¿ya?

[00:53:06,159] a lo mejor no tengo

[00:53:07,400] una gran máquina para ir ejecutando

[00:53:10,260] y el software que tengo

[00:53:12,239] a lo mejor me voy a quedar corto con

[00:53:13,880] R o con Python

[00:53:15,440] entonces

[00:53:15,880] ¿qué más necesito para hacer?

[00:53:18,340] ¿ya?

[00:53:19,019] la mejor práctica para evitar la caída


[00:53:21,460] del rendimiento del modelo

[00:53:22,739] es realizar la tarea de monitore

[00:53:24,199] cuando el rendimiento del modelo se evalúa

[00:53:26,760] continuamente para decidir si el modelo

[00:53:28,460] necesita ser reentrenado

[00:53:30,679] o sea cuando las métricas del modelo

[00:53:32,599] no me están dando lo que yo espero

[00:53:34,880] entonces a ver

[00:53:36,320] algo está pasando aquí

[00:53:37,579] algún dato cambió

[00:53:38,780] entonces tengo que ver

[00:53:39,820] si agrego una variable

[00:53:41,760] y lo reentreno

[00:53:42,820] ¿cierto?

[00:53:43,320] para obtener mejores resultados

[00:53:45,559] todo esto se conoce como el patrón de evaluación

[00:53:49,119] continua del modelo

[00:53:50,059] ya finalmente es el monitoreo

[00:53:52,320] ya los que

[00:53:53,099] conocemos más de temas de sistema

[00:53:55,280] ¿cierto?

[00:53:55,780] cuando

[00:53:56,760] nosotros tenemos un sistema en producción

[00:54:01,079] ¿ya?

[00:54:02,440] generalmente hay áreas que

[00:54:03,699] que hacen el mantenimiento


[00:54:07,719] de repente hoy el sistema tanto

[00:54:09,400] va a entrar en mantenimiento

[00:54:10,900] el viernes en la noche

[00:54:12,639] entonces nadie se va a poder conectar

[00:54:14,179] ¿por qué van a hacer?

[00:54:15,780] entonces

[00:54:16,300] ¿por qué?

[00:54:17,340] es porque están monitoreando

[00:54:18,519] la idea de monitorear

[00:54:20,239] ¿cierto?

[00:54:21,079] no es que el sistema

[00:54:22,079] se caiga

[00:54:24,539] ¿ya?

[00:54:24,980] es como vamos en el auto

[00:54:26,159] ¿cierto?

[00:54:26,460] ¿cierto?

[00:54:26,480] ¿cierto?

[00:54:26,500] ¿cierto?

[00:54:26,519] ¿cierto?

[00:54:26,539] ¿cierto?

[00:54:26,559] ¿cierto?

[00:54:26,579] ¿cierto?

[00:54:26,599] ¿cierto?

[00:54:26,699] ¿cierto?

[00:54:26,760] ¿cierto?

[00:54:26,840] ¿cierto?
[00:54:30,119] y vemos que

[00:54:30,800] nos queda poca benzina

[00:54:31,760] ¿ya?

[00:54:33,019] pero si yo

[00:54:33,920] la verdad es que

[00:54:34,800] nunca miro el panel

[00:54:35,780] ¿ya?

[00:54:36,980] porque voy pensando

[00:54:37,699] en otra cosa

[00:54:38,179] porque voy hablando

[00:54:38,840] por teléfono

[00:54:39,500] no sé

[00:54:39,820] no estoy monitoreándolo

[00:54:42,360] entonces

[00:54:43,920] si no lo estoy monitoreando

[00:54:44,980] no puedo saber

[00:54:45,820] cuándo me voy a quedar

[00:54:46,599] en panel

[00:54:47,400] porque

[00:54:47,739] se me acabó la benzina

[00:54:50,039] ¿ya?

[00:54:51,239] entonces

[00:54:51,719] tengo que estar

[00:54:52,480] monitoreando

[00:54:53,340] ¿cierto?

[00:54:55,099] ¿cierto?
[00:54:55,199] ¿cierto?

[00:54:55,219] entonces

[00:54:56,760] Bueno, cuando se hace la tarea de monitoreo también hay una segunda tarea
que es actualizar el modelo. Si yo veo que tenemos problemas, entonces, bueno, tengo que
hacer algún cambio en el modelo.

[00:55:10,780] Y hay que ver si el caso de uso todavía, ¿cierto? Es el modelo de uso, el caso
de uso, el modelo todavía lo resuelve. O tal vez ahora queremos hacer otro caso de uso
porque ya ese no es el que está.

[00:55:28,780] Por ejemplo, si tenemos un caso de uso de los clientes que van a comprar
presencialmente, porque a todo esto, el tema de las compras online,

[00:55:37,380] no será tan...

[00:55:40,780] No será tanto como fue en pandemia, pero sigue siendo un porcentaje
bastante alto.

[00:55:44,940] Hay personas que me dicen, no, yo compro todo por Mercado Libre, compro
en Busca Libre, no sé, me compro ropa en Chain y casi nunca van al bar.

[00:55:56,059] Entonces, algo cambió ahí.

[00:55:59,400] Entonces, si yo ese caso de uso lo tenía implementado por un modelo para
las personas que van a las tiendas,

[00:56:05,480] entonces, bueno, ya creo que a lo mejor voy a aplicar un caso de uso que
sea...

[00:56:10,780] Para los clientes que compran online, ¿ya?

[00:56:14,179] El súper por internet lo mejor.

[00:56:16,219] Una aplicación ahí, Jumbo o Uber Eats, ¿cierto?

[00:56:21,480] Y podemos resolver el tema.

[00:56:24,780] Ya, si hago una comparación,

[00:56:26,860] ¿es factible que hagan ese tipo de modelos por separado?

[00:56:33,119] Sí, también es factible que se hagan por separado.

[00:56:35,539] Lo pueden hacer juntos.

[00:56:37,639] Todo depende, ¿ya?

[00:56:39,239] Aquí los que han trabajado consultoriamente,


[00:56:40,780] en la consultoría,

[00:56:42,539] se ríen cuando yo digo depende,

[00:56:44,039] porque es una respuesta típica de un consultor, ¿ya?

[00:56:47,099] Depende, porque dependen las variables,

[00:56:49,340] depende el modelo, depende el contexto.

[00:56:51,679] Lo tenemos que evaluar en el momento.

[00:56:55,159] Ya, comparaciones, entonces, tenemos CRIS ML y CRIS DM.

[00:56:58,900] ML de Machine Learning, DM de Data Mining.

[00:57:02,119] En CRIS DM tenemos entendimiento del negocio y entendimiento de los


datos.

[00:57:06,739] Y en CRIS ML lo que hace es juntar

[00:57:09,320] esas dos opciones.

[00:57:10,780] En una sola.

[00:57:11,780] En una sola.

[00:57:12,780] Ya.

[00:57:13,780] La preparación de los datos se mantiene, el modelado se mantiene,


evaluación, el deployment,

[00:57:18,539] ¿cierto?

[00:57:19,539] Pero lo que no tiene CRIS DM es el monitoreo y la mantención del modelo.

[00:57:24,840] Ahí viene como la gran diferencia de por qué está más enfocado en la
mantención del modelo.

[00:57:33,019] CRIS DM es como, oye, tenemos el modelo, aquí está el resultado.

[00:57:37,099] Y hasta ahí define CRIS DM.

[00:57:39,539] Ya.

[00:57:40,539] Entonces, no es todo.

[00:57:41,539] Hay que mantenerlo.

[00:57:42,539] Ya.
[00:57:43,539] Muchas empresas tienen, no sé, como modelos estándar.

[00:57:45,440] Entonces van, llegan a la empresa y dicen, mira, necesito tus datos de venta,
de esto,

[00:57:48,380] de lo otro.

[00:57:49,380] Y uno les entrega todos los datos.

[00:57:50,380] Y ellos los meten en su caja negra y sale un resultado.

[00:57:51,380] El problema de eso es que después, cada vez que queremos modificar el
modelo, tenemos

[00:57:52,380] que llamar a los amigos de la empresa para que nos hagan la adecuación.

[00:57:53,380] Ya.

[00:57:54,380] Por eso, ya que ya estamos en este momento, ya, digamos, en este momento,
ya tenemos los

[00:57:55,380] datos, ya tenemos la información, ya tenemos la información que tenemos


que usar.

[00:57:56,380] Ya tenemos los datos, ya tenemos la información que tenemos que usar.

[00:57:57,380] Ya tenemos la información, ya tenemos la información que tenemos que


usar.

[00:57:58,380] y sale un resultado.

[00:58:00,719] El problema de eso es que

[00:58:02,400] después cada vez que queremos modificar

[00:58:04,480] el modelo, tenemos que llamar a los amigos

[00:58:06,280] de la empresa para que nos hagan la

[00:58:08,340] adecuación. Por eso

[00:58:10,039] las áreas de analítica

[00:58:12,320] o de data science son como bien

[00:58:14,500] ad hoc a la empresa, porque

[00:58:16,300] no todos los

[00:58:18,500] negocios se manejan igual.


[00:58:20,000] aunque sean dos fancon, no van a funcionar

[00:58:22,480] exactamente igual, por lo tanto

[00:58:24,099] los modelos van a tener que ser

[00:58:26,139] customizados

[00:58:27,000] ok

[00:58:29,960] y eso era

[00:58:31,280] me puse acelerador y me fui pero

[00:58:34,179] muy rápido

[00:58:35,159] voy a ver las preguntas

[00:58:38,699] Juan dice, para ir

[00:58:40,239] entendiendo, ¿la minería de datos es más

[00:58:42,380] estática? ¿por lo que no

[00:58:44,400] es necesario actualizar el modelo

[00:58:46,340] a diferencia de Machine Learning?

[00:58:47,420] no, a ver, lo que pasa es que la minería

[00:58:50,500] de datos lo que me detecta son patrones

[00:58:52,480] patrones

[00:58:54,099] de cosas que se van repitiendo

[00:58:56,380] como yo decía

[00:58:57,179] la persona de sexo masculino

[00:59:00,579] que va al supermercado a comprar

[00:59:02,380] pañales, también compra cerveza

[00:59:04,619] encuentro ese tipo de

[00:59:06,480] patrones

[00:59:07,360] y

[00:59:10,900] Chris DM define


[00:59:13,300] que

[00:59:15,139] su ciclo termina

[00:59:17,360] cuando deja el

[00:59:18,880] modelo en producción

[00:59:20,239] y ese modelo podrá ejecutarse

[00:59:23,519] un montón de veces y los casos de uso

[00:59:25,420] siguen siendo válidos

[00:59:26,440] cuando hablamos de

[00:59:28,860] algoritmos de Machine Learning

[00:59:30,679] los algoritmos de Machine Learning que se ejecutan

[00:59:33,380] en minería, podríamos decir

[00:59:35,519] que minería de datos es un subconjunto

[00:59:37,619] de Machine Learning

[00:59:38,800] porque los modelos

[00:59:40,360] son modelos estadísticos

[00:59:43,659] modelos estadísticos de Machine Learning

[00:59:45,340] entonces no hay

[00:59:47,179] una

[00:59:47,360] diferencia de que sea estático y el otro dinámico

[00:59:49,400] no, la diferencia es que

[00:59:51,219] en Chris ML yo hago

[00:59:53,300] una mantención del modelo

[00:59:54,639] y en Chris DM no defino esa

[00:59:56,960] mantención ni monitoreo

[00:59:59,119] modelos

[01:00:01,539] de Data Mining que son más clásicos


[01:00:03,579] Josefa

[01:00:05,360] ayúdeme ahí, búsqueda de patrones

[01:00:08,719] ahí la Josefa me puede ayudar con eso

[01:00:12,820] mientras

[01:00:14,480] Josefa ahí busca en su red neuronal

[01:00:17,179] Gustavo, ¿qué pregunta tiene?

[01:00:20,219] Hola profe, sí

[01:00:21,099] esto quiere decir que

[01:00:22,579] se puede, a ver, ¿cómo lo digo?

[01:00:25,300] si uno propone o le piden a uno

[01:00:27,679] a un equipo, una empresa, lo que sea

[01:00:29,219] un proyecto de Chris ML

[01:00:31,000] en una empresa que no tiene el respaldo

[01:00:32,980] o un equipo para hacer mantención

[01:00:34,659] y mantener el monitoreo del modelo

[01:00:36,960] ¿sería vender humo?

[01:00:38,219] ¿no funciona un Chris ML en una empresa

[01:00:40,639] chiquitita que no tiene

[01:00:42,039] ni la preocupación ni el equipo para poder

[01:00:44,820] dar esa mantención?

[01:00:46,300] o sea, lo que pasa es que no hay un equipo para hacer mantención

[01:00:47,179] lo que pasa es que la metodología

[01:00:48,579] usted va a ofrecer la metodología

[01:00:50,619] y le va a decir, bueno, en esta etapa

[01:00:53,119] hay que estar viendo el modelo

[01:00:55,179] y podría a lo mejor generar algunas alarmas


[01:00:57,420] y decir

[01:00:57,920] no sé, si estas métricas te dan

[01:01:01,099] fuera de un rango, te va a mandar

[01:01:03,059] un mail y te va a decir, oye, hay que

[01:01:05,300] llamar al proveedor para que

[01:01:07,059] revise el modelo porque las métricas están fuera de rango

[01:01:09,320] ¿ya?

[01:01:10,300] o sea, ¿hay más alarmas que fecha de expiración

[01:01:13,219] o tiempo de validación del modelo?

[01:01:14,980] una cosa así

[01:01:17,179] lo que acabo de decir es una alternativa

[01:01:19,159] para una empresa que no tiene

[01:01:21,400] el expertise para poder hacer

[01:01:23,960] la mantención del modelo

[01:01:25,300] pero se puede aplicar

[01:01:28,239] el Chris ML porque finalmente

[01:01:29,619] es una metodología que lo que hace

[01:01:32,059] es sumar una fase más

[01:01:33,360] para que el modelo no quede obsoleto

[01:01:36,079] lo va monitorizando

[01:01:38,059] la obsolescencia

[01:01:40,800] es porque el modelo

[01:01:42,460] se desajusta, ¿no? porque hay una suerte

[01:01:44,119] de expiración, oye, esto dura un año porque

[01:01:45,980] el próximo año una nueva está

[01:01:47,179] no sé, de invernal


[01:01:49,059] y aquí ya nos van a faltar datos, una cosa así

[01:01:51,400] o sea, lo que pasa es que

[01:01:53,659] cuando uno define el problema

[01:01:57,099] ¿ya? uno define que ese

[01:01:59,239] problema se repite

[01:02:00,320] siempre, ¿ya? o

[01:02:02,639] es un problema puntual

[01:02:05,219] por eso digo que a veces hay proyectos

[01:02:07,039] donde el modelo se ejecuta una vez para algo puntual

[01:02:09,340] o yo siempre estoy

[01:02:11,340] necesitando saber esta información

[01:02:12,900] por ejemplo, yo siempre estoy necesitando saber

[01:02:15,219] los alumnos de hacer

[01:02:17,179] ¿ya? por lo tanto

[01:02:19,679] no sé, cuando el modelo

[01:02:21,719] me va a traer

[01:02:23,980] métricas que no

[01:02:25,920] corresponden y que

[01:02:27,539] está bien que sea así, va a ser enero y febrero

[01:02:30,260] porque en realidad ahí

[01:02:31,300] no tengo clase

[01:02:32,840] ¿ya? entonces

[01:02:34,539] yo podría dejar automatizado el modelo

[01:02:37,519] que se ejecute todos los meses

[01:02:39,539] o todas las semanas incluso

[01:02:41,440] que me detecte cuáles son los


[01:02:43,500] posibles desertores

[01:02:44,639] ¿ve? y para

[01:02:47,139] después tomar acciones

[01:02:48,260] entonces me va a decir cuáles son los posibles desertores

[01:02:51,440] por asistencia

[01:02:53,440] por nota, por todas las variables

[01:02:55,000] que nosotros pongamos

[01:02:55,920] y ese modelo lo necesito

[01:02:59,119] que se ejecute normalmente, pero si yo

[01:03:01,019] quiero hacer una campaña

[01:03:03,280] para que se matricule en cierto

[01:03:05,019] y la hago de noviembre

[01:03:07,179] a marzo, ese modelo va a ser

[01:03:09,199] va a servir de noviembre a marzo

[01:03:11,460] entonces vuelvo

[01:03:13,260] a decir lo que dicen los consultores

[01:03:14,699] depende, ¿ya?

[01:03:17,139] ¿había otra mano levantada?

[01:03:19,480] ¿o Gustavo dejó la mano arriba?

[01:03:22,760] Profe, yo

[01:03:23,500] le termino escribiendo, pero

[01:03:25,340] le voy a decir igual para

[01:03:26,940] para poder

[01:03:29,280] hablar mejor

[01:03:30,639] y hacerme entender mejor, lo que pasa es que

[01:03:33,500] cuando habla de mantención


[01:03:35,260] de Machine Learning

[01:03:36,260] es como, tiene relación directa

[01:03:39,239] con el tema de la precisión

[01:03:41,519] en las predicciones del modelo

[01:03:43,559] o

[01:03:44,300] eso, o algo

[01:03:47,139] funcional en el modelo, o sea, como arreglar

[01:03:49,000] alguna cosita dentro del modelo que

[01:03:50,840] permita predecir lo que estamos

[01:03:52,679] lo que pasa es que el modelo

[01:03:54,800] nosotros hacemos las reglas cuando

[01:03:57,059] lo implementamos, ¿ya? y esperamos

[01:03:59,079] estas métricas de salida

[01:04:00,519] si esas métricas

[01:04:02,460] están fuera de los rangos que nosotros esperamos

[01:04:05,199] entonces algo está pasando

[01:04:07,159] hay una variable que está

[01:04:08,800] que a lo mejor

[01:04:11,260] está bien, ¿ya?

[01:04:13,099] porque, no sé, pues algo

[01:04:15,000] en el mercado cambió, algo cambió

[01:04:16,960] en

[01:04:17,059] en el mercado, ¿no?

[01:04:17,139] en la universidad, en el instituto

[01:04:19,320] que los alumnos están desertando más

[01:04:21,039] ¿ya? algo puede


[01:04:23,159] haber cambiado, entonces es una alerta

[01:04:25,260] como para decir, oye, el modelo

[01:04:26,760] sí, está detectando esto, pero

[01:04:28,760] pero, no sé, las métricas

[01:04:31,179] que miden el buen rendimiento

[01:04:33,139] del modelo están bajo lo esperado

[01:04:35,400] entonces vamos y miramos por qué

[01:04:37,000] está pasando eso, puede que haya que hacer

[01:04:38,980] una modificación, como puede que no

[01:04:40,579] ¿ya? pero

[01:04:42,159] está el monitoreo continuo

[01:04:45,000] ¿ya?

[01:04:46,559] Sí

[01:04:47,059] lo que pasa es que

[01:04:50,320] dentro de estos como modelos

[01:04:52,880] de CRISP, KDD

[01:04:55,199] y todo eso, yo entiendo que es como

[01:04:56,960] un flujo en donde un inicio

[01:04:58,440] o sea, de lo que usted ha hablado

[01:05:01,000] en clase

[01:05:01,380] se da todo crudo y luego sale

[01:05:04,900] un dato modelado, ¿no es cierto?

[01:05:06,500] pero para el entrenamiento

[01:05:07,900] según lo que estoy entendiendo es que ese dato modelado

[01:05:10,840] se vuelve a integrar en este proceso

[01:05:13,099] para que de ahí de a poco se vaya


[01:05:15,059] refinando

[01:05:15,940] esto

[01:05:17,059] , todo este proceso de datos

[01:05:19,179] transformación y todo eso es así

[01:05:21,099] ¿no es cierto? y eso también sería

[01:05:23,119] como la iteración de datos sería

[01:05:24,960] la mantención o no

[01:05:27,079] a ver, lo que pasa es que

[01:05:29,360] cuando hablamos de que por ejemplo

[01:05:31,019] un modelo se ejecute todas las semanas

[01:05:32,739] acuérdese, primero que dijimos era

[01:05:35,320] hay una línea entre

[01:05:37,320] la historia o la estadística

[01:05:39,000] descriptiva y la estadística predictiva

[01:05:41,340] ¿sí? entonces

[01:05:42,699] yo sí efectivamente voy a seguir tomando

[01:05:44,940] la historia, ¿ya? porque

[01:05:46,420] por ejemplo en el caso de los alumnos

[01:05:48,519] deceptores, si alguien

[01:05:50,280] deserta, seguramente yo lo voy a registrar

[01:05:52,500] y el modelo lo va a considerar

[01:05:54,039] y puede que esos deceptores tengan

[01:05:56,360] otras características, ¿ya?

[01:05:58,360] y que el modelo me las arroje también

[01:06:00,300] entonces

[01:06:01,460] voy a ir tomando hacia atrás y el modelo


[01:06:04,340] se va a ir alimentando, ¿cierto? de la data

[01:06:06,360] histórica que yo tengo, por lo tanto

[01:06:08,039] los datos históricos

[01:06:09,780] no es que los vaya a dejar, sino que los

[01:06:12,260] sigo considerando

[01:06:13,280] pero en el fondo yo tengo

[01:06:16,420] una respuesta que estoy

[01:06:18,260] buscando con ese modelo

[01:06:19,480] ¿ok? entonces

[01:06:21,079] ingreso algo, lo proceso

[01:06:23,760] y me sale la respuesta, ¿ya?

[01:06:26,179] la siguiente semana hago lo mismo

[01:06:28,280] o al siguiente mes

[01:06:29,440] pero si

[01:06:31,860] las métricas que miren el modelo no

[01:06:34,219] están con lo esperado, entonces

[01:06:36,239] digo, oye, a ver, el modelo funciona pero

[01:06:38,099] aquí algo pasó

[01:06:40,000] una deserción masiva, ¿ya? Por eso es que siempre tenemos que mirar el
entorno, el contexto, en el caso de las ventas, el mercado, ¿cierto? ¿Qué es lo que está
pasando? ¿Ya? Voy a ir a la otra. ¿Sí? ¿Ya? Eh, post auditoría se relaciona con el
mantenimiento, no sé Alonso a qué se refería con eso. Post auditoría.

[01:07:02,940] ¿Puedo prender el micrófono o explicar más? Porque ahí no lo entiendo.


Después Valentina dijo lo del supermercado. Eh, lo de los modelos. Juan dice la minerato.
Ahí ya se lo respondí. Algoritmos de machine learning.

[01:07:22,820] ¿Qué algoritmos de machine learning no encontramos en data mining? Ahí la


Josefa contó. Son los más clásicos. También.

[01:07:32,940] Eh, tengo una duda sobre, en principio, en principio limpiamos la data en un
modelo que debe ser mantenido. Se subentiende que el dataset va cambiando, por lo tanto,
¿requería una nueva limpieza o no? Sí, requiere una nueva limpieza. Por eso es que en
realidad el modelo se ejecuta, ¿cierto? Yo digo el modelo se ejecuta en producción, pero en
realidad yo la automatización es desde la entrada de datos, la limpieza de datos y después se
ejecuta en la producción.

[01:08:02,940] Entonces, la automatización incluye todo lo previo. Así que se repite. Si no


los limpio, ¿ya? Eh, ah, una de las cosas que había contestado. Eh, considerar actualización,
por ejemplo, acoplar un modelo a otro modelo. Eh, uh, ay, este.

[01:08:27,699] ¿Profe? Y tengo una pregunta. Disculpe, no está.

[01:08:32,939] Siendo franca, no estaba poniendo mucha atención hasta ahora donde vi la
la PPT al frente y eh se se está hablando sobre el trabajo y dentro del objetivo de lo que
queremos hacer con mi grupo, yo tengo eh la pregunta de ¿cómo saber que mi objetivo está
bien encaminado?

[01:08:59,699] Eh espérame un minuto.

[01:09:02,939] Ya. Eh no estamos hablando del trabajo todavía. Ya estábamos respondiendo


preguntas de la materia. ¿OK? Lo que dijimos al principio de la clase es que vamos a tener
un espacio para el trabajo y todavía no llegamos ahí a pesar de que yo puse la lámina pero
eh estamos respondiendo las preguntas que quedaron ciertos de la metodología y de la
materia que estábamos revisando.

[01:09:26,239] Ah, ya.

[01:09:27,079] Entonces.

[01:09:28,779] Su pregunta va a venir después cuando hagamos los trabajos en grupo o.

[01:09:32,939] Digamos, bueno, nos quedamos todos acá, hacen las preguntas, yo las
respondo para todos. ¿Ya?

[01:09:38,779] Ya. Eh.

[01:09:49,699] Estoy tratando de avanzar en el chat.

[01:09:51,760] Ya.

[01:09:56,140] En los modelos hidrogeológicos se usa posauditoría.

[01:10:00,939] Por eso preguntaba, es como validar el modelo.

[01:10:02,939] ¿Qué? ¿Ya funciona bien con nuevos datos o con actualización? ¿Mejores?

[01:10:07,619] Eh.

[01:10:09,880] Sí, pues.


[01:10:10,579] En el mantenimiento también puede cambiar el modelo.

[01:10:12,600] Es lo que dice José.

[01:10:14,039] Ya.

[01:10:14,760] ¿Me queda alguna pregunta sin responder?

[01:10:16,859] Por ahí.

[01:10:19,119] En el chat.

[01:10:19,939] No sé si me salta alguna.

[01:10:20,920] Así que díganme.

[01:10:22,859] Eh.

[01:10:23,899] Si hay algo que no les respondí.

[01:10:25,979] Respecto de la materia.

[01:10:28,079] Que acabamos de ver.

[01:10:30,439] Ya.

[01:10:33,659] Esta sombra es lo más conocida.

[01:10:34,300] Esto se lo mete a la imagen.

[01:10:35,180] Presiono.

[01:10:36,399] De acuerdo, ahora este magical realidad.

[01:10:42,500] split palabra.

[01:10:43,439] ¿Estareis en el epicche?

[01:10:44,500] collaborative.

[01:10:45,420] No, es que no hay más preguntas.

[01:10:46,500] Es War 곤 3 вы можете generar boards deập hides medical en vez de usar
unas procesos específicas.

[01:10:48,359] Muy bien, Callao.

[01:10:50,359] Ya.

[01:10:51,800] Ok.

[01:10:53,739] Entonces.
[01:10:57,000] Eh.

[01:11:00,420] Hasta lo que acabamos de ver ahora bastante.

[01:11:01,500] Ahora esta viene muy picante.

[01:11:01,800] Muy gente tiene que pensar por que nunca Aside en.

[01:11:01,979] Lo sac�é You readyOLD entonces no se� Horse.

[01:11:02,340] Muchísimas gracias para‫יש‬wheel 요 Rossi Lo 하 Material ha sido una tanto


cantidad de cosas muy begancifu mas gracias a los personas las que nos han trasladado por
algunas cosas muchas cosas pesaras con la Italia-Aалtoidas.

[01:11:02,619] está CRISP-ML, hasta esa materia va a

[01:11:08,060] entrar en el quiz, ¿ok? Así es que

[01:11:12,180] podemos hacer preguntas de la clase 2, 3

[01:11:17,779] y 4. A ver, ¿esta es la clase 4?

[01:11:22,439] ¿Clase inaugural?

[01:11:24,500] Sí, exacto, ¿ya?

[01:11:29,300] Eh...

[01:11:32,619] Ya, entonces, los fundamentos y la

[01:11:42,159] metodología, el curso como tal, se evalúa

[01:11:45,920] con el quiz que van a tener y con la

[01:11:48,699] primera entrega del trabajo, ¿ya? Entonces,

[01:11:51,560] después vamos a subir esta

[01:11:54,020] presentación al módulo, ¿ya? Yo en la clase

[01:11:57,460] pasada les di algunos links ahí de, para

[01:12:00,640] los que querían profundizar más,

[01:12:02,619] pero las preguntas del quiz se basan en

[01:12:05,159] lo que hemos visto

[01:12:06,039] en estas tres clases, ¿ok?

[01:12:10,859] ¿Cuándo es el quiz?


[01:12:14,840] Josefa, ¿tiene por ahí el calendario?

[01:12:16,460] Porque yo no me acuerdo.

[01:12:20,579] ¿Mañana? ¿16?

[01:12:23,659] ¿Este viernes?

[01:12:24,579] ¿Mañana?

[01:12:25,260] ¿Mañana?

[01:12:25,579] ¿Mañana?

[01:12:26,579] ¿Mañana?

[01:12:27,579] ¿Mañana?

[01:12:28,579] ¿Mañana?

[01:12:29,579] ¿Mañana?

[01:12:30,579] ¿Mañana?

[01:12:31,579] ¿Mañana?

[01:12:32,619] ¿Mañana está el 23?

[01:12:36,979] ¿ ‫סي‬ςей al 23?

[01:12:39,140] Claro, me preguntan a qué hora va a estar

[01:12:44,659] disponible el quiz.

[01:12:56,659] O sea una vez que ustedes se conecta a

[01:12:57,539] dar el quiz, va a tener 40-45 minutos

[01:12:58,539] para responderlo, no es que van a estar

[01:12:59,539] aprendiendo, entonces me siento muy

[01:13:00,539] problemático, porque los que se responden a

[01:13:01,539] no es que va a tener una semana para responder

[01:13:04,199] ¿ya?

[01:13:06,539] ¿serán preguntas alternativas?

[01:13:09,039] puede ser alternativa, puede ser


[01:13:10,279] en general siempre hago un mix

[01:13:12,600] ¿ya?

[01:13:14,199] me gusta que expliquen

[01:13:15,439] y ojo, si explican y ponen palabras

[01:13:18,119] rimbombantes, ya saben

[01:13:20,220] vamos a saber

[01:13:21,659] además hoy día hay herramientas que dicen

[01:13:24,220] si se escribió o no se escribió con IA

[01:13:26,579] me tocó el otro día de hecho

[01:13:30,260] que mi hija está en octavo

[01:13:34,079] hizo un trabajo

[01:13:35,560] y el profesor cuando la revisó

[01:13:38,279] le dijo, esto está hecho

[01:13:40,279] todo con chat GPT

[01:13:42,220] y yo

[01:13:43,920] ¿ocupaste chat GPT?

[01:13:46,399] no mamá, pásame el trabajo

[01:13:48,380] y agarré el trabajo

[01:13:50,600] y lo pasé por una herramienta de IA

[01:13:52,340] y me decía

[01:13:53,420] que el 6% del trabajo

[01:13:56,100] estaba parafraseado, o sea

[01:13:57,979] leyeron algo de internet

[01:13:59,859] y estaban hablando de las

[01:14:02,199] religiones de los viejos

[01:14:03,680] entonces
[01:14:04,100] la información es la que está en internet

[01:14:07,640] se la tomaron y la pusieron con sus propias palabras

[01:14:09,680] y generado con IA

[01:14:12,659] nada

[01:14:13,380] así que una foto y le dije a mi hija

[01:14:16,399] muéstralo al profe en la próxima clase

[01:14:18,319] porque

[01:14:20,039] está claro que no habían usado

[01:14:24,659] para responder todo

[01:14:26,119] ¿qué tan efectivo

[01:14:27,880] es que esté

[01:14:29,739] hecho con IA?

[01:14:31,680] hay distintas

[01:14:33,279] herramientas, algunas son más efectivas

[01:14:35,800] que otras

[01:14:36,399] hay que ir viendo

[01:14:39,640] la valoración de las herramientas

[01:14:41,180] por ejemplo, no sé, la otra vez estábamos

[01:14:43,840] probando unas aplicaciones

[01:14:46,260] que uno subió una foto

[01:14:47,720] y

[01:14:48,260] ¿qué dijo el profesor?

[01:14:52,039] mi hija no se atrevió a decir

[01:14:53,220] pero yo le dije, tú tienes que

[01:14:55,899] defender

[01:14:56,319] pero no se atrevió


[01:14:59,739] ¿verdad?

[01:15:00,000] toda la ropa. Y creo que la próxima

[01:15:02,239] semana tiene que hacer la

[01:15:04,060] exposición. Entonces

[01:15:06,039] yo le dije, en la primera lámina

[01:15:08,380] tú pones esta

[01:15:10,260] foto. No sé si lo van a hacer, pero

[01:15:12,220] eso es lo que yo le dije. Tú pones esta foto y dices

[01:15:14,039] primero queremos aclarar que este trabajo

[01:15:16,260] no está hecho con IA,

[01:15:18,119] y aquí tenemos la comprobación.

[01:15:20,420] Y después empiezan a hablar de la materia.

[01:15:22,300] Y me dijo que está súper buena la idea, pero no sé.

[01:15:24,720] No sé si lo va a hacer o no.

[01:15:26,819] ¿Ya?

[01:15:26,960] O sea, se me fue lo que le iba a decir.

[01:15:32,420] Me dijo la historia y me...

[01:15:35,079] Notable, sí,

[01:15:36,100] que acusen algo.

[01:15:38,060] Ah, ya estaba tratando de responder lo que me decían.

[01:15:41,060] Ah, estábamos

[01:15:41,659] probando distintas aplicaciones,

[01:15:43,920] y había una aplicación que sacaba una foto

[01:15:46,020] del rostro y te calculaba la edad.

[01:15:49,340] Entonces

[01:15:49,779] yo me puse a
[01:15:51,840] subir fotos de distintos

[01:15:53,920] años para ver cómo estaba, digamos.

[01:15:55,520] En algunas fotos estaba,

[01:15:57,680] no sé, pues maquillada, en otras no.

[01:16:00,340] ¿Ok?

[01:16:01,520] Y de las herramientas que probé,

[01:16:04,039] había una

[01:16:05,640] que decía que yo tenía 36.

[01:16:07,380] Y yo dije, esta es la mejor herramienta.

[01:16:10,079] Porque era la que me había

[01:16:11,680] encontrado así como que tenía

[01:16:13,579] menos de 40. ¿Ya? Yo tengo

[01:16:15,560] más de 40, entonces

[01:16:16,520] tenía 36. Entonces dije, ah, esta herramienta

[01:16:20,039] dice la verdad.

[01:16:21,600] Pero en realidad después, bueno,

[01:16:23,479] probé una, ¿cierto? Que me decía,

[01:16:25,060] tenía como un año

[01:16:26,680] de

[01:16:27,619] diferencia con lo que yo realmente

[01:16:30,979] tengo. Entonces,

[01:16:33,140] en realidad esa es como, y probamos,

[01:16:35,239] o sea, con varias fotos, ¿cierto?

[01:16:37,300] Y claro, finalmente esa era la que

[01:16:39,159] tenía más

[01:16:40,939] porcentaje de asertividad.


[01:16:43,140] Pero esto es algo que

[01:16:44,880] va cambiando, ¿ya?

[01:16:46,819] Es tan ético

[01:16:47,479] tratar de hacer una tarea con IA

[01:16:51,000] que tratar de probar con IA que fue

[01:16:52,920] hecha con IA. Eso parece un trabajo,

[01:16:55,060] ¿no?

[01:16:55,319] ¿Cómo se llama?

[01:16:57,779] ¿Hacer un trabajo?

[01:17:00,220] Claro, ya.

[01:17:01,479] Ahora lo entendí.

[01:17:04,119] ¿Crear hojas de ruta

[01:17:05,380] de proyecto? ¿Se refiere a hacer una carta GAN?

[01:17:07,239] Sí, Daniela, una carta GAN, una hoja

[01:17:09,180] de ruta, una planificación,

[01:17:11,659] un Excel con la fecha,

[01:17:13,619] todo lo que sea para

[01:17:15,119] que ustedes se planifiquen.

[01:17:17,000] Esto no es algo que yo, o sea,

[01:17:19,119] que si usted me hace una GAN en proyect

[01:17:21,020] así y todo, no necesito eso.

[01:17:23,180] ¿Ya? Yo necesito que ustedes se

[01:17:24,939] alineen con las fechas de entrega

[01:17:27,199] y

[01:17:28,520] que ustedes como grupo tengan claro

[01:17:30,939] cuáles son las fechas de entrega, cuándo se van


[01:17:32,920] a juntar, cuándo van a tener el coaching,

[01:17:35,460] ¿ya? Cuándo van a tener los datos.

[01:17:37,199] Esa es la idea de hacer una planificación,

[01:17:39,680] ¿ya? No porque yo quiera ver

[01:17:40,899] una GAN y que cumpla con ciertos estándares,

[01:17:43,220] no. La pido para efectos

[01:17:44,979] de ustedes, ¿ya? Porque si no

[01:17:46,840] llegan al coaching y dicen, no, es que no nos hemos

[01:17:48,920] juntado con mis compañeros. Y es como

[01:17:50,899] van a estar

[01:17:53,060] a última hora, ¿cierto? Haciendo,

[01:17:54,939] después me piden más plazo,

[01:17:56,939] este año dijimos que no íbamos a dar más plazo porque

[01:17:58,659] las entregas las pusimos los días lunes,

[01:18:01,739] ¿ya? Antes las poníamos

[01:18:03,039] los días viernes,

[01:18:04,439] pero nos pedían más día, entonces, bueno,

[01:18:07,859] de la fecha que pensamos

[01:18:09,220] al lunes, ¿ya?

[01:18:11,159] Ese lunes se entrega.

[01:18:13,119] Entonces no vamos a dar más plazo. Por lo tanto,

[01:18:14,680] se tiene que planificar muy bien

[01:18:16,300] y como les decía, no recuerdo si fue

[01:18:18,800] la clase anterior o la anterior,

[01:18:21,199] las fechas están programadas

[01:18:22,760] de tal manera que no se les topen con los talleres,


[01:18:24,939] excepto una, que creo que es el taller

[01:18:26,659] tres, que se les topa con la entrega del trabajo,

[01:18:29,000] pero que ahí tienen más plazo para hacer.

[01:18:31,520] ¿Ya?

[01:18:32,920] Eso.

[01:18:35,859] Ya.

[01:18:37,220] Entonces, hablemos del

[01:18:38,819] trabajo.

[01:18:41,319] A las ocho nos vamos a tomar un break.

[01:18:44,760] Para los que no se habían conectado antes

[01:18:46,859] o los que no habían revisado la parte del trabajo,

[01:18:49,979] dijimos que

[01:18:51,020] era

[01:18:51,979] mínimo dos, máximo cuatro,

[01:18:54,859] ¿no?

[01:18:54,939] Y que no se les topara

[01:18:55,340] con el trabajo integrante.

[01:18:56,279] ¿Ya?

[01:18:56,739] Si alguien tenía alguna excepción,

[01:18:59,180] la tienen que levantar con

[01:19:00,539] el profesor Olea, que es

[01:19:02,500] el director del diplomado.

[01:19:05,020] Él tiene que autorizar

[01:19:06,520] si usted quiere hacer el trabajo individual,

[01:19:09,180] ¿ya?

[01:19:10,220] Porque cinco no se autoriza.


[01:19:12,739] O sea, si quieren hacerlo de cinco,

[01:19:14,500] no se va a autorizar. Pero si quieren hacerlo de uno,

[01:19:17,420] tienen que pedir la autorización al profesor Olea.

[01:19:19,479] ¿Ok?

[01:19:21,979] Crear hoja

[01:19:22,859] de ruta.

[01:19:24,939] ¿Qué es eso de grupos?

[01:19:26,380] No está en mi lenguaje.

[01:19:28,140] Mario, ¿usted ha estado en las clases de antes o no?

[01:19:36,260] ¿Esto que me están preguntando, existe la pauta y todo?

[01:19:38,859] Sí, existe. La vamos a ver ahora.

[01:19:41,619] Se va a publicar en Moodle.

[01:19:43,479] ¿Ya? Se hace un buzón

[01:19:45,060] y ahí se entrega.

[01:19:46,939] ¿Ya? Ahí suben su archivo.

[01:19:50,300] Ya.

[01:19:51,520] Para Mario, que

[01:19:52,560] el tema de los grupos,

[01:19:54,939] ¿ya?

[01:19:56,239] Es los grupos de trabajo.

[01:19:58,300] ¿Con quién va a hacer usted el trabajo de aplicación del diplomado?

[01:20:02,960] Así que

[01:20:03,699] es eso por ahí.

[01:20:08,300] Ya.

[01:20:09,460] ¿Ok?

[01:20:10,779] Decíamos que los datos que van a usar,


[01:20:13,180] que ya deberían, en cierto, estar pensando

[01:20:14,939] en su caso de uso, qué datos,

[01:20:16,819] de dónde los van a sacar,

[01:20:19,800] tienen que ser

[01:20:21,140] base de datos confiable.

[01:20:22,279] O sea, si van a mostrar

[01:20:24,300] después los resultados, por así decirlo, los resultados

[01:20:26,180] vienen en una presentación,

[01:20:28,319] tiene que ser algo

[01:20:30,420] cierto, confiable.

[01:20:32,119] La fuente tiene que ser confiable.

[01:20:33,979] Y de hecho, una de las cosas

[01:20:35,279] que deben poner cuando hablamos

[01:20:38,260] de

[01:20:38,699] el paso número dos

[01:20:41,640] de sus datos, tienen que poner de dónde los van a obtener.

[01:20:45,460] ¿Ya?

[01:20:46,039] ¿De dónde van a obtener esos datos?

[01:20:48,180] Porque

[01:20:48,619] los datos no salen de la nada, no se inventan.

[01:20:52,600] ¿Ya? Tienen que ser

[01:20:54,140] productos de agua.

[01:20:55,659] ¿Ok? Entonces,

[01:20:58,920] tú,

[01:21:00,340] mira acá,

[01:21:03,760] esto es un poco la pauta,


[01:21:06,460] no es la rúbrica, ¿ya?

[01:21:08,739] Donde primero definimos

[01:21:10,180] la problemática, ¿ya?

[01:21:12,300] Acuérdense, el contexto,

[01:21:14,220] porque independiente que ustedes sepan

[01:21:16,279] mucho de su negocio,

[01:21:18,960] nosotros con Josefa no

[01:21:20,039] necesariamente sabemos de su negocio.

[01:21:21,720] ¿Ya? Por ejemplo, lo que decía el

[01:21:23,979] compañero ahí del

[01:21:25,079] de los hidrológicos

[01:21:28,460] o algo así.

[01:21:31,479] Nosotros no conocemos

[01:21:32,619] entonces tiene que explicar

[01:21:34,260] su problema dentro del contexto.

[01:21:36,699] ¿Ya?

[01:21:39,420] Ok.

[01:21:43,380] Preguntas a resolver.

[01:21:45,000] ¿Ya?

[01:21:46,079] Las preguntas pueden ser

[01:21:48,039] de lo que ustedes quieran

[01:21:50,319] saber que hoy día no saben.

[01:21:52,800] ¿Ya?

[01:21:53,979] Eh, respecto de

[01:21:55,859] eh,

[01:21:59,319] tengo algo, tengo información,


[01:22:01,640] pero yo quiero saber de eso en el futuro.

[01:22:04,279] ¿Ya? Quiero hacer una

[01:22:05,579] predicción. ¿Ya?

[01:22:07,539] Eh, tiene que ser algo interesante,

[01:22:09,500] algo que los motive, por eso yo les decía, tienen que

[01:22:11,460] ojalá elegir datos que les guste o

[01:22:13,600] que sea un desafío

[01:22:15,579] eh, de su empresa,

[01:22:18,199] pero ahí no tienen

[01:22:19,699] que nombrar la empresa.

[01:22:21,359] ¿Ya? Eh, y

[01:22:23,500] eh,

[01:22:23,979] tienen que anonimizar los datos.

[01:22:26,619] Repito para los que no estaban en la clase anterior,

[01:22:29,220] nosotros no accedemos

[01:22:30,680] a los datos y tampoco revisamos

[01:22:32,800] código. ¿Ya? Nosotros

[01:22:34,600] solamente revisamos

[01:22:35,880] eh, el entregable,

[01:22:39,039] puede ser un documento Word,

[01:22:40,460] una PPT, ¿ok?

[01:22:42,039] Eh, con

[01:22:43,939] los resultados que ustedes obtuvieron

[01:22:45,760] y

[01:22:46,899] la interpretación.

[01:22:50,359] Esa es como la parte más importante.


[01:22:52,479] Felipe tiene la mano arriba.

[01:22:53,979] ¿Ya?

[01:22:54,979] Bueno, profesora, una duda respecto a la definición del problema.

[01:22:58,800] Eh, ¿es necesario como plantearse, por ejemplo, no sé, un caso hipotético,
aunque no, no sea como el caso, me refiero a, no sé, tengo data y supuestamente quiero
predecir, no sé, las ventas de un producto.

[01:23:09,659] La, el problema tengo que definirlo como, no sé, una empresa retail quiere
analizar, eh, en cuanto crece un producto X.

[01:23:17,619] O lo tengo que plantear como, no sé, desde.

[01:23:20,000] no sé, el grupo de estudio quiere analizar esto.

[01:23:22,560] ¿Tiene que ser como en un caso específico o da lo mismo?

[01:23:25,720] O sea,

[01:23:26,779] a ver, lo importante es que usted

[01:23:28,159] describe el contexto, ¿ya? Por ejemplo,

[01:23:30,239] ya hay empresas retail, como que todos conocemos

[01:23:32,199] el retail, ¿ya? A lo mejor no es necesario

[01:23:33,960] explicarlo tanto, ¿ya?

[01:23:36,180] Pero sí, pues tiene que decir ahí,

[01:23:38,659] o sea, no necesariamente una empresa,

[01:23:40,220] sino que como grupo decidimos

[01:23:42,180] tomar estos datos, queremos

[01:23:44,000] responder esto, y ahí explican el contexto.

[01:23:46,039] O sea, el trabajo es de ustedes, por lo tanto

[01:23:48,039] describanlo como ustedes, ¿ya?

[01:23:50,000] Eh...

[01:23:51,560] ¿Existe alguna pauta como extensión máxima

[01:23:56,119] de agujetos? Sí, en la rúbrica


[01:23:58,319] les vamos a indicar

[01:23:59,220] la cantidad de hojas.

[01:24:02,819] Y la

[01:24:04,199] pauta, bueno,

[01:24:06,760] el trabajo tiene que responder

[01:24:08,039] a estas cinco cosas que estamos diciendo.

[01:24:10,960] ¿Ya?

[01:24:12,640] Esto no es un índice,

[01:24:14,079] ojo, ¿ya?

[01:24:15,939] No es un índice, por lo tanto

[01:24:17,859] eh...

[01:24:20,000] No es que tengan que seguir este orden.

[01:24:24,039] Eh...

[01:24:24,479] Estoy viendo que otra pregunta...

[01:24:27,220] ¿Se destinará tiempo

[01:24:28,340] en horario de clases para avanzar en los trabajos?

[01:24:30,220] Por ejemplo, ¿los talleres están enfocados en el mismo proyecto?

[01:24:32,399] No. Los talleres son

[01:24:34,359] independientes del proyecto, ¿ya?

[01:24:36,560] Son otros datos que los profes

[01:24:38,420] eh... preparan

[01:24:40,239] para que les sirva

[01:24:42,479] para ese taller, ¿ya?

[01:24:44,039] Eh... no pueden ser los mismos datos

[01:24:46,220] porque recuerden que si ustedes

[01:24:48,159] van a trabajar con datos de su empresa,


[01:24:50,000] entonces...

[01:24:51,319] No... nosotros no vamos a tener

[01:24:54,140] acceso a esos datos, ¿ya?

[01:24:56,420] Eh... y además porque después

[01:24:58,399] los talleres ustedes tienen que dar

[01:25:00,260] un entregable

[01:25:01,140] eh... para que los revisen.

[01:25:03,979] Entonces, imagínense que subieran

[01:25:06,000] datos de los...

[01:25:08,000] de sus propios trabajos. O sea, tendríamos

[01:25:10,100] ciento cuarenta

[01:25:11,420] eh... revisiones

[01:25:13,760] distintas, ¿ya? Por eso

[01:25:15,579] los profes entregan uno o dos sets de datos

[01:25:17,739] y con eso se resuelven

[01:25:19,880] lo que se andan buscando en ese taller.

[01:25:21,720] Ahora, ¿tiempo en el horario de clases?

[01:25:23,819] No.

[01:25:25,380] O sea, las clases están súper ajustadas según

[01:25:27,659] calendario.

[01:25:29,840] Eh... ustedes se tienen que juntar

[01:25:31,920] ¿ya? Como iniciativa

[01:25:33,739] de ustedes, digamos, eh...

[01:25:36,239] para avanzar en el trabajo

[01:25:38,000] y, eh...

[01:25:40,319] viene la semana de coaching


[01:25:41,680] donde ustedes reservan un espacio

[01:25:43,800] de veinte minutos con nosotros,

[01:25:45,579] José Fé conmigo, ¿ya?

[01:25:47,600] Para hacer las preguntas que...

[01:25:49,880] que tengan o si quieren ver si bien o no

[01:25:52,060] en el... en el tema.

[01:25:54,060] ¿Ya? Así que eso respondiéndole

[01:25:56,140] a Valeria.

[01:25:58,640] Eh... bueno, ahí ya la...

[01:26:00,020] la José...

[01:26:00,640] Eh... ¿de qué

[01:26:03,920] tamaño debe ser la fuente de datos y un mínimo de registro

[01:26:05,899] de columnas? Eh...

[01:26:07,819] Ya, la clase pasada igual lo mencioné.

[01:26:10,479] ¿Ya? No es

[01:26:11,960] que tengamos que tener un mínimo de registros

[01:26:14,420] eh... o un

[01:26:16,000] tamaño de la base de datos. Va a depender

[01:26:17,760] de lo que yo quiero analizar.

[01:26:19,319] ¿Ya?

[01:26:19,880] Si yo quiero, no sé, ver

[01:26:21,779] las tendencias de

[01:26:22,979] eh... compra

[01:26:24,800] eh... no sé, bueno

[01:26:27,479] en Starbucks, por ejemplo

[01:26:30,140] eh... de una


[01:26:31,939] semana o de dos semanas

[01:26:33,600] ¿Ya? Si quiero ver qué día y en qué horario

[01:26:35,680] se vende más, bastaría con un par de

[01:26:37,779] semanas de datos. ¿Ya?

[01:26:39,600] Si yo quiero analizar

[01:26:41,079] eh... las ventas del

[01:26:43,760] Día de la Madre, entonces voy a tener

[01:26:45,720] que tener más

[01:26:47,300] de...

[01:26:49,000] de... eh...

[01:26:49,880] un año de datos.

[01:26:52,380] Ahora, el año podría ser abril-mayo

[01:26:54,140] que los que son más preparados

[01:26:56,020] compran en abril y el resto

[01:26:57,739] todo compramos en mayo. Entonces

[01:26:59,319] tendría que tomar las ventas de abril y mayo

[01:27:01,899] de varios años hacia atrás para poder

[01:27:03,920] hacer una proyección, una predicción

[01:27:06,060] de cuánto

[01:27:07,340] yo tendría que comprar

[01:27:09,739] para no quedarme sin stock.

[01:27:12,100] ¿Ya? Entonces va a depender del problema.

[01:27:14,039] Ahora, respecto de las columnas y

[01:27:15,760] como yo decía durante la clase

[01:27:17,300] yo les sugiero que tengan de 10 a

[01:27:19,680] 15 columnas para que puedan elegir.


[01:27:22,239] ¿Ya? O 10 a 15 variables.

[01:27:24,600] Eh... porque si no

[01:27:25,560] después empiezan a encontrar

[01:27:27,600] que, oye, la variable

[01:27:29,600] no tiene correlación con ninguna y se van quedando

[01:27:31,680] con dos variables y hacer modelos

[01:27:33,779] con dos variables como...

[01:27:35,800] ¿Ya? Muy poquito.

[01:27:38,159] Eh... sigo

[01:27:39,399] leyendo el chat.

[01:27:45,840] Eh...

[01:27:46,279] No, no siempre a través

[01:27:47,659] de una predicción, Luis. La pregunta,

[01:27:49,680] tiene que ser algo que usted no sepa

[01:27:51,880] con una estadística descriptiva.

[01:27:55,739] ¿Ya? O sea, algo que usted

[01:27:57,560] no pueda sacar hoy día con una

[01:27:59,340] exploración de los datos.

[01:28:03,180] Eh...

[01:28:03,819] ¿Cómo se reserva el coaching?

[01:28:06,039] Eh... nosotros le mandamos

[01:28:07,260] una semana antes con Josefa una agenda

[01:28:09,739] eh... online

[01:28:11,140] donde ustedes se registran

[01:28:13,420] y eh... reservan

[01:28:15,359] una hora de las que nosotros ponemos


[01:28:17,359] que estamos disponibles.

[01:28:18,600] ¿Ya?

[01:28:19,680] Eh... sí, están

[01:28:21,359] calendarizadas y dijimos

[01:28:23,819] que eran del...

[01:28:25,859] creo que eran del dos...

[01:28:28,420] del dos al siete

[01:28:31,939] parece. Sí, del dos al siete.

[01:28:34,680] ¿Sí?

[01:28:35,920] Una consulta, ¿esas sesiones

[01:28:37,800] de coaching es solamente

[01:28:39,260] una por grupo dentro de esa semana

[01:28:41,560] o pueden ser una o más?

[01:28:43,859] Una sola.

[01:28:45,479] Una sola. Entonces ustedes van

[01:28:47,680] a resolver sus preguntas puntuales.

[01:28:49,680] Eso quiere decir que antes se tienen

[01:28:51,359] que juntar.

[01:28:52,060] ¿Sí? Eh...

[01:28:53,760] Salen del trabajo e ir con preguntas

[01:28:57,720] puntuales a las sesiones de coaching.

[01:28:59,680] Y por eso lo hacemos porque el trabajo

[01:29:03,000] se entrega el 16.

[01:29:05,020] Entonces se hace la semana antes.

[01:29:10,439] ¿Ya? Por eso se hace del dos al siete.

[01:29:12,800] Eh... porque es cuando todavía están


[01:29:15,479] desarrollando el trabajo o algunos

[01:29:17,220] recién empezando.

[01:29:18,060] ¿Ya?

[01:29:18,619] Entonces la entrega es el 16

[01:29:21,420] y los coaching son del dos al siete.

[01:29:24,760] Eh...

[01:29:25,279] Calendarizadas del dos al siete.

[01:29:27,619] Los horarios generalmente

[01:29:28,880] si podemos, damos

[01:29:31,340] algunos horarios

[01:29:32,279] entre la una y las dos, las dos y las tres.

[01:29:35,920] Pero generalmente son

[01:29:37,000] de las siete. Ya entre siete y nueve y media

[01:29:39,579] los días que no tienen clase.

[01:29:41,319] Y el día sábado hacemos

[01:29:43,180] una maratón

[01:29:44,380] y ahí agendamos

[01:29:46,699] varias horas.

[01:29:48,619] Eh... para cumplir en la semana

[01:29:50,539] con atender a los, no sé, como 40 grupos

[01:29:52,800] que eh... yo eh... el culo que se van a formar.

[01:29:57,579] Porque la última vez que miré la planilla

[01:29:59,840] iban como en el 34 parece.

[01:30:01,800] Pero habían varios que no tenían grupo.

[01:30:04,119] ¿Ya? Eh... después José dice...

[01:30:08,680] ¿Cuántos años tiene?


[01:30:11,119] Eh... la entrega es hasta preguntas a resolver

[01:30:16,079] o los pasos uno y dos. Fijar objetivos y

[01:30:18,500] recoger datos. Pasos uno y dos.

[01:30:21,359] ¿Ya? Pasos uno y dos.

[01:30:25,260] En el alcance

[01:30:26,560] usted va a indicar, ¿cierto?

[01:30:29,239] ¿Qué datos tiene? ¿La complejidad?

[01:30:31,340] ¿Cuánto periodo va a tomar?

[01:30:32,720] ¿Cuántas columnas tiene?

[01:30:37,939] Entonces el proyecto no tiene como objetivo construir un modelo

[01:30:40,380] solo analizar el comportamiento.

[01:30:43,539] Eh...

[01:30:44,060] Antonio. El proyecto

[01:30:46,260] de aplicación se hace durante

[01:30:48,000] todo el diplomado.

[01:30:49,899] Por lo tanto, en esta primera parte

[01:30:53,239] nosotros vamos a definir los objetivos

[01:30:56,060] y saber de dónde vamos a buscar los datos.

[01:30:58,520] En la segunda parte vamos a hacer la limpieza

[01:31:01,460] y la exploración.

[01:31:03,100] Después ustedes tienen que hacer una propuesta de modelo

[01:31:05,979] y después tienen que construir el modelo

[01:31:08,319] para finalmente presentarlo.

[01:31:09,840] O sea, hacemos el ciclo completo.

[01:31:12,439] ¿Ya? Pero se divide en distintas entregas.

[01:31:15,859] ¿Ok?
[01:31:18,000] ¿Ya? Creo que esa era la última pregunta del chat.

[01:31:23,380] Eh...

[01:31:27,380] Valentina dice, en caso de que empecemos con X preguntas a resolver

[01:31:31,539] pero mediante se va avanzando, ¿se pueden cambiar?

[01:31:35,840] Sí, se pueden cambiar.

[01:31:37,300] Ya, créanme que nosotros con la Josefa tenemos súper buena memoria.

[01:31:40,000] pero no nos vamos a acordar de la pregunta

[01:31:40,039] ¿Ya?

[01:31:42,600] que ustedes quieren responder

[01:31:43,680] entonces cuando ustedes llegan al coaching

[01:31:45,680] profe, nuestro trabajo era de esto

[01:31:48,960] y la pregunta o lo que estamos buscando

[01:31:50,819] es responder esto

[01:31:51,560] siempre nos tienen que decir

[01:31:52,859] ¿se acuerda que mi trabajo es?

[01:31:56,340] a pesar de que leemos todos los trabajos

[01:31:58,079] tenemos la capacidad

[01:32:00,479] de liberar ese espacio de memoria

[01:32:02,300] porque si no, de verdad que

[01:32:03,739] algunos casos que son como súper rebuscados

[01:32:06,699] uno se acuerda

[01:32:07,720] pero no necesariamente

[01:32:09,699] ¿el objetivo fijado se puede modificar?

[01:32:11,659] sí, se puede modificar

[01:32:12,659] acuérdense que CRISP

[01:32:14,479] en todas las etapas yo puedo volver


[01:32:17,600] a las etapas siguientes

[01:32:18,880] por lo tanto, todo es modificado

[01:32:20,979] ¿puedo explicar a qué se refiere

[01:32:25,380] el punto de descripción metodológica aplicada

[01:32:27,319] considerando que la entrega es de los pasos 1 y 2?

[01:32:30,539] no me queda claro

[01:32:31,819] ya, a ver

[01:32:32,640] que me quede solamente en la definición del problema

[01:32:35,899] preguntas a resolver

[01:32:38,399] ¿qué es lo que se puede modificar?

[01:32:39,699] no, eso ya la vi

[01:32:41,199] alcance

[01:32:41,840] en el alcance establecemos los límites

[01:32:45,659] cantidad de variables

[01:32:47,920] periodo que tengo de datos

[01:32:50,560] aspectos a analizar

[01:32:52,239] y cuáles son

[01:32:54,220] estas

[01:32:55,119] cuáles son estas variables

[01:32:57,840] ¿y de dónde vienen?

[01:32:59,920] ahí me falta, y eso viene en la rubrica

[01:33:02,140] ¿qué periodo de tiempo?

[01:33:06,060] tengo 1, 2, 3 meses

[01:33:07,319] tengo 3 años, etc.

[01:33:09,020] ¿ya?

[01:33:09,699] y tengo estas 15 columnas


[01:33:11,979] que voy a

[01:33:13,760] a trabajar

[01:33:14,819] ese es el alcance

[01:33:16,659] después, descripción metodológica aplicada

[01:33:19,600] nosotros vimos varias metodologías

[01:33:22,239] y dijimos que habían dos

[01:33:25,539] que son como

[01:33:27,399] las más usadas dependiendo de

[01:33:29,119] yo dije, en los casos de investigación

[01:33:32,000] cuando no sabemos lo que andamos buscando

[01:33:35,479] cuando

[01:33:35,560] generalmente se utiliza

[01:33:39,699] KDD

[01:33:40,119] porque no tengo clara la pregunta

[01:33:42,079] ¿ok?

[01:33:43,180] entonces ahí, en descripción metodológica

[01:33:45,520] usted dirá, bueno, dado que

[01:33:47,619] nuestro trabajo es de investigación

[01:33:49,539] ¿ya?

[01:33:51,180] en esta primera parte

[01:33:52,880] ¿cierto? o sea, en esta parte vamos a ocupar

[01:33:55,460] la metodología KDD

[01:33:56,560] no me describan la parte teórica

[01:33:59,220] porque solo le van a agregar

[01:34:01,680] más hoja al trabajo

[01:34:02,680] ¿ya? KDD, CRISDM


[01:34:04,680] nosotros con la Josefa no sabemos de memoria

[01:34:07,560] ¿cierto?

[01:34:08,220] ¿qué hace la metodología?

[01:34:09,699] ¿qué es la metodología teórica?

[01:34:11,279] entonces, lo que tienen que hacer ahí es

[01:34:13,800] demostrar que ustedes están usando

[01:34:16,060] la metodología

[01:34:16,859] por ejemplo, yo voy a utilizar KDD

[01:34:19,760] de

[01:34:23,060] los datos de, no sé

[01:34:25,039] investigación

[01:34:27,760] de contenido del agua

[01:34:29,720] por ejemplo

[01:34:30,239] y no sé con qué me voy a encontrar

[01:34:33,680] entonces primero voy a hacer una exploración

[01:34:35,819] de los datos

[01:34:36,319] ¿ya? y cuando ya tenga clara la exploración

[01:34:39,699] ahí me voy a poder plantear una pregunta

[01:34:41,979] entonces, cuando en el ítem de arriba

[01:34:44,979] dice preguntas a resolver

[01:34:46,380] ustedes van a decir

[01:34:48,399] vamos a aplicar KDD

[01:34:49,600] que no tenemos clara la pregunta

[01:34:51,579] pero

[01:34:52,500] si saben más o menos el contexto

[01:34:55,319] de lo que tienen


[01:34:55,920] no saben con lo que se van a encontrar

[01:34:57,779] ¿ya? si van, si tienen clara la pregunta

[01:35:00,600] o el dolor del cliente

[01:35:02,359] entonces dicen vamos a ocupar

[01:35:04,079] CRISDM

[01:35:05,000] ¿ya? ya se han definido los objetivos

[01:35:07,640] y ponen los objetivos

[01:35:09,460] ¿cierto?

[01:35:09,699] y los datos

[01:35:11,739] a la columna de datos

[01:35:13,880] de qué origen viene

[01:35:15,079] eso dentro del alcance del proyecto

[01:35:17,840] por eso les digo que esto no es un índice

[01:35:19,739] ¿ya? porque en el alcance

[01:35:22,180] ustedes podrían describir

[01:35:23,640] ¿cierto? las columnas y todo

[01:35:25,500] y están aplicando la metodología

[01:35:27,319] así que eso con

[01:35:32,020] la descripción metodológica

[01:35:34,279] ¿ya? ¿quedó claro ahí

[01:35:35,640] con eso Verónica o no?

[01:35:39,699] ok

[01:35:41,939] y después la planificación

[01:35:46,300] que como ya les explicaba

[01:35:48,159] es una hoja de ruta

[01:35:51,039] una carta GAN


[01:35:51,840] un Excel con las fechas

[01:35:53,340] ¿ya? algo gráfico

[01:35:56,539] ¿sí?

[01:35:58,380] puede ser Word o PPT

[01:36:00,079] y tiene que ser algo

[01:36:02,819] gráfico digamos que

[01:36:05,279] muestre como hitos

[01:36:07,859] las fechas que ustedes tienen que hacer

[01:36:09,699] para entregar el proyecto

[01:36:11,000] las demás actividades son

[01:36:13,079] las reuniones que ustedes tienen

[01:36:15,300] ¿ya? o sea tienen que hacer la planificación

[01:36:17,579] para que se puedan

[01:36:18,479] de la primera parte

[01:36:21,399] de la primera parte

[01:36:23,979] en detalle pero los hitos

[01:36:25,720] ya los tienen todos hasta el final

[01:36:27,800] o sea ya tienen publicadas

[01:36:29,979] las fechas de la entrega

[01:36:31,199] 1, 2, 3, 4

[01:36:32,699] y de la presentación final

[01:36:34,539] así que esos son los hitos que deberían ir en la planificación

[01:36:37,899] ¿ya?

[01:36:39,699] eso

[01:36:40,439] entonces es una pauta

[01:36:42,359] no es un índice
[01:36:45,060] ¿ya?

[01:36:46,899] ok entonces nos pasamos de las 8

[01:36:49,119] ya son las 8.11

[01:36:50,619] vamos a hacer el break

[01:36:53,180] hagámoslo de 20 minutos

[01:36:55,680] volvemos

[01:36:56,680] de 19 minutos

[01:36:58,600] volvamos a las 20.30

[01:37:00,640] ¿ya? ¿les parece?

[01:37:06,060] sí profe

[01:37:07,359] gracias

[01:37:07,600] ya volvemos

[01:37:09,300] a las 20.30

[01:37:09,699] 20.30

[01:37:10,279] hola profesora

[01:37:24,159] buenas tardes

[01:37:25,420] te regreso

[01:37:25,920] vamos entonces

[01:37:30,840] estoy revisando

[01:37:34,560] la planilla

[01:37:39,699] toco

[01:37:40,199] me faltan

[01:37:42,319] hartos que no tienen grupo

[01:37:43,640] no sé si porque

[01:37:44,640] no han armado grupo

[01:37:46,779] pero
[01:37:51,800] desde

[01:37:54,199] ahí

[01:37:57,699] están como medio parolón

[01:38:06,699] digamos hasta el 100%

[01:38:09,180] no sé si es el 100%

[01:38:09,319] el 140

[01:38:09,979] y después partimos

[01:38:10,859] en el 101

[01:38:11,560] 129

[01:38:12,779] pero a ver

[01:38:17,800] si al ojo creo que

[01:38:19,300] como 20 o 25 personas

[01:38:21,460] que todavía

[01:38:22,100] no arman su grupo

[01:38:23,640] veo varios conectados

[01:38:25,600] a la planilla

[01:38:26,220] creo que la máxima cantidad

[01:38:28,500] de grupos que se han armado

[01:38:29,340] hasta ahora son 38

[01:38:30,680] eh

[01:38:33,539] eh

[01:38:34,579] eh

[01:38:39,319] ,

[01:38:48,539] ya,

[01:38:49,260] a ver

[01:38:49,880] cuántos hay conectados


[01:38:51,119] 117

[01:38:53,300] por lo tanto hay gente

[01:38:55,180] que no está

[01:38:55,960] eh

[01:38:58,600] ya

[01:39:01,119] ok

[01:39:02,380] las personas que no tienen grupo

[01:39:04,220] eh

[01:39:05,939] tienen un grupo de whatsapp

[01:39:08,880] ahí

[01:39:09,199] que no tienen grupo

[01:39:09,300] para que se conecten

[01:39:10,899] y vayan armando su grupo

[01:39:12,899] lo antes posible

[01:39:14,060] ya

[01:39:14,680] o

[01:39:15,220] no han actualizado la planilla

[01:39:17,300] por ejemplo

[01:39:18,020] no sé

[01:39:18,399] Paula Delgado

[01:39:19,439] Paulina Chacón

[01:39:20,659] Guillermo Albornoz

[01:39:23,479] eh

[01:39:23,920] Fierela Hernández

[01:39:26,479] Rodrigo

[01:39:27,500] Galás
[01:39:28,279] que los veo en la planilla

[01:39:29,880] que no tienen

[01:39:30,500] en la columna N

[01:39:31,880] el número de grupo

[01:39:34,359] profesor

[01:39:36,680] perdón

[01:39:37,159] una consulta

[01:39:38,399] me parece que la planilla

[01:39:39,300] está un poco como des

[01:39:41,359] se descompaginó

[01:39:44,039] está algo desestructurada

[01:39:45,739] o no

[01:39:46,260] o idea mía

[01:39:46,920] Ya lo que pasa es que bloquearon

[01:39:49,279] las dos primeras columnas

[01:39:50,979] eh

[01:39:51,600] pero

[01:39:52,420] algo hicieron con

[01:39:54,640] los números

[01:39:55,779] si

[01:39:56,939] medio extraño

[01:39:58,500] yo no la puedo

[01:39:59,539] ...

[01:40:00,000] de haber filtrado me parece.

[01:40:01,640] Alguien de haber hecho un filtro.

[01:40:05,920] Alguien le envía el link de la planilla


[01:40:08,020] al PIROS y lo manda.

[01:40:26,279] Estoy conectando

[01:40:27,279] porque me botó

[01:40:28,859] alguien tiene el link de la planilla

[01:40:32,539] ahí se lo manda.

[01:40:34,560] Volvemos a tener que conectar para poder

[01:40:36,260] ver.

[01:40:44,460] Gracias.

[01:40:58,859] No voy a corregir los números ahora

[01:41:07,699] porque con todos los que estamos conectados

[01:41:09,659] se va a volver

[01:41:11,659] loca la planilla.

[01:41:13,140] Lo importante es que los que no tienen

[01:41:15,779] grupo

[01:41:16,199] tienen que armar sus grupos.

[01:41:22,039] Hasta ahora en mi registro

[01:41:23,859] solo una persona

[01:41:24,960] ha elevado solicitud con el profesor Olea

[01:41:27,619] para trabajar individualmente.

[01:41:28,859] Así es que

[01:41:32,000] todos los que yo veo acá sin número de grupo

[01:41:34,479] tienen que armar sus grupos.

[01:41:36,619] Después cuando estemos

[01:41:38,119] fuera de la clase voy a ordenar

[01:41:40,619] acá los números

[01:41:41,340] porque la columna A


[01:41:43,520] debería ser un correlativo para saber

[01:41:46,460] cuántos alumnos son.

[01:41:49,819] Algo pasó.

[01:41:50,640] ¿Ya?

[01:41:52,279] Ok.

[01:41:54,520] Ah, se ordenaron por número de grupo.

[01:41:57,659] Ya.

[01:41:58,859] Si es que con eso yo perdí el N.

[01:42:01,000] El total.

[01:42:03,880] Por lo menos acá el N

[01:42:05,039] dice que

[01:42:06,380] está a 140

[01:42:09,060] creo que era.

[01:42:11,399] Que es el número que yo tenía estimado.

[01:42:14,739] Vamos en el

[01:42:15,220] 38.

[01:42:17,680] Ya.

[01:42:18,899] Ok, entonces

[01:42:19,800] tenemos acá

[01:42:23,079] con Josefa.

[01:42:24,560] Perdón, una consulta, profesora.

[01:42:27,020] Dígame.

[01:42:27,880] Si yo,

[01:42:28,859] por ejemplo,

[01:42:29,319] ahora ya tengo un grupo,

[01:42:31,640] me debería yo poner ahí


[01:42:33,500] el grupo número 38

[01:42:36,600] o 39.

[01:42:38,399] 39.

[01:42:39,640] En la columna N

[01:42:40,619] tiene que ir su número de grupo.

[01:42:43,460] En la columna N.

[01:42:45,579] N.

[01:42:47,739] M.

[01:42:48,760] N.

[01:42:49,199] N.

[01:42:49,560] N de no.

[01:42:51,300] Sí, correcto, correcto.

[01:42:53,640] Pero ya, por ejemplo, aquí

[01:42:55,039] está la,

[01:42:56,960] hay un estudiante,

[01:42:58,859] el Benjamín tiene el 39.

[01:43:01,159] Entonces tiene que ser el 40.

[01:43:03,460] Ya, es que eso, yo creo que eso está

[01:43:04,920] causando un poquito de,

[01:43:07,199] ya, vamos a poner ahí el 40,

[01:43:08,979] por ejemplo.

[01:43:10,420] Claro.

[01:43:10,899] Dos compañeros adicionales.

[01:43:12,920] Sí, es lo que pasó.

[01:43:15,300] Ahí.

[01:43:15,939] Jorge Arratia.


[01:43:17,159] Sí, alguien puso el,

[01:43:19,560] la columna O,

[01:43:21,359] el, el último número

[01:43:23,399] de grupo.

[01:43:24,199] Entonces, para que se guíen por eso,

[01:43:25,579] el siguiente grupo,

[01:43:26,340] usted debería poner ahora 40

[01:43:28,319] en todo,

[01:43:28,859] en todo eso.

[01:43:29,920] Entonces, el siguiente que se inscriba

[01:43:31,600] va a tener que ser el 41

[01:43:32,939] y va a tener que completar

[01:43:35,439] la última columna.

[01:43:36,960] Entonces, los nuevos grupos

[01:43:37,960] que se vayan formando

[01:43:39,000] tienen que ir tomando

[01:43:40,779] el último número

[01:43:41,760] y dejar, cierto,

[01:43:44,739] la columna actualizada.

[01:43:47,340] ¿Ya?

[01:43:48,159] ¿Profesora?

[01:43:49,439] Sí.

[01:43:52,060] Estoy viendo la planilla

[01:43:53,060] y creo que no está agarrando,

[01:43:54,680] la columna O no está agarrando

[01:43:55,739] el número máximo


[01:43:56,739] que aparece en la columna N.

[01:43:57,880] Yo creo que eso es lo que está,

[01:43:58,859] que está causando problemas.

[01:43:59,800] Porque yo estoy viendo

[01:44:00,560] el número 40

[01:44:01,279] en la columna N,

[01:44:02,479] pero en la columna O

[01:44:03,239] sigue apareciendo 39.

[01:44:05,000] Ahí se actualizó.

[01:44:05,800] Alguien,

[01:44:05,979] alguien actualizó

[01:44:06,880] el rango.

[01:44:09,380] Ok.

[01:44:10,220] Ya.

[01:44:10,920] Entonces,

[01:44:11,920] teníamos acá

[01:44:13,079] proyectar

[01:44:17,960] y

[01:44:20,060] y

[01:44:20,859] y

[01:44:21,359] y

[01:44:22,859] y

[01:44:28,859] "'sí',

[01:44:38,220] y yo creo que dapat.

[01:44:40,300] Si andados.

[01:44:41,859] Eso muchacho."


[01:44:43,859] ¿Verdad?

[01:44:44,340] —

[01:44:45,520] Escuché baru.

[01:44:47,899] Mi "'STI''

[01:44:49,859] lo puse aquí sterno porque

[01:44:50,880] busco todo el horario

[01:44:51,739] y enviar las peoples

[01:44:52,520] con Flex.

[01:44:52,899] Entonces,

[01:44:53,899] no puede ser

[01:44:54,500] si está la clave

[01:44:55,640] ahí Gold y

[01:44:57,000] las rutas de la lunca en un

[01:44:57,180] balón.

[01:44:58,859] Entonces acá

[01:45:06,239] Lo voy a poner

[01:45:07,920] Es parte de la clase

[01:45:20,859] del compañero que me escribió

[01:45:22,760] por internet

[01:45:23,720] La clase está destinada

[01:45:26,819] a este tipo

[01:45:28,840] de organización dado que es

[01:45:30,939] un diplomado

[01:45:32,979] online

[01:45:33,420] Entonces ahora

[01:45:36,380] sacamos con la Josefa algunas


[01:45:38,840] ideas, títulos

[01:45:40,319] solamente

[01:45:41,399] de

[01:45:42,420] proyectos anteriores

[01:45:46,079] Aquí lo vamos a proyectar

[01:45:48,819] acá

[01:45:49,119] Y

[01:45:56,819] Entonces aquí hay

[01:46:17,300] títulos, como dicen, títulos de la canción

[01:46:20,119] ¿Ya?

[01:46:20,779] De los

[01:46:22,560] proyectos que se han hecho

[01:46:24,180] años anteriores

[01:46:26,220] Y ahí la Josefa va a ir comentando un poquito

[01:46:28,460] Para que no sea solamente leer

[01:46:32,460] ¿Cierto?

[01:46:34,479] Los proyectos que

[01:46:35,819] se han hecho

[01:46:37,180] José, le doy

[01:46:38,239] Para desmutearme

[01:46:44,539] Ya, súper

[01:46:47,899] Bueno, como les comentaba la profe

[01:46:50,300] Bueno, debido a que

[01:46:52,560] el diplomado

[01:46:53,420] lo toman personas de

[01:46:55,880] diversas áreas, los proyectos como que tienen distintas


[01:46:59,220] líneas

[01:47:00,319] ¿Ya?

[01:47:02,039] Entonces

[01:47:02,560] Hay

[01:47:04,659] hay varias gente que ha hecho, por ejemplo,

[01:47:06,560] proyectos en cuanto a

[01:47:08,920] datos financieros

[01:47:10,399] por decirlo de alguna forma

[01:47:11,739] Y bueno,

[01:47:14,760] como igual les he mencionado, le ha mencionado

[01:47:16,239] harto la profe, en el caso

[01:47:18,279] de estos proyectos tienen que tener

[01:47:20,100] mucho cuidado con las variables que utilizan

[01:47:22,359] a la hora de hacer el modelamiento

[01:47:23,920] ¿Ya? Porque hay variables

[01:47:25,239] ¿Ya?

[01:47:25,880] El ejemplo típico de que utilizan el dólar

[01:47:28,100] para poder predecir otra

[01:47:29,500] otra variable

[01:47:32,500] ¿Ya? Entonces esas variables

[01:47:34,699] claramente no les sirven para poder hacer

[01:47:36,500] proyecciones porque si uno pudiera predecir

[01:47:38,699] el dólar, prácticamente

[01:47:40,600] uno sería millonario

[01:47:41,819] ¿Ya?

[01:47:45,619] Bueno, por ejemplo


[01:47:46,640] en el caso del segundo tema

[01:47:48,579] que es gestión de citas para un

[01:47:50,340] centro de salud

[01:47:51,439] el que hizo el de la inflación

[01:47:54,819] ¡Qué complicado!

[01:47:55,880] A ver, ese, ahí me perdiste

[01:47:58,340] ¿No? Aún no llegó eso

[01:47:59,500] Pero

[01:48:01,819] sí, pues cuando hacen ese tipo de modelo

[01:48:06,319] y utilizan variables macroeconómicas

[01:48:08,220] igual es como un

[01:48:09,960] ¡Ah, gracias! El 21, modelo

[01:48:11,939] previsitivo para la inflación en Chile, sí

[01:48:13,579] Bueno, como les he mencionado

[01:48:16,600] cuando hacen ese tipo de modelo

[01:48:18,039] hay igual

[01:48:19,680] como

[01:48:20,000] como que a nosotros nos hace como una alerta

[01:48:23,699] y como que al tiro primero vemos

[01:48:25,319] como que qué tipo de variables están utilizando.

[01:48:28,119] Si utilizan una variable macroeconómica

[01:48:30,020] en la cual no se tiene una predicción,

[01:48:32,479] por ejemplo, en una ventana amplia de tiempo,

[01:48:35,960] ahí ya hay como que advertirles

[01:48:38,079] del problema que va a conllevar a eso.

[01:48:40,020] Porque igual pueden decir


[01:48:40,939] ah, pero podemos usar una predicción de esa variable,

[01:48:43,420] pero eso también conlleva a sumar error.

[01:48:45,840] Entonces, eso como por la parte financiera.

[01:48:57,100] Entonces, como les mencionaba,

[01:48:58,880] bueno, gestión de citas para un centro de salud.

[01:49:01,060] También hemos tenido ese tipo de proyectos.

[01:49:05,579] Por ejemplo, el año pasado tuvimos uno

[01:49:09,140] en donde la variable a predecir era el tiempo de espera.

[01:49:14,199] Entonces,

[01:49:15,840] creo que era como tiempo de espera para una operación.

[01:49:18,079] Ahí no recuerdo muy bien.

[01:49:20,100] Entonces, si se dan cuenta,

[01:49:21,420] ahí lo que querían predecir era una variable

[01:49:23,680] como numérica,

[01:49:26,300] pero en realidad como que es un tiempo.

[01:49:28,079] Entonces, el tipo de modelo es un poquito más como distinto.

[01:49:31,100] Ya no pueden usar, por ejemplo,

[01:49:32,500] un modelo de regresión lineal múltiple

[01:49:35,500] porque ahí van a tener valores, por ejemplo,

[01:49:37,439] predicciones negativas y el tiempo no puede ser negativo.

[01:49:40,479] Entonces, en todo eso tienen que tener mucho ojo

[01:49:43,159] en cuanto a...

[01:49:45,840] al tipo de datos que están teniendo

[01:49:47,680] y al objetivo del proyecto.

[01:49:51,000] Felices y forrados.

[01:49:52,260] Hizo un modelo para predecir el valor de cuotas de los multifondos.


[01:49:55,899] Eso también.

[01:49:56,720] Esos modelos igual son un poquito más complicados también.

[01:50:01,100] Más que nada porque

[01:50:02,340] esos son modelos de portafolio de inversión, se le dice.

[01:50:08,779] Entonces, ahí igual también hay como modelos

[01:50:10,720] entre comillas de machine learning.

[01:50:15,840] Pero así ya un poquito más complicado.

[01:50:18,640] En cuanto, de hecho, como que hay un ramo literal

[01:50:20,460] que se llama como

[01:50:23,199] portafolios de inversión.

[01:50:25,680] Ya que enseñan prácticamente

[01:50:27,279] cómo se pueden realizar

[01:50:29,119] inversiones

[01:50:31,579] y maximizar la ganancia.

[01:50:34,659] Ya.

[01:50:36,399] A ver, ¿cuál otro también resulta interesante?

[01:50:42,159] Bueno, aquí lo mismo.

[01:50:43,340] También acá hay otro del 7, también es financiero.

[01:50:45,840] Como predicciones del cálculo de provisiones, financiero, créditos.

[01:50:49,300] Lo mismo, también hay variable macroeconómica,

[01:50:51,300] así que hay que tener mucho cuidado con eso.

[01:50:57,300] Dejen ver si recuerdo otro.

[01:51:02,119] Las vacunaciones COVID, evolución, efectos ya están involucrados.

[01:51:06,340] Ah, bueno.

[01:51:07,060] También cuando estuvo el tema del COVID,

[01:51:10,600] también habían varios proyectos relacionados a esto.


[01:51:13,680] Ya, de hecho,

[01:51:15,840] hay como decirlo, bueno,

[01:51:19,760] un profesor de la Universidad Católica

[01:51:22,079] hizo como una alianza, por decirlo de alguna forma,

[01:51:24,159] con Perú.

[01:51:25,560] Y realizaron una investigación

[01:51:27,220] con respecto a cuáles son las variables

[01:51:29,800] que efectivamente eran más

[01:51:32,560] riesgosas

[01:51:34,619] o había más como chances, por decirlo de alguna forma,

[01:51:36,979] de caer hospitalizados si les daba COVID.

[01:51:39,439] Ya.

[01:51:40,020] Entonces, si quieren hacer, por ejemplo,

[01:51:41,600] algo relacionado a la salud,

[01:51:44,260] ahí tienen que tener mucho más aprovechamiento.

[01:51:45,840] Diciendo que la profe igual les mencionó como al principio

[01:51:47,640] el tema de los datos faltantes,

[01:51:49,359] porque cuando tienen datos de

[01:51:51,460] como de tiempos de falla, se le podría decir,

[01:51:54,239] análisis de sobrevivencia,

[01:51:55,840] aparecen muchos datos faltantes,

[01:51:58,140] que en realidad como que son datos faltantes

[01:51:59,659] que les aporta información.

[01:52:02,340] Entonces, yo recuerdo que

[01:52:04,239] esa base de datos de COVID

[01:52:08,739] tenía como variables como sexo, por ejemplo,


[01:52:13,220] si la persona estaba con sobrepeso,

[01:52:15,520] si tenía, por ejemplo,

[01:52:17,520] como se dice, enfermedades respiratorias,

[01:52:21,520] y aparecían varios como valores faltantes,

[01:52:24,279] pero en realidad como que eran valores faltantes

[01:52:25,960] porque la persona, por ejemplo,

[01:52:27,199] no le aplicaba esa pregunta que se le había realizado.

[01:52:30,359] Entonces, en ese caso,

[01:52:32,119] también tienen que tener mucho cuidado.

[01:52:34,119] El 5, ¿cómo se realiza?

[01:52:37,399] A ver, el 5 es

[01:52:39,399] detección de zonas con problemas de acceso a internet móvil fijo.

[01:52:45,520] Y a veces no lo recuerdo.

[01:52:48,279] No sé si Francia me puede echar una mano.

[01:52:50,279] Sí.

[01:52:51,279] Tenían acceso a datos de zonas rurales, parece.

[01:53:00,279] Según me acuerdo.

[01:53:02,279] Entonces tenían como datos como de conexiones

[01:53:06,279] y según eso y otros datos,

[01:53:08,279] claro, hacían como la distancia de las antenas,

[01:53:15,520] o las distancias de las últimas conexiones.

[01:53:19,520] Ahí tenía, era un grupo que alguien trabajaba

[01:53:22,279] en una empresa de telecomunicación.

[01:53:24,279] Ah, ya.

[01:53:26,279] Ya, ese tipo de modelos son modelos espaciales.

[01:53:29,279] Aquí como que aplica como,


[01:53:31,279] si la última materia que me da el curso

[01:53:32,760] que se llama estadística espacial,

[01:53:34,760] que lo que uno hace más que predecir

[01:53:40,760] es, por ejemplo, decir ya.

[01:53:42,760] En esta zona, en el caso de acceso a internet móvil,

[01:53:45,319] fijo, en esta zona, por ejemplo,

[01:53:47,319] hay que colocar una antena porque está toda esta área sin cobertura.

[01:53:51,319] Ya.

[01:53:53,319] Por ejemplo, también donde he visto este tipo como de problemas es,

[01:53:57,319] ¿cómo se le dice?

[01:54:03,319] Como zonas rurales que no tienen acceso a agua potable

[01:54:09,319] y que en realidad tienen que ir como camiones

[01:54:11,319] a entregarles como agua, por decirlo de alguna forma.

[01:54:13,319] Ahí también se hace como que, bueno,

[01:54:15,319] es como un análisis como de estadística espacial

[01:54:17,319] y uno no predice, sino que es como que ya.

[01:54:19,319] Esta zona no tiene, por ejemplo, cobertura,

[01:54:22,319] entonces hay que hacer un plan.

[01:54:25,319] Ya.

[01:54:27,319] Entonces, bueno, ahí también lo que habían preguntado al principio,

[01:54:30,319] no todos los modelos predicen, sino que también

[01:54:32,319] hay modelos que recomiendan, por ejemplo,

[01:54:34,319] sistemas de recomendaciones.

[01:54:36,319] Hay modelos que predicen o hay modelos que lo que buscan

[01:54:39,319] es buscar una nueva iniciativa.

[01:54:43,319] Ahí, ahí se salió.


[01:54:45,319] Cuando hay información, sigue diciendo.

[01:54:49,319] Sí, al final es predecido en zonas con poca información, efectivamente.

[01:54:53,319] ¿Buses eléctricos?

[01:54:58,319] ¿Si me ayudas con eso?

[01:54:59,319] Yo me acuerdo.

[01:55:01,319] Sí.

[01:55:03,319] Era una comuna en particular donde se estaban,

[01:55:07,319] cuando recién se empezaron con los buses eléctricos,

[01:55:09,319] entonces veían cuánto era el ahorro

[01:55:13,319] y tenían como variables de frecuencia de los buses,

[01:55:20,319] el consumo eléctrico y varias variables

[01:55:24,319] porque alguien trabajaba, digamos, en esos, en esa área.

[01:55:29,319] Así que se hizo un análisis ahí de eso.

[01:55:31,319] Ya.

[01:55:36,319] Súper.

[01:55:39,319] ¿Qué más?

[01:55:40,319] Ah, bueno, por ejemplo, el 20, que ese también es interesante,

[01:55:42,319] anomalía de equipos y maquinarias.

[01:55:44,319] Eso es súper útil porque la detección de anomalías también es un,

[01:55:49,319] también se utilizan modelos para poder detectar anomalías, ¿ya?

[01:55:52,319] Y también lo van a ver en el curso.

[01:55:54,319] Y eso puede reducir bastante, por ejemplo, ¿cómo se le dice?

[01:56:06,319] Puede reducir bastante, por ejemplo, el tiempo que una máquina puede
estar,

[01:56:11,319] en reparación o en no funcionamiento.

[01:56:14,319] Y, por ejemplo, no sé, bueno, lo digo porque trabajo en el área minera.

[01:56:19,319] En el área minera, si se echa a perder, por ejemplo, alguna pala,


[01:56:23,319] eso es súper costoso, ¿ya?

[01:56:27,319] Porque es como que no tienen capacidad,

[01:56:29,319] no están funcionando al 100% de la capacidad.

[01:56:32,319] Entonces, el detectar, por ejemplo, algún funcionamiento raro de una


maquinaria

[01:56:37,319] o también el tiempo de funcionamiento,

[01:56:39,319] el tiempo ya se Nerf- 은

[01:56:40,000] falla de una maquinaria

[01:56:41,760] o equipo es súper importante.

[01:56:44,279] Igual como que normalmente lo que

[01:56:44,319] Oernen tanto pues se PA vez begun

[01:56:46,020] uno hace es como, no, quiero hacer modelos para predecir,

[01:56:46,319] y esasgrandes este y ellos se el vergüenza de para enseñarlo

[01:56:48,680] pero en realidad como que no

[01:56:49,840] todo es como predicción, sino que también

[01:56:50,319] para sanar yete una máquina.

[01:56:51,939] hay otra forma en la que uno puede utilizar como

[01:56:52,319] Así que deben de ser prácticamente nada más SSW,

[01:56:53,960] la ciencia de datos.

[01:56:54,319] es decir, no vaenment a ser individualmente saya un ejercicio

[01:56:57,319] 1, beginner a nok äalls

[01:56:57,880] Ah, bueno.

[01:56:59,699] En ese caso, por ejemplo, en el tiempo de

[01:57:01,979] falla. En análisis

[01:57:04,020] de sobrevivencia, un tópico súper interesante.

[01:57:06,579] ¿Ya? Porque

[01:57:07,960] ahí, bueno,


[01:57:09,680] sirve en ese caso, por ejemplo,

[01:57:11,739] ¿cuál es el tiempo de falla

[01:57:13,000] de un equipo?

[01:57:15,340] O por ejemplo, bueno, suena

[01:57:17,479] como súper feo decir tiempo de falla.

[01:57:20,619] Pero por ejemplo,

[01:57:22,840] sirve

[01:57:23,539] también en los modelos

[01:57:24,720] financieros.

[01:57:29,659] Si se tiene, por ejemplo, una variable

[01:57:31,800] que es si la persona pagó o no

[01:57:33,659] pagó. ¿Ya? Uno puede hacer un modelo

[01:57:35,739] y decir, ya, esta persona va a pagar o no.

[01:57:37,800] Pero, por ejemplo, a veces a uno le

[01:57:39,300] interesa como cuantificar

[01:57:40,699] las variables de esa persona y decir, ya,

[01:57:43,760] dado que esta persona tiene otro crédito,

[01:57:45,960] hay, por ejemplo, no sé, pues

[01:57:47,520] dos veces más chances

[01:57:48,840] de que no me pague este nuevo crédito.

[01:57:52,279] ¿Ya?

[01:57:53,960] Entonces ahí como que uno busca como

[01:57:55,420] interpretar más que nada los

[01:57:57,760] los atributos

[01:57:59,420] de

[01:58:00,220] de las personas o, bueno,


[01:58:03,119] de lo que, del objetivo

[01:58:05,140] del proyecto.

[01:58:08,220] Eso, bueno, ahí

[01:58:09,180] Juan dice, predecir los fallos o cuándo

[01:58:11,079] va a fallar.

[01:58:14,039] La fatiga del material

[01:58:15,340] después de una

[01:58:17,039] cantidad de horas de trabajo, efectivamente.

[01:58:20,359] Entonces, claramente,

[01:58:21,300] mientras más horas de trabajo va a haber más probabilidad

[01:58:23,500] o más chance de que falle

[01:58:24,960] o de que se echa a perder

[01:58:26,699] o deje de funcionar.

[01:58:30,600] A la agricultura

[01:58:31,800] y o minería.

[01:58:33,239] Oh, de agricultura yo recuerdo uno

[01:58:35,460] oh,

[01:58:37,539] déjenme ver, que era como variable.

[01:58:39,180] ¿Cuántos años?

[01:58:40,920] Oh, no recuerdo. No sé si Francia

[01:58:43,159] se acuerda.

[01:58:45,060] Que era como que metieron como la temperatura

[01:58:47,319] para poder

[01:58:48,239] predecir.

[01:58:52,760] Uno, no recuerdo.

[01:58:54,880] Sí, había uno, pero han sido


[01:58:57,119] súper contados de agricultura.

[01:58:59,140] Me acuerdo que había uno de

[01:59:01,159] cereza, creo que fue el año pasado.

[01:59:04,239] Para como

[01:59:05,199] ver cuánto

[01:59:07,180] cuánto iba a ser la costa.

[01:59:09,180] ¿Cuánto se cosecha?

[01:59:11,939] ¿Y cuáles van a poder ser

[01:59:13,300] útiles? Dependiendo de variables,

[01:59:15,079] incluso hasta el

[01:59:16,140] ¿Cómo se llama? El tipo de

[01:59:19,159] ¿Cómo se llama?

[01:59:20,899] Insecticida.

[01:59:22,500] Bueno,

[01:59:27,039] fertilizante y todas esas cosas que

[01:59:28,600] tienen. Así que,

[01:59:30,899] dependiendo de las variables,

[01:59:32,479] pueden hacer

[01:59:34,520] de cualquier tema.

[01:59:39,180] De las cerezas y

[01:59:41,880] de la agricultura, no. De las cerezas

[01:59:44,199] es el que como que más me acuerdo, pero no me acuerdo

[01:59:46,199] de otro. Yo recuerdo uno nomás.

[01:59:48,279] El año pasado.

[01:59:49,619] Sí, sí, era ese de las cerezas. Que de hecho

[01:59:51,859] era una niña y era


[01:59:54,079] ella era

[01:59:55,939] agrónoma, parece que.

[02:00:00,000] Sí.

[02:00:01,539] Puede ser con el clima, lluvias para anticiparse,

[02:00:03,819] con la cosecha, sí.

[02:00:05,739] Tenía como varias variables, pero era, creo

[02:00:07,720] que era finalmente lo que era.

[02:00:08,979] Lo que querían ver era cuál iba a ser la producción útil.

[02:00:12,140] Ya, porque también hay fruta que se pierde

[02:00:13,840] y todo eso.

[02:00:15,300] Por las plagas y todas esas cosas.

[02:00:18,180] Sí, y ahí también

[02:00:19,600] tienen que tener cuidado porque, por ejemplo,

[02:00:21,899] si meten la temperatura,

[02:00:23,659] ustedes no tienen como la temperatura

[02:00:25,199] en un futuro.

[02:00:27,119] Sí la pueden como proyectar y decir, ya,

[02:00:29,420] dado que este año tuvo esta tendencia,

[02:00:31,260] se puede predecir que el próximo

[02:00:33,279] año, por ejemplo, la temperatura va a

[02:00:35,159] rondar tantos valores. Pero ahí

[02:00:37,260] cada predicción nueva que

[02:00:38,880] ustedes están haciendo, están cometiendo

[02:00:41,119] más errores. Ya le están sumando

[02:00:43,479] errores. Entonces, en realidad, como que tienen

[02:00:45,000] mucho, tienen que tener mucho cuidado con las variables
[02:00:47,140] que están implementando.

[02:00:49,260] Y en cuanto a lo que dice Mario, pediría

[02:00:51,140] información satelital. Ahí igual tienen que tener

[02:00:53,239] ojo porque, en realidad, como que la información

[02:00:55,239] satelital son imágenes.

[02:00:57,579] Entonces, primero tienen que hacer un preprocesamiento

[02:00:59,420] de imagen y pasar eso a datos.

[02:01:01,479] Y cuando es satelital es un poquito más complicado

[02:01:03,380] porque hay otras

[02:01:04,979] ¿cómo se le diría?

[02:01:08,560] Otro

[02:01:08,880] ruido que se le mete a la imagen.

[02:01:11,300] Ya, entonces, de hecho hasta las mismas

[02:01:13,060] nubes como que aparecen cuando se

[02:01:15,000] traduce la imagen a

[02:01:16,699] a

[02:01:18,199] a datos. Y ahí hay que hacer

[02:01:20,979] una limpieza. Entonces igual por eso tienen que

[02:01:22,960] tener mucho cuidado cuando utilizan

[02:01:24,939] por ejemplo imágenes satelitales.

[02:01:28,140] Bueno, ni

[02:01:28,760] el heterólogo la chontan, efectivamente.

[02:01:35,020] Sí, eso.

[02:01:36,060] Sí, es verdad, es

[02:01:38,060] complejo. Por eso

[02:01:38,880] tienen que, bueno, y por eso también hacemos


[02:01:40,819] coaching, para poder intentar

[02:01:42,739] hacer como un estilo

[02:01:44,699] como de

[02:01:45,359] guía lo más personalizado posible.

[02:01:48,920] Porque nos adaptamos como a los

[02:01:51,380] proyectos y a los datos

[02:01:52,899] que ustedes tienen y ahí nosotros le decimos

[02:01:54,859] que, dado que

[02:01:56,659] quieren este objetivo, tienen que tener esto en

[02:01:58,699] consideración. Y así ya como que parten como

[02:02:00,840] con lo que tienen

[02:02:02,800] que tener en consideración y no

[02:02:04,239] llegan como al final del proyecto y después

[02:02:06,640] como que

[02:02:07,300] se dan cuenta que

[02:02:10,000] efectivamente les faltó algo.

[02:02:15,140] Sí, eso también.

[02:02:16,380] Reconocimiento de patrones de hojas y frutos

[02:02:18,119] con imágenes, efectivamente. Hay harto,

[02:02:20,340] bueno, ahora igual también se ha puesto harto de moda

[02:02:22,180] eso. De hecho también en el área minera

[02:02:24,380] hay

[02:02:26,220] harto drones también que

[02:02:27,899] están utilizando para poder tomarlas como

[02:02:30,119] imágenes.

[02:02:31,920] Y con ello


[02:02:34,220] obtener como información.

[02:02:36,539] Como directamente.

[02:02:37,300] Y ahí también se ahorran como

[02:02:38,899] bastante recursos en cuanto como

[02:02:41,060] a los análisis que tienen que hacer de por medio.

[02:02:46,920] No sé qué más podría profundizar

[02:02:49,159] en el clima, Daniel.

[02:02:52,340] Estoy pensando

[02:02:53,359] de momento.

[02:03:03,239] Sí, eso es verdad.

[02:03:04,579] La DGAC tiene

[02:03:06,319] registros.

[02:03:07,300] Sí, pues que en realidad

[02:03:10,420] está asociado a

[02:03:12,060] lo mismo. Es estadística espacial.

[02:03:14,260] La estadística espacial ya es un poquito más

[02:03:16,039] complicada porque aparte de que

[02:03:18,220] tienen las coordenadas,

[02:03:20,239] ahora como sus

[02:03:22,039] variables o sus predictores

[02:03:23,680] están asociados

[02:03:26,439] a un área en específico.

[02:03:28,640] Entonces como que ya no pueden

[02:03:29,880] verlo como

[02:03:30,859] una tabla, sino que ahora ya lo tienen

[02:03:34,140] que ver como en otra dimensión


[02:03:35,460] y tienen que tener

[02:03:37,260] en consideración

[02:03:38,119] que esas variables o esos valores de la variable

[02:03:41,359] está asociado a una zona

[02:03:43,279] en específico.

[02:03:44,640] Pero igual es interesante.

[02:03:47,460] El clima es complicado porque

[02:03:49,300] está relacionado con la teoría del paso.

[02:03:51,939] Bueno, sí.

[02:03:55,140] A ver, ¿cuál es otro más?

[02:03:58,420] Campaña de venta a minería.

[02:04:00,340] Bueno, lo mismo.

[02:04:01,220] Ahí también. El tema de la minería

[02:04:03,579] no es solamente, por ejemplo, predecir

[02:04:05,899] eh...

[02:04:07,260] cuánto...

[02:04:09,659] cuánto cobre voy a producir,

[02:04:12,119] sino que también es, por ejemplo,

[02:04:15,039] predecir el precio

[02:04:15,859] en el que yo lo voy a vender.

[02:04:17,539] Entonces, de hecho, hay áreas que

[02:04:19,680] son como el área de pricing, que lo que

[02:04:21,720] hacen es colocarle el costo al producto

[02:04:23,720] que están vendiendo.

[02:04:25,720] Y asumo que igual en campañas de venta

[02:04:27,720] a minería también debería estar


[02:04:29,859] incluido, por ejemplo,

[02:04:32,579] el tipo de

[02:04:33,939] materia prima que se alimenta.

[02:04:36,020] Porque hay veces que

[02:04:37,260] tienen como recursos solamente como para

[02:04:39,220] poder alimentar cierta clase de materia prima

[02:04:41,500] que, por ejemplo, puede ser no la mejor.

[02:04:44,000] Y después hacen como campaña

[02:04:45,300] alimentando como materia prima

[02:04:47,180] así como premium.

[02:04:49,100] Entonces eso también tienen que tener en consideración

[02:04:51,159] en los análisis si quieren hacer algo relacionado

[02:04:53,380] a la minería.

[02:04:55,939] Hablaron de delincuencia

[02:04:57,260] y la minería es consacrida.

[02:04:58,659] Sí, eso también.

[02:05:00,000] efectivamente, 22 estimaciones

[02:05:02,659] de profesores

[02:05:03,460] ah ya, ahí Francia

[02:05:08,739] en el de los profesores, estimación de profesores

[02:05:11,239] asumo que ahí

[02:05:12,760] tenían datos como de otras carreras

[02:05:14,479] como de cuántas personas ingresaban a otras carreras

[02:05:16,840] no, en ese

[02:05:19,000] caso era

[02:05:20,020] la cantidad
[02:05:23,060] la cantidad de alumnos

[02:05:27,060] que entraban a estudiar educación

[02:05:28,619] como la cantidad de profesores que había

[02:05:33,000] y

[02:05:34,340] tenían parece también

[02:05:37,140] como

[02:05:38,220] temas de

[02:05:40,439] la población, o sea

[02:05:44,500] cuántos deberían estudiar

[02:05:46,840] digamos

[02:05:47,199] y con eso hicieron ahí como

[02:05:50,680] cuántas personas deberían estudiar

[02:05:54,979] educación en los próximos años

[02:05:56,760] ya, porque como que

[02:05:58,600] no íbamos a quedar sin profesores

[02:06:01,039] después como

[02:06:02,600] de hecho hace tiempo atrás

[02:06:04,899] hubo una campaña de

[02:06:06,199] como algunos beneficios para las personas

[02:06:08,979] que estudiaban educación

[02:06:09,859] así que iba por ahí

[02:06:12,859] el tema

[02:06:14,460] y a ver, Alonso dice

[02:06:16,500] en el 36

[02:06:18,880] modelo predictivo para optimizar el desempeño

[02:06:21,359] de una etapa del proceso productivo


[02:06:23,340] en una planta de carbonato de litio

[02:06:24,659] sí, era

[02:06:26,300] un

[02:06:27,420] un

[02:06:27,520] un

[02:06:27,779] un

[02:06:27,819] un

[02:06:27,880] un

[02:06:27,899] un

[02:06:27,920] un

[02:06:27,939] un

[02:06:27,960] un

[02:06:27,979] un

[02:06:28,000] un

[02:06:28,020] un

[02:06:28,060] un

[02:06:28,079] un

[02:06:28,100] un

[02:06:28,119] un

[02:06:28,600] negó

[02:06:29,079] un

[02:06:29,359] un

[02:06:29,619] un

[02:06:29,659] un

[02:06:29,680] un

[02:06:29,779] un
[02:06:30,100] un

[02:06:30,140] un

[02:06:30,159] un

[02:06:30,180] un

[02:06:30,260] un

[02:06:31,539] un

[02:06:32,300] un

[02:06:32,359] un

[02:06:32,380] un

[02:06:32,420] un

[02:06:32,439] un

[02:06:32,460] un

[02:06:32,500] un

[02:06:32,640] un

[02:06:32,779] un

[02:06:33,140] un

[02:06:33,640] un

[02:06:33,659] un

[02:06:33,699] un

[02:06:33,960] un

[02:06:34,140] un

[02:06:34,420] pero

[02:06:35,100] ahí tenían

[02:06:35,859] mediciones de

[02:06:37,000] varias cosas

[02:06:39,199] de una
[02:06:39,600] de una

[02:06:40,140] máquina

[02:06:40,500] eso sí me acuerdo

[02:06:41,420] pero así como

[02:06:42,319] ¿qué proceso

[02:06:43,020] puntual?

[02:06:44,100] no

[02:06:44,220] no me acuerdo

[02:06:45,340] ya

[02:06:46,100] y el

[02:06:48,140] cuarenta y uno

[02:06:49,079] modelo de optimización

[02:06:50,659] de la producción

[02:06:51,260] de alimento

[02:06:51,960] extraído

[02:06:53,720] ahí está

[02:06:54,020] extraído

[02:06:54,500] para salmones

[02:06:55,300] y

[02:06:57,920] y

[02:06:58,100] y

[02:06:58,380] y

[02:06:58,460] y

[02:06:58,479] y

[02:06:58,560] y

[02:06:58,579] y
[02:06:58,600] Debe ser el tema de que prácticamente como de los costos asociados a la
crianza, se le podría decir, el 50% son como asociados como al cultivo.

[02:07:18,579] Entonces, la demanda como de alimentos es como demasiado.

[02:07:26,500] Entonces, lo más probable es que era como optimizar la producción de los
alimentos para ello.

[02:07:37,479] Entonces, como que asumo que ahí deberían haber como variables que
pueden servir como sustituto, por decirlo de alguna forma.

[02:07:47,500] Entonces, asumo que a eso se refería como el 41.

[02:07:53,739] Sí, puede ser ese cuento.

[02:07:56,500] 34, no sé si respondió.

[02:08:05,500] Examen de medicina preventiva.

[02:08:12,800] No, ahí no sé en qué se enfocó muy bien.

[02:08:15,420] Ese era medicina preventiva para personas de la tercera edad, me parece.

[02:08:24,180] Entonces, tenían datos.

[02:08:26,500] De personas que se atendían en consultorios.

[02:08:31,579] Y según los registros que tenían, como que los llamaban a hacerse un
examen preventivo.

[02:08:43,319] O sea, hacían un modelo ahí que según, creo que era una clasterización.

[02:08:48,600] Según las características de las personas.

[02:08:51,020] No sé si tenía diabetes, si tenía colesterol alto, no sé.

[02:08:54,220] Cosas así.

[02:08:56,039] Entonces.

[02:08:56,500] Entonces, los llamaban a hacerse un examen preventivo.

[02:09:03,000] Ya, como para que no les dé, no sé, un infarto o cosas así.

[02:09:07,140] Ya.

[02:09:07,520] Estoy hablando en general porque no me acuerdo en detalle.

[02:09:09,640] Pero era así, me acuerdo, para la tercera edad.

[02:09:13,579] Y con análisis de consultorio.


[02:09:15,579] El 32.

[02:09:18,140] Ah, detección de fraude en garantía extendida.

[02:09:20,479] Ese fue muy bueno y me acuerdo porque era de autos.

[02:09:25,619] Era de autos.

[02:09:26,699] O no, a ver.

[02:09:28,659] No, no, es el de los autos.

[02:09:29,939] En caso, estudios.

[02:09:31,359] No, este era de retail, de cosas que compran.

[02:09:37,939] Y después las devuelven con alguna falla.

[02:09:40,500] Y eso se les saca fotografía.

[02:09:43,460] Entonces, lo que hacían ahí era hacer todo un análisis de cuándo lo compró.

[02:09:50,000] Para ver la cantidad de días que hacían el reclamo.

[02:09:53,479] Para ver el tiempo.

[02:09:56,500] El tipo de producto.

[02:09:59,180] ¿Qué más?

[02:10:02,220] Y las fotos.

[02:10:03,739] Entonces, ahí hacían como un modelo para ver si las fotos eran las mismas.

[02:10:11,779] Si las fotos de verdad demostraban que había un daño.

[02:10:16,180] O en algunos casos que era la misma foto.

[02:10:19,899] Entonces, era un fraude.

[02:10:21,079] Así como ahí detectaban dependiendo de ciertas condiciones.

[02:10:25,079] Condiciones cuando era fraude.

[02:10:30,399] Tiempo de respuesta.

[02:10:32,159] ¿De qué está hablando Mario?

[02:10:34,300] Tiempo de respuesta.

[02:10:40,180] Recién leí el comentario.


[02:10:49,760] Bueno.

[02:10:50,859] Esas como ideas traíamos.

[02:10:53,600] Con.

[02:10:54,279] Con Josefa.

[02:10:55,439] Así como.

[02:10:56,659] Uno al ver los títulos de repente.

[02:10:58,220] Como que se puede.

[02:11:00,600] Ah.

[02:11:01,100] De las personas que subían al reclamo de garantía.

[02:11:03,500] No, no.

[02:11:03,800] Era para medir los tiempos de respuesta.

[02:11:05,300] Era para ver fraudes.

[02:11:06,520] Así las personas que estaban devolviendo las cosas.

[02:11:08,600] Estaban cometiendo fraude.

[02:11:10,399] Eso es.

[02:11:11,460] Ya.

[02:11:13,380] Ok.

[02:11:15,640] Sí.

[02:11:16,460] Sí.

[02:11:16,720] Con uno como que.

[02:11:18,359] Ah.

[02:11:18,760] Lo ve así.

[02:11:20,039] Ah.

[02:11:20,279] Podría hacer esto.

[02:11:21,399] Ya.

[02:11:21,600] De repente como que.


[02:11:22,399] Sí.

[02:11:22,479] Sí.

[02:11:22,520] Sí.

[02:11:22,539] Sí.

[02:11:22,560] Sí.

[02:11:22,579] Sí.

[02:11:22,600] Sí.

[02:11:22,619] Sí.

[02:11:22,640] Sí.

[02:11:22,659] Sí.

[02:11:22,680] Sí.

[02:11:22,699] Sí.

[02:11:22,720] Sí.

[02:11:23,699] Sí.

[02:11:23,720] Sí.

[02:11:23,739] Sí.

[02:11:24,180] En el caso del treinta y dos.

[02:11:25,819] O cualquier predicción.

[02:11:26,960] Luego se pide validar si efectivamente el modelo resulte detecta fraude.

[02:11:31,060] O sea.

[02:11:32,479] No.

[02:11:33,239] O sea.

[02:11:33,859] No con datos de una empresa.

[02:11:35,500] Sino que en el fondo usted tiene que mostrar cuáles fueron sus variables.

[02:11:39,260] Sus métricas de salida dependiendo del modelo.

[02:11:42,020] Ya.
[02:11:42,199] Lo que hablábamos en algún minuto de.

[02:11:44,460] Si el modelo tiene un ochenta por ciento de efectividad.

[02:11:47,239] O tiene un noventa y nueve coma nueve.

[02:11:49,380] Ya.

[02:11:49,560] Que una vez me pasó.

[02:11:51,039] Ya.

[02:11:51,220] Que presentaron noventa y nueve coma nueve.

[02:11:52,779] Y.

[02:11:54,159] Y claro.

[02:11:54,840] Y fue cuestionado.

[02:11:55,659] Porque en el fondo no.

[02:11:56,659] No.

[02:11:56,960] No evaluaron el sobreajuste que tenía el modelo.

[02:12:00,159] Ya.

[02:12:00,500] Entonces.

[02:12:01,420] Eh.

[02:12:02,319] Y en algunos casos que.

[02:12:03,640] Bueno.

[02:12:04,000] No resultó como esperaban.

[02:12:05,539] Porque uno al principio se hace como una idea de lo que espera que salga
del modelo.

[02:12:09,520] Pero no necesariamente.

[02:12:11,520] Ya.

[02:12:12,840] Así que.

[02:12:13,739] No es que vayamos a ver que efectivamente el modelo lo implementaron.

[02:12:17,399] Y.

[02:12:17,840] Y.
[02:12:18,340] Hizo lo que queríamos.

[02:12:19,819] Eh.

[02:12:21,560] Eh.

[02:12:21,960] El treinta y nueve.

[02:12:22,779] Nueve.

[02:12:23,659] Predicción de brechas salariales y paridad de género en la industria.

[02:12:25,819] Sí.

[02:12:25,979] Hoy sí.

[02:12:27,180] Eh.

[02:12:29,640] Tenían datos de.

[02:12:31,859] Eh.

[02:12:32,439] De sueldos.

[02:12:33,880] Eh.

[02:12:34,539] Por sexo.

[02:12:35,819] Por.

[02:12:36,939] Por cargo.

[02:12:38,739] Eh.

[02:12:39,699] Eh.

[02:12:40,119] Y.

[02:12:40,859] Según la industria.

[02:12:41,899] Entonces ahí.

[02:12:42,899] Eh.

[02:12:43,979] Hacían como.

[02:12:45,500] Predicciones de.

[02:12:47,039] Eh.

[02:12:47,220] La diferencia que hay de salario entre mujeres y hombres.


[02:12:50,619] Y.

[02:12:51,239] Todo un tema.

[02:12:51,840] Creo que.

[02:12:52,439] Eh.

[02:12:52,539] Eh.

[02:12:52,600] Eh.

[02:12:52,619] Eh.

[02:12:52,640] Eh.

[02:12:52,659] Eh.

[02:12:52,680] Eh.

[02:12:52,779] Esos datos parece que eran.

[02:12:54,680] Eh.

[02:12:55,500] Por ley de transparencia.

[02:12:56,779] Los.

[02:12:57,020] No.

[02:12:57,479] No me acuerdo cuál era la fuente.

[02:12:58,859] Pero.

[02:12:59,920] Eh.

[02:13:00,739] Era.

[02:13:01,560] Era.

[02:13:02,319] Interesante el.

[02:13:03,659] El.

[02:13:03,939] El tema.

[02:13:05,239] Eh.

[02:13:05,920] Ese era el treinta y nueve.

[02:13:07,520] Eh.
[02:13:07,899] No han hecho trabajo.

[02:13:08,739] Se ha dado.

[02:13:09,060] Porque sí.

[02:13:10,020] Se han hecho.

[02:13:11,119] Eh.

[02:13:11,760] Generalmente.

[02:13:12,359] Toman datos.

[02:13:13,479] De dataset.

[02:13:14,239] Que existen.

[02:13:15,220] En alguna plataforma.

[02:13:17,020] Ya.

[02:13:17,439] No ha llegado a ninguna empresa.

[02:13:18,699] Así como que.

[02:13:19,460] Digaba.

[02:13:19,819] Ah.

[02:13:19,899] Ah.

[02:13:19,960] Ah.

[02:13:20,000] Ah.

[02:13:20,000] vamos a evaluar

[02:13:20,020] Ah.

[02:13:20,060] Ah.

[02:13:20,079] Ah.

[02:13:20,100] Ah.

[02:13:20,119] Ah.

[02:13:20,159] Ah.

[02:13:20,180] Ah.
[02:13:20,199] Ah.

[02:13:21,859] ¿cómo se llama?

[02:13:25,779] nuestro equipo,

[02:13:27,060] como el...

[02:13:29,279] De hecho, ustedes pueden buscar en YouTube

[02:13:31,039] el Barcelona, el equipo de fútbol

[02:13:33,460] Barcelona.

[02:13:34,880] Hay un video por ahí en YouTube

[02:13:37,500] donde muestran todo lo que hacen

[02:13:39,659] para recopilar los datos

[02:13:41,239] y después qué hacen con eso.

[02:13:43,800] ¿Ya?

[02:13:44,859] Porque les ponen sensores a los jugadores,

[02:13:48,140] entonces ahí sí capturan los datos

[02:13:49,659] y después, no sé,

[02:13:51,439] ven la cantidad de pases,

[02:13:54,020] la cantidad de jugadas,

[02:13:55,460] pueden predecir una lesión.

[02:13:58,199] Así que es como un tema interesante

[02:13:59,979] pero que no se da mucho

[02:14:01,119] en casos reales y en casos

[02:14:02,939] de data ficticia.

[02:14:05,140] ¿Se ha hecho algo de delitos y estadística espacial?

[02:14:10,260] Parece que sí.

[02:14:11,739] No lo recuerdo tan...

[02:14:13,380] Recuerdo más el tema de las luminarias


[02:14:15,300] y los delitos.

[02:14:17,640] Ese es como el que más me suena.

[02:14:21,739] Pueden ser datos desfasados por el tiempo.

[02:14:23,420] Por ejemplo, si tomo una base de datos libre

[02:14:25,300] que me da 10 años de información

[02:14:26,960] pero de hace 3 años se pudo utilizar,

[02:14:30,079] sí, se puede utilizar.

[02:14:32,979] O sea, el problema son

[02:14:34,600] como...

[02:14:37,979] Usted va a hacer un modelo

[02:14:39,380] y esos datos...

[02:14:40,319] Y después podría tener datos actualizados

[02:14:42,140] para poder comprobarlo.

[02:14:44,640] Ahora, si...

[02:14:45,640] Si...

[02:14:46,319] Si...

[02:14:46,520] Si...

[02:14:46,640] Si...

[02:14:46,960] Si...

[02:14:46,979] Si...

[02:14:47,020] Si...

[02:14:47,079] Si...

[02:14:47,119] Si...

[02:14:47,140] Si...

[02:14:47,180] Si...

[02:14:47,199] Si...
[02:14:47,220] Si...

[02:14:47,239] Si...

[02:14:47,640] Si...

[02:14:48,159] Si...

[02:14:48,199] Si...

[02:14:48,279] Si...

[02:14:48,319] Si...

[02:14:48,380] Si...

[02:14:48,819] Si...

[02:14:48,859] Si...

[02:14:48,920] Si...

[02:14:48,939] Si...

[02:14:49,079] Si...

[02:14:49,100] Si...

[02:14:49,119] Si...

[02:14:49,140] Si...

[02:14:49,180] Si...

[02:14:49,199] Si...

[02:14:49,239] Si...

[02:14:49,300] Si...

[02:14:49,539] Si...

[02:14:49,560] Si...

[02:14:49,579] Voy a dar un ejemplo.

[02:14:51,020] ¿Ya?

[02:14:51,239] Tiene datos de...

[02:14:52,579] De...
[02:14:53,399] Valores de la bolsa.

[02:14:55,739] ¿Ya?

[02:14:55,939] Y quiere hacer el valor del dólar.

[02:14:58,399] Entonces...

[02:14:59,079] El modelo va a tener como...

[02:15:02,600] No sé.

[02:15:03,399] Datos desfasados.

[02:15:05,159] Y actualmente sabemos el valor del dólar.

[02:15:08,119] ¿Ya?

[02:15:08,359] Entonces ahí...

[02:15:09,380] Ojo con eso

[02:15:10,119] que era lo que les comentaba yo

[02:15:11,920] en las clases pasadas.

[02:15:14,199] De la frustración, digamos.

[02:15:15,899] Que no se vayan a frustrar

[02:15:17,460] de...

[02:15:17,960] De que no les salga tal como...

[02:15:19,840] Como esperamos.

[02:15:20,880] ¿Ya?

[02:15:21,100] Así que...

[02:15:21,939] Se puede hacer.

[02:15:23,000] No es una limitante.

[02:15:24,840] ¿Ya?

[02:15:25,199] Y depende del caso

[02:15:26,560] y de lo que usted espera como respuesta.

[02:15:29,140] Matías dice...


[02:15:30,300] ¿Tiene cuenta premium en...

[02:15:32,359] ¿O conoce a alguien

[02:15:33,880] que nos pueda descargar una base de datos?

[02:15:36,659] Eh...

[02:15:37,140] No, no tengo cuenta premium.

[02:15:39,100] Yo bajo dataset

[02:15:40,500] cuando tengo que hacer así como de Kaggle también.

[02:15:44,439] Eh...

[02:15:44,880] Y no.

[02:15:45,899] Conozco a nadie que pueda así como

[02:15:47,079] bajarle una base de datos.

[02:15:49,239] ¿Ya?

[02:15:50,840] Eh...

[02:15:51,239] Pero...

[02:15:53,380] Eh...

[02:15:54,119] Hay plataformas.

[02:15:55,720] He dicho, hay bibliotecas.

[02:15:57,819] La Católica creo que tiene

[02:15:58,920] para bajar bases.

[02:16:00,199] Pero hay otras bibliotecas

[02:16:01,079] que también tienen.

[02:16:03,979] Eh...

[02:16:04,420] Sí, en Kaggle hay mucho.

[02:16:06,039] Y no necesariamente

[02:16:06,859] tiene que ser un caso de Chile.

[02:16:08,319] Sí pueden tomar datos


[02:16:09,399] de lo que quieran.

[02:16:10,279] O sea...

[02:16:12,140] No, no hay...

[02:16:12,840] No hay límite.

[02:16:13,819] O sea, no hay...

[02:16:15,060] Eh...

[02:16:15,479] Ideas limitadas.

[02:16:16,859] Solo hay consejos de...

[02:16:19,420] Eh...

[02:16:19,640] Que tengan cuidado

[02:16:20,359] sobre todo con temas de...

[02:16:22,020] Economía.

[02:16:23,000] ¿Ya?

[02:16:24,520] Eso.

[02:16:25,819] Ya.

[02:16:27,600] Eh...

[02:16:28,119] Contaminación ambiental

[02:16:30,000] pero con estadística espacial.

[02:16:31,359] No, no lo recuerdo.

[02:16:34,840] Ah, en el banco

[02:16:35,920] no le van a dar información.

[02:16:37,200] Sí, pero para efectos

[02:16:38,239] de su...

[02:16:39,200] De lo que usted quiera hacer

[02:16:40,239] de su modelo

[02:16:40,979] puede hacerlo con data antigua.


[02:16:43,639] No hay problema.

[02:16:44,860] ¿Ya?

[02:16:45,479] ¿Usted quiere comprobar algo

[02:16:47,280] con un modelo?

[02:16:49,520] Bien.

[02:16:50,280] O sea, depende de la pregunta

[02:16:51,100] que se plantee, pero...

[02:16:52,879] Sí.

[02:16:53,319] O sea, el banco tiene

[02:16:54,200] sus restricciones

[02:16:54,799] para pasar datos,

[02:16:55,559] así que va a ser así.

[02:16:57,940] Así que no hay problema.

[02:16:59,200] Bueno.

[02:17:00,280] Felipe, no recuerdo

[02:17:01,780] contaminación ambiental

[02:17:02,979] con estadística espacial.

[02:17:04,840] No, no lo tengo en...

[02:17:09,739] Eh...

[02:17:10,459] Josefa, ahí...

[02:17:11,860] Tú puedes ayudar al...

[02:17:13,479] A...

[02:17:14,479] A...

[02:17:14,520] A...

[02:17:14,799] A...

[02:17:14,860] A...
[02:17:16,200] A...

[02:17:16,739] A...

[02:17:17,500] A...

[02:17:17,780] A...

[02:17:18,340] A...

[02:17:18,399] A...

[02:17:18,440] A...

[02:17:18,459] A...

[02:17:18,659] A...

[02:17:18,680] A...

[02:17:18,700] A...

[02:17:19,420] ¿Pero a qué tú refieres

[02:17:19,959] con error?

[02:17:21,180] Porque

[02:17:21,479] si es tu variable de respuesta

[02:17:23,639] como que claramente

[02:17:25,319] tiene que estar en el modelo.

[02:17:28,879] Porque si no,

[02:17:29,659] tendrías que utilizar

[02:17:30,340] otra variable.

[02:17:35,420] Error de estimación.

[02:17:37,159] Pero te refieres como,

[02:17:38,219] por ejemplo,

[02:17:38,899] que...

[02:17:39,940] Por la...

[02:17:42,159] Por error de estimación


[02:17:43,239] de...

[02:17:43,979] No sé, por...

[02:17:44,860] Una máquina toma...

[02:17:47,780] Jorge, prenda el micrófono, por favor, porque si no vamos a entender nunca
la pregunta y queremos responder.

[02:17:54,840] ¿Ya?

[02:17:58,040] Sí.

[02:17:59,340] Sí, porque es como raro, así como error.

[02:18:03,000] ¿Ya? Así que...

[02:18:05,459] Sí, si prende el micrófono nos explica más y así le podemos dar una
respuesta más certera.

[02:18:10,500] Sí, porque igual, de todos modos, si tienes un modelo le puedes calcular
como un margen de error como a tus predicciones.

[02:18:23,440] Independiente si es un modelo de Máster y Clarnino o no, hay métodos que


uno puede utilizar para calcular un intervalo de confianza, por decirlo de alguna forma.

[02:18:32,200] Lo digo de esta forma porque...

[02:18:35,500] Si digo directamente intervalo de confianza, estaríamos subiendo una


distribución.

[02:18:40,500] Ya, entonces entre comillas como intervalos de confianza.

[02:18:44,840] No decía... Decía si mi variable de respuesta, por ejemplo, tengo una


estimación comunal y tengo otras variables que no tienen error, son registros
administrativos.

[02:18:55,899] Ahí quiero asociar esta estimación comunal con esas otras variables.

[02:19:01,739] Ese modelo puedo usar Machine Learning, pero ese error que queda en la
estimación comunal de mi variable de respuesta...

[02:19:07,979] Ahí...

[02:19:09,200] Tiene que ir...

[02:19:10,500] Dentro de estos.

[02:19:12,299] Ah, ya, si el error ya te entendí.


[02:19:15,340] No necesariamente, pero sí tienes que tener antes como...

[02:19:19,920] Tener en consideración antes de modelar, determinar que ese error no sea
muy grande.

[02:19:29,040] ¿Ya?

[02:19:29,600] Y si ese error es chico en algunas comunas, y yo quiero predecir en las


comunas que tienen alto error...

[02:19:38,739] Ahí también me sirve Machine Learning.

[02:19:40,500] Y tengo data en esas otras comunas.

[02:19:47,780] Sí, o sea, igual te va a servir.

[02:19:50,100] Igual vas a poder hacer una predicción, pero el tema de ahí es que si ya el
error de esas comunas es grande,

[02:19:56,319] entonces si tu predicción, por ejemplo, se acerca al valor entre comillas real
que ya tiene un error,

[02:20:02,899] entonces tu predicción está cometiendo como prácticamente un error


similar al que tiene esa comuna.

[02:20:10,500] Entonces como que lo más, como entre comillas, simple sería como que tu
estimación va a ser, no sé,

[02:20:17,180] pues tu estimación puntual es X valor, y tu predicción va a ser X valor más


menos...

[02:20:24,360] O sea, tu predicción se va a mover entre X valor más menos el error que ya
tenía asociado a la comuna, por lo bajo.

[02:20:31,819] ¿Ya?

[02:20:32,520] Entonces por eso tienes que tener como cuidado con lo que mencionas.

[02:20:36,959] Y lo otro sería, en vez de utilizar un modelo de...

[02:20:39,840] Eh...

[02:20:39,860] Eh...

[02:20:40,379] Eh...

[02:20:40,500] Supervisado, que es que tienes como la etiqueta, por decirlo de alguna
forma,

[02:20:44,379] sería utilizar un modelo como no supervisado.


[02:20:47,340] Y predecir, entre comillas, como la etiqueta.

[02:20:51,780] En caso de que el error sea muy grande.

[02:20:55,399] Como de tu variable real.

[02:20:59,420] Ok.

[02:21:00,299] Gracias.

[02:21:01,700] De nada.

[02:21:10,500] Ok.

[02:21:16,219] Más preguntas, chicos, de su trabajo.

[02:21:17,799] Estoy respondiendo a alguien que me escribió por acá en el chat.

[02:21:23,340] Eh...

[02:21:23,739] En el caso de Nintendo.

[02:21:26,860] Ok, George, no hay problema.

[02:21:39,079] Ok.

[02:21:40,000] ya yo estaba leyendo el de José

[02:21:53,860] pensamos en algo

[02:21:59,280] yo lo estoy escribiendo acá

[02:22:01,059] ah ya, super

[02:22:03,139] como incluye

[02:22:05,440] la competencia

[02:22:07,340] para el caso que pregunta José

[02:22:11,120] a ver, ventas globales

[02:22:14,760] como pensar

[02:22:15,459] en grande, y para eso tendríamos que tener

[02:22:19,120] la histórica de ventas y características

[02:22:20,899] de los clientes que compren

[02:22:22,299] porque por ahí también menciona estrategias comerciales


[02:22:25,200] entonces si yo voy a hacer estrategias comerciales

[02:22:27,540] lo primero que tengo que

[02:22:29,159] definir es mi público objetivo

[02:22:30,500] y el estado del ánimo

[02:22:33,379] del cliente, claro

[02:22:34,159] y hay una variable que es global

[02:22:37,239] que es la competencia

[02:22:38,200] o sea, tengo Nintendo y tengo

[02:22:40,399] como se llama la otra, la Playstation

[02:22:41,920] y tengo, no sé, que otras más

[02:22:44,840] de la competencia

[02:22:46,079] entonces eso es como una variable

[02:22:48,920] que también influye

[02:22:49,959] porque si, no sé, sacó

[02:22:53,020] una promoción o sacó

[02:22:54,879] algo así como super esperado

[02:22:57,059] que está de moda

[02:22:58,180] también le va a afectar en las ventas

[02:23:00,819] así que hay

[02:23:02,139] varias variables que se pueden considerar

[02:23:04,760] ya

[02:23:04,920] bueno

[02:23:05,079] eh

[02:23:07,239]

[02:23:37,239]

[02:24:07,239]
[02:24:37,239] obviamente de los datos que uno le entrega

[02:24:39,180] entonces en ese caso

[02:24:40,940] con 13 millones

[02:24:42,979] lo más probable es que

[02:24:44,219] estén más de un día corriendo los modelos

[02:24:47,479] ya

[02:24:47,840] entonces si lo más óptimo sería

[02:24:50,860] recortarlo y utilizar un modelo de recomendación

[02:24:53,540] que

[02:24:54,860] no esté tan condicionado a

[02:24:57,159] a tener una cantidad tan grande

[02:24:58,959] de registro, ya porque también

[02:25:00,780] los modelos de recomendación tienen distintos

[02:25:02,920] tipos de modelamientos

[02:25:07,239] y también hay un tipo de modelo que se puede utilizar

[02:25:10,360] para hacer un modelo de recomendación

[02:25:12,500] que es el modelo de recomendación

[02:25:13,899] que se ve que estoy proyectando

[02:25:15,440] la ruta o no, o se ve

[02:25:16,819] se ve la presentación

[02:25:20,479] igual

[02:25:27,479] Verónica cuando dice

[02:25:29,040] enfocarnos en un género, claro, podría ser

[02:25:31,299] por ejemplo vamos a filtrar

[02:25:33,120] el género romántico

[02:25:37,000] o el género de la vida


[02:25:37,239] o el género juvenil

[02:25:38,040] y analizar ese tipo de eventos

[02:25:40,280] o sea como que su público objetivo

[02:25:41,719] o sea como que su

[02:25:42,739] su data va a ser

[02:25:46,000] solo de ese tipo de

[02:25:48,459] de características

[02:25:50,100] ya

[02:25:51,819] rango de edades

[02:25:55,000] también

[02:25:55,979] ya, esto se lo vamos a subir a Moodle

[02:26:05,200] pero igual se los quería mostrar

[02:26:07,000] antes, tengo que revisar

[02:26:08,940] ahí

[02:26:09,319] para la entrega 2 ponemos

[02:26:12,920] límite de hoja pero para la entrega 1

[02:26:14,840] ¿se ve la pauta ahora o no?

[02:26:18,239] si ahora se ve

[02:26:19,239] bueno la pauta cierto

[02:26:24,500] tiene los mismos puntos que estábamos conversando

[02:26:26,459] pero acá dice el por lograr

[02:26:28,819] el logrado y el superar

[02:26:30,180] dependiendo de eso ponemos el puntaje

[02:26:34,180] no

[02:26:35,920] voy a poner una nota al pie

[02:26:38,139] como
[02:26:38,639] que recuerdo que en algún minuto me dio un trabajo de 50 hojas

[02:26:42,559] ya entonces claramente

[02:26:44,059] no nos da para leerlo

[02:26:45,299] así que vamos a poner un límite de hojas total

[02:26:48,360] para que

[02:26:49,920] ahora

[02:26:51,959] si hacen dos hojas no se asusten

[02:26:53,479] si está completo explica el contexto

[02:26:56,180] explica las preguntas y todo

[02:26:57,540] alguna vez me dio un trabajo

[02:27:00,159] de una sola

[02:27:00,840] ya

[02:27:01,920] estaba totalmente satisfecha

[02:27:05,920] y me dio un trabajo de dos hojas

[02:27:09,219] por ejemplo

[02:27:09,940] entonces bueno

[02:27:11,819] esa es un poco la pauta

[02:27:15,059] le vamos a poner

[02:27:16,700] un límite de hojas

[02:27:17,879] y alguna otra cosa que vamos a revisar

[02:27:20,139] de las preguntas que han salido

[02:27:22,040] y se las vamos a dejar en Moodle

[02:27:23,459] ¿ya?

[02:27:25,959] hay más preguntas

[02:27:27,239] ah no está en modo presentación

[02:27:29,799] pero se las voy a dejar en Moodle


[02:27:31,299] si en la rubrica

[02:27:35,059] ¿ya?

[02:27:35,680] ¿ya?

[02:27:35,920] pero le vamos a hacer algunos ajustes

[02:27:38,120] y ahí se las vamos a subir a Moodle

[02:27:40,000] ¿ya?

[02:27:40,479] bueno acá viene

[02:27:41,360] viene explicado

[02:27:43,120] ¿ya?

[02:27:45,319] el grupo

[02:27:46,059] un poco cuáles son los objetivos

[02:27:50,260] ¿ya?

[02:27:50,879] pero estamos hablando del proyecto en general

[02:27:52,700] ¿ya?

[02:27:54,340] y después

[02:27:55,020] viene la rubrica de la parte 1

[02:27:57,799] ¿ya?

[02:28:00,579] eso

[02:28:01,120] no sé si tienen preguntas generales

[02:28:03,059] esta es nuestra última clase

[02:28:05,920] del curso de fundamentos

[02:28:07,559] ¿ya?

[02:28:08,739] eh

[02:28:09,100] después ya nos vamos a ver en el

[02:28:12,239] la próxima semana parten con

[02:28:14,379] los otros cursos


[02:28:15,739] eh

[02:28:17,139] que no me acuerdo ahora

[02:28:18,959] es una estadística y el otro herramientas

[02:28:21,559] computacionales

[02:28:22,399] sí

[02:28:22,680] así que no sé

[02:28:26,579] preguntas

[02:28:27,500] deben tener objetivos

[02:28:30,639] y pregunta o basta con preguntas

[02:28:32,420] eh

[02:28:33,719] eh

[02:28:33,819] eh

[02:28:33,879] eh

[02:28:33,899] eh

[02:28:33,959] eh

[02:28:33,979] eh

[02:28:34,000] eh

[02:28:34,020] eh

[02:28:34,040] eh

[02:28:34,059] eh

[02:28:34,079] eh

[02:28:34,100] eh

[02:28:35,159] eh

[02:28:35,680] e

[02:28:36,520] y

[02:28:36,680] y
[02:28:36,719] e

[02:28:36,760] e

[02:28:36,819] y

[02:28:36,840] n

[02:28:37,819] e

[02:28:38,159] lo

[02:28:40,020] des

[02:28:44,979] luego

[02:28:50,000] vamos

[02:28:54,799] perfil

[02:28:55,239] y

[02:28:56,340] sobretimer

[02:28:56,860] mañana

[02:28:58,000] nos leando

[02:28:58,020] para

[02:29:00,200] sentarnos

[02:29:04,239] correcto

[02:29:04,340] la

[02:29:04,979] día

[02:29:05,180] mañana

[02:29:05,319] por

[02:29:05,440] la

[02:29:05,559] mañana

[02:29:05,600] lot nyt

[02:29:05,620] made

[02:29:05,680] En el calendario que está en Moodle.


[02:29:09,760] Donde están las fechas de todas las evaluaciones.

[02:29:13,280] Semana del coaching de 2 al 7 de junio.

[02:29:16,540] Entrega de la primera parte 16 de junio.

[02:29:19,920] Como se entrega por Moodle, dejamos disponible un buzón.

[02:29:24,000] La presentación y la rúbrica también se las vamos a subir a Moodle para que
las tengan ahí disponibles.

[02:29:30,020] Y después les llega un mail.

[02:29:34,540] Que va a ser la última semana de mayo.

[02:29:37,420] Les va a llegar un mail con el link donde tienen que reservar los 20 minutos
para su coaching.

[02:29:44,139] Se inscribe una persona por grupo.

[02:29:47,280] Y lo ideal es que no falten a esa sesión.

[02:29:51,020] Y si por alguna razón van a faltar, nos avisan.

[02:29:54,899] Porque así liberamos ese horario y se lo damos a otro grupo.

[02:30:00,000] así que eso si tiene algún comentario

[02:30:13,579] pregunta reclamo

[02:30:21,159] ok

[02:30:21,840] gustavo en la programación aparecen en sesiones como de repaso esa es la


forma en que aparecen

[02:30:37,059] en el programa lo estoy viendo aquí directamente y dice repaso sesiones no


dice coaching son cosas

[02:30:47,219] distintas son cosas distintas los que echan los

[02:30:51,659] coaches son cosas distintas son cosas distintas son cosas distintas son cosas
distintas son cosas

[02:30:51,819] no están en el programa definido se van a entregar por otra vía

[02:30:55,399] les mandamos el link

[02:31:01,760] para que ustedes se inscriban desde la semana del 2 al 7

[02:31:04,420] en los horarios que nosotros disponemos


[02:31:07,180] para que ustedes se inscriban

[02:31:08,559] las sesiones de repaso son para repasos

[02:31:11,280] de temas de las clases que tienen ahora

[02:31:14,579] pero para el trabajo de investigación

[02:31:17,159] es

[02:31:20,819] es

[02:31:21,639] Es el coaching la instancia donde nosotros los podemos ayudar a resolver


sus dudas.

[02:31:27,600] Vale, gracias.

[02:31:29,340] Ariel.

[02:31:29,959] Profe, estoy visualizando la página de Kaggle, pero hay como una etiquetita
que aparece Bronze, Silver.

[02:31:39,500] ¿Eso qué significa?

[02:31:42,079] Creo que es la valoración, si no me equivoco.

[02:31:45,280] O sea, si es, por ejemplo, Bronze o Plata, ¿qué significa?

[02:31:49,979] No me acuerdo, no me acuerdo así como de Plata.

[02:31:53,899] Debe estar ahí, yo de la misma página, digamos qué significa.

[02:31:57,780] Pero claro, los dataset, como dijimos en algún minuto, están valorizados.

[02:32:01,239] Entonces, es bueno usar los dataset que tienen mejor calificación.

[02:32:06,020] Ya, gracias.

[02:32:09,100] ¿Más preguntas?

[02:32:13,079] Ya, solamente agregar que todo tema que tenga que ver con el...

[02:32:19,979] El trabajo de aplicación.

[02:32:22,899] Se tienen que comunicar con Josefa y conmigo.

[02:32:27,000] O sea, si me van a mandar un correo por algún tema puntual, nos tienen que
mandar el correo a las dos.

[02:32:32,979] Somos nosotros las encargadas del trabajo de aplicación, del coaching.
[02:32:37,579] Si ustedes le preguntan a la Yeris, le preguntan a los otros ayudantes o a los
otros profes, no aplica.

[02:32:46,360] Se van a dar una vuelta, pero al final me va a llegar el mail a mí.

[02:32:49,239] Entonces, desde ya me tienen que mandar correo a mí a la Josefa.

[02:32:55,120] Si son temas del proyecto de aplicación.

[02:32:58,219] Los talleres son con el profe que le dio el taller.

[02:33:01,860] La asistencia es con la línea.

[02:33:04,799] Entonces, cada uno tiene que su rol y su alcance.

[02:33:09,020] Para que no se den vuelta cuando quieran preguntar por el trabajo de
aplicación.

[02:33:12,739] Somos nosotros.

[02:33:14,559] Así que eso.

[02:33:15,879] No tengo más comentarios por mi parte.

[02:33:19,239] Les deseo mucho éxito en sus próximas clases.

[02:33:23,940] Y bueno, cualquier cosa, estamos ahí al correo con Josefa.

[02:33:28,020] Ya que tengan buenas noches y éxito.

[02:33:32,860] Muchas gracias.

[02:33:34,100] Gracias por el momento.

[02:33:35,700] Muchas gracias.

[02:33:36,760] Gracias, profe.

[02:33:37,620] Gracias, profe.

[02:33:38,620] Muchas gracias.

[02:33:44,120] Gracias.

También podría gustarte