Modulo III
Big data
Aprendizaje automatico:
Se divide en 2: Clasificadores y Algoritmos
Clasificadores: base del aprendizaje automatico, que clasifican las
observaciones.
Algoritmos: tecnicas que organizan y orientan a los clasificadores
Enfoque del aprendizaje automatico:
Supervisado:
Son los más utilizados para el análisis predictivo, requiere la
interacción humana para etiquetar los datos leídos para un
aprendizaje supervisado preciso. En el aprendizaje supervisado, el
modelo se enseña con ejemplos mediante el uso de conjuntos de
datos de entrada y salida procesados por expertos humanos,
generalmente científicos de datos. El modelo aprende las relaciones
entre los datos de entrada y salida y luego utiliza esa información
para formular predicciones basadas en nuevos conjuntos de datos.
Los métodos de aprendizaje automático supervisados suelen resolver
problemas de regresión y clasificación:
Los problemas de regresión implican estimar la(s) relación(es)
matemática(s) entre una variable continua y una o más variables.
Esta relación matemática luego puede calcular los valores de
una variable desconocida dados los valores conocidos de las
demás. Los ejemplos de problemas que utilizan la regresión
incluyen la estimación de la posición y la velocidad de un
automóvil mediante GPS, la predicción de la trayectoria de un
tornado mediante datos meteorológicos o la predicción del valor
futuro de una acción mediante datos históricos y de otro tipo.
Los problemas de clasificación consisten en una variable
discreta desconocida. Por lo general, el problema consiste en
estimar qué muestra específica pertenece a un conjunto de
clases predefinidas. Ejemplos de clasificación son el filtrado de
correo electrónico en spam o no spam, el diagnóstico de
patologías a partir de pruebas médicas o la identificación de
rostros en una imagen.
No supervisado:
no requieren expertos humanos, sino que descubren patrones en los
datos de forma autónoma. principalmente de datos sin etiquetar. El
modelo debe funcionar por sí solo para encontrar patrones e
información.
Algunos ejemplos de problemas resueltos con métodos no
supervisados son el agrupamiento en clústeres y la asociación:
Métodos de agrupación en clústeres - La agrupación en
clústeres es la agrupación de datos que tienen características
similares. Ayuda a segmentar los datos en grupos y a analizar
cada uno para encontrar patrones. Por ejemplo, los algoritmos
de agrupación identifican grupos de usuarios en función de su
historial de compras en línea y luego envían anuncios dirigidos a
cada miembro.
Métodos de asociación - La asociación consiste en descubrir
grupos de elementos frecuentemente observados juntos. Los
minoristas en línea usan asociaciones para sugerir compras
adicionales a un usuario en función del contenido de su carrito
de compras.
Refuerzo:
enseña a la máquina a través de la prueba y el error mediante la
retroalimentación de sus acciones y experiencias, también conocida
como aprendizaje de errores. y experiencias, también conocida como
aprendizaje de errores. Implica asignar valores positivos a los
resultados deseados y valores negativos a los efectos no deseados.
El resultado son soluciones óptimas; el sistema aprende a evitar
resultados adversos y a buscar lo positivo. Las aplicaciones prácticas
del aprendizaje por refuerzo incluyen la creación de inteligencia de
ratificación para juegos de video, robótica y automatización industrial.
Proceso de aprendizaje automatico:
Paso 1: prepararacion de datos.- limpar los datos, como la formacion
de un formato estructurado y la eliminacion de datos faltantes y
observaciones ruidosas/corruptas.
Paso 2a: datos de aprendizaje.- crear un conjunto de datos de
aprendizaje utilizado para capacitar el modelo.
Paso 2b: Datos de prueba.- Cree un conjunto de datos de prueba
para evaluar el rendimiento del modelo. Solo realice este paso en el
caso del aprendizaje supervisado
Paso 3. Bucle del Proceso de Aprendizaje- Selección. Se elije un
algoritmo en función del problema. Según el algoritmo seleccionado,
pueden ser necesarios pasos de pre- procesamiento adicionales.
Paso 4. Bucle del Proceso de Aprendizaje- Evaluación.- El
rendimiento de este algoritmo seleccionado se evalúa en los datos de
aprendizaje. Si el algoritmo y el modelo alcanzan un rendimiento
aceptable en los datos de aprendizaje, la solución valida los datos de
prueba. De lo contrario, se repite el proceso de aprendizaje con un
nuevo modelo y algoritmo propuesto.
Paso 5. Evaluación del Modelo - Probar la solución en los datos de
prueba. Los rendimientos en los datos de aprendizaje no son
necesariamente transferibles a datos de prueba. Cuanto más
complejo y ajustado sea el modelo, mayores serán las posibilidades
de que el modelo se vuelva propenso a sobreajustarse, lo que
significa que no puede funcionar con precisión frente a datos no
vistos. El sobreajuste puede resultar en volver al proceso de
aprendizaje del modelo.
Paso 6. Implementación del Modelo - Después de que el modelo
logre un rendimiento satisfactorio en los datos de prueba, implemente
el modelo. Implementar el modelo implica realizar las tareas
necesarias para escalar la solución de aprendizaje automático a datos
masivos.
Elemento de Práctica - Entrenando Máquinas para Reconocer Datos
¡Correcto! El reconocimiento de patrones requiere que el sistema
“aprenda” para obtener resultados precisos. El aprendizaje es la fase
más crítica para determinar qué tan bien se desempeña el sistema
con los datos proporcionados. Para el proceso de aprendizaje, todo el
conjunto de datos se divide en dos conjuntos. El primer conjunto es el
conjunto de entrenamiento utilizado en la construcción y capacitación
del modelo. El segundo conjunto, el conjunto de pruebas, se utiliza
para probar el modelo y verificar que produce la salida correcta. En
general, el conjunto de entrenamiento consta del 80% de los datos y
el conjunto de pruebas consta del otro 20%.
Practica: