0% encontró este documento útil (0 votos)

25 vistas6 páginas

Algoritmos de Machine Learning y NLP

Cargado por

Javi Via

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

25 vistas6 páginas

Algoritmos de Machine Learning y NLP

Cargado por

Javi Via

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Algoritmos machine learning:

1- Algoritmos supervisados

Diferentes modelos. Estos algoritmos aprenden de los features que le damos.

De clasificación -> va a hacer frío o calor mañana.

De regresión -> Predice que temperatura va a hacer.

Ejemplo:

Regresión:

Salary(y) = m*x + c

Clasificación: de cliente fiel o no fiel en una empresa

Información sobre usuario, bd (películas género, actores, etc.)

Regresión: Calcular la demanda de pedidos de una empresa a futuro

Dataset de regresión - > datos histórico pedidos, clientes

2- Algoritmos no supervisados
3- Reinforced algoritmos

20/04:

Feature engineering:

El buen rendimiento o las mejoras a introducir deberá ir relacionado con la buena limpieza y
procesamiento que hayamos hecho al db.

• train_test_split -> si estamos tratando datos sin series temporales no usaremos el

seed o random debido a que el orden de estos datos es fundamental. Sino si que se puede usar
para así coger los datos de forma aleatoria para hacer el train.
24/4:

Bias and Var

SERIES TEMPORALES:

estacionalidad: patron que se repite con un tiempo fijo

tendencia: si es incremental, decreciente o plana

Ruido:

Son los tres valores a tener en cuenta.

Otros aspectos a tener en cuenta en una serie temporal:

Ciclicidad: suele ocurrir en los ciclos económicos, que más o menos esa serie temporal
funciona, pero hay picos o bajadas que no son patrones de una frecuencia temporal.

Autocorrelación: serie temporal que está linealmente relacionada con una versión (lag)
anterior/posterior de sí misma. Son los mismos patrones de estacionalidad pero con distinta
medida puede haber un pico o una bajada pero con diferente intensidad pero con la misma
forma. Si comparamos el tramo de una serie temporal de por ejemplo Y =1 y Y=0 ese exacto
tramo, por ejemplo miramos las ultimas dos semanas de mayo de año 1 y año 0 y habría una
fuerte correlación pero no serían iguales los valores.

Algoritmos no supervisados:

no existen variables target o label debido a que trabajan de tal forma.

En función del objetivo estos pueden clasificarse en:

- clustering: clasificar entre diferentes variables. K-means, hierarchical clustering,

dbscan…

-asociaciones: if customer purchased item #1 -> recommend item #2

- detección de anomalías: grafica donde salen los picos que no siguen ningún patrón
El PCA lo que hace es que recoge las varianzas que hay entre las variables y entonces después
con las variables nuevas podrás crear una grafica acumulada donde veras que con x variables
ya tendrás el 90% o más de la relación entre los datos. A lo mejor con dos variables ya vemos
que llegamos al 90% o no. Es parte del preprocesado el PCA.

Label encoding tiene una contra en comparación con onehot encoding o gower instance.
Debido a que si en label encoding tenemos: camiseta de color negro (1), rojo (2), verde(3),
azul(4)… el blanco estará más cerca del negro que del verde por ejemplo, porque es eso? Pero
en el tema de las tallas de camiseta funcionará bien debido a que si XS (1), S(2), M(3), L(4)… XS
esta más cerca del S y ahí sí que tiene sentido.

Otros algoritmos de clustering:

En DScan existe un valor épsilon que hace que defina las áreas donde los puntos se van
asignando siguiendo ciertas clases. Si están mas lejos esos puntos se generan distintas clases
según su cercania.

Hierarchical clustering: sigue la metodologia “Bottom Up” para

Word2Vec:

va por tokens:

- rey
- mujer
- reina
- …

El si cogemos manzana y cerveza junto la probabilidad de que salgan ambas será igual o menor
que si los encontramos por separado.

Si al soporte vamos añadiendo un objeto nuevo esta probabilidad será igual o menor y por lo
tanto, el algoritmo pivotará sobre esta regla general.

Collaborative filtering:

Se hará recomendaciones según lo que hayan comprado perfiles similares.

Se desarrolla sobre el clustering un árbol de decisión por encima descriptivo para decir si el x
es mayor que 1000 siempre será 3 o otras cosas.

Natural Language Processing (NLP)

Normalmente a la que empieza a costar algo de dinero este NLP se externaliza, debido a que
los big players pueden hacerte los modelos de NLP prehechos y mas baratos. Es difícil que haya
modelo de NLP on premise.

NLP se puede dividir en: NLA y NLG.

- NLA: objetivo principal del análisis del texto es la extracción de sus significado de
forma automática.
- NLG: generar el siguiente el token o palabra después de un seguido de palabras
expresando dicha información.

En que consisten las cadenas de procesamiento clásicas?

Tokenización: es la división de palabras en si en su parte más pequeña. Puede ser que de una
tokenización se formule distintos tokens. Por ejemplo: pásamelo -> {‘pasa’, ‘me’, ‘lo’} La
mayoría de la tokenizacion tiene una relación 1 a 1.

Segmentación del texto en frases:

- Al dividir el texto en frases normalmente lo haríamos hasta encontrar un punto, pero si

nos topamos con siglas, acrónimos o similar puede no ser correcto.

Análisis léxico o morfológico:

- asignar a cada token un lema. Lematización: comeríamos -> comer. Usamos unas tres
dimensiones para poder identificar es tiempos verbales, géneros …

Hablaremos de cadenas de tokenes -> n-gramas

Sexto análisis semántico:

- No existe un único consejo sobre como abordar el problema de entender los textos
con los que se trata.

o Encontramos una ambigüedad lexica: donde una palabra puede tener

diferentes significados
o Ambigüedad de alcance: algunas palabras como cuantificadores y operadores
de negación, pueden influir sobre distintos fragmentos del texto.
o Ambigüedad referencial: hay palabras, como los pronombres, que apuntan a
otras palabras en el texto.

Preprocesamiento básico de texto:

- Reemplazo de palabras:
- Tokenización:
- Stemming: no iríamos a buscar a esa palabra que esta recogida en el diccionario sino
iríamos a por la raíz de esa palabra. Reducirla al mínimo.

Computación de tokens:

n-gramas: Unión de tokens seguidos (2,3,4…) hace todo un Split llegando hasta el
corpus y obteniendo la siguiente palabra/token. Funciona como las series temporales,
estudiamos por ejemplo los últimos 30 dias de ventas y sacamos el valor de venta del siguiente
día.

Term occurrences:

Binary term occurrences:

Term frequencies:

IDF:

MIRAR LIBRO PRINCIPIANTES QUE INCLUYE NLTK: [Link]

Librerías que podemos usar: NLTK, Brat, GATE, spaCY, etc. Dependiendo de cuales usar te
permite usar diferentes funcionalidades o solo unas pocas.

23/05:

Clustering no dejar el id de la película o el id de usuario.

Deep learning and XAI:

Neurona -> perceptrón

Terminología importante:

Batch: dividimos nuestros datos en batches o conjuntos de datos. Suelen ser múltiplos de 2 y
entre 32 y 64 normalmente.

Epoch: iteración de entrenamiento. Hay que tener cuidado con el overfitting.

Forward propagation: hacer procesos de red neuronal.

Backpropagation: es cuando se actualizan todos los pesos de la red neuronal.

Learning rate: es un parámetro que podemos ir modificando para que aprenda más o menos.

Entrenamiento en 3 fases:

1. Forward propagation, va a tirar pal ante con lo que sea y sin sentido.
2. Backpropagation , vuelve para atrás e intentará reducir el error de las predicciones
anteriores va a calcular el gradiente.

El Optimizador:

Hay que encontrar el punto más bajo, pero es difícil debido a que nunca sabes cuando
aparecerá ese.

Hay que aplicar el grafico de ratio de aprendizaje, coger cuando baje.

Todos usan la ratio de aprendizaje para seguir desarrollando,

Deep Learning:

En imágenes se trabaja con:

- redes convolucionales (CNN o ConvNets) -> coge los pixeles más representativos de la
imagen, capta patrones que no somos capaces de preveer.
- Recurrentes (RNN):
- LSTM: son porque funcionan muy bien pero fue un algoritmo que intentó arreglar el
problema de las convencionles que si leían un texto y llegaban al final de un párrafo no
recordaban la info del principio las redes neuronales.
- Transformers: lo de chat gpt.

Tensorflow:

Que es un tensor? En programación es cualquier objeto que funciona como una array.

Todos están orientados a los grafos.

También podría gustarte

Inteligencia Artificial
Aún no hay calificaciones
Inteligencia Artificial
27 páginas
Introducción a la Ciencia de Datos
Aún no hay calificaciones
Introducción a la Ciencia de Datos
59 páginas
PRES adigitalDataScienceS03 2 EN v1.0 20170415
Aún no hay calificaciones
PRES adigitalDataScienceS03 2 EN v1.0 20170415
35 páginas
Clase 6 - Teoria General DS, Python - Setup
Aún no hay calificaciones
Clase 6 - Teoria General DS, Python - Setup
67 páginas
Glosario de IA y Ciencia de Datos
Aún no hay calificaciones
Glosario de IA y Ciencia de Datos
7 páginas
Introducción Al Machine Learning - Una Guía Desde Cero
Aún no hay calificaciones
Introducción Al Machine Learning - Una Guía Desde Cero
14 páginas
Introducción al Machine Learning y Validación
Aún no hay calificaciones
Introducción al Machine Learning y Validación
5 páginas
Introducción a la Inteligencia Artificial
Aún no hay calificaciones
Introducción a la Inteligencia Artificial
7 páginas
Modulo 2 - Ia
Aún no hay calificaciones
Modulo 2 - Ia
3 páginas
Algoritmos de Clasificación y Regresión
Aún no hay calificaciones
Algoritmos de Clasificación y Regresión
45 páginas
Tensorflow y Scikit Español Prev
Aún no hay calificaciones
Tensorflow y Scikit Español Prev
6 páginas
Introducción al Machine Learning
Aún no hay calificaciones
Introducción al Machine Learning
15 páginas
Tipos de Modelos ML
Aún no hay calificaciones
Tipos de Modelos ML
1 página
Curso de Ciencia de Datos en ClusterAI
Aún no hay calificaciones
Curso de Ciencia de Datos en ClusterAI
51 páginas
Guía Introductoria al Machine Learning
Aún no hay calificaciones
Guía Introductoria al Machine Learning
26 páginas
Clases IA Resumen General
Aún no hay calificaciones
Clases IA Resumen General
28 páginas
Modulo4 Qué Es El Machine Learning
Aún no hay calificaciones
Modulo4 Qué Es El Machine Learning
5 páginas
Introducción AI
Aún no hay calificaciones
Introducción AI
5 páginas
Modelos ML
Aún no hay calificaciones
Modelos ML
9 páginas
Algoritmos de Aprendizaje Automático
Aún no hay calificaciones
Algoritmos de Aprendizaje Automático
3 páginas
T-CDM 23 001061 01
Aún no hay calificaciones
T-CDM 23 001061 01
11 páginas
Algoritmos de Machine Learning
Aún no hay calificaciones
Algoritmos de Machine Learning
10 páginas
Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
Aún no hay calificaciones
Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
8 páginas
Contenidos de Innovación
Aún no hay calificaciones
Contenidos de Innovación
5 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
31 páginas
Guía Completa de Aprendizaje Automático
Aún no hay calificaciones
Guía Completa de Aprendizaje Automático
88 páginas
Introducción al Machine Learning y Algoritmos
Aún no hay calificaciones
Introducción al Machine Learning y Algoritmos
19 páginas
1.1 Conceptos y Terminologia IA
Aún no hay calificaciones
1.1 Conceptos y Terminologia IA
7 páginas
Introducción al Machine Learning y Deep Learning
Aún no hay calificaciones
Introducción al Machine Learning y Deep Learning
3 páginas
Guía de Inteligencia Artificial y Python
Aún no hay calificaciones
Guía de Inteligencia Artificial y Python
5 páginas
PY020 Machine Learning
Aún no hay calificaciones
PY020 Machine Learning
24 páginas
Clasificación en Minería de Datos: Random Forest y Redes Neuronales
Aún no hay calificaciones
Clasificación en Minería de Datos: Random Forest y Redes Neuronales
18 páginas
Inteligencia Artificial Aplicada A La Enseñanza Del Derecho
Aún no hay calificaciones
Inteligencia Artificial Aplicada A La Enseñanza Del Derecho
78 páginas
Historia y Aplicaciones de la IA
Aún no hay calificaciones
Historia y Aplicaciones de la IA
131 páginas
Notas de Clase
Aún no hay calificaciones
Notas de Clase
152 páginas
Mejora de SVM con Computación Cuántica
Aún no hay calificaciones
Mejora de SVM con Computación Cuántica
25 páginas
Técnicas de Aprendizaje Automático en Flujos de Datos
Aún no hay calificaciones
Técnicas de Aprendizaje Automático en Flujos de Datos
146 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
61 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
61 páginas
Fundamentos de Deep Learning y CNN
Aún no hay calificaciones
Fundamentos de Deep Learning y CNN
11 páginas
Dynamo
Aún no hay calificaciones
Dynamo
69 páginas
Introducción a Machine Learning y Big Data
Aún no hay calificaciones
Introducción a Machine Learning y Big Data
25 páginas
Guía Didáctica de Machine Learning
Aún no hay calificaciones
Guía Didáctica de Machine Learning
113 páginas
Clase 1 - Machine Learning
Aún no hay calificaciones
Clase 1 - Machine Learning
47 páginas
GraphLab: Marco de Aprendizaje Automático Paralelo
Aún no hay calificaciones
GraphLab: Marco de Aprendizaje Automático Paralelo
10 páginas
Fundamentos del Aprendizaje Automático
Aún no hay calificaciones
Fundamentos del Aprendizaje Automático
3 páginas
Introducción a Machine Learning y R
Aún no hay calificaciones
Introducción a Machine Learning y R
35 páginas
CURSO
Aún no hay calificaciones
CURSO
68 páginas
Informe Transformacion Digital - Sofia Quezada y Yemil Mamani
Aún no hay calificaciones
Informe Transformacion Digital - Sofia Quezada y Yemil Mamani
9 páginas
Aprendizaje Supervisado
Aún no hay calificaciones
Aprendizaje Supervisado
3 páginas
CNN 1
Aún no hay calificaciones
CNN 1
13 páginas
Guía de Machine Learning para Novatos
100% (4)
Guía de Machine Learning para Novatos
136 páginas
Fundamentos de Redes Neuronales en ML
Aún no hay calificaciones
Fundamentos de Redes Neuronales en ML
46 páginas
Machine Learning para Dummies
100% (1)
Machine Learning para Dummies
35 páginas
Muestra Introduccion A La Inteligencia Artificial Con Python
Aún no hay calificaciones
Muestra Introduccion A La Inteligencia Artificial Con Python
21 páginas
Algoritmos Clave en Machine Learning
Aún no hay calificaciones
Algoritmos Clave en Machine Learning
3 páginas
Frameworks de Aprendizaje Profundo
Aún no hay calificaciones
Frameworks de Aprendizaje Profundo
28 páginas
Aprendizaje Automatico y Profundo en Python
100% (5)
Aprendizaje Automatico y Profundo en Python
345 páginas
Evaluación Diagnóstica en Educación Física
Aún no hay calificaciones
Evaluación Diagnóstica en Educación Física
2 páginas
Trabajo Practico 2 Dayana
100% (1)
Trabajo Practico 2 Dayana
5 páginas
Origen Del Conocimiento
Aún no hay calificaciones
Origen Del Conocimiento
7 páginas
HAMEL Politica y Planificación
Aún no hay calificaciones
HAMEL Politica y Planificación
35 páginas
Guía de Envío Trendier Colombia S.A.S
Aún no hay calificaciones
Guía de Envío Trendier Colombia S.A.S
1 página
1 - TOGAF Version 9.1 A Pocket Guide (PDFDrive - Com) .En - Es
Aún no hay calificaciones
1 - TOGAF Version 9.1 A Pocket Guide (PDFDrive - Com) .En - Es
117 páginas
Usos y propiedades del carbono en la vida diaria
Aún no hay calificaciones
Usos y propiedades del carbono en la vida diaria
2 páginas
Acción Climática en Guerrero
Aún no hay calificaciones
Acción Climática en Guerrero
11 páginas
Julián Amado
Aún no hay calificaciones
Julián Amado
6 páginas
Norma Técnica de Salud para La Atención Integral de Salud para Las Personas Adultas Mayores Minsa 2006
100% (3)
Norma Técnica de Salud para La Atención Integral de Salud para Las Personas Adultas Mayores Minsa 2006
48 páginas
Spotlight (Tipos de Investigacion) 1
Aún no hay calificaciones
Spotlight (Tipos de Investigacion) 1
1 página
La Regla de 2 Minutos
100% (1)
La Regla de 2 Minutos
2 páginas
Para Ingreso Acto de Promoción 2024
Aún no hay calificaciones
Para Ingreso Acto de Promoción 2024
13 páginas
Moda y Diseño en Tejido: Novedades 2011
83% (6)
Moda y Diseño en Tejido: Novedades 2011
44 páginas
Manzano Ernesto U1T4A8
Aún no hay calificaciones
Manzano Ernesto U1T4A8
4 páginas
Ejercicios de Expresión Oral y Escrita
Aún no hay calificaciones
Ejercicios de Expresión Oral y Escrita
7 páginas
Lab Inercia Rotacional
Aún no hay calificaciones
Lab Inercia Rotacional
10 páginas
Ensayo Mercado de Consumo
100% (2)
Ensayo Mercado de Consumo
3 páginas
Sesion Lombricultura
Aún no hay calificaciones
Sesion Lombricultura
7 páginas
Análisis de Datos Epidemiológicos
Aún no hay calificaciones
Análisis de Datos Epidemiológicos
3 páginas
FL560 Brochure ROW (EU) MC-0001868 ES
Aún no hay calificaciones
FL560 Brochure ROW (EU) MC-0001868 ES
4 páginas
Lanzamiento y características de Windows 95
Aún no hay calificaciones
Lanzamiento y características de Windows 95
8 páginas
Nutrición Saludable y Diabetes: Guía Esencial
Aún no hay calificaciones
Nutrición Saludable y Diabetes: Guía Esencial
7 páginas
Historia de España: Formación Cívica y Crítica
Aún no hay calificaciones
Historia de España: Formación Cívica y Crítica
14 páginas
Programación C1: Vocabulario y Evaluación
Aún no hay calificaciones
Programación C1: Vocabulario y Evaluación
33 páginas
Aportes Históricos a la Psicología
Aún no hay calificaciones
Aportes Históricos a la Psicología
12 páginas
Fuentes Históricas del Derecho
Aún no hay calificaciones
Fuentes Históricas del Derecho
36 páginas
Guía de Control y Nutrición para Diabéticos
Aún no hay calificaciones
Guía de Control y Nutrición para Diabéticos
19 páginas
Líquidos y Electrolitos Abr-2025
Aún no hay calificaciones
Líquidos y Electrolitos Abr-2025
94 páginas
Capitulo # 1. Reseña Historica Del Motor Diesel
Aún no hay calificaciones
Capitulo # 1. Reseña Historica Del Motor Diesel
40 páginas