CIENCIA DE DATOS CON
LENGUAJE R
IT PhD Rocío Chávez
Objetivo de
nuestra Reunión
Dar a conocer conceptos básicos acerca de Lenguaje R
Revisar algunas técnicas útiles en el Análisis de Datos
Poner a su disposición algunos videos en los que explico la
implementación de dichas técnicas en Rstudio
Qué veremos
hoy?
Qué es Lenguaje R
Un poco de historia de R
Cómo funciona Rstudio
Etapas en el Análisis de Datos en los que se puede utilizar R
Algunas técnicas y gráficas utilizadas en la Ciencia de Datos
Ubicación de los videos explicativos en la página web
“Aprende Ciencia de Datos con Rocío Chávez”
Lenguaje R
Creado en 1993 en la Universidad de Nueva Zelanda
Desarrollado por estadísticos para llevar a cabo análisis estadístico Jhon
Chambers
Software Libre basado en otro lenguaje llamado S
Muy utilizado en la investigación científica y en el Análisis de Datos
Ross Ihaka Robert Gentleman
Empresas que
Utilizan R
Imagen tomada de [Link]
IDE
Entorno de Desarrollo Integrado
Paneles en RStudio
Funciones, Librerías y Comentarios
Creación de un Script
en RStudio
#Indicando el directorio en donde se encuentra el archivo a cargar
setwd("C:/Users/rocio/Escritorio2/Pavillion-Rocio/Cursos impartidos en linea/Reportes Automaticos en R/Bases de datos")
productos <- [Link](file="Venta de [Link]", header=TRUE,
sep=",", dec=".") #En éste archivo no tengo nombres en las filas
head(productos)
productos_vendidos <- table(productos) #Obtiene las veces en que fue vendido cada producto, es decir la tabla de frecuencias
productos_vendidos
library(qcc) #Instalar con [Link]("qcc") desde la consola
[Link](productos_vendidos, col=rainbow(length(productos_vendidos)), main="Diagrama de Pareto")
Instalación de Librerias
Opción 1 Opción 2 Opción 3
CRAN
(Comprehensive R Archive Network)
Contiene 17,430 librerías
Archivos y
Documentación de las Librerías
Archivos y
Documentación de las Librerías
Archivo a descargar para después
instalarlo mediante la opción 3
Archivos y
Documentación de las Librerías
Pasos a seguir en
Ciencia de Datos
Imagen tomada de [Link]
Fases del Análisis de Datos
en las que se Utiliza R
Adquisición de los Datos
Pre-procesamiento
Análisis
Comunicación de los Resultados Obtenidos
Imagen tomada de [Link]
Ejemplos de
Adquisición de Datos con R
#Indicando el directorio en donde se encuentra el archivo a cargar
setwd("C:/Users/rocio/Escritorio2/Pavillion-Rocio/Videos para youtube/Bases de Datos/") Importando los datos de un archivo
#Leer el archivo de tipo csv en nuestra computadora
Tabla_Frec_Ventas <- [Link](file="Tabla de Frecuencias de [Link]", header=TRUE,
sep=",", dec=".", [Link] = 1)
library(RODBC)
#Accesamos a la Base de Datos
Tablas_sql <- odbcConnect("Conecta_SQL")
Importando los datos desde una
Base de Datos
#Leemos la tabla
Maraton_Mexicanos <- sqlFetch(Tablas_sql, "Tabla_Mexicanos")
#Cerramos la conexión a la Base de Datos
odbcClose(Tablas_sql)
Imagen tomada de [Link]
Información disponible en
Internet
R Programming for Data Sciencie
[Link] [Link]
intro/
R para Ciencia de Datos
[Link]
[Link]
Videos en
Youtube
Archivos para
practicar [Link]
Lenguajes más utilizados en
Ciencia de Datos
Imagen tomada de [Link]
Sitio Web
[Link]
Pestaña
BLOG
Pestaña
BLOG >Instalación de R y Python
Instalación de R y RStudio
Paneles de RStudio
Instalación de Jupyter
Pestaña
BLOG > Pre-Procesamiento de Datos
Categorización de Valores Detección de Outliers
Re-escalado de Valores
Creación de Variables Dummy
Tipos de Variables
Nominales
Cualitativas
Ordinales
Discretas
Cuantitativas
Continuas
Variables Cualitativas o Categóricas
0 = Muerto Soltero
Estado Casado Nominales
Estado No tienen un orden asociado
1 = Vivo Civil Unión Libre
Viudo
Divorciado
Primaria 0 = Leve
Severidad de Ordinales
Nivel de Secundaria Tienen un orden asociado
enfermedad 1 = Moderada
Estudio Bachillerato
Licenciatura 2 = Severa
Maestría
Variables Dummy
Se obtienen a partir de las Variables Nominales
Variables Cuantitativas
Se pueden cuantificar y realizar operaciones
sobre sus valores
Discretas Continuas
Cantidad de alumnos Peso
Edad en años Estatura
Pestaña
BLOG > Estadística en R
Histogramas Diagramas de Caja y Bigotes
Gráficos de Barras Diagramas de Rectángulos
Matriz de Correlación Diagrama de Pareto
Gráficos con Variables Cuantitativas
Diagramas de Rectángulos
Histogramas Diagramas de Caja y Bigotes
Diagramas de Dispersión Matriz de Correlación
Imagen tomada de:
[Link]
Gráficos con Variables Cualitativas
Gráfico de Barras Diagrama de Pareto
Gráfico de Pie
Pestaña
BLOG > Explicaciones Matemáticas
Clustering Jerárquico Aglomerativo Clustering con K-Means
al
i ne
nL
la ció
o rre
C
Asociación de
Variables Categóricas
Pearson y Spearman Kendall
Explicación Matemática
Clustering Jerárquico Aglomerativo
Ejemplo del cálculo de la similitud entre
individuos
√
𝑛
𝑑 ( 𝑥 , 𝑦 ) =‖𝑥 − 𝑦‖= ∑ ( 𝑥𝑖 − 𝑦 𝑖 )2
𝑖 =1
Detecta a los individuos que puedan ser
considerados como similares y los asigna
a un mismo cluster, dejando a los
individuos disimilares (diferentes) en
clusters distintos.
Explicación Matemática
Clustering con K-Means
Resultado Con Resultado Sin Datos Originales
Outliers Outliers
Determinando la
cantidad de Clusters
Método no supervisado que sirve
para llevar a cabo agrupaciones
de objetos o individuos en base a
la similitud de sus características
Clusters Obtenidos
Lo que se busca es crear clusters
compactos y bien definidos
Computacionalmente es menos
costoso que el Clustering
Jerárquico
Explicación
Correlación Lineal
Pearson
- Para variables cuantitativas que tienen una distribución normal
Spearman
- Variables cuantitativas que no tienen distribución normal
- Cuando se tienen outliers
- Variables ordinales con cinco o mas niveles
Kendall
- Variables ordinales con menos de cinco niveles
Explicación
Asociación de Variables Categóricas
Medidas de Asociación
basadas en
Coeficiente Phi
- Variables dicotómicas
Coeficiente de Contingencia Su valor oscila entre 0 y 1
- Variables politómicas con igual cantidad de categorías
Un valor cercano a 0 indica que no existe asociación o que existe muy
Coeficiente V de Cramer poca asociación
- Variables politómicas con diferente cantidad de categorías
Mientras que un valor cercano a 1 indica una asociación alta
Pestaña
BLOG > Minería de Datos en R
Nubes de Palabras Algoritmo Apriori Mapas Temáticos
Análisis Exploratorio con ACP
Algoritmo Apriori
Base de Datos a Analizar Reglas Encontradas
“Porque compró XXXXX, a usted
le podría interesar YYYYYY…”
Soporte
“En el 50% de las transacciones se compraron Leche, Mantequilla y Pan juntos”
Confianza
“En el 100% de las transacciones en las que compraron Leche y Mantequilla,
también compraron Pan”
Análisis Exploratorio con ACP
Imágen obtenida de:
[Link]
Pestaña
BLOG > Machine Learning en R
Clustering Jerárquico de
Clustering Jerárquico
Variables Cualitativas
Clustering de Series Temporales Clustering Jerárquico sobre el ACP
Clustering de Series Temporales
indices Cluster Dendrogram
5
5
160
FCHI
NDX
0
0
-5
5 10 -10
NDX
120
5 -15
GDAXI
N225
Height
0
STI
0
N225
80
-5
-10
IBEX
6
5
40
2
IBEX
-5 0
STI
FCHI
DAXI
-2
G
-6
-15
0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
Dist. Euclidea
Time Time
Vs. dist(indices_transp, method = "dtw")
hclust (*, "complete")
DTW
Imágen tomada de Ratanamahatana, C. A., & Keogh, E. (2004, April). Making time-series classification more accurate using
learned constraints. In Proceedings of the 2004 SIAM international conference on data mining (pp. 11-22). Society for Industrial
and Applied Mathematics.
Clustering Jerárquico
de Variables Categóricas
Pestaña
BLOG > SQL
Por qué utilizar SQL
En Ciencia de Datos
Instalando SQL Server en Windows
Sentencias Group By
Y Having
Por qué utilizar SQL
en Ciencia de Datos
SQL
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Se ha seguido utilizando desde los
70’s
No ha sufrido muchos cambios
Valioso
Poderoso
Es un lenguaje declarative
Consta de pocas instrucciones
enfocadas en las bases de datos
Por qué utilizar SQL
en Ciencia de Datos
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Cual lenguaje es más fácil de comprender?
Categorización de Valores con R Categorización de Valores con SQL
Sentencias Group By
y Having
Cuál es la diferencia entre
la sentencia Having
y
la sentencia Where?
Pestaña
BLOG > RMarkdown
Qué es RMarkdown?
Ventajas de Utilizar RMarkdown
Partes que componen un
Script de RMarkdown
Ejemplo Página en Internet
creada con RMarkdown
Ejemplo de Publicación en internet
[Link]
Menú Cursos en Línea
Enlace a los cursos con descuento
[Link]
Muchas Gracias por su Atención!!!
rociochavezmx@[Link] Aprende Ciencia de Datos con Rocio Chavez
@rchavez1469
Rocio Chavez Ciencia de Datos