¿Qué es un Sistema?
def: Un sistema es un conjunto de elementos interrelacionados que, al actuar juntos,
transforman entradas (inputs) en salidas (outputs) a través de un proceso.
o Input (Entrada):
• Son los datos o recursos que ingresan al sistema sin procesar.
• Ejemplo: pedidos de clientes, datos brutos, materias primas.
o Proceso:
• Es el conjunto de operaciones que transforman los inputs en resultados
útiles.
• Ejemplo: análisis de datos, procesamiento de ventas, fabricación.
o Output (Salida):
• Son los resultados del proceso, la información clara, útil y confiable.
• Ejemplo: reportes, productos terminados, decisiones de negocio.
Actor: Es quien tiene una necesidad
Necesidad: Es lo que impulsa el inicio del
sistema.
Proceso: Es el análisis de datos.
Objetivo: Resolver la necesidad inicial.
¿Qué hace un gerente con un sistema?
Trata de responder a preguntas:
o Corto plazo: decisiones operacionales.
o Mediano plazo: decisiones tácticas.
o Largo plazo: decisiones estratégicas.
Tipos de sistemas.
o OLTP: On-line Transactional Processing → Sistemas del día a día.
o OLAP: On-line Analytical Processing → Reportes dinámicos / IBI. (decisiones
estratégicas)
Tipos de elementos.
o Dato: no procesado.
o Información: procesada acorde a los objetivos de la empresa.
o Diferencia.
o Conocimiento: “Inteligencia” agregada.
o Acción: lo que termina decidiendo el Gerente.
Decisión Plazo Sistema Tipo de elemento
Operacional Corto OLTP Dato
Táctica Mediano OLTP/OLAP Dato/información
Estratégica Largo OLAP Información
Estratégica Largo Ciencia de datos Conocimiento
Tipos de datos – Visión de la empresa.
Datos operacionales. Datos informativos.
o Orientados a una aplicación. o Orientados a un tema.
o Integración limitada o Integrados.
o Constantemente actualizados o No volátiles.
o Solo valores actuales o Valores a lo largo del tiempo.
o Soportan operaciones diarias o Soportan decisiones de
administración.
Tipos de datos - Visión de la Empresa.
• Datos operacionales: Son los que se utilizan para las tareas cotidianas de la
empresa.
o Orientados a una aplicación: Un sistema de gestión de pedidos de una
tienda en línea, que registra información específica sobre los pedidos
realizados por los clientes en la aplicación.
o Integración limitada: Una base de datos de recursos humanos que contiene
información separada sobre los empleados y las vacantes de trabajo, sin un
sistema de integración que permita relacionar directamente ambas fuentes
de información.
o Constantemente actualizados: Una base de datos de transacciones
financieras que se actualiza en tiempo real a medida que se realizan nuevas
transacciones.
o Sólo valores actuales: Un sistema de inventario que solo muestra
información actualizada sobre la cantidad y ubicación de los productos en el
almacén.
o Soportan operaciones diarias: Una base de datos de registros de llamadas
de un centro de atención al cliente que se actualiza diariamente con
información sobre las llamadas recibidas, su duración y los temas tratados.
• Datos informativos: Se usan principalmente para el análisis, toma de decisiones y
planificación.
o Orientados a un tema: Una base de datos de indicadores económicos que
recopila información sobre el crecimiento del PIB, la tasa de desempleo y la
inflación de un país.
o Integrados: Una base de datos de ventas que combina información de
diferentes fuentes, como los registros de ventas, las preferencias de los
clientes y los datos demográficos, para obtener una vista integrada de las
ventas y los clientes.
o No volátiles: Una base de datos de historial médico que almacena
información sobre los pacientes y sus tratamientos a lo largo del tiempo, sin
eliminar información anterior, aunque se haya actualizado.
o Valores a lo largo del tiempo: Una base de datos de series temporales
climáticas que registra información sobre la temperatura, la precipitación y
la humedad en un lugar determinado a lo largo de un periodo de tiempo.
o Soportan decisiones de administración: Una base de datos de análisis de
mercado que permite a los analistas de mercado obtener información sobre
las tendencias de los clientes, las preferencias y los patrones de compra
para tomar decisiones de marketing y de producto.
Data Warehouse.
def: Conjunto de datos integrados orientados a una materia, que varían con el tiempo y
que no son transitorios, los cuales soportan el proceso de toma de decisiones de una
organización.
Sistema de Soporte a la toma de decisiones.
def: Sistema que apoya al proceso de toma de decisiones (de planeamiento, de
administración y operacionales) ́ en un negocio.
Este tipo de Sistema contiene todos los servicios o procesos para elegir, manipular y
analizar datos informativos y presentar los resultados.
Inteligencia de Negocios.
def: Disciplina que combina consultas, servicios, aplicaciones y tecnologías para
obtener, administrar, analizar y transformar datos en información útil para desarrollar
el entendimiento necesario para tomar decisiones adecuadas.
El resultado de combinar Data Warehouse con Sistemas de Soporte de Decisiones.
¿Por qué usamos Data Warehouse?
• Falta de integración de la información.
• Sobrecarga de información.
• Información genérica y despersonalizada.
• Falta de retroalimentación para la mejora del negocio.
Beneficios.
• Menor costo en toma de decisiones.
• Posibilidad de encontrar relaciones ocultas.
• Aprendizaje del pasado.
• Mayor flexibilidad ante el entorno.
• Ventajas competitivas:
o Mejor servicio al cliente.
o Rediseño de procesos.
Arquitectura de Data Warehouse.
Fuentes de Datos.
• Sistemas operacionales.
• Datos externos.
• Reportes varios.
ETL.
• Extracción, transformación y carga.
• Extracción:
o Tomar datos, capturarlos.
▪ Almacenamiento intermedio.
o Transformación: Adaptar datos para el DW.
o Carga: insertar datos en el DW.
Herramientas de acceso y uso.
• SQL.
• MDA.
• OLAP.
• Data Mining.
Metadatos.
def: son datos acerca de otros datos. Es decir,
describen, explican o proporcionan contexto
sobre los datos que se utilizan en los procesos
de BI.
Inteligencia de Negocios.
def: el proceso de encontrar información útil que ayude a las empresas a tomar
decisiones más acertadas.
Los elementos necesarios son:
• Datos
• Herramientas de software
• Estrategias
• Capacidad de análisis.
Utilidad: las herramientas existentes en el mercado permiten realizar el proceso de
transformación de datos antes explicado y también permiten la visualización de datos.
Aplicaciones: para poder desarrollar todo el proceso de BI existen en el mercado
distintos softwares.
Visualización: Formatos:
• Gráfico.
• Texto.
• Tablas,
Cómo accedo a la información.
• Archivo.
• Web.
Visualización de Datos.
def: Es el proceso de representar datos y estadísticas de una manera gráfica para que
sean más fáciles de entender y analizar.
Usar elementos visuales como cuadros, gráficos y mapas para facilitar la identificación
de tendencias, valores atípicos y patrones en los datos.
¿Por qué visualización?
• El cerebro humano procesa y retiene más rápidamente la información visual
que el texto.
• Los ojos son atraídos por los colores y patrones; podemos identificar
rápidamente el rojo del azul o el cuadrado del círculo.
• Nuestra cultura es visual, lo que incluye todo tipo de elementos, desde arte y
publicidad hasta televisión y películas.
• La visualización de datos es otra forma de arte visual que capta nuestro interés
y mantiene nuestros ojos en el mensaje.
• Es contar historias basadas en datos, con un propósito.
• Una buena visualización cuenta una historia, eliminando el ruido de los datos y
resaltando la información útil.
• No es tan simple como adornar un gráfico para que se vea mejor.
• La visualización eficaz de datos es un delicado equilibrio entre forma y función.
Tipos de visualizaciones de datos.
1) Gráficos de barras y columnas.
2) Gráficos de anillo.
3) Gráficos de línea
4) Diagramas de dispersión.
5) Mapas.
6) Infografías.
7) Otros
1) Grafico de barra.
Se utiliza para hacer comparaciones entre
diferentes categorías.
Las barras pueden ser horizontales o verticales, y la
longitud de cada barra es proporcional al valor que
representa para una comparación clara entre
diferentes categorías o grupos.
2) Gráfico circular.
Es utilizada para representar la distribución proporcional
de un conjunto de datos en partes de un todo.
Muestra la composición o distribución porcentual de
variables en situaciones donde se busca enfatizar cómo se
dividen las partes en un todo.
3) Grafico de líneas.
Los gráficos de líneas existen para representar
datos que cambian a lo largo del tiempo. Utiliza
líneas conectadas por puntos de datos para
visualizar la evolución de una/s variable/s.
Identifican tendencias, patrones de
comportamiento y fluctuaciones en series
temporales, siendo fundamentales en el análisis
de datos financieros, de rendimiento o de
mercado.
4) Diagrama de dispersión.
El diagrama de dispersión analiza la relación entre
dos variables numéricas. Es un tipo de gráfica en
matemáticas que identifica correlaciones, patrones y
tendencias entre las variables. Uno de los usos
principales es determinar la existencia de
correlaciones entre las variables.
5) Mapas.
Se utiliza para representar valores
estadísticos mediante variaciones
de color en diferentes regiones
geográficas.
Reglas.
• Ser claro y conciso con la información que desea comunicar.
• Utilizar colores apropiados.
• Etiquetas claras y fáciles de entender.
• Elegir el tipo de visualización adecuado para sus datos
Estadística Descriptiva.
def: La estadística descriptiva es una rama de la estadística que nos ayuda a entender
mejor los datos, a partir de su descripción y análisis.
Tipos de variables.
En general hablaremos sobre una gran división en los tipos de variables, que es la que
será más práctica para Data Science: variables cuantitativas y cualitativas.
• Variables cuantitativas: son variables para las que tiene sentido realizar la suma, la
resta o el promedio, de acuerdo al caso. En general son numéricas y pertenecientes
al conjunto de los números reales o a alguno de sus subconjuntos.
Si tiene sentido sumar, restar o promediar, estamos ante una variable numérica.
Series de tiempo: Las variables de tipo fecha tienen características especiales tanto
en estadística como en programación. Se destacan por su secuencialidad y por
reflejar fenómenos temporales complejos como años bisiestos, estaciones, o
semanas irregulares en el mes. Aunque pueden parecer simples, al trabajar con
grandes volúmenes de datos pueden surgir complicaciones si se manejan
manualmente.
Desde un enfoque estadístico, una serie temporal se trata como una variable
cuantitativa, ya que permite calcular diferencias entre fechas, como duraciones.
• Variables categóricas o cualitativas: Las variables categóricas o cualitativas, por su
parte, como su nombre lo indica, sirven efectivamente para categorizar elementos.
Esto significa que podríamos armar subconjuntos o subgrupos de elementos de
acuerdo a dicha variable. En general las variables categóricas son datos de texto
libre, por lo que en principio son fáciles de identificar
Si no tiene sentido sumar, restar o promediar, es una variable categórica.
Casos particulares:
o Variables que son categóricas pero que están escritas como número:
variables categóricas, si son números que no tienen sentido al sumarse,
restarse o promediarse, pero sí tienen sentido si se cuentan.
o Variables lógicas: o tiene como valores posibles verdadero (True) y falso
(False). Esta variable puede además representarse como 1 para verdadero y
0 para falso. No obstante, a los efectos del análisis estadístico, sigue siendo
una variable categórica.
o Variables de alta cardinalidad y metadatos: variables que en cuanto a su
tipo pueden ser numéricas, o bien de texto, pero que no tienen sentido ni
para sumarse, restarse o promediarse ni para contarse. Estos valores, más
que categorizar o cuantificar una porción de todo el conocimiento que
tenemos acerca de un elemento, los identifican.
Conceptos básicos.
Observación: a cada elemento individual que pueda describirse con un conjunto de
variables representadas con datos.
Población: universo de observaciones que consta de todas las unidades de observación
posibles, incluidas aquellas a las que no tenemos acceso, o que todavía no ocurrieron.
Muestra: conjunto de observaciones que contiene las unidades de observación a las
que tenemos acceso se denomina muestra. A partir de la muestra aplicaremos
herramientas estadísticas para obtener conclusiones acerca de la población.
Medidas de resumen: En ciencia de datos, al trabajar con muestras de datos, es
fundamental explorar e interpretar las variables para extraer conclusiones
preliminares que orienten decisiones, como la selección de algoritmos o ajustes en el
tratamiento de datos.
Variables cuantitativas:
• Media o promedio: se define como la suma de todos los valores dividida entre la
cantidad de datos. La media es la medida más conocida, y pretende mostrar la
posición más central de todos los datos, describiendo su ubicación.
• Mediana y cuartiles: El promedio muchas veces no describe bien un conjunto de
datos, especialmente cuando hay: Valores extremos y Distribuciones sesgadas
(como los sueldos: muchos bajos, pocos muy altos). Para estos casos, usamos la
mediana, una medida más robusta del “centro”.
• Moda: La moda es el valor que aparece más frecuentemente en un conjunto de
datos. Se obtiene a partir de un simple conteo de los datos, calculando cuál valor
aparece más veces.
• Varianza: Las medidas de posición (media, mediana y moda) indican dónde están
los datos, mientras que el análisis de la forma (homogeneidad o heterogeneidad)
nos dice cómo están distribuidos respecto a ese centro.
o Datos homogéneos: Están agrupados cerca de la media y h ay poca
variación entre los valores
o Datos heterogéneos: Están más dispersos respecto a la media y hay mucha
variación entre los valores.
Variables cualitativas.
En el caso de las variables cualitativas, tal como mencionamos anteriormente, los
cálculos que tienen sentido son aquellos relacionados al conteo de las observaciones y
su categorización.
• El conteo del total de datos (valor de n).
• El conteo de los datos por categoría, esto es, para cada valor posible de la
variable, la cantidad de observaciones.
• El valor más frecuente, es decir el que tiene más observaciones. Esto es el
cálculo de la moda, tal como vimos anteriormente.
Distribuciones de variables.
Si las variables cuantitativas tienen una posición y una forma, entonces cada una de
ellas puede compararse y/o diferenciarse de otras variables con distintas posiciones
y/o formas. Decimos entonces que cada variable tiene una distribución diferente.
La distribución uniforme: Si todos los valores posibles aparecen aproximadamente la
misma cantidad de veces, hablaremos de una distribución uniforme.
La distribución normal: Muchos procesos y variables del mundo real siguen una
distribución con una forma particular denominada distribución normal. Esta
distribución está formada por puntos que se agrupan de manera simétrica en torno a
un valor promedio, y cuya varianza se aleja no más de una determinada distancia del
promedio.
• Los datos normales son simétricos con respecto al promedio.
• La media, mediana y moda tienen aproximadamente el mismo valor.
Bases de datos.
• Es una solución para el almacenamiento de datos
• Comprende:
o Datos almacenados
o Relaciones entre los datos
o Cuestiones de seguridad
o Cuestiones de optimización (acceso rápido por múltiples usuarios)
o Otros
• En una base de datos, los datos se organizan en tablas
• Una tabla puede pensarse como una planilla de Excel, pero con esteroides, y
con distinta forma de organización.
DER: Para graficar la estructura de la base de datos, se utiliza un diagrama que dispone
ordenadamente las entidades y sus relaciones. A este diagrama se lo llama Diagrama
de Entidad-Relación o DER.
SQL.
def: es un lenguaje de programación diseñado para administrar datos almacenados en
un sistema de administración de bases de datos relacionales.
Sintaxis: SQL es un lenguaje declarativo, por lo tanto, su sintaxis se lee como un
lenguaje natural. Una declaración SQL comienza con un verbo que describe la acción,
por ejemplo:
• SELECT: Consultar datos. Para consultar datos de una tabla, usa la instrucción
SELECT de SQL. La declaración SELECT contiene la sintaxis para seleccionar
columnas, seleccionar filas, agrupar datos, unir tablas y realizar cálculos simples.
• INSERT: Agregar registros.
• UPDATE: Modificar registros.
• DELETE: Eliminar registros.
ORDER BY: Para especificar exactamente el orden de las filas en el conjunto de
resultados, agregue una cláusula. aparece después de la cláusula FROM. En caso de
que la declaración SELECT contenga una cláusula WHERE, la cláusula ORDER BY debe
aparecer después de la cláusula WHERE.
Ascendente (ASC) o Descendente (DESC).
WHERE: Para seleccionar ciertas filas de una tabla, usa una cláusula WHERE en la
declaración SELECT. Aparece inmediatamente después de la cláusula FROM. Si una fila
que causa la condición se evalúa como verdadera, se incluirá en el conjunto de
resultados; de lo contrario, será excluido.
OPERADORES DE COMPARACIÓN: La forma más básica de filtrar datos es
utilizar operadores de comparación.
Para formar una expresión simple, utilice uno de los operadores anteriores
con dos operandos que pueden ser el nombre de la columna en un lado y un
valor literal en el otro, por ejemplo: columna salario > 1000.
Hace una pregunta: "¿El salario es superior a 1000?".
OPERADORES LÓGICOS: Los operadores lógicos le permiten utilizar varios operadores
de comparación en una consulta.
AND: devuelve verdadero si ambas expresiones se evalúan como verdaderas
OR: devuelve verdadero si al menos una expresión se evalúa como verdadera.
LIKE: prueba si una expresión coincide con un patrón específico.
Para construir un patrón, usa dos caracteres comodín
SQL:
o % el signo de porcentaje coincide con cero, uno o más caracteres
o _ El signo de subrayado coincide con un solo carácter.
BETWEEN: Retorna verdadero si los valores almacenados en una determinada columna
están entre los dos valores que se especifican.
IN: retorna verdadero si los valores de una determinada columna están en un
determinado conjunto de valores.
JOIN: proceso de vincular tablas.
INNER JOIN: vincula dos (o más) tablas mediante una relación entre dos columnas.
Siempre que usa la cláusula de combinación interna, normalmente piensa en la
intersección. Aparece después de la cláusula FROM. La condición para coincidir entre la
tabla A y la tabla B se especifica después de la palabra clave ON. Esta condición se
llama condición de unión.
FUNCIONES DE AGREGACIÓN: Las funciones agregadas de SQL devuelven un solo valor,
calculado a partir de los valores en una columna.
• El predicado AVG retorna el promedio del campo entre paréntesis.
SELECT AVG(price)FROM Products;
• El predicado MIN retorna el valor mínimo del campo entre paréntesis.
SELECT MIN(price)FROM Products;
• El predicado MAX retorna el valor máximo del campo entre paréntesis.
SELECT MAX(price)FROM Products;
• El predicado SUM retorna la suma del campo entre paréntesis.
SELECT SUM(price)FROM Products;
GROUP BY: permite separar los datos en grupos, que se pueden agregar
independientemente unos de otros.