Introducción al Análisis de Datos Criminológicos
Introducción al Análisis de Datos Criminológicos
dehyraasr
3º Grado en Criminología
Facultad de Derecho
Universitat de Barcelona
Diseño de la investigación
● Consiste en la elección de una determinada forma de afrontar el estudio.
● Es una guía en el proceso de recoger, analizar e interpretar datos u observaciones.
Plan, estructura, lógica general del estudio cuya función es garantizar que los datos recogidos permiten dar respuesta a
las preguntas de investigación de mono no ambiguo.
Datos
● Los datos son piezas de información sobre la realidad.
● Se generan a partir del registro, a través de un instrumento de recogida de datos, de nuestra observación de la
realidad.
● Los datos, su análisis e interpretación, nos permiten dar respuesta a una pregunta de investigación.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
- Ontología → La realidad es objetiva o es una construcción. Cada uno tiene una naturaleza, por eso mismo
existen unas normas y leyes, nos regula lo que podemos consensuar. La realidad social es una construcción.
- Epistemología → Como yo construyo y género el conocimiento. Como se hace la teoría. La realidad es
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
construida de sujeto a sujeto.
- Metodología → Se relaciona con el diseño de investigación y las decisiones. Cuantitativa (realidad subjetiva) y
cualitativa (realidad construida). Poder obtener información de la realidad particular.
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
observación y que, por tanto, han sido incorporados en la muestra estudiada.
● Variables. Toda característica o propiedad de la unidad de análisis puede adoptar dos o más valores (o
categorías) diferentes.
La codi cación de la matriz de datos es una asignación de un número a cada categoría del documento de observación
(matriz). Cada respuesta del cuadro de observación es traducida y representada por indicaciones numéricas o códigos.
El objetivo es facilitar el estudio al pasar categorías de respuesta a números. La nalidad es facilitar la agrupación de
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
datos, hechos o respuestas. Para codi car la matriz utilizamos el manual de codi cación: guía que informa sobre cómo
se codi can los datos.
La codi cación de los datos implica transformar las categorías de respuesta de las variables categóricas en números. El
objetivo es que la matriz solo contenga números que permitan realizar las operaciones pertinentes.
Por ejemplo, no tratado = 0, tratado = 1.
Tratamiento de datos
● Análisis de datos:
○ Es el proceso por el que se examinan los datos recogidos.
○ Tipos de análisis: Estadísticos y cualitativos.
● Análisis estadístico:
○ Conjunto de procedimientos y técnicas que permiten describir, explicar y analizar los datos
cuantitativos y obtenidos.
○ Se realiza en diseños de investigación experimental, cuasi-experimental y observacional, donde los
datos son cuantitativos.
○ Permite resumir gran cantidad de datos procedentes de muchas observaciones sobre una muestra
grande casos (>30).
○ Identi ca relaciones de covariación o asociación entre variables donde el aumento o disminución de
una se traduce en aumento o disminución de la otra.
○ Proporciona métodos para conocer el grado de con anza en la precisión de la medida que hacemos
en la muestra.
Tratamiento de datos
● Tipos de análisis de datos estadísticos:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
○ Univariable → Describe la distribución de una variable o conjunto de variables por separado (por
ejemplo, el sexo).
○ Bivariable → Compara la distribución de una variable en las categorías de otra variable. Estudia la
covriación entre dos variables permitiendo el análisis conjunto de dos características para detectar
relaciones entre ellas (por ejemplo, sexo/voto).
○ Multivariable → Estudia el grado de covariación neto entre cada una de las variables independientes
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
y una variable dependiente medidas simultáneamente (por ejemplo, sexo, situación
económica/voto).
Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases
(intervalos).
● Edades:
○ Menos de 20 años, de 20 a 50 años, más de 50 años.
● Hijos:
○ Menos de 3 hijos, de 3 a 5 hijos, 6 o más hijos.
Transformación de variables
● Combinar categorías o reordenar las categorías de las variables. Las categorías de una variable se pueden
reducir con el objetivo de facilitar el análisis o la interpretación (por ejemplo, el número de delitos). Las
variables cuantitativas se pueden transformar y recodi car en variables categóricas.
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Introducción .
Estadística descriptiva
Incluye la tabulación, representación y descripción de conjuntos de datos. A partir de ellos se puede organizar,
simpli car y resumir información básica. Los datos pueden ser de variables cuantitativas o categóricas.
La estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte
de su naturaleza.
De nición de estadística
La estadística es la ciencia de los datos y técnica que tiene que ver con la recolección, procesamiento, análisis e
interpretación de datos. Puede ser descriptiva e inferencial.
La estadística es la ciencia:
● Descriptiva → Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de…
● Probabilidad → … deducir las leyes que rigen los fenómenos,
● Inferencia → y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener
conclusiones.
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
Estadística inferencial
Proporciona métodos para estimar las características de un grupo (población) basándose en los datos
de un conjunto pequeño (muestra).
Población y muestra
● Población (‘’population’’) → Conjunto sobre el que estamos interesados en obtener
conclusiones (hacer inferencia).
○ Normalmente es demasiado grande para poder abarcarlo.
● Muestra (‘’sample’’) → Subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las
observaciones (mediciones).
○ Debería ser ‘’representativo’’.
○ Está formado por miembros ‘’seleccionados’’ de la población (individuos, unidades experimentales).
Exponen la información recogida en la muestra, de forma que no se pierde nada de información (o poca).
● Frecuencias absolutas → Contabilizan el número de individuos de cada modalidad.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Creación de escalas
● Conjunto de procedimientos creados en la investigación social para cuanti car actitudes, sentimientos,
percepciones.
● Se desarrollaron para obtener niveles de medida ordinales o de razón sobre las actitudes.
Medidas de centralidad
● Moda. Es el valor más frecuente en una distribución. Es simple de calcular e intuitiva. Su desventaja es que se
pierde información, por lo que puede dar una impresión errónea sobre los datos. Se puede utilizar, también,
en variables nominales.
● Media aritmética. Nos proporciona el valor más representativo de una distribución. Es el promedio simple de
todos los valores: la suma de los valores observados dividida por el número total de observaciones.
○ Ventajas:
■ Todos los valores están incluidos en el cálculo. Tiene todos los valores en cuenta.
■ Medida útil para comparar dos poblaciones.
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
○ Limitaciones:
■ Es sensible a la in uencia de observaciones extremas.
● Mediana. Valor central que divide a la población en dos subpoblaciones iguales. Es la posición central en una
distribución ordenada.
○ Ventaja:
■ No es tan sensible a la in uencia de valores extremos o atípicos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
○ Desventajas:
■ No utiliza todos los datos.
■ Es más insensible a los valores de una distribución
Mediana
Es un valor del conjunto de datos que mide el elemento central. La mitad de elementos se encuentran por arriba y la
otra mitad por debajo de él.
Moda
Es el valor que se repite más dentro de un conjunto de datos.
Cuartiles
Los cuartiles dividen en cuatro partes las observaciones. El primer cuartil Q1 es un valor que deje por debajo de él 25%
de las y por encima 75% de las observaciones. El Q2 es la mediana (50%) y Q3 deja por debajo 75% y por encima 25% de
las observaciones.
Percentiles
Los percentiles dividen en dos partes las observaciones. Por ejemplo, el percentil 20, P20, es el valor que deja por debajo
un 20% y por encima un 80% de las observaciones.
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
Medidas de dispersión
● Proporcionan una medida de la dispersión en los valores de una variable, es decir, del grado en que los casos
son o no homogéneos.
● Rango. La diferencia entre el valor máximo y el valor mínimo de la distribución.
● Desviación típica. Mide la distancia de las observaciones respecto a la media. Se expresa en las unidades de la
variable. Se proporciona el valor de una desviación típica. Por ejemplo, una desviación típica de 5 (S = 5) en la
variable edad quiere decir que el 68% de los casos está entre más o menos 5 años respecto de la media (si la
distribución se ajusta a una distancia normal). Se calcula a partir de la varianza, es decir, de las desviaciones al
cuadrado de las observaciones con respecto a la media. Como mínimo, el % de observaciones comprendido en
el intervalo media +-kSx es de (1-1/k2) * 100. Propiedades:
○ Mide la dispersión con respecto a la media. Debe solo emplearse cuando se escoge la media como
medida de centralidad.
○ Es igual a cero cuando no hay dispersión. Esto ocurre si todas las observaciones tienen el mismo
valor. Cuanto más dispersas están las observaciones, mayor es la S.
○ Se ve muy in uida por las observaciones extremas. Unas pocas observaciones atípicas pueden hacer
que la desviación típica sea muy grande.
● Coe ciente de variación. Resultado de dividir la desviación típica por la media y multiplicarlo por 100. Un 0%
indica mucha homogeneidad. Puede proporcionar valores superiores a 100% (mucha heterogeneidad).
Cuando el valor de la media es cercano a 0, el CV proporciona valores muy elevados y pierde signi cado.
Permite comparar la dispersión de dos variables con escalas diferentes.
● Coe ciente de asimetría. Grado en que las observaciones se reparten proporcional y equitativamente a la
izquierda o a la derecha del punto central.
○ Decimos que la distribución de una variable es simétrica si se distribuye de forma uniforme
alrededor de la media. Media, moda y mediana coinciden. El índice de asimetría es 0.
■ La distribución simétrica perfecta es la ‘’distribución normal’’ (curva normal o bell curve).
Es una distribución teórica y muy pocas variables en el ámbito criminológico siguen una
distribución normal.
○ Decimos que hay asimetría positiva (o a la derecha) si la ‘’cola’’ a la derecha de la media es más larga
que la de la izquierda, es decir, si hay valores más separados de la media a la derecha.
○ Diremos que hay asimetría negativa (o a la izquierda) si la ‘’cola’’ a la izquierda de la media es más
larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
○ Una distribución puede también tener una distribución bimodal o no tener una distribución clara.
La curtosis es una medida de la forma de la distribución (del grupo de apuntamiento). Grado de concentración o
dispersión de los valores de una distribución en torno al cuerpo central de ésta.
10
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
3.4. Gráficos .
Sirven para:
- Organizar los datos.
- Observar patrones.
- Observar agrupamientos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- Observar relaciones.
- Comparar distribuciones.
- Visualizar rápidamente la distribución de los datos.
- Visualizar, obtener y comparar medidas estadísticas.
La calidad de un grá co estadístico consiste en comunicar ideas complejas con precisión, claridad y e ciencia, de tal
manera que:
- Induzca a pensar en el contenido más que en la apariencia.
- No distorsione la información proporcionada por los datos.
- Presente mucha información (números) en poco espacio.
- Favorezca la comparación de diferentes grupos de datos o de relaciones entre los mismos (por ejemplo, una
secuencia temporal).
Procedimientos de visualización
● Histograma de frecuencias. Sirve para representar la distribución de las frecuencias de una variable
cuasi-cuantitativa o de razón. Nos muestra la frecuencia absoluta o relativa (en el eje de las x) de cada valor
posible de la variable (en el eje de las y). Los datos son agrupados en un número de intervalos.
● Diagrama de caja. Proporciona información sobre el valor mínimo, el máximo, los cuartiles y la amplitud
intercuartílica (el interior de la caja contiene el 50% de los datos centrales) y la mediana. Proporciona
información sobre medidas de posición, tendencia central, variabilidad, distribución.
11
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9882211
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Diagrama de pastel
● Dado que los estadísticos descriptivos (la media o una proporción) proceden de muestras, están sujetos a un
margen de error (si analizamos toda la población no habrá error en el estadístico; tampoco si la muestra es
muy grande).
● Por ello, en ocasiones se opta por proporcionar el valor del estadístico (la media o una proporción) y un
Intervalo de Con anza (IC) o rango de valores asociado, que nos indica en torno a qué valores se espera que
varíe ese estadístico. Por ejemplo, p = 40 (38%-42%) o M = 3,5 (2,5-4,5).
● Por lo general se adopta un IC del 95%. Esto nos indica que en un 95% de las muestras, el valor del estadístico
estará entre el valor mínimo y el máximo del intervalo. El IC viene dado por el valor del estadístico más-menos
2 errores estándar (EE) (en 2 desviaciones típicas se encuentra el 95% de la población en una distribución
normal).
● El EE para la media es DE/vn y para una proporción es vp(1-p)/vn.
● El problema es que para que el IC tenga sentido, se asume que la distribución de la variable en la población
sigue una distribución normal. Si la muestra es elevada y la distribución no es muy asimétrica, este problema
puede ser menor. Cuando no hay una distribución normal, también se puede optar por estimar en varias
muestras dentro de la muestra.
12
Abre tu Cuenta NoCuenta con el código WUOLAH10 y llévate 10 € al hacer tu primer pago