COMPLETADO DE DATOS
PREPARADO POR EDUARDO LUIS
FLORES QUISPE
• De los métodos de estimación, los criterios
prácticos, como es el relleno de datos con el
promedio; pueden generar efectos muy
negativos en la información y por ende
conclusiones erróneas. El efecto más importante
es que la variancia de la serie puede ser reducida
sustancialmente; ya que al colocar en un dato
faltante un promedio se está amortiguando los
desvíos propios de la muestra, de tal manera que
pierde uno de sus parámetros más importantes,
distorsionándola así por completo como serie
histórica.
• En cambio los métodos estadísticos proporcionan las
herramientas necesarias para determinar si la nueva
serie ha mejorado la estimación de parámetros o la ha
empeorado.
• El método estadístico más usado en estos casos, es el
de Correlación y Análisis de Regresión que
matemáticamente se hacen en simultáneo, que puede
ser con una o más variables, y sirve tanto para
completar como para extender la información.
• Se puede usar el modelo de Regresión Lineal Simple, es
decir que el registro que se quiere extender sólo está
correlacionado con una serie de registro largo.
COMPLETACION DE DATOS
HIDROLÓGICOS
• Mejía (2001), menciona que, muchas estaciones
de precipitación o descargas (caudal) tienen
periodos faltantes en sus registros, debido a la
ausencia del observador o a fallas instrumentales.
A menudo es necesario estimar algunos valores
faltantes para lo cual existen muchas formas de
suplir estas deficiencias y el grado de aceptación
de uno de estos métodos va a depender de la
cantidad de observaciones faltantes en el registro
de datos.
Entre estos métodos podemos mencionar los
siguientes:
• Método del promedio simple.
• Método de razones normales.
• Método de correlación entre dos estaciones.
Completado de datos mediante un
promedio simple
• Si dentro del registro de datos faltan menos
del 5% de información estos se pueden
completar con un simple promedio de todos
los datos existentes o la semisuma de los
datos del año anterior y del siguiente.
Completado de datos mediante el
método de razones normales
• La serie de datos de que se dispone en una
estación X, de los cuales se conoce la media
en un determinado número de años, presenta
vacíos que deben ser rellenados. Un
procedimiento simple de Completado parte
de la premisa de que la precipitación PX en la
estación X, sea proporcional a las
precipitaciones de las estaciones vecinas A, B
y C en un mismo período, precipitaciones que
serán llamadas PA, PB, PC.
• Se acepta que el coeficiente de proporcionalidad
sea la relación entre la media MX y las medias MA,
MB y MC en el mismo período de tiempo; esto es,
que las precipitaciones sean directamente
proporcionales a sus medias. Se adopta,
entonces, como valor del dato faltante PX, la
media entre los tres valores calculados a partir de
A, B y C.
MX PA PB PC
PX = + +
3 MA MB MC
• Este método se basa en el empleo de tres
estaciones cercanas a la estación problema y que
sirven de estaciones índices. Cuando la
precipitación normal anual de cualquiera de las
estaciones índices difiere más del 10% de la
precipitación normal de la estación problema, se
emplea la ecuación anterior. Donde P es la
precipitación en la estación indicada (X, A, B, C) y
M es la precipitación media anual. Este método
es adaptable a regiones con grandes variaciones
en la precipitación debido a la orografía.
Completado de datos mediante
regresión simple
Es importante indicar que en todos los casos de Completado
de datos, las estaciones, a ser correlacionadas deben tener
similitud en su ubicación (altitud, latitud, longitud, distancia a
la divisoria de aguas de la cuenca) y estén cercanas.
Entre los principales modelos de regresión usados en
hidrología, podemos mencionar:
• Regresión lineal simple: Y=a+bX
• Regresión logarítmica: Y=a+b×ln(X)
• Regresión potencial: Y=aXb con forma linealizada
ln(Y)=ln(a)+b×ln(X)
• Regresión exponencial: Y=a×exp(bX) con forma linealizada
ln(Y)=ln(a)+bX, exp() es la función exponencial.
• Para completar la información mediante regresión, es
importante contar al menos con una estación cercana a la
estación problema, además deben tener similitud en
cuanto a los registros y estén ubicadas en la misma cuenca
o en su defecto en cuencas con parámetros
geomorfológicos similares. La estación cercana (B) deberá
abarcar necesariamente un periodo de registro mayor que
la estación problema (A), de este modo se puede establecer
una ecuación de regresión entre los datos de períodos
comunes y completar los datos que faltan en la estación
problema (A). Es importante para el empleo de este
método que el valor del coeficiente de determinación entre
las precipitaciones de A y B sea alto R2≥0.7.
Coeficiente de determinación (r2) y
coeficiente de correlación (r)
• La relación entre la suma de cuadrados de
regresión y la suma de cuadrados total de los
desvíos respecto a la media es denotada por r2. Y
se llama coeficiente de determinación.
PROBLEMA
• Ejemplo: Completado de datos utilizando
Excel. Se tiene dos estaciones pluviométricas
cercanas: Ayaviri y Pucará. Se requiere
completar la precipitación mensual del mes de
marzo de la estación Pucará en los años 1996,
1997 y 1998.
En Excel seleccionamos las celdas con los datos, y
vamos a insertar grafico tipo dispersión en puntos.
Seleccionamos los puntos y agregamos
lineal de tendencia
Seleccionamos el modelo de regresión que queremos
probar, y marcamos que nos presente la ecuación y el
valor de R2
• Si seleccionamos lineal, y luego hacemos lo
mismo con el modelo potencial, se obtiene el
siguiente gráfico de dispersión, mostrando las
ecuaciones de estos modelos. Se puede hacer
el procedimiento varias veces y probar
muchos modelos de regresión disponibles
para la línea de tendencia.
• Puesto que el valor de R2 es mayor para el
modelo Potencial, se utiliza esta ecuación para
completar los datos. En general se recomienda
siempre escoger el modelo de regresión que
tenga el mayor valor de R2. Así se tiene los
datos completados siguientes.