Parte II
Los datos
Capítulo 4
Introducción. ¿Con qué trabajo en un SIG?
Los datos son el elementos clave de un SIG, pues sin ellos el resto de componentes no
tienen utilidad alguna. La preparación de un adecuado conjunto de datos es base para poder
llevar adelante con garantías todo proyecto SIG. En este capítulo veremos las características
fundamentales de los datos y de la información espacial, presentando los conceptos básicos
de estos que deben tenerse siempre presentes a la hora de trabajar con un SIG
4.1. Introducción
De todos los subsistemas de SIG, el correspondiente a los datos es el pilar
fundamental que pone en marcha los restantes. Los datos son el combustible que
alimenta a los restantes subsistemas, y sin los cuales un SIG carece por completo
de sentido y utilidad.
El subsistema de datos es, a su vez, el más interrelacionado, y está conectado de
forma inseparable a todos los restantes. Mientras que, por ejemplo, la visualización
no es por completo imprescindible para el desarrollo de procesos de análisis, no
hay elemento del sistema SIG que pueda vivir si no es alimentado por datos. Los
datos son necesarios para la visualización, para el análisis y para dar sentido a la
tecnología y, en lo referente al factor organizativo y a las personas, el rol de estas
en el sistema SIG es en gran medida gestionar esos datos y tratar de sacar de ellos
el mayor provecho posible, buscando y extrayendo el valor que estos puedan tener
en un determinado contexto de trabajo. Por tanto, los datos son fundamentales
en un SIG, y todo esfuerzo dedicado a su estudio y a su mejor manejo será siempre
positivo dentro de cualquier.trabajo con SIG.
La forma en que los datos se gestionan en un SIG es un elemento vital para definir
la propia naturaleza de este, así como sus prestaciones, limitaciones y características
generales. En este capítulo introductorio veremos la diferencia entre los conceptos
de datos e información, relacionados aunque distintos, y la forma en que ambos se in-
corporan a un SIG. Esta concepción es importante, pues fundamenta la arquitectura
interna que puede adoptar un SIG y las operaciones que se construyen sobre esta.
68 Sistemas de Información Geográfica
4.2. Datos vs Información
Existe una importante diferencia entre los conceptos de datos e información.
Ambos términos aparecen con frecuencia y pueden confundirse, pese a que repre-
sentan cosas bien diferentes. Aun así, son conceptos muy unidos, y resultan clave
para entender los fundamentos de un SIG tal y como estos se desarrollan a lo largo
de este libro. Un SIG es un Sistema de Información Geográfica, pero maneja datos
geográficos, existiendo diferencias entre estos conceptos.
Entendemos como dato al simple conjunto de valores o elementos que utiliza-
mos para representar algo. Por ejemplo, el código 502132N es un dato. Este código
por sí mismo no tiene un significado, y es necesario interpretarlo para que surja ese
significado. Al realizar esa interpretación, el dato nos informa del significado que
tiene, y es en ese momento cuando podemos emplearlo para algún fin y llevar a cabo
operaciones sobre él que tengan sentido y resulten coherentes con el significado
propio que contiene.
El dato anterior podemos interpretarlo como si fuera una referencia geográfica,
y cuyo significado sería entonces una latitud, en particular 50◦ 210 3200 Norte. Si lo
interpretamos como un código que hace referencia a un documento de identificación
de una persona, la información que nos aporta es en ese caso completamente distin-
ta. El dato sería el mismo, formado por seis dígitos y una letra, pero la información
que da es diferente, ya que lo entendemos e interpretamos de manera distinta.
La información es, por tanto, el resultado de un dato y una interpretación, y
el trabajo con datos es en muchos casos un proceso enfocado a obtener de estos
toda la información posible. Un dato puede esconder más información que la que
a primera vista puede apreciarse, y es a través de la interpretación de los datos
como se obtiene esta.
En el capítulo 15 veremos cómo a partir de un Modelo Digital de Elevaciones
podemos calcular parámetros tales como la pendiente, extraer el trazado de la
red de drenaje o delimitar las subcuencas en que una cuenca vertiente mayor
puede dividirse. El dato en este caso lo constituyen los valores que representan
la elevación en los distintos puntos. La información que contienen está formada
por todo ese conjunto de elementos que podemos obtener, desde la pendiente a los
cursos de los ríos, pasando por todo aquello que mediante la aplicación de procesos
u operaciones de análisis podamos extraer de esos datos.
Comprender el significado y las diferencias entre datos e información permiten
entender entre otras cosas que la relación entre los volúmenes de ambos no es necesa-
riamente constante. Por ejemplo, los datos 502132NORTE o CINCUENTA VEIN-
TIUNO TREINTAYDOS NORTE son mayores en volumen que 502132N, pero
recogen la misma información espacial que este (suponiendo que los interpretamos
como datos de latitud). Tenemos más datos, pero no más información. Podemos es-
tablecer planteamientos basados en este hecho que nos ayuden a almacenar nuestra
Introducción. ¿Con qué trabajo en un SIG? 69
información geográfica con un volumen de datos mejor, lo cual resulta ventajoso. Ve-
remos algunos de estos planteamientos más adelante dentro de esta parte del libro.
Aspectos como estos son realmente mucho más complejos, y el estudio de la
relación entre datos e información y sus características no es en absoluto sencilla.
Existe una disciplina, la ciencia de la información dedicada a estudiar los aspectos
teóricos relativos a la información y la forma en que esta puede contenerse en los
datos. El lector interesado puede consultar [30, 31] para saber más al respecto.
En este capítulo de introducción a esta parte dedicada a los datos, veremos
más acerca de la información que de los datos espaciales, pues la manera en que
concebimos esta condiciona la forma de los datos. Será en el capítulo siguiente
cuando tratemos ya los datos, abordando uno de los problemas fundamentales:
la creación del dato espacial.
4.3. Las componentes de la información geográfica
Comprender la información geográfica es vital para poder capturar dicha
información e incorporarla a un SIG. En líneas generales, podemos dividir esta en
dos componentes principales, cada una de los cuales tiene su implicación particular
en los procesos posteriores de representación que más adelante veremos.
Componente espacial
Componente temática
La componente espacial hace referencia a la posición dentro de un sistema de
referencia establecido. Esta componente es la que hace que la información pueda
calificarse como geográfica, ya que sin ella no se tiene una localización, y por tanto el
marco geográfico no existe. La componente espacial responde a la pregunta ¿dónde?
Por su parte, la componente temática responde a la pregunta ¿qué? y va inva-
riablemente unida a la anterior. En la localización establecida por la componente
espacial, tiene lugar algún proceso o aparece algún fenómeno dado. La naturaleza
de dicho fenómeno y sus características particulares, quedan establecidas por la
componente temática.
Puede entenderse lo anterior como una variable fundamental (la componente
temática), que se sirve, sin embargo, de una variable soporte (la componente
espacial) para completar su significado.
Los tipos de división horizontal y vertical de la información que veremos más
adelante implican una separación en unidades, que en la práctica puede implicar en
un SIG que cada una de esas unidades quede almacenada en un lugar o fichero distin-
to. En el caso de las componentes temática y espacial de la información, son posibles
distintos enfoques, ya que estas pueden almacenarse de forma conjunta o bien por
separado. El capitulo 8 trata estos enfoques, y en él veremos con detalle cómo puede
abordarse el almacenamiento de ambas componentes de la mejor forma posible,
así como la evolución que se ha seguido al respecto dentro del campo de los SIG.
70 Sistemas de Información Geográfica
Mientras que la componente espacial va a ser generalmente un valor numérico,
pues son de esa naturaleza los sistemas de coordenadas que permiten expresar una
posición concreta en referencia a un marco dado, la componente temática puede
ser de distintos tipos:
Numérica. A su vez, pueden señalarse los siguientes grupos:
• Nominal. El valor numérico no representa sino una identificación. Por
ejemplo, el número de un portal en una calle, o el numero del DNI de
una persona. Este tipo de variable, al igual que la de tipo alfanumérico,
es de tipo cualitativo, frente a las restantes que son de tipo cuantitativo.
• Ordinal. El valor numérico establece un orden. Por ejemplo, una ca-
pa en la que se recoja el año de fundación de las distintas ciudades
contenidas en ella.
• Intervalos. Las diferencias entre valores de la variable tienen un sig-
nificado. Por ejemplo, entre dos valores de elevación.
• Razones. Las razones entre valores de la variable tienen un significado.
Por ejemplo, podemos decir que una precipitación media de 1000mm es
el doble que una de 500mm. La pertenencia de una variable a un grupo u
otro no solo depende de la propia naturaleza de la misma, sino también
del sistema en que se mida. Así, una temperatura en grados centígrados
no se encuentra dentro de este grupo (pero sí en el de intervalos), ya
que la razón entre dichas temperaturas no vale para decir, por ejemplo,
que una zona está al doble de temperatura que otra, mientras que si
expresamos la variable temperatura en grados Kelvin sí que podemos
realizar tales afirmaciones. El valor mínimo de la escala debe ser cero.
Alfanumérica
El tipo de variable condiciona las operaciones que pueden realizarse con un
dato geográfico en función de cómo sea su componente temática. Por ejemplo,
carece sentido realizar operaciones aritméticas con variables de tipo ordinal o
nominal, mientras que es perfectamente lógico con los restantes tipos dentro de la
categoría numérica. También, como veremos en el capítulo 27, influye en la forma
de representarlo a la hora de elaborar cartografía.
Además de las componentes espacial y temática, Sinton [32] añade la componen-
te temporal y propone un esquema sistemático que permite clasificar en grupos las
distintas clases de información geográfica. Según este esquema, cada una de estas
componentes puede estar en uno de los siguientes tres estados posibles: fija, controla-
da o medida. Al medir una de estas componentes, es necesario controlar otra de ellas,
y fijar la tercera, o bien ignorarla y no tenerla en cuenta (este era el caso explicado
hasta el momento, en el cual no habíamos citado aún la componente temporal)
Por ejemplo, si registramos la temperatura a lo largo de un periodo de tiempo
para un punto concreto, la componente temporal está controlada (tomamos me-
diciones de temperatura con un intervalo de tiempo establecido), la componente
Introducción. ¿Con qué trabajo en un SIG? 71
temática (la propia temperatura) está medida, y la componente espacial está fija
(el termómetro que registra los valores se encuentra siempre en un punto inmóvil)
En general, la información geográfica se recoge haciendo fija la componente
temporal, y midiendo o controlando las restantes en función del tipo de información
de que se trate.
Un concepto a tener en cuenta en relación con las componentes de la información
geográfica es la dimensión. Los elementos que registramos pueden ir desde sencillos
puntos (0D) hasta volúmenes tridimensionales (3D). Un caso particular —y muy
frecuente— lo encontramos cuando estudiamos la forma tridimensional del terreno,
pero tratando la elevación como variable temática, no como una parte más de la com-
ponente espacial. En este caso, tenemos una serie de valores de elevación (Z) locali-
zados en el plano XY. Esto no es realmente equivalente a utilizar una componente
espacial tridimensional, ya que no permite recoger en un mismo punto distintos valo-
res (no puede, por ejemplo, modelizarse la forma de una cueva o un objeto vertical),
por lo que se conoce como representación en 2.5 dimensiones (2.5D). La figura 4.1
muestra esquemáticamente el concepto de dimensión de los datos dentro de un SIG.
Figura 4.1: Dimensión de los datos geográficos
Por ultimo, un aspecto importante de toda variable estudiada es su continuidad.
Se entiende esta continuidad como la capacidad de la variable para tomar todos los
valores dentro de un rango definido. La temperatura, la presión o la elevación son
valores continuos, mientras que ninguna variable de tipo nominal puede ser continua,
ya que se encuentra limitada a un numero (finito) de identificadores posibles. Por
ejemplo, en el caso del número de un DNI, los valores son siempre enteros, existe
el valor 1 y el valor 2, pero no los infinitos valores decimales entre ambos.
La continuidad de la variable temática se puede estudiar igualmente en relación
con la componente espacial. Así, existen variables que varían de forma continua en
el espacio, mientras que otras no lo hacen. Se emplea aquí el concepto matemático
de continuidad, es decir, que si trazáramos un perfil de la variable a lo largo de
un recorrido dado, la representación de dicho perfil sería una curva que podría
dibujarse sin levantar el lápiz del papel1
Todas estas ideas referidas a las distintas variables (distintas informaciones
que pretendemos recoger de una zona de estudio dada) nos servirán para detallar
1
Definiciones más rigurosas del concepto de continuidad puede encontrarse en cualquier texto
básico de cálculo elemental o, por ejemplo, en [33]
72 Sistemas de Información Geográfica
los diferentes enfoques de representación y almacenamiento que veremos en el
próximo capítulo, y escoger en cada caso el más apropiado.
4.4. División horizontal de la información geográfica
Además de dividir la información geográfica en componentes, también dividimos
esta con criterios puramente espaciales, «cortándola» en unidades menores que
ocupen una región de amplitud más reducida. Este es un procedimiento similar al
que encontramos en un mapa impreso, ya que el territorio de un país se encuentra
cartografiado en diferentes hojas. Las razones para esto son, por una parte, los
posibles distintos orígenes que los diferentes mapas pueden tener (cada región puede
ser responsable de fabricar los suyos) y, especialmente, el hecho de que, de no ser así,
los mapas tendrían un tamaño inmanejable. Si cartografíamos a escala 1:25000 todo
un país, es obvio que no podemos hacerlo en un único mapa, ya que este sería enorme.
En el caso de trabajar en un SIG, no tenemos el problema del tamaño físico del
mapa, ya que no existe tal tamaño. Los datos no ocupan un espacio físico, pero sí
que requieren un volumen de almacenamiento, y este presenta el mismo problema.
Recoger a escala 1:25000 todo un país supone un volumen de datos enorme, que
es conveniente dividir para poder manejar con fluidez.
En ambos casos, ya sea dentro de un SIG o no, suele resultar necesario emplear
varios bloques de información (varias hojas) para cubrir un área de trabajo. En
esta circunstancia, las propias características de un SIG y su forma de trabajo con
los datos hacen que este proceso sea más sencillo y eficaz.
La principal cualidad de un SIG para integrar de forma transparente datos
correspondientes a zonas distintas y formar un mosaico único es la separación que
existe entre datos y visualización. Los datos son la base de la visualización, pero
en un SIG estos elementos conforman partes del sistema bien diferenciadas. Esto
quiere decir que los datos se emplean para crear un resultado visual pero en sí
mismos no contienen valores relativos a esa visualización.
De este modo, es posible combinar los datos y después representarlos en su
conjunto. Un proceso así no puede realizarse con un mapa ya impreso, pues este
contiene ya elementos de visualización e incluso componentes cartográficos tales
como una flecha indicando el Norte, una leyenda o una escala. Por ello, aunque pue-
dan combinarse, realmente no se «funde» la información de cada uno de los mapas
para conformar uno único. Dicho de otro modo, si tomamos cuatro hojas contiguas
de una serie de mapas no podemos formar un nuevo mapa que sea indistinguible
de uno cuatro veces más grande que haya sido impreso en un único pliego de papel.
En un SIG, sin embargo, sí que sucede así, y la visualización de cuatro o
más bloques de datos puede ser idéntica a la que obtendría si todos esos datos
constituyeran un único bloque. Empleando herramientas habituales en un SIG, y
Introducción. ¿Con qué trabajo en un SIG? 73
si cada uno de esos bloques está almacenado en un fichero, resulta incluso posible,
unirlos todos y crear un solo fichero que los contenga.
Una de las razones principales que favorecen esta combinación de datos es el
hecho de que la escala nominal es en sí un elemento de representación. Como vimos
en el apartado 3.4, la escala nominal relaciona el tamaño que tiene un objeto en
la representación con su tamaño real, y la forma en que se recoge la información
a la hora de realizar medidas de ese objeto viene condicionada por dicha escala,
de tal modo que el esfuerzo desarrollado en esas mediciones sea coherente con la
representación que se va a hacer posteriormente al crear el mapa.
Los datos que manejamos en un SIG tiene una escala de detalle impuesta por
la precisión de las mediciones, pero no una escala nominal asignada, ya que no
tienen un tamaño fijo de representación en la pantalla del ordenador o el periférico
correspondiente, al contrario que un mapa impreso en el que los distintos elementos
ya se encuentran representados. Esto hace que combinar cartografía clásica a
distintas escalas sea complejo, ya que los mapas no «casan» bien entre sí.
En el caso de un SIG, es el usuario el que decide la escala de representación, y
esta será la misma para todos los datos que se visualicen, independientemente de las
características de estos. En el contexto actual de datos geográficos, es habitual en-
contrar situaciones en las que para una zona de terreno disponemos de información
a una escala, y para otra zona contigua a esta la información disponible es a una
escala distinta. Con el uso de un SIG, sin embargo, es posible trabajar sin problemas
con todo el conjunto, sin preocuparse por la integración de sus distintas partes.
Lógicamente, no debe dejarse de lado nunca el rigor cartográfico y, como se dijo
en su momento, no olvidar que, aunque podamos representar cualquiera de esos
datos a la escala que deseemos, los datos en sí no son suficientes para ello y tienen
unas limitaciones impuestas por su escala inherente. Es decir, que no es necesario
preocuparse por la integración a la ahora de visualizar y gestionar los datos, pero
sí a la hora de analizarlos u obtener resultados a partir de ellos. No obstante, el
proceso de combinación es en cualquier caso transparente para el usuario que
visualiza esos datos en un SIG, y la operación pasa de ser algo tedioso y complejo
a algo prácticamente inapreciable dentro del SIG, pues es este quien se encarga
de ocultar toda esa complejidad y simplemente generar las representaciones según
los parámetros requeridos en cada momento.
La figura 4.2 muestra un ejemplo de lo anterior en el que puede verse cómo
varias fotografías aéreas forman un mosaico que cubre una zona dada, teniendo
estas distinto nivel de detalle tal y como puede apreciarse.
4.5. División vertical de la información. Capas
Uno de los grandes éxitos de los SIG es su estructura de manejo de informa-
ción geográfica, que facilita todas las operaciones que se llevan a cabo con esta.
74 Sistemas de Información Geográfica
Figura 4.2: Integración de datos en sentido horizontal. A pesar de que la escala de detalle
es distinta para las fotografías aéreas de la imagen, estas se combinan sin problema
en un SIG, representándose a una escala dada todas ellas de forma sencilla. Nótese la
mayor definición en la parte inferior de la imagen, que se forma con imágenes tomadas
a una escala distinta a la de las de la parte superior. Adviértase igualmente la distinta
iluminación, ya que han sido tomadas en fecha y horas distintas.
El concepto de capa, imprescindible para comprender todo SIG, es una de las
grandes virtudes inherentes a los Sistemas de Información Geográfica, en cuanto
que favorece la correcta estructuración de la información y el trabajo con ella.
La división horizontal que ya hemos visto no es algo nuevo, y la gran mayoría
de los mapas clásicos cubren una porción relativamente pequeña de la superficie
terrestre. Combinando distintos mapas podemos formar uno mayor que cubra una
extensión más amplia, y aunque ya hemos visto que esto mismo puede realizarse
con un SIG y la tarea resulta así más sencilla, no resulta una operación tan compleja
y extraña en el caso de no trabajar en un entorno SIG.
Más difícil, sin embargo, es combinar distintos tipos de información, como por
ejemplo la contenida en un mapa topográfico y la existente en un mapa de tipos
de suelo y otro de vegetación potencial. Para una misma zona, trabajaremos con
varios mapas simultaneamente, y combinar estos para la realización de operaciones
en las que intervengan todos ellos(supongamos, por ejemplo, calcular el área total
de las zonas con un tipo de suelo dado donde la vegetación corresponde a una clase
concreta y se encuentran por encima de 1000 metros) es difícil y generalmente
también impreciso.
En el caso de un SIG, los distintos tipos de información se pueden combinar
de forma sencilla y limpia, y no aparecen los mismos problemas. Esto es así debido
a que la idea de capa permite dividir la información espacial referida a una zona
de estudio en varios niveles, de tal forma que, pese a coincidir sobre un mismo
emplazamiento, información sobre distintas variables se encuentra recogida de
Introducción. ¿Con qué trabajo en un SIG? 75
forma independiente. Es decir, en función de la componente temática se establecen
distintos bloques de datos espaciales.
Para comprender mejor el concepto de capa, pensemos en un mapa topográfico
clásico. En él vamos a encontrar elementos como curvas de nivel, carreteras, núcleos
urbanos, o simbología relativa a edificios y puntos singulares (iglesias, monumentos,
etc.) Todos estos elementos en su conjunto componen el mapa, y aparecen en una
misma hoja como una unidad coherente de información geográfica. No obstante,
cada uno de los de estos grupos de información recogidos —elevaciones, red viaria,
núcleos urbanos, puntos de interés arquitectónico— pueden recogerse de forma in-
dependiente, y combinarse al componer el mapa según las necesidades del momento,
o bien combinarse de modo distinto o emplearse individualmente (Figura 4.3).
Figura 4.3: Concepto de capa de información geográfica dentro de un SIG
La figura es lo suficientemente gráfica como para entender la razón de que a
este tipo de división la denominemos vertical, así como el propio nombre de capa,
ya que de ella resulta una serie de diferentes niveles que se pueden superponer
según el criterio particular de cada usuario de SIG.
Toda la información geográfica con que trabajemos en un SIG va a ser en forma
de capas. Cada una de estas capas puede abrirse de forma independiente en un SIG
y utilizarse por sí misma o en conjunto con otras en la combinación que se desee.
Esta forma de proceder no es exclusiva de los SIG, y antes de la aparición
de estos ya existían experiencias previas en este sentido, combinándose capas de
información geográfica para la realización de análisis (véase 2.6). Es, sin embargo,
con la aparición de los SIG cuando esta metodología se aplica de forma regular
y se establece sistemáticamente dicha estructuración de la información geográfica.
Así, la visualización, el análisis, y todas las acciones que se realizan sobre la
información geográfica dentro de un SIG, se llevan a cabo sobre un conjunto de
capas, entendiéndose cada una de ellas como la unidad fundamental de información
sobre una zona dada y un tipo de información concreta.
Muy habitualmente las capas se conocen también como capas temáticas o
temas, términos bastante extendidos que hacen referencia al mismo concepto.
La relevancia del concepto de capa como elemento fundamental de un SIG
76 Sistemas de Información Geográfica
es enorme, pues realmente constituye el marco básico sobre el que se van a llevar
a cabo gran parte de las operaciones. Algunas de las posibilidades que brinda
esta filosofía ya las conocemos. Por ejemplo, vimos en el apartado dedicado a la
generalización cartográfica cómo en un SIG podemos utilizar diferentes «versiones»
de los datos correspondientes a una zona concreta, y representar una u otra de
ellas en función de la escala de trabajo. Para un tipo de información, por ejemplo
los usos del suelo, estas versiones se almacenarán como distintas capas. La capa
es así la unidad fundamental no solo en términos de un área dada, sino también de
una escala concreta, y permite una división de los datos óptima a todos los efectos.
Al igual que veíamos en el apartado anterior, las capas nos van a permitir la
combinación de datos a distinta escala, no ya en este caso datos contiguos, sino
datos correspondientes a un mismo área pero con variables distintas. Esto es de
gran utilidad en el trabajo habitual, ya que no todas las variables se recogen con
un mismo nivel de detalle, y el detalle con el que podemos encontrar una capa de
elevaciones va a ser generalmente mucho mayor que el que cabe esperar para una
capa de, digamos, litología.
En realidad, y en el lenguaje habitual de trabajo con SIG, la capa no define
únicamente una división vertical, sino también una horizontal. Es más sencillo
visualizar la idea de capa con un esquema como el de la figura 4.3, en el que las
distintas variables se «apilan» en capas de información superpuestas. Sin embargo,
las divisiones horizontales en un mosaico de datos también se consideran como
capas distintas en un SIG, pese a contener una misma variable y un mismo tipo
de información. Por tanto, y aunque la división vertical sea la que verdaderamente
define la idea de capa, cuando hablamos de una capa de datos en un SIG nos
referimos a un «trozo» de toda la información disponible, que implica una sección
en la dimensión vertical (la de las variables existentes que pueden estudiarse) y
un recorte en la horizontal (la de la superficie geográfica).
Las capas pueden emplearse también para incorporar en cierta forma la variable
temporal si se considera que la dimensión vertical es el tiempo. Aunque no es
la manera más adecuada, y en la actualidad el manejo del tiempo es uno de los
principales problemas a resolver en el diseño de los SIG, podemos trabajar con
varias capas que representen una misma información y una misma zona, pero en
instantes distintos. Esto no es distinto a trabajar con mapas clásicos correspon-
dientes a diferentes instantes, salvo que en el caso de capas cada elemento de la
información se encuentra separado a su vez.
Por último, es importante el hecho de que la separación de la información
en capas evita la redundancia de datos, ya que cada capa contiene un tipo de
información concreto. En un mapa clásico se presentan siempre varias variables,
algunas de ellas presentes con carácter general, tales como nombres de ciudades
principales o vías más importantes de comunicación. Es decir, que un mapa de
usos de suelo o un mapa geológico van a contener otras variables, que en ocasiones
se añaden a este para enriquecerlo. Unas curvas de nivel, por ejemplo, permitirán
una mejor interpretación de esa geología.
Al dividir toda la información en capas, podemos combinar curvas de nivel y
geología, añadir otros elementos, o bien representarlas de forma aislada, algo que no
resulta posible si los datos de los que disponemos ya vienen unidos inseparablemente,
como sucede en el caso de la cartografía impresa. La división en capas ofrece un
mayor número de posibilidades distintas de trabajo y, como iremos viendo a lo largo
de gran parte de este libro, también mayores posibilidades de análisis y proceso.
En resumen, el trabajo con capas permite una estructura más organizada y
una mayor atomización de los datos, con las consecuentes ventajas en el almace-
namiento, manejo y funcionalidad que esto conlleva.
4.6. Resumen
Los datos son una de las piezas más importantes del sistema SIG. Entendemos
por dato un conjunto de valores o elementos que representan algo. La interpretación
correcta de esos datos los dota de significado y produce información.
La información geográfica tiene dos componentes: una componente temática
y una componente geográfica. Estas van unidas y conforman una unidad única
de información geográfica, aunque pueden separarse y analizarse por separado.
Mientras que la componente geográfica tiene un carácter fundamentalmente nu-
mérico, la componente temática puede incluir una o varias variables y estas ser
de naturaleza muy variada.
La información geográfica se divide horizontal y verticalmente. Las unidades
mediante que incorporamos esta información a un SIG se conocen como capas, y son
uno de los elementos primordiales en la estructura de manejo de datos de todo SIG.
El trabajo con capas más hace transparente la gestión de la información geográfica
en un SIG, permite una mejor integración de distintos datos, y es la base para
muchas operaciones, algunas de las cuales iremos viendo en capítulos sucesivos.
78 Sistemas de Información Geográfica
Capítulo 5
Modelos para la información geográfica
La realidad geográfica debe recogerse en un formato que pueda ser entendido por el
ordenador y así susceptible de emplearse dentro de un SIG. En este capítulo se mostrarán
los enfoques conceptuales y prácticos más frecuentes para llevar esto a cabo, que a su vez
son los responsables indirectos de las arquitecturas subyacentes en los SIG. Para ello, se
estudiarán los distintos tipos de información con los que trabajamos en un SIG y las formas
más adecuadas de entender, interpretar y manejar esta.
5.1. Introducción
Los datos son, como ya sabemos, una parte imprescindible del SIG, ya que sin
ellos las aplicaciones SIG y los restantes elementos que se encuentran en torno a estas
no tienen utilidad alguna. Necesitamos conocer el área geográfica que estudiamos
en un SIG (es decir, tener datos sobre ella), para así poder proceder a dicho estudio.
No obstante, convertir ese área geográfica y la información acerca de ella en
un dato susceptible de ser incorporado a un SIG no resulta una tarea sencilla.
Desde los orígenes de los SIG, una de las preocupaciones principales ha sido la de
representar de la mejor manera posible toda la información que podemos extraer
de una zona geográfica dada, de tal modo que pueda almacenarse y analizarse en el
entorno de un SIG. Este proceso de representación, que ya desde el inicio planteaba
problemas a los creadores de los primeros SIG, ha sido el responsable en gran
medida de la arquitectura y forma de los SIG actuales, y a él se debe en buena parte
el desarrollo que han experimentado tanto los SIG en sí como las disciplinas afines.
Describir los enfoques teóricos existentes para convertir la realidad relativa
a una variable dada en una capa que la contenga de la forma más precisa posible
y pueda ser empleada en un SIG es el objeto de este capítulo. Este proceso implica
la construcción de un modelo (el dato geográfico), que representa la realidad y
puede servir para conocer esta en profundidad a través de análisis que no se llevan
a cabo sobre dicha realidad, sino sobre el modelo en sí.
El problema principal reside en el hecho de que el detalle real que encontramos
en la naturaleza es prácticamente infinito, mientras que la representación y almace-
namiento de esa realidad es finita. Se hace necesario extraer una serie de elementos
y valores característicos, los cuales en ultima instancia se recogerán como valores
numéricos dentro del SIG (pues son estos los que maneja un ordenador), y podrán
80 Sistemas de Información Geográfica
interpretarse como el anteriormente citado modelo. El camino que lleva desde la
realidad hasta ese conjunto de meros valores numéricos pasa por tres niveles:
Establecimiento de un modelo geográfico. Es decir, un modelo conceptual
de la realidad geográfica y su comportamiento.
Establecimiento de un modelo de representación. Es decir, una forma
de recoger el anterior modelo conceptual y sus características propias, re-
duciéndolo a una serie finita de elementos.
Establecimiento de un modelo de almacenamiento. Es decir, un esquema
de cómo almacenar los distintos elementos del modelo de representación.
El modelo geográfico es un ente puramente conceptual (de alto nivel), mientras
que el de almacenamiento es más un concepto técnico inherente a la naturaleza
informática del SIG (de bajo nivel)
5.2. Modelos geográficos
El primer paso hacia la creación del dato geográfico implica el establecimiento
de un modelo conceptual relativo a cómo se ha de interpretar la realidad geográfica.
Se trata de conceptualizar el espacio estudiado, la variable tratada y la variación
de esta a lo largo del espacio. Este modelo geográfico es un esquema mental que
constituye una forma particular de entender el hecho geográfico en sí, pero que
todavía no incorpora elementos relativos a su representación o almacenamiento.
Existen muchos modelos geográficos distintos, entre los cuales cabe destacar
dos de ellos [34]:
Campos
Entidades discretas
5.2.1. Campos
Un campo es un modelo de variación dentro de un marco n–dimensional, en el
cual en cada punto dentro de dicho marco se tiene un valor de la variable estudiada.
En su concepto matemático, un campo es una función de la forma ϕ : Rn → Rm ,
esto es, una función que asocia cada punto de un espacio vectorial con otro en un
espacio vectorial distinto.
En el caso más habitual, m = 1, es decir, que a cada punto del espacio vectorial
origen se le asocia un único valor escalar. Se tiene así lo que se denomina un campo
escalar. La mayoría de las variables que se emplean en un SIG necesitan un único
valor para describirse (piénsese en variables como la elevación, la temperatura o
la presión atmosférica, que solo requieren de un número para expresarse), por lo
que los campos escalares son los más habituales en el ámbito geográfico.
No obstante, también encontramos los denominados campos vectoriales 1 , en el
1
El empleo del término vectorial para calificar a los campos vectoriales o los espacios
Modelos para la información geográfica 81
cual el espacio vectorial de destino es multidimensional. Por ejemplo, para definir
el movimiento del viento en un punto geográfico no basta con un único valor, sino
dos: la velocidad y la dirección en la que sopla dicho viento. Dentro de un SIG,
es habitual recoger los campos vectoriales como un conjunto de varios campos
escalares, cada uno de ellos en una capa distinta. Así, se tendría una capa con
la dirección y otra con la velocidad, ambas magnitudes escalares. Operando de
esta manera, la solución no es única, ya que el vector resultante puede definirse
mediante su módulo y dirección (como en el caso anterior), pero también por sus
propias coordenadas en la base del espacio vectorial destino (en el caso anterior,
las componentes x e y del vector que indica el movimiento del viento).
El espacio vectorial de origen puede ser bidimensional, es decir, una función
de la forma f (x,y), representando x e y las coordenadas geográficas. Este es el
caso habitual en las capas que se emplean en un SIG, donde las variables que
estudiamos adquieren uno u otro valor en función de su posición dentro de un
sistema coordenado de referencia.
Puede añadirse una tercera dimensión, de tal modo que los valores dependan no
solo de la posición sino igualmente de la elevación. Se tendría una función de la forma
f (x,y,z). Para el caso, por ejemplo, de la temperatura del aire, esta depende no solo
de la localización, sino también de la altura. Otro ejemplo puede ser el porcentaje
de arena en el suelo, que depende de la localización pero también de la profundidad.
Igualmente, aunque en general es poco habitual en el marco de los SIG, puede
añadirse la variable tiempo, teniéndose funciones de la forma f (x,y,t) o f (x,y,z,t)
Por definición, un campo es continuo, ya que todos los puntos tienen un valor
asociado. De igual modo, este valor es único, y no existe un elemento del espacio
vectorial de partida que tenga asociados varios elementos del de destino, sean estos
escalares o vectores.
Por su propia naturaleza los campos son ideales para modelizar variables que
varían de forma continua en el espacio, entre ellas la practica totalidad de variables fí-
sicas del medio, tales como temperatura del aire, presión atmosférica, elevación, etc.
Los campos se asocian con las denominadas coberturas, termino este más
empleado en el ámbito SIG. En una cobertura existe un valor único para todos
los puntos de una región dada.
5.2.2. Entidades discretas
A diferencia de los campos, el modelo de entidades discretas no asocia a cada
punto geográfico un valor, sino que concibe un entorno geográfico como un espacio
vacío sobre el que se sitúan distintos elementos (entidades) que lo van rellenando.
vectoriales no debe confundirse con el modelo de representación vectorial que veremos más
adelante en este capítulo. En el caso de campos y espacio, se trata de la terminología estándar del
ámbito matemático, mientras que en el modelo de representación vectorial es una terminología
propia de los Sistemas de Información Geográfica.
82 Sistemas de Información Geográfica
Cada una de dichas entidades posee unas características propias, constantes para
toda ellas, que son las que conferirán sus propiedades particulares a los puntos
que se sitúen en su interior.
Un punto puede no pertenecer a ninguna entidad, o bien a varias de ellas, según
sea la disposición de estas. Para un espacio dado, las entidades pueden ser todos
aquellos elementos geométricos existentes en el mismo, tales como puntos, líneas,
polígonos o, en el caso de ser dicho espacio de dimensión mayor que dos, también
volúmenes.
Es fácil ver que el modelo de entidades discretas no es tan adecuado como los
campos para conceptualizar variables continuas, ya que la continuidad de estas es
opuesta al esquema discreto planteado. No obstante, otras variables no continuas se
modelizan mejor mediante entidades discretas, ya que la forma en que se presentan
coincide en cierta medida con dichas entidades como unidades mínimas.
La presencia de vías de comunicación, por ejemplo, se puede asimilar perfec-
tamente a este modelo. Se tiene un espacio vacío (sin vías), en el cual se disponen
los distintos viales en una serie de localizaciones concretas. Hay puntos que no
estarán afectados por ninguna entidad, mientras que otros (los situados en las
intersecciones) lo están por varias de ellas.
Las variables de tipo nominal y alfanumérico —las cuales no son, como vimos,
continuas— tales como el tipo de suelo en un punto o el número de parcela catastral
al que pertenece dicho punto, también se adaptan bien al modelo de entidades
discretas.
Otra diferencia entre los campos y las entidades discretas es que estas últimas
son en general más sencillas de comprender como concepto fuera de un ámbito
técnico. Los campos son conceptos matemáticos que requieren un mayor grado
de abstracción, y para la mayoría de la gente no resultan tan claros. Como algunos
apuntan [35], el lenguaje habitual contiene un numero mayor de expresiones y
recursos para describir la realidad geográfica en base a entidades discretas que en
base a campos o conceptos abstractos similares.
5.3. Modelos de representación
Los modelos geográficos nos ofrecen una concepción particular del espacio
geográfico y sus atributos. En base a ellos, el siguiente paso es reducir las pro-
piedades de dichos modelos a un conjunto finito de elementos, de tal modo que
el registro de dichos elementos sirva para almacenar la realidad que los modelos
geográficos describen. Para ello, empleamos los modelos de representación, también
denominados modelos de datos.
Antes de entrar a describir los distintos modelos de representación, veamos
algunos ejemplos que nos presentarán casos particulares de estos modelos, acla-
rando sus diferencias antes de proceder a una definición más detallada. En la
Modelos para la información geográfica 83
figura 5.1 pueden verse distintas formas de representar la elevación de una zona,
la cual, como ya sabemos, es una variable continua y puede concebirse mediante
un campo escalar. Por el contrario, la red viaria se adapta mejor a un modelo
de entidades discretas, y se muestran en la figura 5.2 sendas representaciones de
esta variable según distintos modelos de datos. Mediante los ejemplos de estas
figuras presentaremos los modelos de datos principales, así como su relación con
los modelos conceptuales estudiados en el punto anterior.
Figura 5.1: Distintas formas de representar una capa con información altitudinal.
Figura 5.2: Distintas formas de representar una capa con información sobre una red viaria.
Comenzando con la elevación, encontramos cuatro distintas formas de repre-
sentarla, a saber:
84 Sistemas de Información Geográfica
Curvas de nivel. La representación clásica empleada tradicionalmente en
los mapas de papel. Se recoge la elevación en una serie de curvas, que marcan
los puntos en los que dicha elevación es múltiplo de una cierta cantidad (la
equidistancia). En el ejemplo propuesto, se muestran curvas con elevaciones
múltiplos de 10 metros.
Una malla de celdas regulares, en cada una de las cuales se dispone un
valor, que corresponde a las características de la zona ocupada por dicha
celda. En este caso, cada celda tiene un valor de altura propio, que al con-
vertirse en un color mediante el uso de una escala de colores, da lugar a la
imagen mostrada.
Puntos regulares. Una serie de puntos regularmente espaciados. Existe
información de la elevación solo en dichos puntos. La información se muestra
como etiqueta asociada a cada punto.
Red de Triángulos Irregulares. Una Red de Triángulos Irregulares (TIN
en sus siglas inglesas, de Triangulated Irregular Network), es una estructura
en la cual se toman los puntos más característicos del relieve y en base a ellos
se construye una teselación en triángulos con unas condiciones particulares.
Cada uno de los triángulos posee unas propiedades comunes en cuanto a
su relieve. Veremos más adelante en detalle este tipo de estructuras. Por
el momento, basta recordar que los elementos básicos de esta forma de
representación son triángulos.
Para el caso de las vías encontramos dos representaciones distintas:
Una malla de celdas como la citada en el caso anterior. Las celdas de vía
tiene un valor (representado aquí en azul) distinto de las que se encuentran
fuera de la vía (con valor representado aquí en blanco)
Un conjunto de líneas representando los trazados de las vías.
En este ultimo caso las celdas se han elegido de un tamaño excesivamente gran-
de, con el fin de que pueda apreciarse de forma inmediata la diferencia existente.
Veremos más adelante que, como no es difícil intuir, la representación mediante
celdas no es tan adecuada para el caso de una capa de vías (aunque para el caso
de la elevación da lugar a una imagen con un aspecto inmejorable y altamente
informativo), cuando estudiemos los aspectos relativos a la precisión en los distintos
modelos de almacenamiento.
Como vemos, para un mismo tipo de información existen diversas alternativas
en cuanto a la forma de materializar la realidad y plasmar el modelo geográfico
concreto. Estas formas las podemos clasificar en dos grupos principales: modelo
de representación ráster y modelo de representación vectorial.
Si se han seguido los capítulos de partes anteriores, probablemente los tér-
minos ráster y vectorial no resulten extraños, ya que han aparecido con cierta
frecuencia. Esto es así porque, además de definir dichos términos los principales
modelos de representación de la información geográfica dentro de un SIG, se han
venido utilizando tradicionalmente para definir a los SIG en sí, en función de si
Modelos para la información geográfica 85
sus capacidades se hallaban más enfocadas al manejo y análisis de información
en formato ráster o en formato vectorial. A día de hoy, esa diferencia no es tan
patente y los SIG más habituales pueden trabajar con ambos indistintamente,
pudiendo realizar las tareas que resultan más adecuadas de llevar a cabo tanto
con uno como con otro tipo de representación.
En lineas generales podemos decir que el modelo ráster se basa en una división
sistemática del espacio, la cual cubre todo este (a este concepto se le denomina se
denomina teselación), caracterizándolo como un conjunto de unidades elementales
(las celdas de las mallas vistas en los ejemplos). El modelo vectorial, por su parte, no
divide el espacio completamente, sino que lo define mediante una serie de elementos
geométricos con valores asociados, siendo la disposición de estos no sistemática,
sino guardando relación con los objetos geográficos presentes en la zona de estudio.
En un principio, puede pensarse que el modelo ráster se asemeja al modelo
geográfico de campos, mientras que el vectorial concuerda con el de entidades
discretas. Aunque en cierta medida puede considerarse que así sucede y existe tal
dualidad, no es del todo cierta esta equiparación, como discutiremos con algo más
de detalle en los siguientes puntos.
De forma esquemática, los enfoques de los modelos de representación ráster
y vectorial se muestran en la figura 5.3
a) b)
Figura 5.3: Comparación entre los esquema del modelo de representación vectorial (a)
y ráster (b).
Podemos entender estos enfoques haciendo uso del esquema de Sinton presenta-
do con anterioridad. En el modelo vectorial controlamos la definición de los valores
asociados, y medimos la localización y forma de estos, dejando fijo el tiempo. En
el modelo ráster, aunque la componente temporal también es fija, la componente
que controlamos es la espacial (a través de la sistematicidad de la malla), mientras
que medimos la naturaleza de los valores en cada una de las celdas.
Antes de pasar a la definición detallada de los modelos ráster y vectorial,
mencionar que, como modelos principales empleados para la definición de capas de
86 Sistemas de Información Geográfica
información geográfica, las expresiones capa vectorial y capa ráster son de uso habi-
tual, y se emplearán de aquí en adelante tanto en este como en posteriores capítulos.
5.3.1. Modelo ráster
En el modelo ráster, la zona de estudio se divide de forma sistemática en una
serie de unidades mínimas (denominadas habitualmente celdas), y para cada una
de estas se recoge la información pertinente que la describe. Se puede ver esto en
detalle en la figura 5.4, que muestra aumentada una porción la malla ráster de
elevaciones de la figura 5.1, de modo que los límites de las celdas se hacen patentes
y puede además representarse en cada una de ellas su valor asociado.
Figura 5.4: Celdas de una malla ráster con sus valores asociados.
Aunque la malla de celdas puede contener información sobre varias variables,
lo habitual es que trate una única variable. Es decir, que se tenga un único valor
para cada una de las celdas.
La característica principal del modelo ráster, y que le confiere gran parte de sus
propiedades más interesantes, especialmente de cara al análisis, es su sistematicidad.
La división del espacio en unidades mínimas se lleva a cabo de forma sistemática de
acuerdo con algún patrón, de tal modo que existe una relación implícita entre las
celdas, ya que estas son contiguas entre sí, cubren todo el espacio, y no se solapan.
Por tanto, la posición de una celda depende de la de las restantes, para así conformar
en conjunto toda la malla regular que cumple las anteriores características. Dicho
de otro modo, el orden propio de las celdas, presente gracias a la división sistemática
realizada, aporta un elemento adicional que las relaciona entre sí.
Como unidad mínima pueden tomarse elementos de diversas formas. La más
habitual es mediante unidades de forma cuadrada, aunque también pueden ser
formas rectangulares, o incluso triangulares o hexagonales [36]. No obstante, los
SIG habituales se limitan a modelos de celdas cuadradas, y las implementaciones
de otros modelos son de uso muy reducido y en aplicaciones muy especificas que
en general no están orientadas al uso general ni disponibles de forma accesible al
usuario común. Junto a esto, la información geográfica en formatos ráster distintos
Modelos para la información geográfica 87
de la división en celdas cuadradas es prácticamente inexistente, haciendo más
difícil el empleo de estos formatos en condiciones normales de trabajo.
De igual modo, existen representaciones ráster no regulares, en las que todas
las unidades mínimas no tienen un mismo tamaño. Este tipo de representaciones
no tiene apenas presencia en los SIG, pero son habituales en otros ámbitos tales
como el de la representaciones 3D, con unos requerimientos bien distintos2 . Esto
está relacionado a su vez con los modelos de almacenamiento ráster, que veremos
más adelante en este mismo capítulo.
En todos los casos, la división en celdas no depende de la variable estudiada, y
es una división geográfica. Esto lo diferencia de otras divisiones como el caso de la
Red de Triángulos Irregulares, que, a pesar de ser una teselacion que cubre todo el
espacio, está basada en la propia variable de elevación, y dicha división (número,
forma y disposición de los triángulos) sería distinta en caso de que los valores de
elevación fueran otros.
Siendo, pues, las mallas ráster de celdas cuadradas las más habituales, pasemos
a ver algo más acerca de estas y su elementos básicos. Dos son los elementos
principales que resultan necesarios para una definición completa de una capa ráster:
Una localización geográfica exacta de alguna celda y una distancia entre
celdas, para en base a ellas, y en virtud de la regularidad de la malla, conocer
las coordenadas de las restantes.
Un conjunto de valores correspondientes a las celdas.
En el modelo ráster no se recogen de forma explícita las coordenadas de cada
una de las celdas, sino tan solo los valores de estas. No resulta necesario acompañar
a dichos valores de un emplazamiento espacial concreto, pues hacen referencia a
un elemento particular de la malla, la cual representa una estructura fija y regular.
No obstante, sí que es necesario emplazar dicha malla en el espacio para después
poder calcular las coordenadas particulares de cada celda.
Lo más habitual es definir el emplazamiento de una única celda (habitualmente
la celda superior izquierda), una orientación fija, y una distancia entre las celdas
(el paso de la malla). Como se muestra en la figura 5.5, esto ya permite, mediante
un sencillo cálculo, conocer las coordenadas de todas las celdas sin necesidad de
almacenar estas.
La orientación de las capas ráster es habitualmente Norte–Sur, de tal modo
que si pasamos de la primera a la segunda fila estamos descendiendo en latitud
(este hecho sería matizable en función de la proyección empleada). Dicho de otra
forma, la parte de arriba de la imagen es el norte, y la de abajo es el sur. Esta
convención simplifica el trabajo con capas ráster dentro de un SIG y permite
aplicar directamente la fórmula mostrada en la figura 5.5.
2
Véase, por ejemplo, el concepto de Nivel Continuo de Detalle (Continuous Level of Detail,
CLOD), para lograr representaciones de detalle con el menor gasto de recursos posible, y que
es habitual en este campo.
88 Sistemas de Información Geográfica
(x,y) d
N
(x',y')
x' = x + 4d
y' = y + 2d
Figura 5.5: La estructura regular de la malla ráster permite conocer las coordenadas de
las celdas sin necesidad de almacenar estas, sino tan solo recogiendo algunos parámetros
de la malla como la localización de una celda base (x,y), la orientación global o el tamaño
de celda (d).
No obstante, puede suceder que la fuente de datos original no se adhiera a
este formato (por ejemplo, una fotografía aérea en la que el avión no volaba en
dirección Norte–Sur o perpendicular, o una porción de un mapa escaneado que
no tiene tampoco esa orientación). En tal caso, y puesto que los SIG trabajan en
general con tal orientación en sus representaciones y a la hora de incorporar capas
ráster, nos encontraremos con situaciones como la mostrada en la figura 5.6
Figura 5.6: Aunque la zona de estudio no tenga orientación Norte–Sur, los SIG trabajan
habitualmente con esta orientación, y las imágenes deben adecuarse a ello.
En ella vemos cómo la orientación de la banda de estudio recogida es distinta
de la Norte–Sur de la imagen, lo cual, unido a la forma rectangular que ha de tener
Modelos para la información geográfica 89
dicha imagen, causa la aparición de zonas sin información (en negro). Esto implica
por una parte la necesidad de almacenar un gran número de valores sin interés,
y por otra la necesidad de especificar de algún modo que todas esas celdas que
aparecen en negro en la imagen son realmente celdas para las cuales no se dispone
de información. Esto último se suele llevar a cabo mediante la definición de un
valor arbitrario que indique la falta de datos (denominado generalmente valor de
sin datos), que codifica tal situación, de tal modo que pueden ignorarse las celdas
con dicho valor a la hora de representar o analizar la capa ráster en cuestión.
El otro parámetro necesario junto con la orientación de la malla y la situación
geográfica de una de sus celdas es el denominado tamaño de celda o tamaño de píxel,
también conocido como resolución, pues, en efecto, su magnitud define la resolución
de la capa. Un tamaño de celda mayor implica una menor resolución, y viceversa.
Además de servir para el cálculo de coordenadas de las celdas y definir la
estructura de la malla, el tamaño de celda permite calcular áreas, ya que establece
el área ocupada por cada celda. Asimismo, y como aspecto más relevante, el tamaño
de celda determina la precisión con la que se recoge una variable dentro de una
capa ráster, y puede considerarse como el equivalente conceptual a la escala de
dicha capa. Por esta razón, es importante trabajar con capas ráster de un tamaño
de celda adecuado para el tipo de análisis o tarea que quiera desarrollarse.
Así, un análisis microtopográfico en el cual resulta necesario registrar la va-
riación del relieve a pequeña escala no puede llevarse a cabo con una capa de
elevaciones con tamaño de celda de 100 metros, ya que toda la variabilidad menor a
esos 100 metros se pierde. No debe olvidarse que cada celda registra un único valor
de la variable, y esta se considera constante dentro de dicha celda. Un tamaño de
100 metros implicaría la recogida de un único valor para cada hectárea de terreno,
lo cual no es suficiente en este caso.
Muchos son los factores que influyen en el tamaño de celda de una capa ráster,
entre ellos las características de los datos iniciales con los que se ha creado dicha
capa o los medios particulares con que estos han sido recogidos. En la figura
5.7 pueden observarse dos imágenes aéreas del juego de datos de ejemplo (las
imágenes son un tipo particular de capa ráster, como en breve veremos), con
distinta resolución. Esta, al ser distinta, las hace válidas para uno u otro tipo de
uso. Vemos claramente que en en la imagen en blanco y negro (cuyo tamaño de
píxel es de 5 metros) se distinguen las distintas áreas de cultivo, mientras que en
la imagen en color (con tamaño de píxel de 25 metros), estos no se distinguen.
Todos aquellos análisis que requieran disponer de información por debajo de esos
25 metros, no podrán ser llevados a cabo con esta última imagen.
Para el caso de capas ráster de variables continuas, en la sección 13.2.8 se da
información detallada sobre cómo definir el tamaño de celda óptimo a la hora de
crear estas a partir de datos de otra clase tales como datos vectoriales.
Una vez conocemos el formato ráster, podemos relacionarlo con lo que ya
hemos visto relativo a los modelos geográficos. En primer lugar, y por sus propias
90 Sistemas de Información Geográfica
Figura 5.7: Imágenes de diferente resolución en función del sensor con que han sido
obtenidas. Al tener distintos tamaños de píxel, servirán para distintos usos dentro de un SIG.
características, puede pensarse que la representación ráster es más adecuada para
variables de tipo continuo que varían a su vez de forma continua en el espacio
geográfico. Es decir, es más próxima al modelo geográfico de campos que al de
entidades discretas. Esto es así debido principalmente a que una capa ráster cubre
todo el espacio, y ello favorece el estudio de dicha variabilidad. No obstante, no
debe considerarse que el ámbito de las variables continuas y los campos es exclusivo
de las capas ráster. De hecho, de las cuatro representaciones mostradas para el
caso de la elevación, solo una de ellas es de tipo ráster.
Sí es cierto, no obstante, que el formato ráster es especialmente adecuado para
el análisis de la información geográfica, en especial cuando esta es de tipo continuo.
Esto es así porque el principal elemento de las capas ráster es, como ya se ha dicho,
su estructura sistemática. Si a esta le unimos la regularidad que se presenta en la
forma más extendida de representación ráster (la de celdas cuadradas regulares),
tenemos un modelo óptimo para el análisis, que simplifica en gran medida este
y hace más sencilla la implementación de los algoritmos correspondientes. Es por
ello que, tradicionalmente, los SIG con mayor soporte para datos ráster han sido
aquellos que presentaban a su vez un mayor número de funcionalidades de análisis
en áreas tales como el estudio del relieve, el análisis de costes u otros similares.
No obstante, ello no restringe el alcance del formato. Variables que no resul-
ta tan óptimo concebir como campos, tales como una red vial, también puede
expresarse como una capa ráster, como hemos visto en la figura 5.2.
El caso de las imágenes
Un caso especial de capa ráster son las imágenes, de las que hemos visto ya un
ejemplo al tratar el tamaño de celda. Tanto si estas proceden de un sensor digital
o bien han sido escaneadas, los sensores correspondientes generan una estructura
en forma de malla que se ajusta al modelo de representación ráster. Este hecho
tiene gran importancia, pues facilita el análisis conjunto de imágenes y capas de
Modelos para la información geográfica 91
datos con otro tipo de información, haciendo que este sea sumamente más sencillo,
al compartir el modelo de representación.
Mientras que, como hemos visto en los ejemplos, una misma información se
puede recoger en formatos ráster y vectorial, las imágenes se recogen únicamente
en formato ráster, tanto por ser ese modelo mucho más adecuado, como por ser
mucho más coherente con el tipo de información y la procedencia de esta.
El concepto de celda en una malla ráster es el equivalente al de píxel3 , bien
conocido en el campo de las imágenes digitales. Así, cuando decimos que una
cámara digital tiene tres megapíxeles, queremos decir que captura un total de tres
millones de píxeles. De otra forma, la malla ráster que se genera tiene tres millones
de celdas. Las imágenes con las que trabajamos en un SIG no se diferencian de
las que tomamos con una cámara digital, salvo en el hecho particular de que
representan una porción de terreno dentro de un sistema de coordenadas dado,
pero la estructura es la misma: una malla de celdas (píxeles).
Otra particularidad de las imágenes es la presencia de bandas. Los valores reco-
gidos en las imágenes indican de forma general la reflectancia en una determinada
longitud de onda (esto se explica con mayor detalle en los capítulos 6 y 16). Puesto
que el espectro de radiación puede subdividirse en distintos grupos, los sensores
que toman estas imágenes recogen varias capas, una para cada uno de estos grupos.
En lugar de almacenarse como un conjunto de capas separadas, es más frecuente
que lo hagan en una única que contiene varias bandas, es decir, varios niveles
distintos, cada uno de los cuales podría constituir por sí mismo una capa ráster.
Se trata de una diferencia más de tipo formal, pero de cierta importancia,
puesto que no todos los SIG están preparados para manejar capas ráster con
independencia de su número de capas. Imágenes con una única banda, o tres, son
habituales y soportadas en la mayoría de implementaciones, mientras que números
mayores de bandas no se encuentran soportados en muchos programas.
Todos estos conceptos se extenderán en el capítulo 6.
5.3.2. Modelo vectorial
El otro modelo principal de representación es el modelo vectorial. En este
modelo, no existen unidades fundamentales que dividen la zona recogida, sino que
se recoge la variabilidad y características de esta mediante entidades geométricas,
para cada una de las cuales dichas características son constantes. La forma de
estas entidades (su frontera), se codifica de modo explicito, a diferencia del modelo
ráster, donde venía implícita en la propia estructura de la malla.
Si el modelo ráster era similar al modelo conceptual de campos, el vectorial
lo es al de entidades discretas, pues modeliza el espacio geográfico mediante una
serie de primitivas geométricas que contienen los elementos más destacados de
dicho espacio. Estas primitivas son de tres tipos: puntos, líneas y polígonos.
3
acrónimo de picture element
92 Sistemas de Información Geográfica
Figura 5.8: Primitivas geométricas en el modelo de representación vectorial y ejemplos
particulares de cada una de ellas con atributos asociados
Utilizando puntos, líneas o polígonos, puede modelizarse el espacio geográfico
si se asocia a estas geometrías una serie de valores definitorios. La componente
espacial de la información queda así en la propia primitiva (recoge la forma, po-
sición y otras propiedades espaciales), y la componente temática queda en dichos
valores asociados (Figura 5.8).
A la hora de definir las formas geométricas básicas, todas ellas pueden reducirse
en última instancia a puntos. Así, las lineas son un conjunto de puntos interco-
nectados en un determinado orden, y los polígonos son líneas cerradas, también
expresables por tanto como una serie de puntos. Todo elemento del espacio geográ-
fico queda definido, pues, por una serie de puntos que determinan sus propiedades
espaciales y una serie de valores asociados.
Una única entidad (para la cual existirá un único conjunto de valores asociados)
puede contener varias primitivas. Así, en un mapa mundial en que cada entidad
represente un país, y tal y como se ve en la figura 5.9, países como Canadá estarán
representados por más de un polígono, pues no puede recogerse todo su territorio
mediante uno único. Todos estos polígonos constituyen una única entidad, ya que
todos perteneces al mismo país y tendrán el mismo conjunto de valores asociados.
Otro caso particular en las capas de polígonos son aquellos polígonos con islas
(huecos). En este caso, se registran de la misma forma que en el caso de varios
polígonos disjuntos. Se recogen los propios huecos como polígonos independientes,
pero recogiendo de algún modo también la circunstancia de que estos polígonos
no se suman a los polígonos existentes en esa entidad, sino que se restan. Así es,
Modelos para la información geográfica 93
Figura 5.9: Casos particulares de polígonos: a) varios polígonos disjuntos en una misma
entidad (en este caso, mismo país), b) Polígonos con islas (huecos).
por ejemplo, para el caso del área total de polígonos de una única entidad, ya que
el área del hueco debe ser restada de la total.
En la figura anterior, vemos como Sudáfrica presenta esta situación, ya que
dentro del territorio del país hay zonas aislada que no pertenece a Sudáfrica, como
por ejemplo la que constituye el Reino de Lesotho.
Como se muestra en la figura 5.10, el conjunto del territorio ocupado por Sudáfri-
ca y las zonas interiores que no pertenecen al país no puede verse como un conjunto
de polígonos sin más. Para representar Sudáfrica de forma aislada es necesario «res-
tar» del polígono que engloba todo el territorio los polígonos respectivos a los países
interiores. De no hacerlo así, un cálculo sencillo tal y como el del área de dicho país
arrojará un resultado erróneo, pues considerará igualmente estas zonas interiores.
En realidad, los huecos se registran como polígonos disjuntos que pertenecen a
la entidad, aunque en lugar de representar un territorio que se añade, representan
uno que se «quita». Una forma habitual de hacer esto es almacenar las coordenadas
de los vértices de estos polígonos interiores en sentido inverso, de tal modo que
su área es negativa. De esta forma, la suma total del área de los polígonos de la
entidad es igual al área buscada4 .
Dentro de un SIG, una capa vectorial puede contener un único tipo de primitiva.
Así, tenemos capas vectoriales de puntos, de líneas y de polígonos, respectivamente.
4
La fórmula empleada para el cálculo del área de un polígono se expone en la página 253
94 Sistemas de Información Geográfica
Figura 5.10: Los huecos de un polígono han de considerarse como parte de este.
La elección de uno u otro tipo de capa para registrar una variable o conjunto de
ellas ha de ser función del tipo de fenómeno que se pretende modelizar con dicha
capa o la precisión necesaria, entre otros factores.
Por ejemplo, una capa de puntos puede representar un conjunto de ciudades,
cada una de ellas definida como un único punto. Sin embargo, puede emplearse
una capa de polígonos y no recoger una única coordenada (correspondiente, por
ejemplo, al centro de la ciudad), sino el contorno o los límites administrativos de
esta. Dependiendo del caso, será más apropiado elegir una u otra alternativa.
De igual modo, la capa de vías representada en la figura 5.2 es una capa de
líneas. Cada línea, como elemento teórico de ancho nulo, representa el eje de la vía.
Si se requiere una mayor precisión en la definición de la superficie de rodadura de
dichas vías, una capa de polígonos puede ser utilizada en lugar de una de líneas.
Lo anterior tiene una evidente relación con los conceptos de escala y genera-
lización que vimos en el capítulo 3.
No debe pensarse que las capas vectoriales, sean del tipo que sean, se emplean
únicamente para recoger fenómenos o elementos cuya forma coincide con la de las
primitivas geométricas (es decir, puntos para recoger elementos puntuales, líneas
para aquellos elementos con una dimensión mucho menor que la otra, y polígonos
para el caso de superficies). Además de los ejemplos anteriores, debemos recordar
que el modelo vectorial también sirve para representar campos y recoger variables
tales como la elevación.
Así, en los ejemplos de la figura 5.1 encontramos capas de puntos, lineas (curvas
de nivel) y polígonos (TIN), todas ellas empleadas para representar la variable ele-
vación. En ocasiones se emplean las primitivas para recoger objetos reales de forma
similar, mientras que en otros casos sirven para plantear un modelo lógico y recoger
variables que no se asemejan de modo alguno a las formas geométricas registradas.
A propósito de la capa de puntos regulares, cabe pensar que es similar en
concepto y forma a la malla ráster, ya que es regular. Sin embargo, existen dos
Modelos para la información geográfica 95
diferencias importantes: en primer lugar, en la capa de puntos hay zonas en blanco,
de las que no sabemos su elevación, mientras que en la malla ráster las celdas tienen
una superficie y cubren en su conjunto todo el espacio. En segundo lugar, si tenemos
esa capa de puntos en un SIG, esta va a contener las coordenadas particulares de
cada punto, ya que en sí las capas vectoriales no son regulares (pueden guardar
alguna regularidad, pero no necesariamente), y por tanto es necesario, como hemos
visto, registrar explícitamente sus coordenadas. De modo similar podríamos hacer
una capa de polígonos cuadrados, pero seguiría sin ser una malla ráster, más aún
si careciera de un elemento que veremos en breve: la topología.
La componente temática en el modelo vectorial
La forma en la que los modelos de representación separan las dos componentes
de la información geográfica hemos visto que es bien distinta. En el modelo ráster
se tiene un conjunto de valores (la componente temática), los cuales guardan una
estructura dada, la cual por sí misma establece su disposición en el espacio (la
componente espacial). En el vectorial, por su parte, la componente espacial se
recoge explícitamente según una serie de puntos, la cual puede ser más o menos
compleja en función de la complejidad de la entidad a representar o el detalle con
que se recoja. A este conjunto de puntos se le relaciona después con una serie de
valores, que son los que definen las propiedades de la entidad.
Estos valores, los atributos, a diferencia del caso ráster, suelen ser múltiples.
Por ejemplo, dada una capa vectorial de países, podemos recoger valores asociados
a cada país tales como su superficie, su población, el Producto Interior Bruto, el
nombre de su capital o el idioma que se habla. Todo este conjunto de valores se
asocian a una única copia de la componente espacial, y esta no debe repetirse para
recoger cada uno de esos parámetros. En el modelo ráster, si tenemos n capas
distintas, en realidad estamos almacenando n veces la componente espacial.
Por esta estructura particular, la componente temática se presta especialmente
a almacenarse en una base de datos, siendo en la actualidad las más extendidas
las denominadas bases de datos relacionales. Estas bases de datos se enlazan a la
componente espacial y permiten una serie de operaciones(ver capítulo 11) y un
manejo ventajoso de los atributos. Existen, por tanto, dos realidades: la relativa
a la componente geográfica y la base de datos que gestiona los atributos, la cual
permite análisis y operaciones independientes, del mismo modo que si no existirá
una localización asociada a dichos atributos. Estas realidades pueden estar muy
separadas, gestionándose en aplicaciones distintas y almacenándose en ficheros
diferentes, con lo cual existe una división formal mucho más acusada que en el caso
de las capas ráster, que se asemejan más a unidades de información autocontenidas.
En el caso de las capas ráster, no es necesario recurrir a una base de datos, y
simplemente la representación del conjunto de valores de la variable en las distintas
celdas sirve para el almacenamiento, análisis y manejo de la información. Como
96 Sistemas de Información Geográfica
indica [15], esta forma de conectar las componentes espacial y temática es apta para
el análisis, pero el manejo de los atributos requiere la presencia de una base de datos.
El establecimiento de las bases de datos, su manejo y su implementación
dentro de un SIG es un tema altamente complejo. La forma en que el manejo de
la componente temática y la gestión de la base de datos se establecen, así como
la imbricación de la una en la otra, es la materia exclusiva del capítulo 8, donde
todos estos temas se desarrollarán con profundidad.
Topología
Un elemento particular del modelo de representación vectorial es la topología.
En términos matemáticos la topología estudia las características de los objetos
geométricos que no varían al aplicar una transformación topológica tal como,
por ejemplo, una transformación afín. Si tomamos un mapa y lo distorsionamos,
los ángulos, las superficies y las distancias se ven afectadas. Sin embargo, otras
propiedades tales como la adyacencia entre elementos o las relaciones entre estos
se conservan. Por ejemplo, si una ciudad está dentro de una determinada provincia
en un determinado mapa, no existe forma de distorsionar esta para lograr que
dicha ciudad se encuentre fuera de la provincia.
En el ámbito de los SIG se entiende la topología desde un punto de vista menos
estricto y más funcional. En general, se dice que una capa de información tiene
topología si en ella se almacenan de algún modo las relaciones entre los distintos
elementos que la componen. En caso contrario, la capa es de tipo puramente carto-
gráfico, ya que los elementos que contiene no presentan relación entre sí, o al menos
esta relación no está almacenada junto a la propia información de estos elementos.
En una capa ráster, las relaciones topológicas vienen implícitas en el propio
modelo ráster, y son ajenas a la información como tal, dependiendo de la estructura
de la malla de datos en sí. En el modelo vectorial, sin embargo, se recoge la informa-
ción relativa a cada elemento de forma individual, y si las relaciones existentes no
se registran de modo explicito, no se tendrá posteriormente información sobre ellas.
Disponer de topología en una capa vectorial es de gran importancia a la hora
de llevar a cabo ciertos tipos de análisis, así como otros tales como la edición de los
propios datos geográficos. La topología no aporta beneficio a la hora de representar
una capa, pero sí a la hora de llevar a cabo análisis sobre ella [37].
En la figura 5.11 se puede observar la diferencia existente entre editar una
capa de polígonos con topología y una sin ella. En el primer caso, la información
contenida en la capa antes de su edición nos informa no solo de la forma de cada
polígono, sino también del hecho de que ciertos polígonos comparten bordes comu-
nes y de que el conjunto de ellos cubre el espacio de forma completa (constituyen
una teselación). Así, al modificar un punto en uno de los polígonos, todos aquellos
polígonos adyacentes que comparten dicho punto modifican también su perímetro.
Las capacidades de edición implementadas en el Sistema de Información Geográ-
Modelos para la información geográfica 97
fica hacen uso de la información topológica a la hora de editar geometrías. En el
segundo caso, sin embargo, esta información no existe, y no se pueden alterar los
polígonos adyacentes, perdiéndose la teselación completa del espacio.
a) b)
Figura 5.11: Diferencias entre la edición (desplazamiento de un punto) no disponiendo
de topología (a) o con ella (b).
La topología es en este caso un elemento que contribuye a la calidad de los datos,
pues mantiene la coherencia espacial de estos y evita la aparición de elementos
tales como polígonos de muy pequeño tamaño, frecuentes en la digitalización de
entidades debido a las pequeñas imprecisiones que se presentan en el proceso, y
que causan la presencia de falsos solapes entre polígonos.
No obstante, no todos los SIG incorporan capacidades de manejo y análisis
de capas vectoriales con topología, y son menos aún los que implementan capa-
cidades para crear dicha topología. En general, estas han quedado reservadas a
las aplicaciones de alta gama, y el manejo de información vectorial en los SIG de
escritorio no incluye de forma general lo relativo a la topología.
Otro ejemplo de proceso en el que se hace necesario el disponer de capas con to-
pología es el análisis de redes (este se detalla en el capítulo 19.7). Un mero conjunto
de elementos geométricos (líneas en este caso), no nos da información sobre los posi-
bles enlaces entre las vías que quedan representadas. Los puntos donde se cruzan dos
vías pueden ser cruces o rotondas (es decir, puede pasarse de una vía a otra, existien-
do conexión entre ellas), o bien pasos elevados o subterráneos donde una de las vías
pasa por encima de la otra (y por tanto no existe comunicación entre ambas). Las
circunstancias son muy distintas en función del tipo de cruce que exista, y por ello es
imprescindible conocer esta información para efectuar un análisis de redes correcto.
Otro elemento que no se puede recoger sin topología son las direcciones de
circulación. Habrá vías que puedan recorrerse en ambos sentidos, mientras que
habrá otras que solo permitan movimiento de tráfico en una dirección. Saber en
qué dirección podemos recorrer una vía es vital para poder plantear cualquier tipo
98 Sistemas de Información Geográfica
de análisis, y esta es una información de la que no disponemos si nuestra red viaria
no ha sido representada mediante un modelo con topología.
Estas circunstancias se recogen de forma esquemática en la figura 5.12
a) b)
Figura 5.12: Capa de vías de comunicación sin topología (a) o con ella (b). Los puntos
en este segundo caso indican conexiones entre vias, y son una representación visible de
la topología existente. Las flechas indican la dirección de circulación y, al igual que sucede
con las conexiones, solo están presentes si existe topología
Aunque, como se ha mencionado, las capas ráster en cierta forma contienen
información topológica (se conoce la relación de adyacencia entre las distintas
celdas), esta es débil, y no suficiente para análisis complejos como el de redes
donde existen distintos elementos como los mencionados cruces o las direcciones de
circulación. Aparte de la inherente peor disposición del modelo de representación
para recoger una entidad espacial tal como una red, el modelo ráster no es óptimo
para recoger la necesaria información topológica al respecto. Existen algunos
intentos de adaptarlo a estas circunstancias (véase, por ejemplo [38]), pero en
general no se encuentran implementados de forma habitual.
Modelo vectorial sin topología (spaguetti)
El modelo de datos vectorial almacena la información geográfica mediante una
serie de entidades geométricas (lineas, puntos, polígonos), y una información aso-
ciada (los atributos). La forma en que estas geometrías se recogen es, no obstante,
única, y en función del enfoque adoptado, permitirá el almacenamiento o no de
propiedades topológicas relativas a dichas geometrías. Se tienen así submodelos
de representación, cada uno de ellos con un esquema distinto de almacenamiento
de los elementos individuales que constituyen una capa ráster.
Con independencia del submodelo, en todo caso las entidades se recogen
mediante las coordenadas de sus puntos, pues como ya se vio toda entidad es
reducible a un conjunto de puntos. La diferencia estriba en la forma en que dichos
puntos se asocian a la representación de una entidad dada. Para el caso de una capa
de puntos, no existe diferencia alguna, pero en el caso de líneas o polígonos sí la hay.
En el tipo más simple, se recogen únicamente las propiedades geométricas de
cada entidad, almacenando para cada una de ellas el conjunto de puntos individuales
Modelos para la información geográfica 99
que la componen. Esto aporta toda la información necesaria sobre la entidad, pero
deja de lado la topología. Algunas propiedades topológicas pueden calcularse, tales
como saber si un punto esta contenido dentro de un polígono o si dos rectas se cruzan,
pero para otras no se dispone de información suficiente. Así, aunque podamos saber
si dos líneas se cruzan, no podemos saber si este cruce implica una conexión real entre
ellas de forma que pueda pasarse de la una a la otra o no, como vimos en la figura 5.12.
Esta forma de recoger las entidades vectoriales es similar a la que encontramos
en un mapa clásico, en el cual podemos conocer la forma de un área dada o el
recorrido que sigue una determinada carretera, pero no las relaciones existentes.
Únicamente disponemos del trazo con el que se han dibujado estos elementos. Por
esta razón, y como se ha dicho, un modelo vectorial sin topología es perfectamente
válido para la representación de cualquier tipo de información en formato vectorial,
pero no tanto para su análisis.
El almacenamiento de entidades basado en una mera lista de coordenadas de
cada entidad se conoce popularmente como spaghetti, pues si pensamos en una
capa de lineas sin topología que se entrecruzan en el espacio, esta se asemejan en
cierta forma a un caótico plato de spaguettis sin orden ni relación entre ellos.
La mayor ventaja de este modelo es su simplicidad, razón por la cual es la
habitual en muchos de los SIG más populares. Para muchos usuarios, es suficien-
te trabajar con datos vectoriales sin topología, pues las labores frecuentes que
desarrollan, tales como consultas (capítulo 11) o creación de mapas derivados, no
requiere conocer las relaciones topológicas existentes.
Gran parte de las operaciones que se desarrollan en un SIG no requieren
topología, y por ello no es necesario asumir siempre el coste que implica trabajar
con ella (mayor complejidad en general). Es por ello que incluso aquellos SIG que
sí poseen la capacidad de trabajar con topología, también disponen de formas de
trabajar sin ella, empleando datos que carecen de topología. Esto es así también
debido a que mucha información disponible no incluye topología, ya que o bien
esta no se incorporó en el momento de la digitalización, o bien el formato de fichero
en el que se almacenó no soportaba la inclusión de topología.
En otros casos, la propia naturaleza de la variable que recogemos puede requerir
ser almacenada sin topología, o bien puede ser que no existan relaciones topoló-
gicas que representar. Una capa de polígonos en las cuales se recojan las áreas
de influencia de unos determinado fenómenos puntuales pueden perfectamente
solaparse. No existe en este caso esa relación que hace que el conjunto de polígonos
que las representan cubra la totalidad del espacio y cada punto pertenezca a una
sola entidad. En este caso, un punto puede estar afectado por uno, varios o ninguno
de dichos fenómenos puntuales, y por tanto pertenecer a una, varias o ninguna
de las entidades poligonales que representan sus respectivas áreas de afección. Al
modificar una de ellas (por ejemplo, si el fenómeno puntual que la origina varía
su intensidad), las demás geometrías no deberían verse afectadas. No existe como
tal una relación que deba recogerse en forma de topología.
100 Sistemas de Información Geográfica
Con topología
La alternativa al modelo vectorial sin topología (el que denominábamos spa-
guetti) es el almacenamiento explícito de las relaciones topológicas, recogiendo
las coordenadas de los puntos que constituyen cada entidad, pero no mediante
una simple lista para cada una de ellas. Recogiendo de forma individual toda la
información espacial correspondiente a cada entidad, la topología se pierde, pues no
se considera al conjunto de entidades como un conjunto en el cual existen relaciones
internas, sino como una simple colección de cosas. Para recoger la topología es
necesario considerar todos los puntos que constituyen las entidades, y después
formar las entidades a partir de ese todo de puntos, considerando en el proceso que
un mismo punto puede pertenecer a varias entidades. Esto es lo que se denomina
frecuentemente un diccionario de puntos, ya que contiene las definiciones de estos
(sus coordenadas) y en base a ellos se construyen las distintas geometrías.
Esta forma de considerar el conjunto de entidades evita, además, la redundancia
en los datos. Por ejemplo, para el caso mostrado en la figura 5.11, y en caso de
no tener topología, el punto que es movido está almacenado dos veces, una por
cada polígono. Al desplazarlo, solo se modifica una copia de dicha coordenada, la
que pertenece al polígono editado, mientras que la otra permanece en su lugar.
Si se dispone de topología, este punto se almacena una única vez, y al desplazarse
se modifican las fronteras de todos los elementos (lineas o polígonos, según el caso)
cuya frontera incluye dicho punto.
La denominación de diccionario de puntos que se mencionaba anteriormente es
muy reveladora en este sentido. Si los puntos son como las palabras de un diccionario
y los polígonos como frases o párrafos, basta pensar en lo poco práctico que sería es-
cribir una frase en la que debiera definirse cada palabra al introducirla en dicha frase.
Resulta mucho más adecuado (y ahorra esfuerzos al escritor), utilizar las palabras
simplemente, y después definir estas en un diccionario en caso de que el lector no
las conozca y necesite una referencia. Con el caso de los puntos sucede algo similar.
Existen diversos modelos para almacenar tanto las propias geometrías como
sus relaciones inherentes, dos de los cuales se muestran en la figura 5.13 mediante
sendos ejemplos en los que se codifican polígonos y líneas.
El primero de estos modelos es un modelo de carácter histórico denominado
DIME (Dual Independent Map Encoding), desarrollado originalmente por el US
Bureau of the Census, y posteriormente mejorado en el modelo TIGER, empleado
para la digitalización de cartografía urbana. El segundo es el modelo arco–nodo,
probablemente el más difundido y popular en la actualidad, aunque a este respecto
los planteamientos existentes son muy variados.
En este modelo existen dos unidades fundamentales: Los nodos, que son puntos
donde se conectan varias líneas; y los arcos, que son lineas entre dos nodos. Estas
líneas no han de ser rectas, ya que pueden contener en su recorrido vértices. Los
Modelos para la información geográfica 101
2
b Dual,Independent,Map,Encoding(DIME)
3 Segmento,,,,Vertice,1,,,Vertice,2,,,,Polig.,dcha.,,Polig.,izda.
a
A ,,,,,,a,,,,,,,,,,,,,,,,,,1,,,,,,,,,,,,,,,,2,,,,,,,,,,,,,,,,,A,,,,,,,,,,,,,Ninguno,,,,,,
,,,,,,b,,,,,,,,,,,,,,,,,,2,,,,,,,,,,,,,,,,3,,,,,,,,,,,,,,,,,A,,,,,,,,,,,,,Ninguno
,,,,,,c,,,,,,,,,,,,,,,,,,3,,,,,,,,,,,,,,,,4,,,,,,,,,,,,,,,,,B,,,,,,,,,,,,,Ninguno
e ,,,,,,d,,,,,,,,,,,,,,,,,,4,,,,,,,,,,,,,,,,5,,,,,,,,,,,,,,,,,B,,,,,,,,,,,,,Ninguno
c
,,,,,,e,,,,,,,,,,,,,,,,,,1,,,,,,,,,,,,,,,,3,,,,,,,,,,,,,,,,,B,,,,,,,,,,,,,,,,,,A
B Polígono,,,,Segmentos
,,,,,,A,,,,,,,,,,,,,a,,b,,e
1 ,,,,,,B,,,,,,,,,,,,,c,,d,,e
d 4
ii
Arco-nodo
2
iii
a A ,,,Arco,,,,Nodo,1,,,,Nodo,2,,,,Vertices,,,,Polig.,dcha.,,,Polig.,izda.
,,,,,,a,,,,,,,,,,,,1,,,,,,,,,,,,3,,,,,,,,,,,,,,ii,,,,,,,,,,,,,,,,,A,,,,,,,,,,,,,,,,Ninguno
,,,,,,b,,,,,,,,,,,,1,,,,,,,,,,,,3,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,B,,,,,,,,,,,,,,,,,,,,A,,,,,,
c ,,,,,,c,,,,,,,,,,,,1,,,,,,,,,,,,3,,,,,,,,,,,,,,iv,,,,,,,,,,,,Ninguno,,,,,,,,,,,,,B,,,,,,,
b
Polígono,,,,Arcos Nodo,,,,Arcos
i B ,,,,,,A,,,,,,,,,,,a,,b ,,,1,,,,,,,a,,b,,c
,,,,,,B,,,,,,,,,,,b,,c, ,,,2,,,,,,,a,,b,,c,
1
iv
4
Figura 5.13: Dos modelos para representar la topología de líneas y polígonos. a) DIME,
b) arco–nodo.
vértices son en realidad los puntos que solo pertenecen a una entidad, mientras
que los nodos pertenecen a varias de ellas.
Una capa de líneas se describe como un conjunto de arcos y nodos, de forma
que, atendiendo a los nodos como enlaces entre las líneas, se pueden conocer las
relaciones entre ellas. En el caso de polígonos, estos se forman con conjuntos de
arcos que delimitan las fronteras. Los polígonos que son adyacentes comparten
uno o más arcos, quedando establecida así mediante ellos la relación topológica.
En el caso del modelo DIME, sin embargo, vemos que cada linea recta entre dos
puntos se trata como una unidad, es decir, que todos los vértices son considerados co-
mo nodos y los arcos se componen siempre de una sola línea. El arco es en realidad un
segmento. En ambos casos, no obstante, cada arco tiene un inicio y un final —y por
tanto una dirección—, y puede definirse un lado derecho y otro izquierdo según se
avanza en dicha dirección. Como puede verse, también en ambos modelos se recoge
explícitamente qué polígono, en caso de haber alguno, se sitúa a cada lado del arco.
La información que se recoge según estos modelos, vemos que se divide en
bloques según los distintos niveles, desde los puntos, que han de recogerse en un
diccionario de puntos (aunque este no queda reflejado en las tablas de la figura),
pasando por los segmentos o arcos, y hasta los polígonos, definidos estos en base
a los anteriores.
102 Sistemas de Información Geográfica
Con independencia del modelo, y sin entrar en más detalles, todos estos elemen-
tos en conjunto sirven para recoger las relaciones existentes entre los elementos, de
tal modo que pueden llevarse a cabo también aquellas operaciones que no dependen
exclusivamente de la posición, sino asimismo de otra serie de propiedades.
Dentro de los modelos existentes, encontramos asimismo variaciones en función
de la tarea principal que se desee realizar. La eficiencia de cierto tipo de cálculos
puede aumentarse notablemente si se elige un modelo de representación óptimo,
como podemos ver si analizamos una de las operaciones más comunes: el cálculo
de rutas óptimas entre dos puntos (los detalles sobre este cálculo se exponen en
el capítulo 19, aquí por el momento únicamente mostraremos sus implicaciones
en los modelos de representación).
Para calcular la ruta óptima entre dos puntos dados de una red necesitamos
conocer qué nodos de la red están conectados entre sí y por qué vías están conecta-
dos, ya que las características de estas condicionan el movimiento. La información
necesaria para este cálculo puede almacenarse perfectamente según un modelo
arco–nodo como el que ya conocemos, pero considerando las particularidades del
análisis que queremos realizar, existen otros modelos más apropiados.
Por ejemplo, se puede tener en cuenta que los vértices de un nodo no tienen
relevancia alguna. Si el tránsito se realiza entre dos nodos, a efectos del cálculo
es indiferente que el tramo que los une tenga unos u otros vértices. Lo único que
importa es saber que existe un tramo que los conecta y las características de ese
tramo como, por ejemplo, el tiempo que cuesta recorrerlo o si conecta el nodo A con
el B y el B con el A o solo lo hace en una de las direcciones anteriores. Por ello, en el
caso del análisis de redes, la clave reside en almacenar de forma eficiente los nodos
y las relaciones, pues estos son los elementos esenciales para efectuar los cálculos
Algunos modelos empleados comúnmente para el almacenamiento de redes
son los siguientes [35]:
Matriz de incidencias arco–nodo
Matriz de adyacencias nodo–nodo
Listas de adyacencia
Estrella directa e inversa5
La matriz de adyacencias nodo–nodo es sumamente sencilla, ya que simple-
mente, para un número n de nodos, contiene una matriz de tamaño n×n, en la
que cada elemento (i,j) indica la existencia o no de conexión entre los nodos i y j y
la naturaleza de dicha conexión. Si el elemento es igual a cero indica que no existe
posibilidad de desplazarse directamente del nodo i al nodo j. En caso contrario, el
valor es igual a la propiedad que se desee recoger del tramo, por ejemplo el tiempo
que se tarda en recorrer o la velocidad máxima a la que puede hacerse ese recorrido.
La gran ventaja de este método es su gran sencillez, que deriva en sencillas
implementaciones de los algoritmos correspondientes.
5
Forward and reverse star
Modelos para la información geográfica 103
El método de estrella directa e inversa, por su parte, no es tan sencillo (una
descripción algo más detallada puede encontrarse en [35]), pero, no obstante, es el
más eficaz [39], y sus tiempos de cálculo asociados son los menores de entre todos
los anteriores.
Más allá de los detalles particulares del modelo de representación, lo importante
es tener presente que existen diversas formas de representar el dato geográfico, y
que cada una de ellas tiene sus ventajas e inconvenientes en relación con la función
que los datos hayan de desempeñar.
TIN
Hemos visto cómo una capa vectorial con topología nos sirve para modelizar
ventajosamente elementos como una red de vías o una teselación del espacio en, por
ejemplo, diferentes clases de usos de suelo. Además de esto, la incorporación de topo-
logía sirve para mejorar la representación de campos mediante modelos vectoriales,
permitiendo la aparición de modelos como los TIN, ya presentados con anterioridad.
Un TIN [40] es una red formada por un conjunto de triángulos interconectados,
cada uno de los cuales representa a una zona de características homogéneas en lo
que a la variable estudiada respecta. Debido a esto, y como puede verse en la figura
5.1, el número de triángulos varía según las características propias de la zona.
En aquellos lugares en los que se dé una gran variación (en caso de recoger el
relieve será en las áreas más abruptas), se utiliza un gran número de triángulos para
recoger toda esa variabilidad. Cuando, por el contrario, los valores no varían de
forma tan notable (zonas de relieve más llano), pueden emplearse menos triángulos.
Puesto que cada triángulo está formado, como todo polígono, por puntos, podemos
decir que se necesitan menos puntos para almacenar un terreno si este es llano que
si este es muy abrupto.
Cada triángulo tienen unas propiedades constantes, como corresponde al mo-
delo vectorial. En particular, se considera habitualmente que todos los puntos
dentro de un mismo triángulo constituyen un plano, con una pendiente y una
orientación fija por tanto.
La topología del modelo permite llevar a cabo análisis diversos sobre un TIN, ya
que para cada triángulo se tiene conocimiento de cuáles son los adyacentes a este, y
es en el análisis de dichos adyacentes en el que se basan gran parte de los algoritmos.
Este análisis resulta sencillo de implementar en una capa ráster, pues la propia
estructura de la misma informa directamente de las celdas circundantes, pero en el
caso vectorial requiere la presencia de topología para plantear un esquema similar
de operación.
El análisis de los TIN no se desarrolla en detalle en este libro, pero resulta
interesante recalcar en este punto que resulta posible de igual modo, y ello es debido
a la presencia de topología en la propia estructura del modelo de representación.
Las particularidades del TIN hacen que existan sub–modelos principales para
104 Sistemas de Información Geográfica
almacenar el conjunto de triángulos, distintos del habitual arco–nodo, y pensados
específicamente para responder a las necesidades que los TIN demandan como
modelos vectoriales para representar variables continuas (en este sentido, es algo
muy similar al caso que veíamos anteriormente de las redes). Estos modelos son
dos, principalmente:
Almacenamiento de los triángulos uno por uno, cada uno con las coordenadas
de todos sus tres puntos (coordenadas tridimensionales, no planas) y un
código de identificación, y almacenamiento de los códigos de los triángulos
adyacentes.
Almacenamiento de los vértices y un código para cada uno de ellos, así como
los códigos de los vértices a los que se encuentra conectado, en un orden
establecido (horario o antihorario).
Más información sobre TIN puede encontrarse en [41]. La creación de TIN se
trata con más detalle en el capítulo 17.
5.3.3. Raster vs vectorial
Resulta obvio que las diferencias entre los modelos ráster y vectorial son muy no-
tables, y que cada uno de ellos posee sus propias ventajas e inconvenientes. Desde los
primeros tiempos de los SIG, ha existido una clara tendencia a separar ambas reali-
dades en la implementación, de tal modo que los primeros SIG manejaban datos en
formato ráster o bien en formato vectorial, pero no ambos. En cierta medida, parecía
existir un conflicto entre ambos modelos, el cual ha perdurado aún hoy en algunos
conceptos. Con el paso del tiempo, no obstante, la separación ráster–vectorial ha
cambiado notablemente, y ha quedado claro que un SIG eficaz debe ser capaz de ma-
nejar todo tipo datos geográficos con independencia del modelo de datos empleado.
La comparación entre ambos modelos resulta necesaria para hacer un uso
correcto de ellos, eligiendo en cada caso el más adecuado, y combinándolos de la
manera óptima. Algunos aspectos a los cuales puede atenderse para comparar uno
y otro modelo son los siguientes:
Planteamiento. Íntimamente ligados con los modelos conceptuales del es-
pacio geográfico, los planteamientos de los modelos de representación ráster
y vectorial son diferentes en su naturaleza. El modelo ráster hace más énfasis
en aquella característica del espacio que analizamos (qué y cómo), mientras
que el modelo vectorial da prioridad a la localización de dicha característica
(dónde)
Precisión. El modelo ráster tiene su precisión limitada por el tamaño de
celda. Las entidades menores que dicho tamaño de celda no pueden recogerse,
y la variación espacial que sucede dentro del espacio de la celda tampoco.
Asimismo, existe una imprecisión en las formas. El detalle con el que puede
recogerse la forma de una entidad geográfica según el modelo vectorial es,
en la práctica, ilimitado, mientras que, como puede verse en la imagen 5.14,
Modelos para la información geográfica 105
el modelo ráster restringe las formas a ángulos rectos, ya que la unidad base
es un cuadrado.
Figura 5.14: Imprecisión de forma en el modelo de representación ráster. La división
del espacio en unidades cuadradas impide la representación fiel de entidades tales como
curvas como la mostrada en trazo rojo en la figura.
El perímetro de una entidad geográfica estará compuesto por líneas horizon-
tales o verticales exclusivamente y, además, su longitud y la superficie que
encierra serán respectivamente múltiplos del tamaño de celda y el área de
dicha celda. Esta es la principal razón por la cual, si el uso principal que se le
va a dar a una capa es su representación gráfica, deba optarse por el modelo
vectorial. En caso contrario, y salvo que la resolución sea suficientemente
alta, los mapas creados mostraran la falta de resolución y podrán distinguirse
las unidades mínimas de la capas ráster (al igual que pasa en una imagen
digital pixelada), teniendo un aspecto que no es el propio de un mapa, tal
y como estamos acostumbrados a usarlo.
El hecho de que dentro de una celda el valor de la variable recogida sea constan-
te, da lugar a ambigüedades como la mostrada en la figura 5.15, donde una cel-
da está ocupada por dos valores distintos, pero solo puede asignársele uno de
ellos, debiendo establecerse algún criterio sistemático para llevar esto a cabo.
Un hecho similar sucede en el ejemplo de la capa de vías. Algunas celdas
son atravesadas por más de una vía, pero esa información se pierde, ya que
el tamaño de celda no es suficiente para recogerla. La celda en cuestión
aparece como celda de vía, pero no sabemos cuántas diferentes la atraviesan,
ni tampoco si entre ellas están enlazadas o no.
Hay que tener en cuenta, no obstante, que la precisión de la representación
vectorial es, precisamente, de la representación como tal, es decir, del modelo,
pero no del dato en sí que tenemos en dicho formato vectorial, el cual depende
106 Sistemas de Información Geográfica
Figura 5.15: Ambigüedad en la asignación de valores a una celda en una capa ráster,
debido al tamaño de esta, que condiciona la precisión con la que puede recogerse la
realidad existente sobre el terreno.
de otros condicionantes tales como la escala de trabajo. Existe siempre
incertidumbre en los datos, y el modelo de almacenamiento no excluye esta
circunstancia. Los aspectos relativos a la calidad de los datos, tanto para
datos ráster como vectoriales, se desarrollan en profundidad en el capítulo 7.
Volumen de almacenamiento. El número de elementos a almacenar es,
en general, muy superior en el caso del modelo ráster. Esto es así debido a
que toda la superficie a recoger se divide en las mismas unidades, indepen-
dientemente de la complejidad de la variable en cada punto o de la necesidad
de estudiarla con mayor o menor detalle en unos puntos que en otros. Para
variables que se conciban mejor según un modelo conceptual de entidades
discretas, el modelo vectorial resulta más adecuado, ya que todas las zonas
sin entidades no es necesario registrarlas de modo explicito, mientras que
en el modelo ráster estas deben registrarse de igual modo que aquellas en las
que sí existe información relevante. Los modelos de almacenamiento ráster
que veremos en el siguiente punto solucionan en parte el problema de los
grandes volúmenes de datos del modelo ráster, y son un elemento importante
en la implementación eficiente del mismo.
Complejidad. La regularidad y sistematicidad de las mallas ráster hacen
sencillo el implementar algoritmos de análisis, muy especialmente aquellos
que implican el uso combinado de varias capas. Cuando estas capas están
en formato ráster y existe coincidencia entre sus mallas de celdas, el análisis
conjunto de estas resulta inmediato. Por el contrario, la irregularidad espacial
de las capas vectoriales hace que la implementación de los mismos algoritmos
sea sumamente más compleja si se trabaja con estas capas.
La sencillez de las capas ráster, tanto en su concepto como en su implementa-
ción, se ve apoyada además por el hecho de que una capa ráster se puede aseme-
jar a una matriz, y por tanto aplicar sobre ella una serie de herramientas y ele-
mentos matemáticos en muchos casos bien conocidos y de fácil comprensión.
Existe de igual forma una distinta complejidad en términos de proceso y
cálculo. Los algoritmos sobre una base ráster pueden ser costosos en términos
de tiempo por la necesidad de aplicarlos sobre un número muy elevado de cel-
das y un gran volumen de datos (véase el punto anterior). Por el contrario, los
Modelos para la información geográfica 107
algoritmos sobre una base vectorial son costosos debido a que las operaciones
matemáticas que implican son más complejas y requieren mayores número
de cálculos (aunque los volúmenes manejados puedan también ser notables).
Mas allá de las anteriores diferencias, a la hora de planificar un trabajo dentro
de un SIG y elegir los datos que emplearemos y el modelo de representación ideal, lo
importante es entender que no existe un modelo de representación idóneo de forma
global, sino que esta idoneidad depende de muchos factores, como por ejemplo:
Tipo de variable o fenómeno a recoger. Como ya sabemos, algunas
variables, en función de su variabilidad y comportamiento espacial, son más
adecuadas para el modelo vectorial, mientras que otras lo son para el modelo
ráster. Por ejemplo, en el caso de variables que requieran una intensidad
de muestreo distinta según la localización (variables que resulta interesan-
te estudiar con más detalle en unos puntos que en otros) puede resultar
más lógico recogerlas de forma vectorial, pues el modelo ráster implica una
intensidad de muestreo constante a lo largo del área estudiada.
Tipo de análisis o tarea a realizar sobre dicha variable. El uso que
demos a una capa temática condiciona en gran medida el modelo de datos
idóneo. Por ejemplo en el caso de una capa de elevaciones, su análisis se
lleva mejor a cabo si esta información está recogida según el modelo ráster.
Sin embargo, si el objetivo principal es la visualización de esa elevación
en conjunto con otras variables, unas curvas de nivel pueden resultar más
adecuadas, ya que, entre otras cosas, no interfieren tanto con otros elementos
a la hora de diseñar un mapa con todas esas variables.
Contexto de trabajo. Por ejemplo, si queremos trabajar con imágenes,
esto nos condiciona al empleo de datos ráster, ya que resulta mucho más
sencillo combinarlos con las imágenes, las cuales siempre se presentan como
capas ráster.
Así, en el desarrollo de un trabajo pueden aparecer circunstancias que hagan más
adecuado utilizar el modelo ráster y otras en las que el modelo vectorial sea más idó-
neo. En tal caso, deben combinarse ambas, pues es de esta forma como se obtendrán
mejores resultados. Un usuario de SIG no debe limitarse a trabajar de forma general
con un único modelo de datos, con independencia del tipo de tarea que desempeñe,
pues en cualquier caso ambos modelos de datos pueden aportar alguna ventaja.
Por último, es importante tener en cuenta que existen procedimientos para
convertir entre los formatos ráster y vectorial, de forma que el disponer de datos en
un modelo de representación particular no implica que debamos desarrollar nuestro
trabajo sobre dichos datos directamente, sino que podemos efectuar previamente
una conversión. Los capítulos 13 y 17 tratan estos temas en profundidad.
108 Sistemas de Información Geográfica
5.4. Modelos de almacenamiento
Los modelos de almacenamiento son el ultimo escalón en la cadena de etapas
distintas que llevan desde la realidad existente al conjunto de simples valores
numéricos que almacenamos y manejamos en un SIG y que modelizan dicha realidad.
Los modelos de representación definen una forma de recoger la realidad mediante
unidades básicas (sean estas celdas en una malla, o bien primitivas geométricas
definidas de una u otra manera), mientras que los modelos de almacenamiento
plantean básicamente un esquema de cómo convertir dichas unidades en valores
numéricos de la forma más eficiente. Es decir, cómo escribir dichos valores en un
soporte digital o guardarlos en la memoria del ordenador de la mejor manera posible.
Los modelos de almacenamiento deben atender principalmente a dos necesida-
des básicas, que son las que definirán su idoneidad para cada tarea y tipo de dato:
Minimizar el espacio ocupado por los datos.
Maximizar la eficiencia de cálculo.
La primera necesidad es especialmente importante, pues, como ya se ha dicho,
los datos ráster son con frecuencia muy voluminosos. Un modelo de representación
que minimice el tamaño de los datos, unido a un manejo óptimo de memoria, son
requisitos de suma importancia para todo SIG que maneje datos ráster, máxime
considerando los grandes volúmenes de datos que hoy en día se manejan, tales
como los correspondientes a imágenes de alta resolución.
La necesidad de maximizar la eficiencia de cálculo afecta principalmente a
las representaciones vectoriales ya que en ellas las operaciones son complejas. La
forma en que se estructuran los valores de cada entidad ha de minimizar el numero
de accesos necesarios a estos, para de este modo obtener un mejor rendimiento
en todas las operaciones de análisis.
5.4.1. Modelos para representaciones ráster
El principal problema relativo al almacenamiento de capas ráster se presenta
para el conjunto de valores de las distintas celdas, que constituye la parte más
voluminosa de la información recogida. Las coordenadas de las celdas de referencia
o el tamaño de celda, por su escaso volumen, no conllevan dificultad alguna, y es en
el almacenamiento de la malla de celdas en sí donde se encuentran las diferencias
entre unos y otros modelos.
La forma más inmediata de almacenar una capa ráster es simplemente alma-
cenar sus valores uno a uno, en una estructura similar a la que la propia capa
representa. Para el caso más habitual de capas con celdas cuadradas, sabemos
que la malla de datos correspondiente se puede asimilar a una matriz, con las
implicaciones que esto tiene a la hora de su manejo. Así, la forma más directa de
recoger una malla de datos ráster es mediante una matriz de datos. Esta forma
de almacenamiento tiene las siguiente ventajas [42]:
Modelos para la información geográfica 109
Formato muy intuitivo. La mayoría de desarrolladores está familiarizado
con el concepto de matriz y con las operaciones de calculo matricial que
pueden aplicarse sobre estas.
Sencillez en la implementación. Los lenguajes de programación soportan
sin problemas el uso de matrices bidimensionales y una serie de operaciones
básicas sobre ellas.
Estructura. Las mismas operaciones pueden aplicarse sobre todos los
valores de la matriz de igual modo (todas las posiciones de la matriz son iguales
desde este punto de vista), lo que simplifica la implementación de operaciones.
Iterabilidad. Resulta igualmente sencillo recorrer la matriz e iterar sobre
la misma, lo cual refuerza lo anterior y simplifica aún más la implementación
de todo tipo de procesos.
No obstante, el almacenamiento de todos los valores de forma idéntica ignora
el hecho de que pueden existir valores similares en zonas concretas, que pueden
recogerse de formas mucho más óptimas que una serie de números iguales. En otras
palabras, y de modo similar a como ocurre con el propio modelo de representación
ráster, la estructura regular que confiere las ventajas es también la responsable
de la mayor parte de los inconvenientes.
Como veremos en el capítulo 10, las zonas próximas entre sí (es decir, en el caso
de una capa ráster, las celdas próximas entre sí), tienden a tener valores similares,
en lo que se conoce como autocorrelación espacial. No considerar este hecho lleva al
almacenamiento de información redundante, y ese es precisamente el principal pro-
blema del almacenamiento directo de una capa ráster mediante una matriz. Alma-
cenando explícitamente todos los valores de la malla se desperdicia en muchos casos
una gran cantidad de espacio (sea este en memoria, disco u otro soporte cualquiera).
Podemos ver dos ejemplos claros de esto en las figuras 5.2 y 5.6. En la primera,
existen únicamente dos valores: los correspondientes a las celdas sobre las que se
sitúa una vía, o los correspondientes a las celdas donde estas no aparecen. Estos úl-
timos ocupan la gran mayor parte de la capa, y lo hacen en bloque, de tal forma que
almacenándolos individualmente se acaba teniendo una matriz de datos donde la
practica totalidad de ellos son idénticos. Como es fácil de entender, este forma de pro-
ceder no es la más adecuada, al menos en términos de volumen de almacenamiento.
En la segunda imagen, las zonas que aparecen como consecuencia de la rotación
de la imagen no contienen datos (esto es, contendrán el valor arbitrario que codifica
la falta de datos). Estas zonas también constituyen grandes bloques de celdas
contiguas, con lo que el almacenamiento de todos los valores también es una solución
altamente redundante, especialmente en estas zonas fuera de la imagen como tal.
La solución más habitual para considerar la redundancia de valores y lograr
una compresión eficaz de los datos es la técnica denominada Run–Length Encoding.
Esta técnica sencilla codifica una serie de n valores idénticos como un par de
valores, el primero de los cuales representa el valor dicho que se repite n veces, y
el segundo es el número de veces que se repite, esto es, n.
110 Sistemas de Información Geográfica
Así, si la primera fila de la capa de vías en formato ráster no aparece ninguna
celda de vía, todas las celdas de dicha fila contendrán el valor con que se codifica
la ausencia de estas (sea, por ejemplo, el valor 0). El almacenamiento directo de
todos los valores de la fila requeriría tantos valores como columnas existan (sea
n el ancho de la fila), mientras que utilizando Run–Length Encoding, bastaría con
almacenar el par (0, n).
A la hora de tratar el conjunto de todas las celdas, se define un orden en el que
recorrerla, denominado orden de barrido o de escaneo (Figura 5.16), de tal modo
que la matriz bidimensional queda reducida a una cadena de valores, es decir, a un
vector unidimensional. Los distintos trozos de esa cadena se van codificando según
el esquema anterior, de tal modo que cuando aparecen muchos valores iguales
consecutivos, estos pueden sustituirse ventajosamente por un único par de valores.
a) b)
Figura 5.16: Ordenes de escaneo. a) fila a fila sin retorno, b) fila a fila con retorno.
La forma más sencilla de recorrer la imagen es hacerlo por filas, empezando por
la fila superior y desplazándose de derecha a izquierda (Figura 5.16a). No obstante,
el salto que se produce al final de cada fila suele implicar una discontinuidad en
los valores. Invirtiendo la dirección del recorrido en cada fila, se tiene el orden
mostrado en la figura 5.16b, el cual suele tener como resultado mayores niveles de
compresión de datos, ya que la cadena resultante de recorrer la imagen contiene
trozos generalmente de mayor tamaño.
Un esquema de barrido más complejo es el basado en el denominado orden de
Morton [43]. El orden de Morton (también conocido como orden Z ), se basa en una
curva de carácter recursivo, que recorre las celdas de la matriz siguiendo tramos
en forma de Z, de ahí el nombre. En la primera iteración se divide el conjunto de
celdas en cuatro bloques, los cuales se recorren siguiendo el antedicho recorrido
en Z. Si los bloques contienen a su vez más de una celda, se siguen subdividiendo
a su vez de forma idéntica, y así hasta que no pueda continuarse este proceso.
La matriz que contiene los valores de orden de Morton (el orden en que se
visita cada celda según el esquema anterior), se conoce como Matriz de Morton,
la cual ya citamos por su importancia histórica en el capítulo 2.
Un ejemplo de este orden de barrido aplicado a una pequeña matriz puede
verse en la figura 5.17.
Una estructura más avanzada son los denominados Quadtrees o árboles cuater-
Modelos para la información geográfica 111
Figura 5.17: Un ejemplo sencillo de barrido de una capa ráster según órdenes de Morton.
Los valores en las celdas no indican los valores de la variable, sino el orden en que se visita
dicha celda según este esquema de barrido
narios. Estas estructuras también dividen el espacio en cuadrantes sucesivamente,
pero lo hacen con más profundidad en aquellas zonas que así lo requieran por
contener mayor número de elementos y necesitar mayor resolución. En el caso de
una capa ráster, se requerirá más detalle siempre que todas las celdas dentro de un
cuadrante no tengan el mismo valor. En el caso más extremo, se ha de descender
hasta el nivel de una sola celda, pero puede ser que un bloque de celdas contiguas
tenga el mismo valor, en cuyo caso el cuadrante correspondiente las engloba a
todas y las define con dicho único valor, sin necesidad de subdividirse más. De este
modo, se adapta el modelo de almacenamiento a la propia estructura de la capa
y al comportamiento que en esta muestra la variable estudiada.
Un ejemplo gráfico de un árbol cuaternario puede encontrarse en la figura
5.18. Los arboles cuaternarios son empleados también en los índices espaciales,
asociados a representaciones vectoriales, que veremos en 11.4.2 (de hecho, puede
apreciarse que la figura anterior representa la aplicación de un árbol cuaternario a
un conjunto de puntos, no a una capa ráster, aunque el concepto es el mismo y su
aplicación a este segundo caso se realiza como ya se ha mencionado previamente).
Los quadtrees son estructuras complejas, y no profundizaremos más en su
descripción dentro de este capítulo. Para el lector interesado, la definición original
de esta estructura de datos puede encontrarse en [44].
Es importante reseñar que cuando la capa ráster contiene una información tal
como una red viaria, la cual es susceptible de presentar valores idénticos en celdas
contiguas, la codificación de tipo Run–Length —con cualquiera de los esquemas de
barrido anteriores— es ventajosa. Sin embargo, no lo es tanto cuando se trabaja
con otro tipo de variables.
En una capa con valores de elevación, las celdas próximas tendrán valores
parecidos pero no idénticos, con lo que no podrá sacarse partido a esta forma de
almacenamiento. Más aún, en estos casos el volumen ocupado por los datos no solo
no disminuye, sino que aumenta. Es por ello que los SIG han de implementar igual-
mente la capacidad de poder trabajar con uno u otro modelo de almacenamiento
112 Sistemas de Información Geográfica
Figura 5.18: Ejemplo de un árbol cuaternario. En las zonas con más variabilidad (mayor
densidad de puntos), los cuadrantes se subdividen hasta una profundidad mayor. La estruc-
tura es tal que cada cuadrante tiene dentro a lo sumo un punto. (Tomado de Wikipedia)
según los casos, bien sea por elección directa del usuario o tomándose de forma
automática el que el propio sistema considere más adecuado en cada ocasión.
Aunque el mayor problema de las capas ráster es su gran volumen, también
existen diversas alternativas enfocadas a mejorar la velocidad de acceso a datos
y el rendimiento de las operaciones sobre estas capas. Estas alternativas afectan
a las imágenes con múltiples bandas, ya que estas, como dijimos, se recogen en un
único fichero, en el cual se incorpora toda la información de las distintas bandas.
La forma en la que las bandas se tratan dentro del fichero y el modo en que
se ordenan los píxeles de las distintas bandas, ambas definen el esquema de alma-
cenamiento, presentando cada uno de ellos una serie de ventajas de rendimiento
en función de la actividad principal que se vaya a desarrollar con la imagen. Tres
son los esquemas principales:
Band Sequential (BSQ). Los valores se almacenan por bandas. Es decir, prime-
ro todos los píxeles de la banda 1, después los de la banda 2, y así sucesivamen-
te. Este tipo de esquema da prioridad a la componente espacial, ya que permite
acceder rápidamente a todo el espacio cubierto por una banda, puesto que los
píxeles de dicha banda se encuentran almacenados en posiciones contiguas.
Band Interleaved by Pixel (BIP). Los valores se almacenan ordenados por
posiciones de píxel. Es decir, primero se almacenan todos los valores co-
rrespondientes al píxel (0, 0)6 (en todas las bandas existentes), después los
correspondientes al (0,1)7 , y así sucesivamente. En caso de que lo que interese
sea, para un píxel dado, conocer toda la información disponible (su valor en
6
Es una terminología habitual empezar a contar en cero en lugar de en uno las coordenadas
fila/columna de una imagen
7
Es habitual recorrer la imagen por filas, de forma que la coordenada (0,1) representa la
primera fila y la segunda columna
Modelos para la información geográfica 113
todas las bandas), el esquema BIP es más ventajoso, ya que permite accesos
rápidos a este tipo de información, sin necesidad de «saltar» de un valor a
otro como sucedería en el caso del esquema BSQ. A nivel de acceso, se prima
la información espectral sobre la espacial.
Band Interleaved by Lines (BIL). Es un esquema intermedio en el que se
recogen los valores por filas. Esto es, primero la fila 1 de la banda 1, luego
la de la banda 2, y así sucesivamente. Posteriormente se recoge la fila 2 para
todas las bandas, y de este modo hasta cubrir toda la imagen. Se trata de un
esquema intermedio entre los anteriores, permitiendo un acceso rápido tanto
a la información espacial como a la información espectral de las bandas.
La figura 5.19 se muestra un ejemplo muy sencillo de los anteriores esque-
mas. Para una imagen de 2×2 celdas y dos bandas, se recoge el orden en que se
almacenaría capa valor según cada uno de dichos esquemas.
BSQ BIP BIL
1 2 1 3 1 2
Banda 1
3 4 5 7 5 6
5 6 2 4 3 4
Banda 2
7 8 6 8 7 8
Figura 5.19: Esquemas de almacenamiento para imágenes multibanda. Los números
indican el orden en que se almacena cada valor.
5.4.2. Modelos para representaciones vectoriales
Al igual que para el modelo ráster, existen para el modelos vectorial diferentes
alternativas a la hora de almacenar los elementos que componen una capa. En
realidad, ya hemos visto dentro de este capítulo algo que se asemeja a un modelo de
almacenamiento, pues los modelo topológicos como DIME o el modelo arco–nodo,
o los detallados para el caso particular de las redes, todos son en realidad esquemas
de almacenamiento para el conjunto de piezas que componen esa estructura
topológica que se quiere almacenar. No obstante, también tienen algo de modelos
de representación, pues existe variación en la forma en que conciben las partes de
cada entidad (arcos entre dos nodos con o sin vértices intermedios, según el modelo).
En realidad, la razón por la que se han presentado en una sección anterior es
porque de ese modo ayudaban a comprender mejor la existencia o no de topología
en una representación, y ese aspecto resulta más importante para el estudio de
los SIG que los modelos de almacenamiento. Estos, como se ha dicho, están a un
nivel más bajo y alejado del usuario.
En general, los modelos de datos vectoriales no buscan tanto la disminución de
114 Sistemas de Información Geográfica
volumen de los datos como la obtención de una mayor eficacia en las operaciones
y una simplificación de estas. Lógicamente, si los datos tienen un volumen menor,
el tiempo que cualquier operación sobre ellos implica también ser menor. Aún
así, la diferencia principal para este tipo de datos reside en la disminución de la
complejidad en que estos se almacenan, disminuyendo las operaciones a realizar,
así como la complejidad de la implementación de los correspondiente algoritmos
(ambas habitualmente elevadas).
Para mejorar el rendimiento de las operaciones que trabajan con datos vec-
toriales, un factor clave es mejorar el acceso a los datos, de forma que, cuando
se necesite acceder a unos datos concretos, estos puedan «encontrarse» de forma
fácil. Por este motivo, un elemento importante en la representación de los datos
vectoriales son los denominados índices espaciales.
El concepto de índice cuando se habla de datos es similar al concepto de índice
referido a un libro como este. Aquí tienes un ejemplo muy sencillo para que lo
comprendas mejor: si vas al principio de este libro, puedes ver su índice y saber dónde
empieza este capítulo, de forma que si estas interesado en modelos relacionados con
la información geográfica, sabes rápidamente que es en este bloque de páginas donde
debes buscar lo que te interesa. Si no existiera ese índice, tendrías que ir revisando
todas las páginas hasta que llegaras al principio de capítulo y te dieras cuenta de que
aquí es donde está lo que buscas. De igual modo, si vas al final de este libro y buscas
el término índices espaciales, verás que aparece esta página junto con otras en las
que aparece dicho término. Si no tuvieras ese índice, tendrías que revisar palabra
por palabra para saber en qué partes de este libro se habla de índices espaciales.
Estos sencillos ejemplos muestran situaciones similares a las que aparecen en el
uso habitual de un SIG, en las cuales trabajamos sobre una parte del total de los da-
tos. Igual que buscamos un capítulo o un único término, podemos querer, por ejem-
plo, todas las entidades de una capa que están en una zona particular del espacio.
Disponer de un índice acelera el proceso de localizar esas entidades que nos interesan.
Por trabajar con información espacial, tales índices se denominan índices espaciales.
Muchos de los procesos que veremos en la parte dedicada al análisis necesitan
este tipo de índices para poder ejecutarse con un rendimiento adecuado. A medida
que veamos estos procesos, se comprenderá mejor por qué la existencia de índices
espaciales resulta necesaria e incluso imprescindible cuando disponemos de datos
de gran volumen. En el capítulo 11 veremos información más detallada sobre la
utilidad de los índices espaciales, ya que estos son vitales para la realización de
consultas espaciales, que son tratadas en dicho capítulo.
Como ya hemos dicho, el objetivo de este tipo de estructuras para representar
los datos espaciales no es disminuir el tamaño, sino mejorar el rendimiento de las
operaciones sobre ellos. De hecho, y al contrario que en el caso de los modelos de
representación ráster, en este caso no disminuye el espacio que ocupan los datos,
sino todo lo contrario, ya que este aumenta. Un índice espacial es información
adicional que incrementa la utilidad de dichos datos. Exactamente del mismo modo
Modelos para la información geográfica 115
que el índice de este libro, que no sustituye al texto que ahora mismo estas leyendo,
sino que se añade a este y te ayuda a manejarte a través de él y sacarle más partido.
La creación del índice espacial supone la creación de una estructura espacial
en la cual se contienen objetos más simples que las propias entidades geométricas,
estructuradas a su vez de forma también más sencilla que recogiendo sus coorde-
nadas, y con un orden característico. Como hemos dicho, este índice espacial no
sustituye al dato espacial, sino que lo complementa, optimizando la búsqueda de
información dentro de este.
Existen dos enfoques principales para los índices espaciales: continuos y dis-
cretos [45]. Los continuos utilizan las coordenadas mismas de las entidades, sim-
plificando la forma de estas, mientras que en los discretos la simplificación se
aplica al espacio, discretizando este. En ambos, las entidades que se emplean son
rectangulares en la mayoría de los casos. La figura 5.20 muestra la aproximación
de una geometría poligonal que se obtiene en ambos tipos de modelos.
Figura 5.20: Aproximación continua (a) y discreta (b) para un índice espacial.
En el caso continuo, se sustituye toda la complejidad del polígono por simple-
mente cuatro puntos: aquellos que conforman el rectángulo dentro del que este
se inscribe. En el caso discreto, se reduce el polígono a unas cuantas celdas de una
malla. Realizar comprobaciones sobre estas estructuras resulta mucho más sencillo,
y por ello se emplean para realizar aproximaciones que simplifican las operaciones8 .
Supongamos que utilizamos un índice espacial del primer tipo y queremos
saber qué polígonos de una capa se intersecan con otro dado. Para comprobar qué
polígonos se intersecan con este, en primer lugar podemos comprobar los solapes
existentes entre sus rectángulos. Si los rectángulos no se solapan, es inmediato ver
que los polígonos tampoco, con lo que no es necesario ya operar con ellos. Ver si
dos rectángulos se solapan es casi inmediato, mientras que esta misma operación
para polígonos complejos requiere un numero mucho mayor de operaciones.
Debido al uso de rectángulos como elementos básicos, las estructuras que se em-
plean están específicamente diseñadas para contener o bien rectángulos (en el caso
de entidades de líneas o de polígonos) o puntos (en el caso de entidades puntuales).
Estas estructuras no son nuevas para nosotros, ya que hemos visto algunas de ellas
8
Este proceso, conocido como filtrado y refinamiento, lo veremos en detalle en el capítulo 11
116 Sistemas de Información Geográfica
en este mismo capítulo. Por ejemplo, para el caso de una aproximación continua
sobre una capa de puntos, los arboles cuaternarios (quadtrees) son una estructura
de datos adecuada. Esta aplicación ya la vimos, de hecho, en la figura 5.18.
Como seguramente ya hayas advertido, los enfoques continuo y discreto se
corresponden a primera vista con las ideas correspondientes a los modelos de datos
ráster y vectorial (aunque los índices espaciales de los que estamos hablando son pa-
ra capas vectoriales). Es por ello que las estructuras que hemos visto para el almace-
namiento de datos ráster pueden utilizarse también para recoger las distintas celdas
de un índice espacial discreto. Así, la división en celdas hace necesario un orden de
escaneo. El orden de Morton que ya conocemos se aplica en este caso, entre otros.
Una vez más, las estructuras de datos de todos estos índices espaciales suponen
un elemento demasiado especifico para los contenidos de este libro, por lo que no
se profundizará en su teoría. No obstante, estos son numerosos, ya que se trata
de un área muy desarrollada. Referencias como [46] aportan descripciones más
extensas para el lector interesado.
En caso de querer profundizar en los aspectos más técnicos de la representación
del dato geográfico en general, tanto en formato ráster como vectorial, [47] ofrece
información muy extensa al respecto.
5.5. Resumen
El proceso de almacenar la realidad y reducirla a un conjunto de valores numé-
ricos manejables por un ordenador implica tres etapas fundamentales: creación de
un modelo conceptual, adopción de un modelo de representación y codificación del
anterior según un modelo de almacenamiento. Estos procesos dan lugar a la crea-
ción de las denominada capas geográficas, unidades fundamentales de información
dentro de un SIG.
Dos son los modelos conceptuales más importantes: campos y entidades discre-
tas. Estos a su vez se identifican en líneas generales con los dos principales modelos
de representación: ráster y vectorial.
En el modelo ráster el espacio se divide sistemáticamente en unidades mínimas
denominadas celdas, habitualmente de forma cuadrada. En el modelo vectorial
se almacenan las distintas entidades geográficas a través de las coordenadas de
los puntos que las componen. El concepto de topología es importante en el modelo
vectorial, y en función de la forma en que se recojan las coordenadas de cada
entidad, se almacenará o no la información topológica. El modelo arco–nodo es
el más habitual para representar la topología.
La ultima etapa es la que conlleva el almacenamiento de los modelos de repre-
sentación, convirtiendo los elementos base de estos en valores numéricos manejables
por el ordenador. Cada modelo de representación tiene sus particulares modelos de
almacenamiento, los cuales tratan de maximizar el rendimiento de las operaciones
realizadas sobre los datos espaciales, al tiempo que reducen el espacio que dichos
datos ocupan.
118 Sistemas de Información Geográfica
Capítulo 6
Fuentes principales de datos espaciales
Una vez conocemos los modelos de representación y sabemos cómo almacenar la infor-
mación geográfica, es momento de estudiar los distintos métodos que nos permiten llevar
a la práctica el proceso de creación del dato geográfico, y los orígenes desde los que estos se
generan. En este capítulo analizaremos las principales fuentes existentes, sus fundamentos
y características, y cómo son los datos que se obtienen a partir de ellas.
Para seguir el contenido de este capítulo, es importante tener una buena comprensión
de todo lo descrito en el capítulo 5, en especial lo relativo a modelos de representación.
6.1. Introducción
El origen de los datos con los que trabajamos en un SIG puede ser sumamente
variado y presentarse asimismo en formas diversas. La metodología seguida en la
recolección de datos condiciona directamente la forma en que estos datos llegan a
nosotros, y por tanto el uso que les podemos dar dentro de un SIG o las operaciones
que debemos realizar con ellos de cara a poder adaptarlos para la realización de
un trabajo concreto.
No hace tanto tiempo, toda la información que se manejaba dentro de un SIG
tenía su origen en un mapa en papel, el cual debía prepararse para adaptarse a la
naturaleza propia del SIG. El desarrollo de los SIG ya había comenzado a dar sus
frutos y se obtenían los primeros programas, pero eran necesarios datos para utili-
zarlos. Sin embargo, los datos geográficos de los que se disponía no se encontraban
en formato digital, por lo que no eran adecuados para su uso dentro de un SIG.
Una tarea básica en esos tiempos era la digitalización de cartografía, es decir,
convertir los datos geográficos en formato impreso en datos en formato digital
que un SIG pudiera manejar. La disponibilidad de datos digitales era baja, pero,
como resulta lógico pensar, sí que existía una gran cantidad de datos geográficos
en otros formatos tales como mapas, cartas de navegación, fotografías aéreas, etc.
La tecnología ha ido avanzando y ya se producen datos directamente en formato
digital, considerando específicamente la existencia de los SIG como herramientas
básicas de manejo de datos geográficos. No obstante, los datos en formato impreso,
así como las técnicas que se emplearon en su creación, siguen siendo válidas, y
sirven igualmente para crear datos geográficos que podemos emplear en un SIG.
Hoy en día, la situación es bien distinta a la de aquellos primeros tiempos,
y puede afirmarse que los orígenes a partir de los cuales se generan los datos
120 Sistemas de Información Geográfica
geográficos son muy diversos. Esto es así porque aunan técnicas recientes y más
adaptadas al entorno de los SIG con métodos clásicos que, no obstante, no han
perdido su vigencia y valor. En la actualidad, la recolección de datos geográficos es
un ámbito complejo con muchas alternativas, las cuales deben integrarse dentro de
un SIG para permitir que este despliegue todo su potencial sobre dichos datos. Todo
este conjunto de técnicas de adquisición de datos conforman un amplio abanico de
posibilidades de las cuales el usuario de SIG debe nutrirse para trabajar siempre en
las mejores condiciones posibles, maximizando la precisión y alcance de su trabajo.
Integrar dentro del trabajo con un SIG todas las fuentes de datos disponibles es
una tarea que requiere un conocimiento detallado de estas, con objeto de poder esta-
blecer la mejor manera de combinarlas, y elegir en cada caso la mejor opción de las
disponibles. A lo largo de este capítulo veremos las principales técnicas existentes pa-
ra la creación de datos geograficos en un formato apto para su uso en un SIG, centrán-
donos en los pormenores de proceso y las particularidades de los datos generados en
cada caso. Para ello, veremos todo el conjunto de fuentes de las cuales pueden prove-
nir los datos con los que trabajamos en un SIG, desde las más modernas hasta las más
antiguas, así como las metodologías que permiten convertir las formas no digitales
en datos aptos para su uso en dicho SIG. El objetivo es que, al final del capítulo, se co-
nozcan con detalle todas las formas en las que los datos geográficos pueden presentar-
se, se entiendan estas completamente con independencia de su origen, y se sepan uti-
lizar y combinar todas las fuentes de datos, extrayendo lo mejor de cada una de ellas.
6.2. Datos digitales y datos analógicos
La principal diferencia que se presenta desde la aparición de los SIG es la
necesidad de utilizar datos digitales. Un SIG implica una aplicación informática,
y esta se alimenta en última instancia exclusivamente de datos digitales. Esta
es la razón por la que debemos alimentar nuestro SIG con una serie de valores
numéricos, y llegar a ellos a partir de la realidad que se pretende modelizar implica
toda una serie de etapas, las cuales ya vimos con detalle en el capítulo 5
Gran parte de los datos geográficos que se producen actualmente son en formato
digital. Otros, a pesar de producirse hoy en día, no lo son directamente. Y junto
a estos tenemos, como ya sabemos, todos los datos (que no son pocos) generados
con anterioridad y que se presentan en diversas formas. Pero si deseamos trabajar
con ellos en un SIG, de un modo u otro todos habrán de acabar siendo digitales.
Los datos geográficos digitales tienen una serie de ventajas frente a los analó-
gicos (además del mero hecho de que podemos incorporarlos a nuestro SIG), y
suponen, como sucede en muchos otros campos, un salto cualitativo importante.
Entender las ventajas frente a los datos analógicos ayuda a comprender un poco
más la importancia de los SIG y la relevancia que cobran en el manejo de los datos
geográficos. Estas ventajas pueden resumirse en las siguientes:
Fuentes principales de datos espaciales 121
Sencillez de actualización. La cartografía digital es editable, y esto sim-
plifica enormemente la introducción cambios. Si en una capa con información
catastral cambia la frontera de una parcela, basta modificar esta frontera. En
un mapa analógico habría que rehacer todo el mapa y volver a imprimirse.
Además, y gracias a la división en capas, pueden actualizarse a distintos
ritmos las distintas variables, pues son independientes y pueden modificarse
por separado.
Haciendo una analogía con el mundo editorial, piénsese en un diario impreso,
con una única edición al día, en la que se ha de esperar al día siguiente para
introducir todas las noticias que se vayan produciendo durante esa misma
jornada. En su equivalente digital, la información se actualiza prácticamente
en tiempo real, y podemos conocer las noticias mucho antes, pues es más
sencillo actualizar esa página que volver a poner la imprenta en marcha.
Es asimismo muy importante el hecho de que, gracias a los sistemas que
centralizan el acceso a los datos, esta edición y actualización de datos pueden
hacerla varias personas de modo concurrente. Esto no resulta posible en el
caso de cartografía impresa, donde frecuentemente se encuentra el problema
de que una cartografía de uso interno en una organización (por ejemplo,
un ayuntamiento que guarda un inventario de su mobiliario urbano) ha
sido editada por varias personas (el operario que sustituye un elemento de
ese mobiliario luego lo registra en su inventario, y en un instante distinto
otro operario puede añadir en su propio mapa la localización de un nuevo
elemento añadido), siendo necesario después unir todas las modificaciones,
lo cual no siempre resulta sencillo o incluso posible.
Si varias personas trabajan con cartografía impresa de una zona, cada una
de ellas tendrá su propio mapa. Con la cartografía digital, todos pueden
obtener la cartografía de un repositorio central, de tal modo que si la editan,
están editando una única versión, y no es necesario después poner en común
todas sus aportaciones para crear una nueva cartografía actualizada.
Facilidad de distribución. Resulta más sencillo y menos costoso distribuir
cartografía digital que analógica, ya que esto se puede hacer rápidamente
por Internet, por ejemplo. Volviendo al ejemplo del diario, las noticias se
actualizan y se ponen en Internet, de donde cada lector las descarga de in-
mediato. El diario impreso requiere una cadena de distribución más costosa,
desde la imprenta hasta el punto de venta.
Espacio de almacenamiento. Se generan actualmente ingentes volúme-
nes de datos que además, y gracias a que son más fáciles de actualizar, se
producen con una frecuencia mucho mayor. No obstante, un soporte digital
puede almacenar una enorme cantidad de estos ocupando una fracción del
espacio físico. En un ordenador dotado de una buena capacidad de almace-
namiento caben los contenidos de una cartoteca y los de la hemeroteca de
ese diario del que hablamos. Las mismas cartoteca y hemeroteca en formato
122 Sistemas de Información Geográfica
impreso requieren edificios enteros.
Facilidad y precisión de análisis. Como ya veremos en la parte correspon-
diente, el salto cualitativo que se da en el campo del análisis es enorme. Pode-
mos hacer con los datos geográficos digitales cosas que no eran posibles con
los analógicos y, mejor aún, podemos automatizar estos análisis. Asimismo,
la precisión es mayor, ya que depende únicamente de los datos y la precisión
intrínseca de estos, pero no de la operación de análisis (piénsese en un mapa
impreso y una serie de operarios midiendo la longitud de un río sobre él. Es
probable que lleguen a resultados similares pero no idénticos. Con cartografía
digital, cualquier operario, y en cualquier SIG —suponiendo que implemen-
tan todos las mismas fórmulas— llegaría al mismo resultado exacto).
Facilidad de mantenimiento. Aunque no se introduzcan modificaciones
y no se actualicen los datos, el formato digital hace más fácil su conservación.
La degradación del soporte no degrada directamente el dato en sí, haciéndole
perder calidad. La degradación del soporte analógico (el papel), sí que lo
hace. Además, los datos digitales pueden replicarse con suma facilidad, por
lo que su persistencia está garantizada en mayor medida y a un menor coste
que la de los datos analógicos.
Así pues, disponemos para nuestro trabajo en nuestro SIG de datos analógicos
y datos digitales, siendo estos últimos los que necesitamos en última instancia,
y que presentan las ventajas anteriormente descritas frente a los primeros. En
las siguientes secciones, veremos con detalle todos los distintos tipos de datos
geográficos, tanto digitales como analógicos, la forma en que se obtienen, sus
características, cómo se incorporan a un SIG, y en general todo aquello que resulte
de interés para una mejor comprensión y uso posterior de los mismos.
6.3. Fuentes primarias y fuentes secundarias
Como hemos visto, algunos datos que utilizamos en un SIG son de tipo analó-
gico, mientras que otros son de tipo digital. En algunos casos (generalmente en los
analógicos), estos datos no han sido tomados pensando en su utilización en un SIG,
y nos van a servir de base para obtener otros que sí pueden emplearse directamente
dentro de un SIG. Por el contrario, existen otros datos que ya han sido recogidos con-
siderando su utilización dentro de un Sistema de Información Geográfica, y la forma
en la que se presentan ya es adecuada para incorporarlos en este y trabajar con ellos.
En base a lo anterior, se define una forma distinta de clasificar los datos
espaciales con los que trabajamos en un SIG: datos primarios (o procedentes de una
fuente primaria) y datos secundarios (o procedentes de una fuente secundaria) [48].
Los datos primarios son aquellos que podemos emplear en un SIG y que, en su
forma original, ya son susceptibles de ser sometidos a las operaciones de manejo y
análisis que incorporan los SIG. En este grupo encontramos las imágenes digitales o
Fuentes principales de datos espaciales 123
los datos obtenidos con GPS, todos ellos recogidos ya en origen de forma adecuada
para su empleo directo en un SIG.
Por su parte, los datos secundarios derivan de algún otro tipo de dato previo, el
cual no es adecuado para su empleo en un SIG. Entre estos incluimos las versiones
digitales de los mapas clásicos (veremos en breve cómo se lleva a cabo esa conversión
de un documento analógico a uno digital), así como los datos procedentes de un
muestreo o levantamiento tradicional. Otros provenientes de cartografía impresa,
tales como capas de elevaciones, también se incluyen en en este grupo.
Al desarrollar las fuentes de datos en este capítulo, se tratarán tanto fuentes
primarias como secundarias, y en el caso de estas últimas se tratarán a su vez las
formas en las que a partir de estas pueden derivarse datos digitales que puedan
ya ser incorporados a un SIG.
6.4. Teledetección
La primera fuente de datos que trataremos en este capítulo es la teledetección.
Entendemos por teledetección el estudio y medida de las características de una
serie de objetos (en nuestro caso elementos de la superficie terrestre) sin que exista
contacto físico [49, 50, 51]. Para ello, se miden las perturbaciones que el objeto
provoca en su entorno, principalmente las de tipo electromagnético.
Tradicionalmente, la teledetección se ha estudiado como una materia comple-
mentaria pero en cierto modo separada de los Sistemas de Información Geográfica.
Ello es debido principalmente a que se trata de una materia muy extensa cuyo
desarrollo se ha producido en cierta parte de forma ajena al de los SIG. No obstante,
a medida que ambos campos se han ido desarrollando, la convergencia entre SIG
y teledetección se ha ido haciendo cada vez más evidente. No solo las aplicaciones
SIG incorporan elementos para el manejo, tratamiento y análisis de datos proce-
dentes de la teledetección, sino que las formulaciones de ambos ámbitos contienen
elementos similares.
La teledetección es hoy en día un elemento clave para la formación en SIG, y
como tal debe incluirse en un libro como este. Los bloques tradicionales en los que
se divide el temario fundamental de la teledetección no incorporan únicamente
el registro de la información y la creación de los datos, sino también su proceso
posterior, interpretación y tratamiento. Este último no se trata, sin embargo,
en este capítulo, sino en la parte dedicada al análisis, integrado junto con otras
formulaciones similares para proceso de imágenes.
La teledetección es, como decimos, una fuente de datos primordial en los SIG,
y el verdadero aprovechamiento de los productos actuales de la teledetección
solo se da con el concurso de los SIG y sus capacidades de análisis y manejo de
datos. No obstante, y atendiendo a la definición dada, los procesos de teledetección
aplicados al ámbito cartógráfico y el análisis espacial se remontan a tiempo atrás,
124 Sistemas de Información Geográfica
concretamente a la mitad del siglo XIX. Fue entonces cuando se tomaron las
primeras fotografías aéreas uniendo el recién desarrollado campo de la fotografía
junto con la utilización de globos aerostáticos como medio para situar el aparato
fotográfico a una altura suficiente que permitiera obtener las imágenes.
Las fotografías aéreas fueron el primer producto de la teledetección, pero hoy
en día existen otros que, basados en esa misma idea de registro de información,
pueden ser empleados como fuentes de datos espaciales dentro de un SIG. Para
comprenderlos, estudiemos algo más en detalle los elementos del proceso de te-
ledetección, los cuales se representan de forma esquemática en la figura 6.1. Estos
elementos son los siguientes:
Figura 6.1: Esquema de un sistema de teledetección.
Una fuente de radiación (A). Puede ser de origen natural o artificial. La
radiación emitida por dicha fuente llega al terreno y sufre una perturbación
causada por los elementos de este, siendo esta perturbación el objeto de
estudio de la teledetección. Los propios objetos pueden ser también emisores
ellos mismos de radiación.
Unos objetos (B) que interaccionan con la radiación o la emiten,
según lo anterior.
Una atmósfera (C) por la que se desplaza la radiación, tanto desde la fuente
hasta el objeto como desde el objeto hasta el receptor. La atmósfera también
interactúa con la radiación, introduciendo igualmente perturbaciones en ella.
Un receptor (D) que recoge la radiación una vez esta ha sido pertur-
bada o emitida por los objetos. El receptor va a generar como producto final
una imagen (en términos de un SIG, una capa ráster), en cuyas celdas o
píxeles se va a contener un valor que indica la intensidad de la radiación.
Estos valores son valores enteros que indican el nivel de dicha radiación
dentro de una escala definida (habitualmente valores entre 1 y 256), y se
conocen dentro del ámbito de la teledetección como Niveles Digitales.
A lo largo de este apartado veremos con detalle estos elementos. Para estudiar
los dos primeros, estudiaremos los fundamentos físicos relativos a la radiación y
Fuentes principales de datos espaciales 125
a la la interacción entre esta y la materia, mientras que para el estudio del sistema
receptor analizaremos los elementos de este en dos componentes por separado:
sensores y plataformas.
La interacción de la atmósfera interesa de cara a eliminar su efecto, ya que
lo que resulta de interés en general son los objetos en la superficie terrestre, no
la atmósfera como tal. Eliminar esta influencia de la atmósfera es parte de los
procesos posteriores que se realizan con la imagen y que incluyen también, como se
mencionó anteriormente, la interpretación y otros procedimientos diversos sobre
esta. Todos ellos no son tratados en este capítulo sino, tal y como se dijo, en un
capítulo independiente dentro de la parte de procesos.
6.4.1. Fundamentos físicos
Es necesario conocer los conceptos fundamentales sobre la radiación y su
interacción con la materia (los objetos de la superficie terrestre) para poder en-
tender cómo, utilizando la radiación de una fuente dada, se crea una imagen como
resultado final en un proceso de teledetección.
La radiación electromagnética
La radiación electromagnética es una de las cuatro fuerzas fundamentales de
la naturaleza1 y deriva del campo electromagnético, el cual es ejercido por las par-
tículas cargadas eléctricamente. Para explicar esta existen dos modelos conocidos
como modelo ondulatorio y modelo de partículas. Según el primero, que será en el
que profundicemos algo más, la radiación electromagnética es producto de las al-
teraciones en los campos eléctrico y magnético, que generan dos ondas ortogonales
entre sí, correspondientes a cada uno de los campos anteriores (Figura 6.2).
Figura 6.2: Ondas correspondientes a los campos magnético y eléctrico, ortogonales
entre sí (Tomado de Wikipedia).
Estas ondas se desplazan a a la velocidad de la luz, y se pueden describir con
los parámetros habituales, tales como la longitud de onda o la frecuencia2 . Una
1
Las otras tres son la gravitatoria, la interacción nuclear débil y la interacción nuclear fuerte
2
Se supone que el lector tiene cierta familiaridad con estos conceptos físicos básicos. En caso
contrario, una referencia que puede encontrarse en la red es [52]
126 Sistemas de Información Geográfica
mayor longitud de onda (y, por tanto una menor frecuencia) tiene asociada una
mayor energía de la radiación.
La radiación electromagnética puede cubrir de forma continua todo un amplio
rango de valores de longitudes de onda. Este rango se conoce como espectro electro-
magnético. Pese a la continuidad de sus valores, es habitual agruparlos en regiones,
discretizando la amplitud del espectro, ya que las radiaciones en longitudes de onda
similares presentan a su vez comportamientos similares en muchos sentidos. En la
figura 6.3 se muestra un esquema del espectro electromágnético y sus principales
regiones de interés.
Figura 6.3: Espectro electromagnético y sus principales regiones de interés (Tomado
de Wikipedia).
Dentro de estas regiones, son de destacar las siguientes:
Rayos γ <0.03 nm.
Rayos X (0.03 nm - 3 nm).
Ultravioleta (3 nm - 0.3 µ).
Visible (0.3 µ - 0.7 µ). Se corresponde con las radiaciones que pueden ser de-
tectadas por el ojo humano o por aparatos tales como una cámara fotográfica
común. Observando la figura 6.3 puede apreciarse que esta región represen-
ta una porción muy pequeña del total del espectro. Existen muchas otras
regiones que no podemos «ver» pero que, empleando la tecnología adecuada,
sí que pueden aprovecharse para crear imágenes dentro de un proceso de
teledetección, siendo de gran utilidad para el estudio de numerosos procesos.
Las distintas longitudes de onda dentro de esta región son las responsables de
los distintos colores que percibimos. Así, por ejemplo, el azul se corresponde
con el rango entre 0.4 µ y 0.5 µ, mientras que el verde lo hace con el rango
entre 0.5 µ y 0.6 µ
Infrarrojo cercano (0.7 µ - 1.3 µ).
Infrarrojo medio (1.3 µ - 8 µ).
Infrarrojo lejano o térmico (8 µ - 14 µ). Dentro de esta región se encuen-
tran principalmente las radiaciones emitidas por los cuerpos debido a su
Fuentes principales de datos espaciales 127
temperatura3 .
Microondas (1 mm - 25 cm).
En el capítulo 16 estudiaremos para qué tipo de análisis resulta útil cada una de
las regiones del espectro, cuando veamos como analizar las imágenes procedentes
de la teledetección.
Como ya se dijo en el capítulo 5, las imágenes como capas ráster presentan
habitualmente la particularidad de tener varias bandas. En lugar de un único
valor para cada celda, existen n valores, uno por cada banda. Esto es así porque la
imagen recoge la intensidad de la radiación (recordemos que esto se denominaba
Nivel Digital) dentro de una amplitud dada del espectro, y a su vez subdivide
esta en distintas franjas. Los Niveles Digitales de cada banda corresponden a la
intensidad dentro de una de esas franjas del espectro en particular.
Interacción entre radiación y materia
La radiación emitida por una fuente de radiación es alterada por la presencia de
los distintos objetos, que interactúan con ella. Independientemente de su proceden-
cia, para toda radiación se dan tres fenómenos fundamentales al alcanzar un objeto:
Absorción. El objeto toma la energía de la radiación.
Transmisión. La radiación atraviesa el objeto y continua su camino.
Reflexión. la radiación «rebota» en el objeto y vuelve al espacio.
Estos tres fenómenos se dan en diferente proporción en función de las carac-
terísticas del objeto y de la radiación. Para una longitud de onda dada, existe,
pues, un porcentaje de la radiación que es absorbida por el objeto, otra que se
transmite a través de él y otra que es reflejada. La parte que interesa a efectos
de la teledetección es aquella que se refleja en el objeto, ya que esta es la que
posteriormente puede recogerse y emplearse para la generación de las imágenes.
La proporción en la que los tres procesos anteriores se dan en un objeto no es
la misma para todas las radiaciones. Un objeto puede absorber una gran parte
de la radiación dentro de una región del espectro y sin embargo reflejar la mayoría
de ella en una región distinta. Es por ello que, en función del análisis que se desee
realizar, debe trabajarse con imágenes que traten una u otra región.
Igualmente, una imagen con varias bandas contiene información sobre la in-
tensidad de la radiación reflejada en distintas partes del espectro. Puesto que cada
objeto refleja de forma diferente la radiación en cada una de esas partes, pueden
igualmente emplearse para identificar objetos particulares si se conoce la respuesta
de estos en determinadas bandas. Por ejemplo, si sabemos que los objetos que bus-
camos reflejan gran cantidad de radiación en todas las longitudes de onda excepto
en un rango concreto. Aparece así el concepto de firma espectral como la respuesta
característica de un tipo de objeto dentro del espectro electromagnético. Veremos
3
Esta emisión se calcula según la denominada ley de Stefan–Boltzmann. Puede encontrarse
más al respecto en [53]
128 Sistemas de Información Geográfica
mucho más al respecto en el capítulo 16, así como en el 20, donde estudiaremos
una aplicación habitual de dichas firmas espectrales.
Además de la interacción con los objetos que se pretenden estudiar, la radiación
interactúa con la atmósfera. Esta interacción afecta al resultado y es una variable a
considerar en ciertas operaciones posteriores con las imágenes. Veremos más sobre
la interacción entre radiación y atmósfera en el apartado 16.2, cuando tratemos
esas operaciones.
6.4.2. Sensores y plataformas
En un sistema de teledetección, dos son los elementos tecnológicos principales
que lo definen: el sensor y la plataforma.
El sensor es el elemento que incorpora la capacidad de «leer» la radiación elec-
tromagnética y registrar su intensidad dentro de la una zona concreta del espectro.
En palabras más sencillas, es el aparato que nos permite «tomar» la imagen, y
puede ir desde una simple cámara fotográfica hasta un sensor más especializado
capaz de tomar cientos de bandas en una región del espectro de gran amplitud.
La plataforma, por su parte, es el medio en el que se sitúa el sensor y desde el
cual se realiza la observación. Los dos tipos principales de plataformas son aquellas
situadas dentro de la atmósfera terrestre (aviones en su mayoría, aunque también
en otros medios tales como globos aerostáticos) y aquellas situadas fuera de la
atmósfera (a bordo de satélites)
Las características de estos dos elementos definen las del sistema en su con-
junto, así como las propiedades de sus productos derivados y la utilidad que estos
presentan.
Plataformas
La plataforma es el medio en el que se transporta el sensor, y condiciona las
mediciones efectuadas por este, ya que establece la distancia a la que el sensor se
sitúa del elemento registrado (la superficie terrestre). Esta distancia puede ser del
orden de algunos centenares de metros o unos pocos kilómetros, o bien de muchos
kilómetros. En el primer caso, la plataforma más habitual es el avión, mientras
que en el segundo caso lo más frecuente es el uso de satélites.
Los aviones son las plataformas clásicas a bordo de las cuales se montaban
originariamente las cámaras empleadas para la realización de fotografías aéreas.
No obstante, hoy en día pueden montarse igualmente otros sensores más complejos
y modernos a bordo de aeronaves.
Las ventajas del empleo de aviones como plataformas de teledetección son las
relacionadas con la disponibilidad de la plataforma, que es mucho mayor que en el
caso de emplear satélites. Podemos (dentro de lo razonable) escoger cómo, cuándo
Fuentes principales de datos espaciales 129
y dónde efectuar un vuelo y tomar imágenes, mientras que en caso de satélites la
disponibilidad viene condicionada por numerosos factores y es muy reducida.
Respecto a los inconvenientes, pueden citarse entre ellos la inestabilidad de la
plataforma y la dependencia de las condiciones del clima, que pueden afectar a la
propia estabilidad y a la calidad de los resultados, o incluso impedir la realización
del vuelo. Por ser plataformas de baja altura, no pueden abarcar superficies tan
amplias como los satélites, requiriendo más tiempo para cubrir una zona dada.
Por su parte, los satélites artificiales presentan unas características distintas
como plataformas de teledetección, siendo muy útiles para la teledetección sobre
la superficie terrestre. Es habitual que a bordo de un mismo satélite coexistan
diversos sensores, de forma que una única plataforma transporta varios de ellos.
A diferencia de un avión, un satélite no puede dirigirse a voluntad (no puede
pilotarse), y su movimiento es una característica inherente que viene definida por
una serie de parámetros. Estos parámetros se conocen como parámetros orbitales
pues definen la órbita descrita por el satélite en torno a la Tierra.
Por una lado, las órbitas pueden clasificarse en función de su eje de rotación
en tres tipos:
Ecuatoriales, si se sitúan en el mismo plano en el ecuador terrestre.
Polares, si se sitúan en un plano que contiene al eje de rotación terrestre.
Semipolares, si la órbita es oblicua al eje de rotación
Con un criterio distinto, atendiendo a la forma en que se produce el movimiento,
distinguimos dos tipos de órbitas para un satélite:
Geosíncronas. El satélite se sitúa sobre un punto fijo de la Tierra y su mo-
vimiento sigue al de rotación de esta. Es decir, no existe movimiento relativo
entre dicho punto de la superficie terrestre y el satélite. Todas las imágenes
que se toman desde el satélite tendrán así el mismo encuadre y cubrirán una
extensión idéntica. La altura del satélite es fija, siendo esta de 35.786 Km,
ya que esta altura hace que la velocidad del satélite se corresponda con la
de rotación de la Tierra.
La ventaja de este tipo de satélites es que, por situarse siempre sobre un
punto y siempre teniendo visión sobre una zona dada, se pueden actualizar
con mucha frecuencia las imágenes. El inconveniente principal radica en el
hecho de que las zonas alejadas del punto sobre el que se sitúa el satélite
tendrán mala cobertura, y existirán zonas no cubiertas de las que no resultará
posible obtener imágenes con los sensores montados a bordo de dicho satélite.
Pese a que un sensor sobre un satélite con órbita geosíncrona cubrirá una
gran porción de la superficie terrestre (debido a la elevada altura a la que ha
de situarse para tener dicha órbita), no resulta posible, como es lógico, cubrir
toda ella y hacerlo además en las mismas condiciones en todas las zonas.
Heliosíncronas. Las órbitas heliosíncronas son generalmente polares. Mien-
tras el satélite recorre la órbita, la Tierra efectúa su movimiento de rotación,
lo cual hace que a cada vuelta de la órbita se cubran zonas distintas. De esta
130 Sistemas de Información Geográfica
forma, se consigue dividir la totalidad de la superficie terrestre en bandas
que se van recorriendo sucesivamente hasta que el satélite vuelve a situarse
en el mismo punto inicial. Las órbitas están diseñadas de tal manera que
ese regreso al punto inicial se produce a la misma hora solar exacta que en
el anterior ciclo, de forma que las imágenes tomadas en un punto dado son
registradas siempre a la misma hora y en condiciones similares de iluminación.
Para que sea posible realizar una órbita de este tipo, el satélite debe situarse
entre 300 y 1500 Km de altura.
La figura 6.4 muestra un ejemplo de la forma en que un satélite con una
órbita heliosíncrona barre toda la superficie de la Tierra.
Figura 6.4: Esquema de barrido de un satélite con órbita heliosíncrona. Tomado de [54]
Debido al movimiento que causa las distintas franjas, los satélites con este
tipo de órbitas pueden cubrir toda la superficie terrestre, algo que no es
posible con los de órbita geosíncrona. No obstante, una vez que se toma una
imagen de una zona, la plataforma no regresa a ella hasta que se concluye
todo el ciclo, habiendo transcurrido un periodo de tiempo que se conoce como
periodo o intervalo de revisita. Debido a ello, la actualización de las imágenes
no puede ser tan inmediata como en el caso de satélites geosíncronos.
Sensores
Montado a bordo de cualquiera de los tipos de plataformas que hemos vis-
to en el apartado anterior, el sensor es el encargado de registrar la radiación
electromágnética procedente de la zona estudiada y «tomar» la imagen.
Existen diversas formas de clasificar los sensores. Una división básica es la
que distingue sensores activos y sensores pasivos. Como ya sabemos, la radiación
que recoge el sensor es el resultado de una fuente de radiación electromagnética,
cuyas emisiones interactúan con el medio, que refleja una parte de las radiaciones
Fuentes principales de datos espaciales 131
que le llegan. Los sensores pasivos aprovechan las fuentes de radiación existentes
en la naturaleza (fundamentalmente el Sol) y se limitan a recoger la radiación
de dichas fuentes reflejada por los elementos del medio, o la que estos elementos
emiten por sí mismos. El sensor no produce ningún tipo de radiación de por sí.
Por el contrario, los sensores activos sí emiten radiación, y recogen dicha radiación
tras ser reflejada por los elementos del medio.
La diferencia fundamental entre estos dos tipos de sensores es que los activos
pueden funcionar en cualquier instante y no dependen de la condiciones atmosféri-
cas o el momento del día. De la misma forma que no podemos tomar una fotografía
de noche sin luz, y no podemos ver el suelo desde un avión cuando hay nubes, no
podemos utilizar un sensor pasivo en esas condiciones para tomar una imagen. Sin
embargo, sí podemos hacer una fotografía de noche si disponemos de un flash, ya
que la propia cámara emite la luz que necesita. La filosofía de un sensor activo es
en cierta medida similar al caso de la cámara con flash.
Los sensores activos emiten su propia radiación, por lo que no es necesario que
existan fuentes externas (no es necesaria la luz solar). Asimismo, los elementos
atmosféricos tales como las nubes, que afectan a la radiación visible, no afectan a
otros tipos de radiación, permitiéndoles una operatividad total en la gran mayoría
de condiciones. Por ello, los sensores activos suelen trabajar en el rango de micro-
ondas (frente a los sensores pasivos, que lo hacen en las regiones del visible y el
infrarrojo principalmente), ya que estas son capaces de atravesar la atmósfera en
prácticamente todas las condiciones, presentando así ventajas frente a los sensores
pasivos en este aspecto.
Aunque el producto habitual de la teledetección son las imágenes, entendidas
estas como algo visual, algunos sensores no forman tales imágenes, y los valores que
recogen no son las intensidades de la radiación reflejada por el terreno en una longi-
tud de onda dada. Es decir, no se corresponderían con el concepto de Nivel Digital ya
presentado. Este tipo de resultados son habituales en los sensores de tipo activo, en
los que la radiación que el propio sensor emite es recogida tras reflejarse en el terreno,
pero la variable que se mide de ella no es su intensidad sino, por ejemplo, el tiempo
que tarda en regresar. Planteamientos como estos permiten la generación de capas
de datos que no son imágenes como tales, como es el caso de las capas de elevación
(Modelos Digitales de Elevaciones), ya que el tiempo de retorno está directamente re-
lacionado con la distancia recorrida por la radiación, y este con el relieve del terreno.
Estos sensores, no obstante, operan de un modo similar a lo que ya conocemos,
y se consideran igualmente dentro del ámbito de la teledetección, pues se adscriben
a la definición de esta dada al principio de este apartado. Veremos igualmente
ejemplos de algunos de ellos cuando veamos más adelante algunos sensores de
particular relevancia, ya que tienen una gran importancia en la actualidad para
la generación de cartografía variada, como por ejemplo la ya citada de elevaciones.
132 Sistemas de Información Geográfica
El radar 4 es la tecnología más importante dentro de este grupo. El sensor envía
pulsos de radio, y posteriormente recoge estos midiendo su intensidad y pudiendo
calcular también la distancia al objeto.
Puesto que la región de microondas en la que trabaja el radar es amplia, esta
se divide a su vez en bandas. Los sensores de radar pueden trabajar con diferentes
bandas de entre estas, las cuales tienen asignada una nomenclatura estandarizada.
Además de esto, también puede trabajarse con diferentes polarizaciones de la señal
de radio, obteniéndose resultados distintos en cada caso, lo que hace posible una
mayor riqueza de resultados.
El radar es una técnica muy compleja cuyo estudio requiere el conocimiento
de unos fundamentos teóricos propios que exceden el ámbito de este capítulo, y no
profundizaremos más en ellos. Para el lector interesado, en la dirección Web [55]
puede encontrarse información muy abundante sobre teledetección basada en radar.
Una técnica más moderna pero similar al radar es el denominado LiDAR 5 , que
emplea pulsos de láser. El LiDAR es en la actualidad la tecnología más avanzada
para la creación de cartografía de elevaciones, y dentro de este campo ha supues-
to una verdadera revolución, ya que obtiene resoluciones muy elevadas, tanto
horizontales como verticales (resolución en los valores de elevación calculados).
Los sistemas modernos de LiDAR son capaces de proporcionar además varios
retornos, de modo que, si el sensor sobrevuela una zona arbolada, se tiene infor-
mación sobre la distancia a la copa y la distancia al suelo, ya que parte del láser
atraviesa la copa y alcanza el terreno. Este tipo de resultados supone un salto
cualitativo con respecto a los obtenidos con otras tecnologías. Esto permite no
solo estudiar el terreno, sino derivar otros parámetro tales como la altura de la
vegetación [56]. Asimismo, debido a su precisión, permite recoger elementos del
terreno que con otros sistemas no resulta posible registrar, tales como edificios.
A modo de ejemplo, la figura 6.5 muestra un modelo del World Trade Center el
27 de septiembre de 2001, creado a partir de datos LiDAR.
En la terminología del LiDAR, la imagen correspondiente al primer retorno
(el de los puntos más altos) se conoce como Modelo Digital de Superficie (MDS),
mientras que el correspondiente a la altura del suelo se conoce como Modelo Digital
de Elevaciones (MDE). Veremos mucho acerca de MDE en posteriores capítulos
de este libro.
En [57] puede encontrarse una buena descripción del proceso de creación de
estas capas de elevación partir de datos LiDAR.
Además de la división entre activos y pasivos, otra forma de clasificar los
sensores es en función de la forma en la que registran la imagen. Algunos sensores
poseen un único detector de radiación que no cubre todo el ancho de la franja del
terreno que se pretende recoger. Por medio de espejos oscilantes, se envía a este
4
Acrónimo de Radio Detection and Ranging, detección y medición a partir de ondas de radio
5
Acrónimo de Light Detection and Ranging, detección y medición de distancias a partir de luz
Fuentes principales de datos espaciales 133
Figura 6.5: Modelo del World Trade Center realizado a partir de datos LiDAR tomados
el día 27 de septiembre de 2001 (Fuente: NOAA/U.S. Army JPSD)
detector la radiación procedente de los distintos puntos a lo ancho de esa franja, de
forma que se van recogiendo los distintos píxeles de la imagen uno a uno, recorriendo
esta de un lado a otro (Figura 6.6a). Estos sensores se denominan de barrido.
Los denominados sensores de empuje (Figura 6.6b) eliminan la necesidad
de utilizar espejos móviles, ya que poseen un número mayor de detectores que
permiten cubrir todo el ancho de la imagen. Por ello, esta se va registrando no
píxel a píxel, sino línea a línea.
5 7 2 1 8 6 5 7 2 1 8 6
a) b)
5 7 2 1 8 6 5 7 2 1 8 6
Figura 6.6: Esquema de funcionamiento de un sensor de barrido (a) y uno de empuje (b)
Resoluciones
Uno de los parámetros principales que definen las propiedades de un sistema
de teledetección son las resoluciones. Estas establecen el nivel de detalle de los
productos que el sistema genera, determinando este en las distintas magnitudes en
las que el sistema opera. Las resoluciones dependen del sensor y de la plataforma
134 Sistemas de Información Geográfica
como binomio operativo, y de las características propias de ambos. Distinguimos
cuatro resoluciones, a saber:
Resolución espacial. Indica la dimensión del objeto más pequeño que
puede distinguirse en la imagen. En líneas generales es el equivalente al
tamaño de píxel6 es decir, a la dimensión real que un píxel de la imagen tiene
sobre el terreno.
La resolución espacial está en función de la capacidad resolutiva del sensor
y las características de la plataforma tales como la altura a la que se sitúa.
Asimismo, la resolución espacial esta relacionada con la superficie que cada
imagen cubre sobre el terreno. El concepto de Campo Instantáneo de Visión 7
indica el ángulo de visión que abarca el sensor, y se utiliza habitualmente
es este sentido. El Campo Instantáneo de Visión en Tierra 8 expresa esta
misma idea pero en unidades de longitud sobre el terreno, y es función del
IFOV y la altura a la que se encuentre el sensor.
En el diseño de la órbita de un satélite debe tenerse en cuenta el campo de
visión del sensor para optimizar el ciclo de toma de imágenes, así como para
evitar que las distintas franjas que este cubre queden sin solaparse y existan
zonas de las que no se tomen imágenes.
Resolución espectral. Todo sensor cubre una región particular del espec-
tro y almacena esta mediante un número dado de bandas. La región del
espectro abarcada y el número de bandas son los elementos que definen la
resolución espectral. Esta será elevada si el número de bandas es alto, ya
que cada banda cubrirá un rango de frecuencias de menor amplitud. De
este modo, la información de dos frecuencias cercanas puede separarse, ya
que estas serán recogidas en bandas distintas, mientras que si el número
de bandas es menor pertenecerán a la misma banda y no podrá hacerse
distinción alguna (la resolución será menor).
En función del número de bandas, pueden clasificarse las imágenes y los senso-
res que las generan. Una imagen en blanco y negro contiene una única banda.
Las imágenes en color contienen tres bandas, correspondientes a las frecuen-
cias del rojo, el verde y el azul. Existen igualmente sensores con algunas ban-
das adicionales como la del infrarrojo, que en total generan un número de ban-
das no superior a diez. Todas estas imágenes se conocen como multiespectrales.
Las imágenes superespectrales tienen una mayor resolución espectral (bandas
más estrechas), y cubren una zona del espectro más amplia, no limitándose
6
Desde un punto de vista formal, no ha de ser necesariamente así, ya que la imagen puede
tomarse originalmente con unas características y después, mediante operaciones matemáticas
(veremos estas en el capítulo 14), modificar el tamaño de píxel. Aunque este tamaño sea menor
al original, los objetos de menor dimensión que podrán discernirse en esa imagen no serán iguales
a ese tamaño, sino mayores.
7
Instantaneous Field of View (IFOV)
8
Ground Instantaneous Field of Vision (GIFOV)
Fuentes principales de datos espaciales 135
al rango visible o el situado inmediatamente junto a este. Por ello, su número
de bandas es mayor, generando imágenes con varias decenas de ellas.
Por último, las imágenes hiperespectrales presentan más de cien bandas, lo
cual permite una caracterización espectral sumamente precisa.
Resolución radiométrica. Para cada una de las bandas que produce
un sensor (asociada esta a una determinada región del espectro según su
resolución espectral), el dato recogido, que constituye su Nivel Digital, indica
la intensidad correspondiente a esa región. El nivel de detalle con el que puede
medirse esa intensidad es el que define la resolución radiométrica del sensor.
El número de Niveles Digitales distintos que pueden recogerse es la medida
de la resolución espacial, y habitualmente es una potencia de dos (de la
forma 2n ). Tanto las imágenes en blanco y negro como las imágenes en color
trabajan con 256 (28 ) niveles, ya que este es el valor más cercano al número
de diferentes intensidades que el ojo humano puede diferenciar9 . No obstante,
los sensores de teledetección pueden tener una mayor resolución radiométrica
(hasta 1024 o 2048 niveles), que si bien no se aprecia en la representación
visual, sí que supone una diferencia en el tratamiento analítico de esos Niveles
Digitales. En la figura 6.7 puede apreciarse la diferencia entre dos imágenes,
cada una de las cuales tiene una resolución radiométrica distinta.
Figura 6.7: Dos imagenes con distinta resolución radiométrica (de izquierda a derecha,
8 y 256 niveles, respectivamente).
Resolución temporal. Indica el tiempo que tarda el sensor en volver a
tomar una imagen de una misma zona. Tiene sentido en el caso de sensores
orbitales, que funcionan por ciclos, y tras concluir este ciclo, vuelven a
comenzar la toma de imágenes en el mismo punto. En cada ciclo, el sensor
cubre toda la superficie terrestre «barriendo» esta en franjas sucesivas.
9
En el ámbito del tratamiento de imágenes esto se conoce como profundidad de color. Una
mayor profundidad de color indica mayor número de colores posibles. Una pantalla normal de
ordenador puede mostrar un total de 16.7 millones de colores distintos , que corresponden a las
combinaciones entre los 256 posibles niveles de cada una de las tres bandas (2563 = 16,777,216)
136 Sistemas de Información Geográfica
La resolución temporal depende de la altura a la que se encuentra la plata-
forma que monta el sensor, así como la resolución espacial. Si el tamaño de
las imágenes es reducido (GIFOV pequeño), las franjas son más estrechas
y se requieren más para cubrir toda la superficie y volver a comenzar el ciclo,
con lo que la resolución espacial será menor.
Parece lógico pensar que lo ideal en toda circunstancia sería disponer de imá-
genes procedentes de sistemas con altas resoluciones en cualquiera de las clases
anteriores. De esta forma, tendríamos imágenes con gran detalle espacial, espectral
y radiométrico, y actualizadas frecuentemente. No obstante, la tecnología actual no
dispone de elementos que ofrezcan resoluciones elevadas en todas las magnitudes
del proceso, y en la creación de los sensores se favorecen unas en detrimento de
otras. Algunas resolución presentan además un cierto antagonismo, como hemos
visto para las resoluciones espacial y temporal, con lo que no resulta viable que
ambas sean elevadas simultáneamente.
Así, existen sensores con, por ejemplo, gran resolución espacial, en los cuales la
resolución espectral no es tan elevada. Por el contrario, los sensores con mayor reso-
lución espectral no suelen ofrecer un nivel de detalle espacial tan elevado como los
anteriores. En ocasiones, una misma plataforma puede montar a bordo varios senso-
res, de tal forma que el conjunto de ellos ofrezca información detallada de forma glo-
bal, pero un único sensor no proporciona resolución elevada en todas las variables.
Otro tipo de circunstancias relativas al sensor afectan igualmente a las reso-
luciones. Por ejemplo, aquellos sensores que trabajan con radiaciones de poca
energía (en la región de las microondas) y son de tipo pasivo requieren una amplia
extensión para recoger la suficiente energía como para poder ser detectada por
dicho sensor. Por esta razón, su resolución espacial suele ser baja.
A la hora de utilizar imágenes de teledetección, debe considerarse qué tipo de
resolución resulta de mayor interés para el proyecto que se lleva a cabo, teniendo
en cuenta la escala de trabajo o el objetivo final que se persigue con el análisis a
realizar, entre otros factores. En base a esto, se escogerá uno u otro producto, que
será el que ofrezca los valores de resolución más adecuados en conjunto.
Si se pretende localizar elementos de pequeño tamaño, es imprescindible
trabajar con altas resoluciones espaciales. Si lo que se desea es clasificar una serie de
zonas en función de sus características, la resolución espectral debe ser alta, ya que,
como veremos, se usa la información de todas las bandas para dar esa clasificación,
y un número mayor de bandas dará como resultado una mayor precisión.
De igual, modo, la detección de cambios de intensidad en una banda hace
necesario que se trabaje con una buena resolución radiométrica, pero si lo que se
desea es estudiar esos cambios a lo largo de un periodo corto de tiempo, trabajar
con un sensor con gran resolución temporal se hace imprescindible.
En cada caso, las circunstancias particulares del trabajo condicionan la elección
de uno u otro sensor, puesto que, como se ha dicho, un único sensor no ofrece
elevadas resoluciones en todas las variables.
Fuentes principales de datos espaciales 137
La utilización simultánea de datos de varios sensores en un proyecto es una alter-
nativa en ciertos casos. Como veremos, existen técnicas que permiten combinar imá-
genes con alta resolución espacial e imágenes con alta resolución espectral, con obje-
to de obtener nuevas imágenes que combinen lo mejor de ambas y ofrezcan un nivel
de detalle conjunto mayor. Estas técnicas realizan el proceso conocido como fusión
de imágenes, el cual trataremos en el apartado 16.3.3, más adelante en este libro.
Además de lo anterior, un único sensor montado a bordo de un satélite puede
operar en varios modos distintos. Es habitual que un sensor multibanda pueda
registrar también imágenes de una sola banda, recogiendo en ella la intensidad de
la radiación correspondiente a todo el espectro visible, de tal forma que genere una
representación visual real. Estas se suelen representar habitualmente en escala de
grises, resultando una imagen en blanco y negro.
Las imágenes de este tipo se conocen como pancromáticas 10 , y suelen tener
mayor resolución espacial, por lo que pueden emplearse para la fusión de imágenes
señalada anteriormente. Así, un mismo sensor provee todos los datos necesarios
para llevar a cabo ese proceso, tanto la imagen de gran resolución espacial (la
pancromática) como la de gran resolución espectral (la imagen multibanda).
6.4.3. Principales sensores y productos
El número de diferentes productos provenientes de la teledetección es muy
elevado en la actualidad. Ahora que ya conocemos los fundamentos del proceso
y las principales características de un sistema de teledetección, es interesante mos-
trar un pequeño resumen de los principales productos disponibles. En ocasiones,
desconocer la existencia de productos adecuados puede suponer la realización
incorrecta o de modo ineficaz de un proyecto SIG, y dada la gran variedad existente,
esto sucede con frecuencia.
A continuación se relacionan algunos de los sistemas de teledetección principales
y las características de sus productos.
LANDSAT [54]. Se trata de un programa completo de adquisición de datos
mediante teledetección, que ha lanzado hasta la fecha un total de siete
satélites entre 1972 y 1999. Por ello, el volumen de datos recogido es enorme,
y lo convierte en una de las fuentes de datos más ricas de entre las existentes
en la actualidad.
El último satélite, LANDSAT 7, tiene una órbita heliosíncrona y una re-
solución temporal de 16 días. A bordo de él se monta el sensor ETM+11 ,
que permite la obtención de imágenes pancromáticas con resolución de 15
10
El término pancromático deriva de la fotografía clásica, conociéndose así al tipo de película
sensible a todas las longitudes de onda del visible. Por similitud de conceptos, se emplea el
término también para hacer referencia a las imágenes digitales monobanda generadas por
sensores según lo comentado anteriormente
11
Enhanced Thematic Mapper Plus
138 Sistemas de Información Geográfica
metros, e imagenes multibanda con resolución de 60 metros. El sensor recoge
un total de 8 bandas, y el tamaño de la imagen es de 170 × 183 km.
Los sensores TM12 y MSS 13 se montan a bordo del satélite LANDSAT 5,
todavía en funcionamiento y con una resolución temporal de 16 días. El
sensor TM ofrece imágenes multibanda de 7 bandas con resolución de 30
metros, excepto en la banda del infrarrojo térmico, donde la resolución es
de 120 metros. Las imágenes tienen un tamaño de 185 × 172 km.
IKONOS [58]. Este satélite, lanzado en 1999, monta un sensor con reso-
lución de 1 metro para imágenes pancromáticas y 4 metros para imágenes
multibanda (4 bandas). Las imágenes cubren una área de 11 × 11 km y el
satélite tiene una resolución temporal de entre 3 y 5 días.
SPOT14 [59]. Un conjunto de satélites lanzados inicialmente por la agencia
espacial francesa, con especial énfasis en la recogida de información relativa a
variables ambientales. De los cinco puestos en órbita, dos siguen actualmente
en funcionamiento. El último de ellos, lanzado en 2002, monta el sensor
HRG con capacidad de producir imágenes pancromáticas con resolución
entre 2,5 y 5 metros, e imágenes multibanda con resolución de 10 metros.
El periodo de revisita es de entre 1 y 4 días. Es de destacar que el sensor
permite inclinaciones de hasta 27◦ respecto al nadir hacia ambos lados, por
lo que puede cubrir una banda más ancha y tomar imágenes fuera del área
determinada en cada instante por la órbita.
QuickBird. [60]. Ofrece imágenes en pancromático y multibanda (azul,
verde, rojo e infrarrojo cercano). Las primeras tiene una resolución de 60 cm
y las multibanda de 2,4 metros, aunque combinando las dos ofrece imágenes
en color con 60 cm de resolución. La órbita del satélite es heliosíncrona y
la resolución temporal varía entre los 3 y 7 días. Cada imagen cubre una
superficie de 16,5 × 16,5 km.
Aqua y Terra. Dos satélites lanzados por la NASA dentro de un proyecto
de ámbito internacional para la observación de la Tierra. Cada uno de ellos
monta una serie de diversos sensores, que recogen información relativa al
ciclo hidrológico (en el caso del Aqua) y la superficie terrestre (en el caso
del Terra). Entre estos sensores cabe destacar el MODIS, a bordo de ambos,
o el ASTER, a bordo del satélite Terra. ASTER 15 recoge información en
14 bandas distintas, con una resolución entre 15 y 90 metros, mientras que
MODIS16 es un satélite de menor resolución espacial (250, 500 o 1000 metros
según la banda ), 36 bandas y una resolucion temporal de 1 a 2 días.
Además de los datos directos de los sensores, se proporcionan de forma
12
Thematic Mapper
13
Multispectral Scanner
14
Satellite Pour l’ Observation de la Terre
15
Advanced Spaceborne Thermal Emission and Reflection Radiometer
16
Moderate Resolution Imaging Spectroradiometer
Fuentes principales de datos espaciales 139
gratuita numerosos productos derivados, lo que lo convierte en una fuente de
datos de primer orden para un gran número de aplicaciones, especialmente
las relacionadas con el estudio del medio, la vegetación, etc. En la dirección
Web [61] pueden obtenerse tanto datos originales como productos derivados.
NOAA–AVHRR17 . Se encuentra principalmente enfocado al estudio de
los océanos, aunque sus datos pueden aplicarse en muchos más estudios. El
sensor tiene una resolución de 1,1 km, y proporciona imágenes de 5 bandas
en las regiones del infrarrojo y el visible. La resolución temporal es de medio
día, produciendo una imagen nocturna y otra diurna.
RADARSAT. Desarrollado por la Agencia Espacial Canadiense, monta un
radar de apertura sintética (SAR), y su principal propósito es el control de las
variaciones ambientales y de los recursos naturales. Más información en [62].
ERS–1 y ERS–2. Desarrollados por la Agencia Espacial Europea. Al igual
que el anterior, ambos están pensados para la observación medioambiental,
y montan tanto sensores activos como pasivos. Más información en [63].
SRTM. La misión SRTM18 es un proyecto internacional de gran envergadu-
ra destinado a la creación de una cobertura de elevaciones a nivel mundial.
Utilizando sensores basados en radar montados sobre una lanzadera espacial,
se realizó un vuelo global de la superficie terrestre a lo largo de 11 días,
recogiendo el relieve de todas las zonas situadas entre los 56 grados sur y
los 60 grados norte de latitud. La resolución de los datos obtenidos es de un
segundo de arco (aproximadamente 30 metros), aunque solo se encuentran
disponibles para Estados Unidos, siendo de unos 90 metros en el resto de
zonas. Los datos SRTM se pueden descargar gratuitamente en [64]. Más
información sobre el proyecto puede encontrarse en [65].
6.5. Cartografía impresa. Digitalización
La primera fuente de cartografía de la que se disponía en las etapas iniciales de
los SIG era la cartografía impresa. No se trataba de elementos creados pensando
en su utilización dentro de un SIG y, de hecho, su estructura no es, como veremos,
la más adecuada para ser incorporados como datos de trabajo en un SIG. Se trata,
por tanto, de una clara fuente secundaria de datos espaciales. Aun así, esta fuente
era la fuente principal de información cartográfica disponible entonces, y su uso
ha sido desde esos tiempos una constante dentro del ámbito SIG.
A pesar de que hoy en día disponemos de otras fuentes cartográficas, la carto-
grafía impresa sigue siendo básica para trabajar con un SIG, ya que existe mucha
información que todavía solo se encuentra en este formato. De una u otra forma, es
17
Advanced Very High Resolution Radiometer
18
Shuttle Radar Topography Mission
140 Sistemas de Información Geográfica
probable que un proyecto SIG implique en algún punto de su desarrollo la necesidad
de recurrir a cartografía impresa y tratar esta para su inclusión dentro de un SIG.
Cuando hablamos de cartografía impresa, no hay que pensar únicamente en
mapas o planos, sino también en imágenes tales como fotografías aéreas, las cua-
les, dependiendo de su antigüedad, pueden encontrarse disponibles tan solo en
formato impreso, como hemos visto. Mientras que resulta posible adquirir estas
en formato digital cuando se trata de fotografías más actuales, la tomadas por
métodos analógicos correspondientes a vuelos más antiguos solo pueden adquirirse
por regla general como un producto impreso.
Los procesos que permiten obtener un producto digital a partir de esas imágenes
son costosos en tiempo y dinero, y es por ello que no todos los proveedores de
estas ofrecen la posibilidad de adquisición de un producto digital. En esta sección
veremos esos procesos, tanto si partimos de un mapa o plano como si partimos de
una imagen o cualquier otro documento impreso que pueda contener información
cartográfica, susceptible de ser convertida en una o varias capas según se requieren
para el trabajo en un SIG.
Ya conocemos los dos modelos de datos con los que trabajamos en un SIG: el
modelo ráster y el modelo vectorial. Tanto mapas como fotografías aéreas pueden
servir como fuente de información para crear o bien capas ráster o bien capas
vectoriales, ya que la información que contienen puede de igual modo representarse
según uno u otro modelo (debe recordarse que, como se mencionó en el capítulo
5, puede convertirse una capa ráster en vectorial y viceversa mediante algoritmos
que detallaremos más adelante en este libro).
Un mapa o plano sobre un soporte impreso, sin embargo, dista considerable-
mente de ese concepto de capa con el que trabajamos en un SIG. Suele contener
información sobre distintas variables, tales como carreteras, elevación, núcleos ur-
banos, uso de suelo, y todas ellas en un único elemento cartográfico. Esas variables,
que en un SIG manejaríamos como capas independientes, se presentan como un
conjunto que, según el uso que queramos darle, va a ser mucho más conveniente
disgregar en base a esas distintas variables.
Si pensamos en una fotografía aérea, esta puede considerarse como una simple
imagen dentro de un SIG, y como vimos en el capítulo 5, las imágenes se adaptan al
modelo de representación ráster. Por otra parte, en esa imagen existirán elementos
tales como carreteras, ríos o árboles, los cuales se representan mejor según el modelo
vectorial. En función de qué información nos interese tener dentro de un SIG o
el modelo de representación preferente que queramos manejar, las operaciones que
debemos llevar a cabo serán unas u otras.
Este conjunto de operaciones posibles se conocen como de digitalización, y en
función de la forma en que se desarrollen podemos distinguir los siguientes tipos:
Digitalización automática
Digitalización manual
En la digitalización automática, el sistema (informático o mecánico) se en-
Fuentes principales de datos espaciales 141
carga de generar los elementos digitales que ya podremos incorporar a un SIG,
ahorrando trabajo al operador al automatizar la tarea. Este tipo de digitalización
es muy habitual para el caso de obtener un resultado ráster mediante el proceso
de escaneo. También resulta posible automatizar la digitalización para el caso
vectorial, aunque requiere cierta labor por parte del operario y no es un proceso
tan sencillo, pudiendo obtenerse resultados desiguales.
La digitalización manual requiere por parte del operario una definición explí-
cita de los elementos a crear, y es por ello únicamente adecuada para obtener un
resultado vectorial, trazándose las entidades (sean estas puntos, líneas o polígonos)
manualmente mediante algún sistema que permita esa introducción de datos.
La elección de uno u otro tipo de digitalización no depende solo del tipo de
capa que se desee obtener. Tanto la digitalización manual como la automática,
tienen cada una de ellas su propias ventajas. En el caso ráster la opción manual
no es viable, pero al digitalizar un mapa para obtener una capa vectorial puede
ser interesante optar por una o otra metodología en función de las circunstancias.
La digitalización manual es mucho más costosa y su resultado es muy variable
en cuanto a su precisión espacial, ya que depende en gran medida de la experiencia
del operario y de las condiciones de este (cansancio, circunstancias personales,
etc.). Por el contrario, e independientemente del operario, el reconocimiento de
las entidades es altamente fiable (si se trata de un mapa, este ha sido diseñado
para ser interpretado por una persona, por lo que esta reconocerá sus elementos
sin dificultad y con total fiabilidad).
Asimismo, un proceso automático, en caso de proceder de forma correcta,
tendrá una exactitud absoluta y «clonará» con absoluta fidelidad los elementos del
mapa impreso. Esto resulta una ventaja a la hora de obtener una gran precisión,
pero impide que en el proceso de digitalización se puedan corregir errores existentes
en el documento original. Un operario puede advertir esos errores y corregirlos
a medida que digitaliza. Un sistema automático, por el contrario, no puede.
6.5.1. Digitalización manual
La digitalización manual es la forma más básica de crear información digital
a partir de un documento cartográfico impreso. Un operario trabaja directamente
sobre la fuente cartográfica y su trabajo se traduce en la creación de una nueva
capa, gracias a la utilización de un equipo que es capaz de convertir su trabajo
en la información necesaria para crear dicha capa.
En el modelo de representación ráster, los elementos básicos son las celdas, que
forman una malla regular que puede presentar un numero muy elevado de estas.
Una definición manual de las características de cada una de esas celdas resulta
inviable, por lo que la digitalización de un documento cartográfico impreso para
la obtención de una capa ráster a partir de ella de forma manual no es factible.
Por el contrario, se puede realizar con cierta sencillez la digitalización de una en-
142 Sistemas de Información Geográfica
tidad vectorial, trazando la forma de esta o, en caso de ser una entidad de tipo punto,
sencillamente indicando su localización. Cuando el número de entidades es elevado,
el proceso puede llevar tiempo y ser tedioso, pero en todo caso sigue resultando una
forma sencilla y accesible de crear una capa vectorial a partir de otra fuente de datos.
Para llevar a cabo ese trazado de la entidad, se necesita emplear algún equipo
que recoja la información introducida por el operador. Existen dos alternativas
principales: utilizar un equipo especializado diseñado específicamente para la
digitalización, o bien digitalizar utilizando las funciones de edición de un GIS,
realizando todo el proceso dentro de este y sin más herramientas que el propio
ordenador y un dispositivo señalador como el ratón.
Con equipo especializado (heads–down)
La forma tradicional de proceder a la digitalización manual de entidades es utili-
zando equipos y periféricos expresamente diseñados para llevar a cabo esta tarea. La
tableta digitalizadora (Figura 6.8) es la herramienta fundamental para este trabajo.
Figura 6.8: Esquema de una tableta digitalizadora y los elementos del proceso de
digitalización.
Se trata de una superficie plana a modo de atril, sobre la cual se sitúa el docu-
mento cartográfico a digitalizar, y sobre este se van trazando las distintas entidades
con un cursor. Este cursor registra los movimientos del operario, convirtiendo las
posiciones del cursos en coordenadas reales, que son las que van a constituir la
entidad digitalizada. El trabajo del operario consiste en seguir con el cursor las
formas de las distintas entidades, como si las estuviera calcando, de modo que
indique al sistema las geometrías que se quieren definir.
El proceso de digitalización implica los siguientes pasos [15]:
Fuentes principales de datos espaciales 143
Registro. La etapa fundamental del proceso, que garantiza que las coorde-
nadas de las entidades digitalizadas sean correctas. El mapa se ha de adherir
a la tableta de modo firme, normalmente con cinta adhesiva u otro medio
similar, y señalar en él unos puntos de control de coordenadas conocidas. Será
en base a estos como se calcularan las restantes coordenadas de las entidades
que el operario defina mediante el cursor. Habitualmente se utilizan como
puntos de control las esquinas y algún punto central del mapa. Es importante
que en el proceso de registro el mapa no presente dobleces o deterioros que
puedan inducir errores en el cálculo de coordenadas posteriores.
Digitalización. De entidades puntuales, lineales y poligonales.
Asignación de atributos. A cada una de las entidades digitalizadas se le
añaden sus correspondientes propiedades. Este paso no se realiza ya con la
tableta digitalizadora. En el caso más general, estos atributos se introducen
manualmente con el teclado o se toman, por ejemplo, de una base de datos.
Un caso particular, no obstante, es el de la digitalización de curvas de nivel.
Una vez que estas han sido digitalizadas, no es necesario asignar valores
individualmente a cada una de las lineas, ya que entre ellas existe una relación
que puede aprovecharse para simplificar el establecimiento de una cota
correspondiente a cada una. Estableciendo la elevación de una y la dirección
en que la elevación aumenta, pueden sistemáticamente asignarse elevaciones
a las curvas que aparecen según se avanza en dicha dirección. Los SIG más
populares presentan habitualmente herramientas que facilitan este proceso.
Esta forma de digitalizar se conoce como «cabeza abajo» (heads–down), en
referencia a la posición del operario a la hora de trabajar sobre la tableta.
Se distinguen dos formas principales de registro de puntos:
Manual. El usuario debe ir marcando uno por uno todos los puntos que
desee incorporar a la entidad digitalizada. Por ejemplo, para el caso de
una línea, debe ir deteniendo el ratón regularmente en aquellos puntos que
considere de interés, y sobre ellos pulsando los botones del cursor para indicar
al sistema que ha de registrar dichos puntos.
Semiautomática. El operario simplemente desliza el cursor definiendo la
forma de los entidades, y el propio sistema se encarga de almacenar puntos
regularmente según un intervalo de tiempo definido. Esto permite un ahorro
de tiempo considerable y una correcta densidad de puntos recogidos para
cada entidad.
Las tabletas digitalizadoras son elementos caros, motivo por el cual se tiende a
favorecer en la actualidad la digitalización en pantalla, que presenta además otra
serie de ventajas adicionales, como seguidamente veremos.
144 Sistemas de Información Geográfica
En pantalla (heads–up)
La otra forma de digitalizar elementos es utilizando las capacidades de edición
de un SIG. Estas capacidades son heredadas de las aplicaciones de diseño asistido
por ordenador (CAD), y permiten «dibujar» en la pantalla del ordenador entidades
y formas tales como los puntos, líneas y rectas que constituyen los objetos en el
modelo de representación vectorial.
En este proceso se parte igualmente de un capa base, generalmente una ima-
gen, y basándose en ella se van definiendo los objetos, «dibujándolos» sobre la
pantalla, una vez más como si se calcara aquello que puede visualizarse en dicha
imagen. El hecho de que un SIG nos permita tener varias capas simultáneamente
y visualizarlas a voluntad, facilita el proceso de digitalización. También lo facilita
el poder tener varias imágenes sobre el fondo (cada una de ellas como una capa
individual), de modo que podemos cubrir un área más amplia que la de una simple
hoja de mapa o una única imagen.
En este proceso, no partimos en realidad de un documento cartográfico analógi-
co, pues ya ha sido necesario digitalizarlo de alguna forma para incorporarlo en un
SIG. El proceso es una digitalización de las entidades como tales, pero la informa-
ción ya ha de estar en formato digital, aunque no en el modelo de representación
vectorial, sino en el modelo ráster. Por ello, puede utilizarse como capa de partida
una imagen originalmente en formato digital o bien una imagen originalmente en
formato impreso. En este ultimo caso, la imagen ha debido digitalizarse previamente
mediante un proceso de escaneo, el cual se tratará en la siguiente sección.
En la figura 6.9 puede verse un ejemplo de la digitalización de una imagen en
pantalla.
Figura 6.9: Digitalización en pantalla. En rojo, polígono ya digitalizado. Las lineas rojas
indican un nuevo polígono, actualmente en edición
En la figura, sobre una imagen aérea en color se digitalizan las distintas parcelas
que pueden distinguirse en esta. Del mismo modo, pueden digitalizarse curvas
de nivel en un mapa escaneado, u otras entidades tales como ríos, lagos o vías de
comunicación sobre una fotografía aérea, entre muchas otras. La digitalización en
Fuentes principales de datos espaciales 145
pantalla puede incluso utilizarse teniendo como base no una imagen, sino capas de
cartografía vectorial o cualquier capa de datos que aporte algún tipo de información
que pueda delinearse con las mismas herramientas de edición.
La digitalización en pantalla se conoce también como digitalización «cabeza
arriba» (heads–up), ya que el operador centra su atención en la pantalla, con una
postura bien distinta a la que se tiene al trabajar con una tableta digitalizadora.
Frente a dicho trabajo con tableta digitalizadora, la digitalización en pantalla
tiene las siguientes ventajas:
Menor coste. No se requiere equipo especializado de alto coste, ya que
basta con un ordenador personal.
Posibilidad de dividir el trabajo. Cuando se trabaja con un mapa so-
bre una tableta digitalizadora, este mapa no puede ser utilizado por otro
operario. Sin embargo, el uso de una capa digital dentro de un SIG como
base para la digitalización, permite que varios operarios trabajen con ella
simultáneamente y se repartan el trabajo.
Posibilidad de corrección y edición precisa. Las mismas capacidades
que se usan para trazar las distintas entidades puede emplearse para corregir
o modificar estas una vez que estas ya han sido digitalizadas (Figura 6.10),
resultando esto en un proceso de digitalización más flexible.
Posibilidad de ampliación. Para cartografías de baja calidad, puede ser di-
fícil obtener precisión si se trabaja directamente sobre el mapa, así como si los
elementos a digitalizar son pequeños, requiriéndose del operador un esfuerzo
visual adicional. Las capacidades que tiene todo SIG para ampliar una imagen
(zoom) permiten superar esta dificultad y trabajar a distintas escalas según la
precisión del trabajo a realizar o las características de los objetos digitalizados.
Mayor precisión. La capacidad de resolución del ojo humano es mucho
menor que la resolución de las imágenes (véase más adelante el apartado
6.5.5). Esto, unido a lo mencionado en el punto anterior, permite aprovechar
mejor la información de la fuente original, y que los resultados obtenidos en
la digitalización de esta sean más fieles a ella.
Mayor comodidad para el operario. La postura del operario es más
adecuada cuando se digitaliza sobre la pantalla, permitiendo unas mejores
condiciones. Esto que se traduce en menor cansancio y ello indirectamente
comporta resultados más precisos.
Para conocer con más detalle las capacidades básicas de edición de un SIG,
así como las restantes capacidades que contribuyen a su vez a facilitar la labor de
edición, consúltese el capitulo 22.
6.5.2. Digitalización automática
La digitalización automática limita el trabajo del operario, ya que este no es
responsable directo de definir las propiedades de los elementos que se digitalizan.
146 Sistemas de Información Geográfica
Figura 6.10: Corrección de entidades con las funciones de edición de un SIG. El polígono
de la derecha se encuentra en edición, siendo modificado uno de sus vértices.
Este tipo de digitalización es la habitual en el caso de generar una capa ráster, aun-
que también pueden obtenerse capas vectoriales procesando de modo automático
cartografía impresa.
Este segundo caso, no obstante, requiere una cartografía en condiciones espe-
ciales, no siendo adecuada para todo tipo de mapas. En caso de no presentarse
esas condiciones, los resultados de la digitalización no son óptimos, y requieren
posteriormente un gran trabajo de corrección y supervisión.
Escaneo
El escaneo es el proceso de digitalización que convierte una imagen impresa
(analógica) en una imagen digital [48]. El resultado de este proceso es, por tanto, y
desde el punto de vista de un SIG, una capa ráster. Pueden escanearse tanto mapas
como fotografías aéreas, operando en ambos casos de un modo similar y con las mis-
mas consideraciones, pues el objeto del proceso es el mismo: la conversión del docu-
mento impreso en un documento digital que pueda utilizarse dentro de un SIG o cual-
quier otro software tal como, por ejemplo, un software de tratamiento de imágenes.
El dispositivo fundamental para realizar este proceso es el escáner. Este se
compone de una cabeza sobre la que se monta un sensor, y un soporte sobre el
que se desplaza o bien la cabeza o bien el documento a escanear, de tal modo
que durante el proceso de escaneo esta recorre todo el documento, recogiendo la
información de toda su extensión.
Este proceso de barrido se realiza en una única ocasión, aunque dispositivos
más antiguos pueden hacerlo en tres ocasiones a la hora de escanear documentos
en color. Aunque lo habitual es la creación de una imagen en color, también pueden
obtenerse imágenes en blanco y negro o en escala de grises.
Aunque existen escáneres específicamente diseñados para el trabajo con docu-
mentos cartográficos, estos son dispositivos muy especializados y de muy elevado
coste. Los escáneres más genéricos, pensados para el trabajo con todo tipo de
Fuentes principales de datos espaciales 147
imágenes y para todo tipo de usos, pueden no obstante emplearse de igual mo-
do para escanear tanto mapas como imágenes aéreas con resultados aceptables,
utilizándose con frecuencia.
Existen tres tipos principales de escáneres:
De sobremesa (flat–bed). Los habituales para el uso doméstico o el escaneo
de imágenes de pequeño formato, aunque también existen de mayor tamaño.
El documento a escanear se sitúa sobre una placa de cristal bajo la que se
desplaza la cabeza con el sensor. Puede verse uno de estos escáneres en la
figura 6.11.
De tambor. El mapa se sitúa sobre un tambor que rota, mientras que la
cabeza se mantiene fija. La figura 6.12 muestro uno de estos escáneres.
Alimentados. El sensor se mantiene fijo y el documento se desplaza me-
diante un mecanismo de arrastre, de forma similar a como avanza el papel
en una impresora doméstica. Salvo que dispongan de mecanismos específicos
para corregir esta circunstancia, suelen presentar importantes distorsiones
geométricas causadas por un desplazamiento impreciso del papel.
Figura 6.11: Escáner de sobremesa (tomado de Wikipedia)
Los parámetros básicos que definen las características de un escáner son la
resolución espacial y la resolución radiométrica. La primera de estas de mide
habitualmente en puntos por pulgada 19 y nos indica el número de puntos (celdas)
que el sensor es capaz de tomar por cada unidad de longitud sobre el papel. La
resolución radiométrica, por su parte, indica la capacidad del sensor para distinguir
entre dos colores distintos.
A la hora de trabajar con documentos cartográficos de cara a su posterior utili-
zación en un SIG, tanto la resolución espacial como la radiométrica de los escáneres
habituales es en general más que suficiente, incluso en ocasiones en aquellos de uso
doméstico. No obstante, es habitual que se presenten distorsiones geométricas que
suponen un problema importante a la hora de mantener la precisión cartográfica,
19
Dots per inch(dpi)
148 Sistemas de Información Geográfica
Figura 6.12: Escáner de tambor (fotografía: Stefan Kuehn)
y ello exige la utilización de equipos de mayor calidad si se requiere un resultado
de alta precisión. Estos equipos no han de ser necesariamente de aquellos pensados
para el trabajo con cartografía, sino que pueden ser de uso genérico, siempre, eso
sí, que sean de la calidad necesaria.
La velocidad del escáner es otro parámetro importante, pues la preparación
de una base de datos cartográfica a partir de cartografía analógica puede llevar
un tiempo considerable si el volumen de datos es elevado, ya que el proceso de
escaneo es laborioso y requiere de cierto tiempo. El rendimiento del escáner y la
velocidad a la que puede digitalizar una imagen dada está en relación directa con
la resolución espacial. Un escáner posee una resolución nominal (en dpi), que es la
resolución máxima a la que puede trabajar (el detalle máximo que puede recoger).
No obstante, puede ajustarse la resolución de trabajo en función de las necesidades,
y una resolución mayor siempre lleva asociado un tiempo de proceso mayor, ya que el
volumen de información generado es mayor, así como el detalle que ha de registrarse.
Para cada documento existe una resolución óptima de escaneo en función de
las características de este. Esta resolución debe elegirse teniendo en cuenta que
el volumen de datos aumenta a medida que empleamos una mayor resolución, bus-
cando un equilibrio adecuado entre ese volumen de datos resultante y la cantidad
de información que recogemos. Asimismo, se ha considerar igualmente el tiempo
necesario para escanear el documento, tal como se dijo anteriormente.
El parámetro base es la relación entre el tamaño de píxel (la longitud real
que representa el ancho de un píxel sobre el terreno) y el tamaño de este píxel
en la imagen (lo que mide esa longitud en el mapa). Las resoluciones habituales
utilizadas para el escaneo de fotografías aéreas varían entre los 100 dpi (≈ 250µm
cada punto sobre el mapa) y 2500 dpi ((≈ 10µm cada punto sobre el mapa) [66].
Por ejemplo para una resolución de 300 dpi, se tiene:
Fuentes principales de datos espaciales 149
300filas
300dpi = = 118,11filas/cm de mapa (6.5.1)
2,54cm de mapa
En un centímetro cuadrado se tienen 118,112 ≈ 13950 puntos.
Si trabajamos, por ejemplo, con un mapa a una escala 1:50000, tenemos que
la distancia real que representa el alto de cada fila es
50000cm
= 4,24metros/fila (6.5.2)
118,11filas
Es decir, cada píxel del mapa representa sobre el terreno un cuadrado de lado
4,24 metros.
Con cálculos similares podemos calcular para cada posible resolución el espacio
real que representa, y elegir esta en función del detalle que necesitemos. Como
regla general, debe tratar de trabajarse con una resolución que garantice que los
objetos que resultan de interés de la imagen (por ejemplo, aquellos que van a
digitalizarse después manualmente mediante una digitalización en pantalla con
esa imagen) sean distinguibles con claridad.
En el caso de imágenes aéreas, la resolución de estas medida en pares de lineas
por milímetro puede ser superior y permitir escanear a mayor resolución, aunque
ello no es estrictamente necesario, y debe una vez más buscarse el equilibrio entre
las ventajas y los inconvenientes de trabajar con una resolución más elevada.
En [66] puede encontrarse información más detallada sobre la elección de una
resolución óptima en el escaneo de imágenes aéreas.
Para el caso de mapas, no deben olvidarse los fundamentos cartográficos en
base a los cuales se ha creado dicho mapa, que fueron detallados en el capítulo 3.
Trabajando con una resolución más elevada no hace necesariamente que estemos
incorporando más información, ya que esta puede no existir en el mapa original.
Tendríamos un volumen de datos más elevado que el necesario para recoger toda
la información del mapa.
Una diferencia fundamental entre escanear una hoja de un mapa y una imagen
aérea es la diferencia de tamaño. Los mapas suelen tener tamaños mucho mayores
que los de un escáner común, lo cual obliga a utilizar equipos de gran formato o,
en la mayoría de los casos, contratar servicios de escaneo especializados, ya que
estos equipos tiene un coste muy elevado.
Una solución distinta en el caso de mapas de gran tamaño es el escaneo de la hoja
por partes y la posterior unión de las distintas partes. En este caso, es necesario ase-
gurarse de que las partes son coherentes entre sí en lo que respecta a las condiciones
bajo las que se realiza el escaneo, así como garantizar que las distintas partes se sola-
pan para que no existan zonas sin datos en la imagen resultante. Además de esto, el
solape facilita la localización de puntos comunes presentes entre partes contiguas, lo
que ayuda en la composición de todas las partes para dar lugar al resultado global.
150 Sistemas de Información Geográfica
Otra diferencia entre trabajar con mapas e imágenes es la relativa al tipo de
soporte. En el caso de mapas, el documento original se encuentra siempre impreso
en papel. En el caso de fotografías aéreas puede presentarse tanto en papel como
en diapositiva. Los escáneres están preparados para capturar la imagen tanto por
reflexión (cuando se trabaja con un documento en papel) como por transmisión
(cuando se trabaja con una diapositiva o cualquier otro soporte transparente), por
lo que ambos tipos de fuentes pueden utilizarse indistintamente para generar una
imagen digital, siendo esta diferencia menos relevante a efectos prácticos.
Por último, un aspecto clave en el escaneo de cartografía es la asignación de
coordenadas a la capa resultante. Cuando utilizamos una tableta digitalizadora,
debemos definir los puntos de control, que son los que establecen la referencia
geográfica en base a la cual se calculan las coordenadas de los elementos que
digitalizamos con el cursor. En el caso de escanear un mapa o una fotografía aérea,
esa información está presente en el mapa en forma de marcas fiduciales o una
retícula con coordenadas impresas, pero no se digitaliza como tal.
Si simplemente escaneamos el documento, se digitaliza la marca fiducial o la
etiqueta que indica las coordenadas, pero tan solo como una imagen, y no como un
dato aprovechable por el SIG para otras tareas. En esta imagen, un operador puede
ver las coordenadas de un punto, pero si realizamos un proceso de digitalización
vectorial en pantalla utilizando esa imagen, el SIG no tiene forma de calcular las
coordenadas de los puntos que introducimos, pues carece de una referencia.
Para que una imagen procedente del escaneo de un documento impreso tenga
plena validez y utilidad dentro de un SIG, es necesario añadirle información sobre
la localización en el espacio del área representada en dicho documento. Este proceso
se denomina georreferenciación.
La georreferenciación es un proceso tratado dentro de este libro en el apartado
16.2.1, puesto que no es puramente un proceso que forme parte de la adquisición
de datos, sino un tratamiento a aplicar una vez que el proceso de digitalización ha
sido realizado. No obstante, es necesario recalcar de nuevo la importancia vital de
este proceso, ya que sin él no resulta posible aprovechar el resultado del escaneo
dentro de un SIG.
Vectorización automática
La vectorización automática es un proceso completamente distinto al de es-
caneo, y no es tan habitual en el ámbito de los SIG, principalmente debido a la
mayor dificultad que entraña. Como resultado de este proceso, se obtiene una capa
vectorial, pero, a diferencia de la vectorización manual, el operario no tiene que
señalar los puntos de estas o trazar los contornos de las entidades.
Existen distintos procesos de vectorización automática, entre los que distin-
guiremos los siguientes:
Fuentes principales de datos espaciales 151
Vectorización en base a una imagen digital, por reconocimiento de entidades
en un software apropiado.
Vectorización mediante dispositivos específicos que trabajan sobre un do-
cumento analógico.
En el primer caso, partimos de una imagen digital, que puede proceder o no de un
proceso de escaneo. Sobre esta imagen se aplican algoritmos que identifican de modo
automático las distintas entidades y crean los correspondientes objetos vectoriales.
El mayor inconveniente de esta técnica es que requiere que la imagen tenga
unas condiciones especiales, pues de otro modo es difícil que esos algoritmos de
identificación den resultados correctos. En ocasiones pueden crear entidades donde
estas no existen o bien ignorar algunas por no ser capaces de detectarlas, así como
crear entidades de forma y tamaño incorrectos. El trabajo de digitalización por
parte del operario desaparece, pero es necesario un trabajo posterior de compro-
bación y corrección, que en función de las características de la imagen de partida
puede ser importante.
Esta forma de vectorización automática es, al igual que la georreferenciación,
un proceso a llevar a cabo sobre la imagen. Por esta razón, no se trata en este
capítulo sino en el capítulo 16 dedicado al tratamiento de imágenes. Igualmente,
el capítulo 17, dedicado a la conversión entre capas ráster y vectoriales, incluye in-
formación acerca de procesos de vectorización automática, con particular atención
a la conversión de un mapa escaneado en una capa vectorial de curvas de nivel.
La otra forma de digitalización es totalmente diferente y no se realiza en el
ordenador, sino en un periférico externo a este, tal como una tableta digitalizadora
o un escáner. El dispositivo en cuestión es más similar a un escáner que a una
tableta digitalizadora, pero su comportamiento imita al de un operario trabajando
sobre esta última.
Para ello, dispone de sensores luminosos y de láser que buscan las líneas en
la imagen y las recorren, almacenando las coordenadas por las que han pasado en
el recorrido. De este modo, se genera un resultado vectorial en lugar de uno ráster.
El barrido de la imagen no es sistemático como el de un escáner, sino que «sigue»
las líneas que están presentes en la imagen, y que son las que van a digitalizarse.
Al igual que con la digitalización automática, las condiciones de la imagen de
partida son básicas para obtener resultados de calidad. En un mapa, por ejemplo,
las líneas habitualmente se ven interrumpidas por etiquetas (por ejemplo, para
indicar la altura de una curva de nivel), o bien se dibujan en trazo punteado, o
bien puede aparecer alguna mancha sobre ellas. Este tipo de elementos dificultan
o incluso imposibilitan el correcto funcionamiento del dispositivo, ya que este no
puede seguir las líneas adecuadamente, obteniéndose resultados de poca calidad.
152 Sistemas de Información Geográfica
6.5.3. Digitalización o creación de capas a partir de coordenadas.
Geocodificación
Junto a las formas de digitalización que acabamos de ver, existe una forma aún
más básica: la digitalización directa de valores y coordenadas, sin necesidad alguna
de dispositivos especializados o elementos gráficos. En este tipo de digitalización
no existe un mapa o documento cartográfico, sino simplemente una serie de datos
espaciales expresados de forma alfanumérica que son susceptibles de convertirse
en una capa y emplearse así dentro de un SIG.
Este proceso se conoce como geocodificación [67] e implica la asignación de
coordenadas a puntos de interés, los cuales pueden ser de naturaleza muy variada.
Asimismo, la procedencia de estos datos también puede ser muy variada, y en
general muchas formas de trabajo en campo dan lugar a datos que, aún no estando
originalmente dispuestos sobre mapas, sí que pueden emplearse como base para
la creación de capas. Algunos ejemplos son los siguientes:
Muestreos de campo tales como la medición de parcelas en un inventario fores-
tal. Cada parcela tiene una coordenada correspondiente a su centro, y los árbo-
les medidos se referencian con un rumbo y una dirección en base a ese centro.
Calicatas para análisis de suelo
Levantamientos topográficos con instrumentación tanto analógica como
digital. Existe un conjunto de instrucciones y procedimientos denominado
COGO (COordinate GeOmetry), que facilita el trabajo con datos en forma de
distancias y ángulos, de forma que las mediciones efectuadas a lo largo de un
recorrido empleando un equipo tal como una estación total, un teodolito o un
nivel con una mira, todos ellos pueden posteriormente convertirse con sencillez
a coordenadas mediante la incorporación al SIG de ese conjunto de valores.
Coordenadas en las que han sucedido algún tipo de sucesos. Por ejemplo, la
geocodificación de localizaciones en las que han tenido lugar sucesos crimina-
les permite posteriormente el análisis de su distribución y el establecimiento
de políticas de seguridad más acordes con el escenario real.
Coordenadas de cierto tipo particular de elementos, tales como elementos
arquitectónicos, árboles singulares, paradas de autobús. Estas permiten la
localización rápida de estos y una fácil catalogación, además de, en cone-
xión con otras capas, cálculos como, por ejemplo, la forma más rápida de
desplazamiento hasta uno de ellos.
Coordenadas correspondientes a otras formas de codificación espacial. Sis-
temas de localización espacial tales como códigos postales o, por ejemplo,
los sistemas de indexación espacial CGDG o c-squares [68], pueden todos
ellos vincularse a coordenadas geográficas, de tal modo que a cada uno de
los códigos de estos sistemas se le asigne una de tales coordenadas.
En la actualidad, Internet está viendo aparecer tendencias relacionadas con
la asignación de una localización geográfica a muchos de sus elementos. Así,
Fuentes principales de datos espaciales 153
puede añadirse a una página Web información sobre el emplazamiento donde
ha sido creada, o añadirla a una fotografía digital que forme parte de un
álbum alojado en otra Web. Los datos con los que trabajamos en la Web
(textos, imágenes, etc.) llevan asociados a su vez otros datos (metadatos)
con información sobre su localización. El proceso de añadir estos metadatos
se conoce como geotagging.
Todos estos datos presentan en común que, recogidos de un modo u otro,
conforman un conjunto de coordenadas puntuales que habitualmente sirven para
el trabajo fuera de un SIG y no llegan a incorporarse a este, o que al menos no
están dispuestos en la forma habitual de capa con la que trabajamos en un SIG.
En el caso de encontrarse en formato analógico, estos datos pueden digitalizarse
mediante la simple introducción manual de coordenadas a través del teclado o
bien mediante algún sistema más específico como el escaneo del documento y el
empleo de algún software de reconocimiento de caracteres (OCR)20 .
En el caso de encontrarse ya en formato digital, estos datos pueden presentarse
como tablas en una hoja de cálculo, datos asociados a otro dato de cualquier tipo
(como en el caso del geotagging) o incluso simples archivo de texto. Muchos SIG
incorporan métodos para leer estos archivos y después utilizar las coordenadas
que contienen con el fin de crear una nueva capa, en general de puntos.
Un caso particular de la creación de puntos con coordenadas es la asignación
de direcciones dentro de núcleos urbanos, tales como direcciones postales o códigos
postales. Estas direcciones son de especial importancia en el desarrollo de activida-
des dentro del entorno urbano, ya que es más habitual referirse al emplazamiento de
un determinado elemento (por ejemplo, un comercio), en términos de su dirección
postal que en coordenadas espaciales tales como las que se manejan en un SIG.
La geocodificación de estos elementos implica establecer una coordenada
geográfica correspondiente a cada dirección postal. Al realizar este proceso, es
frecuente la interpolación de las coordenadas en las que se sitúan los distintas direc-
ciones de una misma calle, ahorrando así esfuerzos. Mediante esta forma de operar,
conociendo los números de los portales en ciertos puntos (habitualmente en cruces
o números de portal múltiplos de un valor dado) se pueden asignar coordenadas
a los restantes portales si se asume que estos se distribuyen de forma homogénea
a lo largo de un tramo de calle, aplicando sencillos métodos de interpolación. La
figura 6.13 muestra un ejemplo de ello.
Esta práctica, no obstante, no es del todo precisa, ya que asume que los edificios
se encuentran equiespaciados, y por tanto son del mismo tamaño todos ellos, lo cual
no sucede en la práctica. Además de ello, el proceso presenta otras consideraciones
particulares, tales como el hecho de que no en todos los países se sigue un mismo
sistema de asignación de direcciones postales, teniendo cada uno el suyo propio,
que puede diferir en mayor o menor medida de lo que podría considerarse un
20
Optical Character Recognition
154 Sistemas de Información Geográfica
20 22 24 26 28 30
Figura 6.13: Interpolación de direcciones. En azul, direcciones conocidas. En rojo,
direcciones interpoladas.
sistema estándar. El supuesto habitual en que las direcciones pares se sitúan a un
lado de la calle y las impares al lado contrario no resulta siempre cierto.
Otro aspecto a tener en cuenta es que el edificio señalado con una dirección dada
se identifica con una coordenada puntual, pero realmente ocupa una superficie
[69]. Si esta es grande, puede presentar incluso varios puntos de acceso al mismo (o
incluso accesos por varias calles distintas), con lo que la información que se recoge
al geocodificar dicho edificio puede ser imprecisa e insuficiente.
Por todo ello, la interpolación de direcciones permite una aproximación válida
para muchos usos, pero en aquellos casos en los que se requiera más precisión no
pueden emplearse estas direcciones con total seguridad, ya que la exactitud de las
coordenadas asociadas por el proceso de interpolación puede variar notablemente
según sea la propia configuración de los distintos edificios.
6.5.4. Fotogrametría
Un caso particular de digitalización lo encontramos en la fotogrametría. En la
definición clásica de [70], esta se define como la técnica para estudiar y definir con
precisión la forma, dimensiones y posición en el espacio de un objeto cualquiera,
utilizando medidas realizadas sobre una o varias fotografías. Esta definición no
limita el alcance de la fotogrametría al ámbito de lo geográfico, y se utilizan sus
principios en campos tales como la arqueología o la documentación de obras y
monumentos, empleando para ello fotografías no aéreas, sino terrestres. Es la deno-
minada fotogrametría terrestre. No obstante, la rama de interés para este libro es la
de la fotogrametría aérea, cuya base de trabajo tradicional son las fotografías aéreas.
Esta clase de fotogrametría viene, pues, ligada íntimamente a los inicios de
la teledetección, cuando los sensores modernos que hemos estudiado antes en este
mismo capítulo no se habían desarrollado, y los existentes (básicamente cámaras
fotográficas especialmente adaptadas a la toma de fotografías de tipo cartográfico)
se montaban a bordo de aviones. Es por esta razón que tradicionalmente existe una
conexión indudable entre ambas materias, no existiendo una frontera clara entre
Fuentes principales de datos espaciales 155
ambas, y se consideran en ocasiones como términos idénticos que hacen referencia
la disciplina global de obtención de imágenes y tratamiento de estas.
Históricamente, el término teledetección aparece con posterioridad, una vez
que las técnicas de toma de imágenes avanzan y dan un gran salto cualitativo
con la aparición de las imágenes satelitales y los sensores electro–ópticos que ya
conocemos. Algunos autores engloban la fotogrametría dentro de la teledetección,
mientras que otros se refieren con el termino teledetección a las tecnologías más
actuales y las consideran disciplinas distintas aunque muy relacionadas. Junto
con la fotogrametria aérea aparece la fotogrametría espacial, encargada de operar
sobre imágenes de satélite bajo unos principios similares.
Dentro de este libro entenderemos por teledetección todo el conjunto de téc-
nicas y operaciones de obtención de imágenes (que ya conocemos), así como las
de tratamiento y posterior extracción de resultados a partir de estas (que iremos
viendo en otros capítulos), obteniéndose estos resultados sin necesidad de estable-
cer contactos con los objetos a estudiar, como corresponde a la definición dada en
el apartado correspondiente. Dentro de ese conjunto de operaciones que nos llevan
desde las imágenes a los resultados, entendemos como parte de la fotogrametría
aquellas que tienen relación con la acepción original del término, es decir, aquellas
que derivan de la medición de elementos.
La denominación, no obstante, no es tan relevante, y sí lo es sin embargo
comprender la importancia de ambas, particularmente dentro de este capítulo
como técnicas de producción cartográfica.
En lo que respecta a la fotogrametría, el proceso de restitución es el que interesa
principalmente para el contenido de este capítulo, pues ofrece como resultado nue-
vas capas de datos tanto bidimensionales como, especialmente, tridimensionales.
Así, pueden obtenerse tanto las capas vectoriales digitalizadas que veíamos por
ejemplo en el apartado 6.5.1, como directamente Modelos Digitales de Elevaciones
a partir de imágenes.
En realidad, los procesos de digitalización que ya hemos visto son también
parte de la fotogrametría digital, y es habitual encontrarlos en los textos al uso
sobre esta. También lo son los procesos de rectificación que se han citado en su
momento, y que analizaremos en detalle más adelante en el capítulo 16. Como
puedes ver, todas las técnicas están sumamente relacionadas, y las divisiones que
hacemos pueden ser unas u otras en función del enfoque que se dé para su estudio
Todas estas operaciones se llevan a cabo con una estación fotogramétrica, que
comprende las herramientas necesarias para llevar estas a cabo (algunas, como
los escáneres, ya las conocemos). En función del tipo de herramientas y técnicas
distinguimos los siguientes tipos de fotogrametría, que representan a su vez la
evolución de la disciplina.
Fotogrametría analógica. Basada en mediciones y procedimientos sobre
imágenes analógicas
156 Sistemas de Información Geográfica
Fotogrametría analítica. Basada en formulaciones matemáticas y técnicas
computacionales, permite obtener grandes precisiones.
Fotogrametría digital. Basada en el trabajo con imágenes digitales dentro
de un entorno computerizado.
El interés principal desde el punto de vista de los SIG es en la fotogrametría
digital, ya que existe una gran relación entre estos y las aplicaciones empleadas en
dicho tipo de fotogrametría. Es en esta en la que pueden englobarse los procesos
de digitalización que ya hemos visto, y no en las restantes formas más antiguas de
fotogrametría. En la fotogrametría digital, la estación fotogramétrica se articula
sobre un ordenador en el cual se llevan a cabo los distintos procesos, no existiendo
operaciones externas al mismo. Así, las imágenes se manejan dentro del ordenador
y se visualizan a través de él, y la generación de nueva cartografía también se
produce de forma digital.
Esto no es muy diferente de lo que veíamos en el caso de la digitalización
en pantalla algunas paginas atrás, pero el trabajo fotogramétrico engloba otros
procesos además de los que ya hemos visto. Uno de ellos es la generación directa de
cartografía de elevaciones, para la cual se requiere que el equipo empleado disponga
de algunos elementos adicionales. Es decir, la estación fotogramétrica digital es
más compleja que un simple ordenador, un dispositivo de marcado (un ratón) y
un SIG, que eran los requisitos básicos para digitalizar en pantalla una imagen.
Una estación fotogramétrica digital ha de tener, por ejemplo, capacidad para
generar visualizaciones con sensación de profundidad a partir de pares de imáge-
nes, que son las que permiten la posterior digitalización de los elementos con sus
elevaciones correspondientes. Los principios en los que se basan este tipo de visua-
lizaciones son los mismos empleados en la fotogrametría no digital, fundamentados
en la visión estereoscópica.
La visión tridimensional en el ser humano se basa en el hecho de que la imagen
que ve cada ojo es ligeramente distinta a la del otro, lo cual permite al cerebro
extraer información volumétrica y generar una verdadera visión tridimensional.
En el caso de la fotogrametría, si en lugar de utilizar una única imagen aérea o de
satélite empleamos dos, cada una de ellas tomada desde un punto distinto, resulta
posible recrear el efecto que ambas imágenes tendrían para la reconstrucción
tridimensional de la escena, y «engañar» al cerebro del observador para que este
pueda observar la escena con volumen y profundidad.
Cuando se emplean imágenes de satélite, los pares se pueden obtener con
aquellas plataformas y sensores que permiten variar el ángulo de visión, de modo
que en la misma pasada del satélite se toman imágenes de una zona desde distintos
puntos. El sensor toma una imagen cenital y posteriormente, una vez ha superado
la zona en su recorrido, toma una segunda imagen mirando «hacia atrás», la cual,
combinada con la primera, permite el levantamiento del terreno y la realización
de los procesos fotogramétricos (Figura 6.14).
El sensor HRS que montan los satélites SPOT, o el sensor ASTER, ambos son
Fuentes principales de datos espaciales 157
Figura 6.14: Toma de pares de imágenes estereosópicas desde un satélite, mediante
variación del ángulo de visión.
capaces de tomar este tipo de imágenes. En la dirección Web [71] puede encontrarse
información detallada sobre las cartografía de elevaciones generada a partir de
pares de imágenes tomadas por el satélite SPOT, junto con algunas ilustraciones
y animaciones explicativas al respecto.
Las formas de conseguir que el observador perciba la profundidad de la escena
a partir de las imágenes son variadas, y van desde el uso de sencillos instrumentos
ópticos o la generación de anaglifos (imágenes que combinan la información del
par estereoscópico y que se han de observar con gafas con filtros distintos para
cada ojo), hasta otras técnicas más complejas y elaboradas. En la fotogrametría no
digital, el empleo de restituidores analíticos ha sido la metodología habitual. En la
fotogrametría digital, este puede sustituirse por un equipo con dos monitores, cada
uno de los cuales muestra una de las imágenes del par, y se emplean gafas especiales
que son las encargadas de generar en el observador la sensación de profundidad .
Además de lo anterior, la estación fotogramétrica digital dispone de periféricos
específicos tales como ratones 3D, o manivelas como las que presentan los resti-
tuidores analíticos, facilitando así la adaptación de los operarios a este tipo de
estación (Figura 6.15).
Por último el software que implementan, y que es el encargado de representar
las imágenes y acoger el proceso de digitalización, suele ser específico, y es frecuente
que se distribuya como parte de toda una estación fotogramétrica compuesta por
los elementos reseñados anteriormente. Algunos SIG incorporan progresivamente
capacidades adaptadas de este tipo de programas, pero por el momento la labor
fotogramétrica queda reservada para este tipo de aplicaciones específicas, siendo
el SIG tan solo un beneficiario directo de sus productos.
Para el lector interesado en saber más acerca de los distintos elementos de la
fotogrametría, obras como [72] o [73] son recomendables, esta última disponible de
forma libre. En la dirección Web [74] puede encontrarse otra excelente referencia
libre en dos tomos sobre fotogrametría analítica y digital.
158 Sistemas de Información Geográfica
Figura 6.15: Estación fotogramétrica digital.
6.5.5. Calidad de la digitalización
Uno de los aspectos más importantes del proceso de digitalización es la calidad
del resultado obtenido, que debe tratar de ser lo más cercano posible a la calidad
original de la información que se digitaliza, es decir, del mapa o imagen original.
Independientemente de la precisión del equipo utilizado o la habilidad y experiencia
del operario, la digitalización no es por completo perfecta, conteniendo siempre
ciertas deficiencias y errores.
Además de los errores que puedan incorporarse en las distintas fases del proceso
de digitalización (sea este del tipo que sea), hay que considerar que las fuentes
originales a digitalizar también pueden incluir los suyos propios. Así, el proceso de
escaneado puede incorporar distorsiones geométricas, pero es posible que el mapa o
fotografía aérea de partida también presente alguna distorsión como consecuencia
de su deterioro, más patente cuanto más antigua sea esta.
La información contenida en el documento cartográfico puede también contener
elementos problemáticos de cara a obtener un producto de calidad, que pueden ir
desde líneas borradas total o parcialmente a manchas en el propio mapa derivadas
de su uso habitual [15].
Dentro de los errores que aparecen como consecuencia de la digitalización en
sí, un tipo importante de ellos son las discrepancias y coincidencias imperfectas
entre las distintas entidades, tal como las que se muestran en la figura 6.16
Estas imprecisiones son causantes de numerosos problemas, tales como la apa-
rición de polígonos espúreos en las operaciones de solape entre capas vectoriales,
que veremos en el capítulo 18.
Debido a esto, las capacidades de edición de los SIG incorporan funcionalidades
Fuentes principales de datos espaciales 159
a) b) c)
Figura 6.16: Errores derivados del proceso de digitalización. a) Versión correcta, con nodos
coincidentes. b) y c) Versiones con errores que causan una falsa desconexión entre las líneas.
Figura 6.17: Ajuste automático mediante tolerancia(snapping). El nodo azul representa
el nodo en edición. La tolerancia de enlace queda marcada por el circulo punteado. Puesto
que el nodo rojo de la línea preexistente se encuentra dentro de esa tolerancia, al añadir
el nuevo nodo (azul), este automáticamente se situará en las coordenadas del nodo rojo,
garantizándose así la coincidencia.
que permiten evitar estos errores en el momento de la digitalización, ayudando al
operario en su tarea y permitiéndole alcanzar una exactitud y precisión imposible
de lograr sin estas funcionalidades. Entre ellas, es especialmente importante el
establecimiento de tolerancias y ajuste automático en función de ellas (esto se
conoce con el término ingles snapping), que ayudan a garantizar la coincidencia
entre los distintos vértices.
De este modo, polígonos adyacentes o lineas que se cortan en un punto dado
lo hacen con total exactitud. Dichos polígonos comparten exactamente el mismo
lado con las mismas coordenadas exactas, o se cruzan en el mismo e idéntico
punto, y no únicamente pasan por un punto cercano (pero distinto) definido con la
precisión con la que el operador haya podido ajustar ambas entidades visualmente.
La coincidencia no es solo visual, sino numérica. La figura 6.17 muestra un ejemplo
de la utilización de snapping en un proceso de digitalización.
Mediante estas funcionalidades, el operador simplemente selecciona un punto,
y el sistema digitalizador lo desplaza para que coincida con el punto existente más
cercano, siempre que se encuentre a menos distancia que la tolerancia establecida
de antemano.
El hecho de que exista una completa coincidencia es especialmente importante
cuando la capa vectorial que se digitaliza contiene información topológica. La
160 Sistemas de Información Geográfica
topología exige que la coincidencia sea correcta y defina perfectamente la rela-
ción entre las entidades. Para los ejemplos b) y c) de la figura 6.16, las líneas no
están conectadas ya que no existe coincidencia en el nodo. Si los puntos están
suficientemente cercanos, puede «parecer» que son coincidentes, pero el SIG no
los detectará como tales y no se podrá llevar a cabo ningún análisis topológico con
esas líneas (por ejemplo, suponiendo que representan vías de comunicación y se
quiere hacer un análisis de redes con ellas).
La digitalización de entidades en caso de querer recoger la topología de las
mismas debe obedecer una serie de reglas, a saber[75]:
Las líneas deben cruzarse en nodos, en caso de que exista relación (conexión)
entre ellas.
Las lineas que coinciden en un nodo común deben coincidir exactamente. Las
funciones de snapping se han de utilizar por ello durante la digitalización.
Los lados comunes de los polígonos deben digitalizarse una única vez.
Las áreas deben ser cerradas (el primer punto ha de coincidir exactamente
con el último). Las funciones de snapping o el cierre automático de líneas
(asignar sistemáticamente al último punto del contorno del polígono las
coordenadas del primero) deben emplearse para ello.
Todos aspectos relativos a la calidad de datos, entre los cuales se incluyen las
aspectos relativos a los errores del proceso de digitalización, se tratan con mayor
profundidad en el capítulo 7.
6.6. GPS
Uno de los hitos en la aparición de nuevas fuentes de datos geográficos es la apari-
ción de los Sistemas Globales de Navegación por Satélite (GNSS)21 , que permiten la
obtención de coordenadas geográficas de un modo inmediato, con las consecuencias
que esto tiene para su uso en actividades como la elaboración de cartografía.
En esencia, un GNSS es un sistema que permite conocer en todo momento y en
cualquier punto del globo la localización exacta de dicho punto con un margen de
error del orden de unos pocos metros o menos. Para ello, se basan en el envío de seña-
les entre un dispositivo situado en el punto concreto y una red de satélites, pudiendo
establecerse la posición exacta mediante las características de dicha transmisión.
El ejemplo más extendido de un GNSS es el Sistema de Posicionamiento Global
(Global Positioning System, o GPS)22 , originalmente puesto en funcionamiento por
el Departamento de Defensa de los Estados Unidos. Actualmente, este es el único
GNSS completamente operativo, aunque existen otros tales como el GLONASS
21
Global Navigation Satellite System
22
El nombre completo del sistema es NAVSTAR–GPS (NAVigation SysTem And Ranging
- Global Position System)
Fuentes principales de datos espaciales 161
ruso, el COMPASS chino o el Galileo europeo, cuyo funcionamiento completo está
previsto a corto plazo.
6.6.1. Fundamentos del sistema GPS
El sistema GPS se divide en tres subsistemas o segmentos:
Segmento espacial. Lo componen los satélites de la constelación GPS (un
total de 27, siendo 24 de ellos operativos y 3 de reserva), con los cuales
se comunican las unidades receptoras, y en función de los cuales puede
triangularse la posición actual de estas.
Segmento de control. Lo forman un conjunto de estaciones terrestres que
controlan el funcionamiento de los satélites, pudiendo enviar señales a estos
para modificar su comportamiento.
Segmento de usuarios. Lo conforman los receptores GPS y todos los dispo-
sitivos que hacen uso de la señal de los satélites para el cálculo de posiciones.
Los satélites del segmento espacial emiten una señal compleja cuyo contenido
puede dividirse esencialmente en dos bloques de información:
Señales empleadas para el cálculo de distancias. Estas incluyen dos có-
digos: P(Precise) y C/A (Coarse/Aquisition). El segundo de ellos es el emplea-
do habitualmente, ya que el primero se encuentra encriptado y está pensado
para uso militar, mientras que el C/A esta disponible para todos los usuarios.
Mensajes de navegación. Estos informan de la posición orbital del saté-
lite (conocida como efeméride), y pueden asimismo contener información
adicional referente al segmento espacial.
Las señales para el cálculo de distancias (en la terminología GPS estas distan-
cias se conocen como pseudodistancias) se envían mediante una onda portadora
conocida como L1, correspondiente a una frecuencia de 1575,42 MHz . El código
P se envía además en una segunda portadora denominada L2, con una frecuencia
de 1227,60 MHz.
El funcionamiento del sistema se basa en la triangulación de la posición me-
diante las señales procedentes de un cierto número de los satélites. Esta posición
se calcula no únicamente en sus coordenadas x e y, sino también en z, es decir en
elevación. El sistema GPS emplea como sistema geodésico de referencia el WGS84
[76]. La precisión en el cálculo de la elevación es menor que la correspondiente a
las restantes coordenadas, aunque también es de utilidad y puede emplearse en
aplicaciones que van desde levantamientos y replanteos a usos en tiempo real como
el cálculo de elevación en vuelos [77].
La posición de los satélites es conocida en todo momento, y los propios satélites
informan de ella a los receptores a través de los mensajes de navegación. En base
a esas posiciones orbitales, el proceso de triangulación que se lleva a cabo en el
sistema GPS no se basa en el trabajo con ángulos, sino con distancias.
162 Sistemas de Información Geográfica
El cálculo de la distancia puede realizarse utilizando la información de las
señales (los códigos C/A o P), o bien empleando las propias portadoras. El primer
método es más sencillo y rápido, ya que no es necesario que el receptor «escuche»
la señal durante un periodo prolongado de tiempo, lo cual sí es necesario en el
segundo, como a continuación veremos.
En el caso de emplear la portadora, se mide el desfase entre esta y una señal
generada por el receptor, lo cual permite calcular una parte de la distancia (la que
es menor que la longitud de onda de la señal). La distancia total es igual a esta
parte calculada más un numero entero de veces la longitud de onda. El valor de este
numero entero es, no obstante, desconocido. Su cálculo se conoce como resolución
de la ambigüedad (AR), y requiere escuchar la señal del satélite durante un cierto
tiempo para recopilar datos suficientes que permitan el cálculo del valor antedicho.
Así, la resolución de la ambigüedad es la que hace necesario un tiempo de
inicialización de la unidad, con objeto de conocer esa constante en el desfase.
Si la unidad pierde contacto con el satélite, es necesario de nuevo proceder a la
resolución de las ambigüedades, quedando el receptor inoperativo durante ese
periodo de tiempo. Más detalles sobre la resolución de la ambigüedad en el sistema
GPS puede encontrarse en [78].
Puesto que la velocidad a la que la señal se desplaza es muy elevada, se requieren
relojes muy precisos para poder medir con precisión los tiempos tan cortos que
tarda dicha señal en recorrer la distancia entre satélite y receptor. A bordo de
los satélites se montan relojes atómicos de muy alta precisión, pero las unidades
receptoras no disponen de relojes tan precisos. Es por este motivo que, como
veremos, han de introducirse correcciones y cálculos adicionales con el fin de
obtener mayores precisiones en la medida del tiempo.
Si el receptor es capaz de establecer comunicación con tres satélites, dispone ya
de información suficiente para conocer su posición (x,y) como intersección de las
esferas centradas en cada uno de dichos satélites y con radio la distancia existente
entre este y el receptor. Con cuatro satélites se puede ya obtener la posición (x,y,z).
Un número mayor de satélites (cuatro al menos) es necesario, no obstante,
para eliminar las imprecisiones debidas a los distintos elementos implicados, y se
emplean habitualmente modelos más complejos que utilizan los datos de múlti-
ples satélites y efectúan correcciones en función de ellos. Las deficiencias de los
relojes que emplean los receptores pueden corregirse mediante la utilización de
nuevos satélites, que permiten calcular con exactitud el tiempo, variable de gran
importancia en el proceso y sin la cual no se pueden obtener precisiones elevadas.
Los receptores actuales están preparados para trabajar con un número máximo
de satélites habitualmente igual a 12, por lo que en todas circunstancias el receptor
trata de localizar siempre el mayor número posible de satélites con objeto de lograr
una mayor precisión.
El diseño de la red de satélites está pensado para garantizar que en cualquier
punto de la superficie terrestre y en cualquier momento, un receptor puede localizar
Fuentes principales de datos espaciales 163
a)
b)
Figura 6.18: Dilución de la precisión. La geometría de los satélites en el ejemplo a) da
una mayor precisión en el cálculo de la posición del receptor que la del ejemplo b).
el número necesario de satélites para obtener con exactitud su precisión. La locali-
zación en la que se disponen los satélites con los que se establece comunicación no es
irrelevante, ya que condiciona la precisión del posicionamiento, afectando a lo que
se conoce como dilución de la precisión (DOP23 ). Si los ángulos de los satélites son
grandes, la precisión que se obtiene es mayor que si estos son menores (Figura 6.18).
Junto a esto, existen otras muchas fuentes de error en el sistema GPS, cada una
de las cuales afecta a la precisión del mismo. Entre ellas, cabe destacar las siguientes:
Errores en la posición de los satélites.
Errores por el rebote de la señal en otros elementos tales como edificios, con
anterioridad a alcanzar el receptor.
Errores derivados del paso de la señal por la atmósfera. Al atravesar la
ionosfera y la troposfera se genera un retraso por la alteración que dicho
paso produce sobre la señal.
Errores en la precisión de los relojes, ya mencionados.
Disponibilidad selectiva. Debido a su concepción como una herramienta
militar, el departamento de Defensa de los Estados Unidos, propietario del
sistema, introducía errores aleatorios en las señales, de tal forma que esta
quedaba degradada y los usuarios civiles no podían obtener una precisión
muy elevada. La disponibilidad selectiva fue eliminada en el año 2000.
23
Dilution of Precision
164 Sistemas de Información Geográfica
Figura 6.19: Esquema de funcionamiento del GPS diferencial
En conjunto, todos estos errores suman desviaciones apreciables, que sin em-
bargo pueden corregirse con la aplicación de técnicas adicionales, por ejemplo
incorporando información adicional procedente de otros receptores. Una de estas
técnicas es el denominado GPS diferencial, pensado en origen para eliminar el
error de la disponibilidad selectiva, aunque también eficaz para corregir una buena
parte los restantes errores citados anteriormente.
Para la aplicación del GPS diferencial se requiere no solo un receptor único
(aquel del cual se quiere calcular su posición), sino también otro receptor fijo de
referencia cuyas coordenadas se conocen con alta precisión. Este receptor fijo es,
a su vez, un receptor de alta precisión y, además de calcular su propia posición,
emite información que las unidades receptoras pueden aprovechar para corregir
sus mediciones. El receptor móvil, lógicamente, tiene que soportar este tipo de
correcciones, para poder hacer uso de la señal de la estación de referencia.
Los datos que permiten llevar a cabo la corrección puede obtenerse en el recep-
tor mediante radio, descargarse por Internet mediante una conexión inalámbrica,
o bien utilizar una constelación de satelites adicional dedicada a elaborar y servir
este tipo de datos.
La corrección puede realizarse fuera del propio receptor, a posteriori, utilizando
software adecuado y los mismos datos de corrección que si se realiza la corrección
en tiempo real.
El fundamento de este sistema es que los errores que afectan al receptor móvil
también afectan al de referencia. No obstante, la magnitud del error que afecta
al receptor de referencia puede conocerse, ya que se conoce la coordenada exacta
de este, y en base a eso puede eliminarse el error que afecta al receptor móvil,
asumiendo que ambos errores son de similar índole.
En la actualidad, aplicando estas técnicas de corrección diferencial, un GPS
puede obtener precisiones del orden de 2 metros en latitud y longitud, y 3 en
altitud[79]. Sin corrección diferencial, esta precisión es de unos 10–20 metros.
La figura 6.19 muestra un esquema del funcionamiento del GPS diferencial.
Fuentes principales de datos espaciales 165
Además de la literatura abundante sobre GPS, los fabricantes de receptores
GPS, muy populares hoy en día para numerosas actividades, ponen a disposición
del público una gran cantidad de información sobre sus productos y también
sobre los fundamentos del sistema GPS. En ese sentido, una buena referencia es el
sitio Web [80], donde puede encontrarse una descripción detallada de los distintos
elementos del sistema GPS, acompañada de imágenes y animaciones sumamente
didácticas. En [81] también puede encontrarse información de interés y fácil acceso.
6.6.2. Tipos de receptores
La precisión del sistema global GPS depende del tipo de receptor GPS (o, en el
lenguaje común, GPS a secas) que se emplee, obteniéndose mayores precisiones con
receptores más avanzados, siempre dentro de las posibilidades del propio sistema
GPS.
En función de sus características y de la forma en que operan, podemos
distinguir los siguientes tipos de receptores GPS:
Receptores secuenciales. Establece conexiones secuenciales con los dis-
tintos satélites disponibles, estando conectado a uno o dos a lo sumo simul-
táneamente. Estos receptores son más económicos, ya que esta forma de
operar requiere equipos menos complejos, aunque la precisión que se obtiene
también es menor.
Receptores continuos. Disponen de más canales de radio que los anterio-
res y ello permite que la conexión a los satélites sea continua, sin tener que
alternar entre uno y otro. La precisión que se obtiene es mayor, pero se trata
de equipos más caros.
Receptores con canales multiplexados. El esquema de funcionamiento
es similar al secuencial, alternando entre los distintos satélites y utilizando
un único canal. No obstante, utilizan software más complejo y procesadores
más potentes, de forma que esta alternancia se puede producir con una
frecuencia mucho más elevada.
A día de hoy, es habitual que incluso los GPS de menor coste tengan múltiples
canales, permitiendo la conexión continua con un número elevado de satélites.
Como hemos visto, las señales emitidas por los satélites contienen dos códigos
(C/A y P) que se transmiten modulados sobre dos ondas portadoras distintas (L1
y L2). No todos los receptores GPS son capaces de utilizar estos elementos de las
señales, y en función de ello podemos también clasificarlos.
Los más sencillos únicamente basan sus cálculos en el código C/A, mientras
que los más avanzados y complejos son capaces de utilizar el código P (encriptado,
por lo que es necesaria una clave correspondiente), así como las portadoras para
un cálculo más preciso, según se explicó en un punto anterior.
Por último, y teniendo en cuenta que el sistema GPS mide las coordenadas
(x,y,z) y el tiempo, y que existen diferentes precisiones en función de la tecnología
166 Sistemas de Información Geográfica
que los receptores utilicen, encontramos una gran variedad de unidades receptoras,
según estas se adapten para uno u otro uso principal. En líneas muy generales, los
siguientes son algunos de los tipos principales en función de dicho uso.
GPS para uso general. Unidades pequeñas y portátiles, de bajo coste, para
actividades al aire libre, donde no se requiere una precisión elevada sino
simplemente un conocimiento de la posición aproximada. Se emplean, por
ejemplo, para recoger rutas en senderismo o navegación. Estas unidades,
además de informar de la posición y ser capaces de almacenar esta, suelen dis-
poner de capacidades de representación de mapas en pantalla, de forma que la
información sobre la posición sea más útil para el usuario. Otros, como los na-
vegadores GPS para coche, son capaces de calcular rutas óptimas, combinan-
do la posición calculada con una cartografía de vías previamente incorporada
al dispositivo. La figura 6.20a muestra un receptor GPS de uso general.
GPS para la medición topográfica. Unidades de medio tamaño, generalmente
con una antena independiente que se conecta a la unidad y que el propio
operario carga a la espalda. La antena garantiza mayor precisión y una mejor
localización de satélites en condiciones tales como zonas bajo arbolado. Están
pensados para un uso profesional en levantamientos o replanteos, ofreciendo
buena precisión en todas las coordenadas. En la figura 6.20b puede verse unos
de estos receptores. Estos son los GPS de mayor interés para el uso dentro de
un SIG, ya que ofrecen datos de campo precisos que cumplen con las necesi-
dades que habitualmente se tienen en un proyecto SIG. Los datos recogidos
por estas unidades pueden ser sencillamente incorporados a un ordenador,
y en ocasiones la propia unidad dispone de aplicaciones propias, más allá
de la mera visualización de cartografía asociada, como en el caso anterior.
GPS para la medición del tiempo. Estos GPS no resultan de tanto interés
para su uso en un SIG, ya que se encuentran fijos en un punto y no conceden
importancia a la localización espacial, sino tan solo al tiempo. Se utilizan
en estudios que requieran una medición muy precisa del tiempo, ya que la
referencia temporal que ofrece el sistema GPS es muy precisa y estable.
6.6.3. Operaciones con la unidad GPS
La forma en que utilizamos el receptor GPS para recoger los datos que emplea-
remos posteriormente en el SIG puede ser muy variada en función del tipo de dato,
la precisión necesaria o las características del propio receptor.
Los receptores de menor coste están generalmente pensados para ser de utilidad
directamente en el campo, por ejemplo para localizar un punto concreto y conocer
la dirección en la que hay que moverse para llegar hasta él, pero tienen también
capacidad para recoger coordenadas. Estas capacidades son las que resultan de
interés desde el punto de vista de un SIG, ya que las coordenadas recogidas serán
después los datos que llevemos a este.
Fuentes principales de datos espaciales 167
a) b)
Figura 6.20: Receptor GPS de bajo coste para uso general (a) y receptor GPS de alta
precisión con antena externa (b)
Por su parte, las unidades de mayor precisión están concebidas para tareas
tales como levantamientos topográficos, donde la toma de datos es lo fundamental,
pero también para otras tales como replanteos, donde se requiere situar un punto
de coordenadas conocidas. Al igual que en el anterior, las actividades que pueden
llevarse a cabo con estos GPS y que interesan desde el punto de vista del SIG
son aquellas que van a recoger coordenadas, pues son las que generan datos y
convierten al GPS en una fuente de ellos.
Las capacidades de recogida de datos en una unidad GPS de bajo coste per-
miten almacenar puntos o trazados completos, encontrándose el operario inmóvil
o bien en movimiento a lo largo de dicho trazado. Es habitual utilizar los vocablos
ingleses de la terminología GPS para denotar los distintos elementos que pueden
recogerse, conociéndose a un punto de interés aislado como waypoint y un trazado
como track. Una serie ordenada de waypoints se conoce como route (ruta).
En el trabajo con el receptor GPS, el operario se puede detener en un punto
cualquiera y memorizar las coordenadas del mismo, añadiendo así un waypoint
a la lista de los ya almacenados. Para crear un trazado, se suele disponer de funcio-
nalidades de recogida automática de puntos, de tal modo que el receptor memoriza
estos a intervalos fijos de tiempo. El operario simplemente ha de desplazarse por
el trazado y dejar que el receptor haga su trabajo mientras tanto. Dependiendo
del tipo de dato que quiera obtenerse, la edición posterior en gabinete habrá de
ser más o menos intensa.
Esta edición no está relacionada solo con la introducción de correcciones, sino
con la interpretación de los distintos puntos recogidos. Por ejemplo, para registrar
el trazado de una calle, el operario puede recorrerla, pero es probable que no lo
haga de forma perfectamente rectilínea. El trabajo posterior con el conjunto de
puntos debe resultar en la obtención de una línea recta a partir de estos, y ello
requiere la interpretación de los datos disponibles.
168 Sistemas de Información Geográfica
Pese a que la precisión de estas unidades es limitada y no permiten técnicas avan-
zadas de corrección (tal precisión no es necesarias para las actividades tales como
senderismo o navegación para las que han sido diseñados estos receptores), los GPS
de uso cotidiano pueden ser una fuente de datos de primer orden para la recogida de
datos. Un ejemplo significativo de ello es el proyecto OpenStreetMap[82], un proyec-
to colaborativo para crear mapas libres cuya principal fuente de datos son unidades
GPS sencillas. Este proyecto es uno de los muchos que existen actualmente de este
tipo, los cuales se engloban dentro de la idea de Información Geográfica Voluntaria
o Participativa, sobre la que hablaremos algo más adelante en el apartado 6.7.
Para trabajos de mayor precisión tales como levantamientos topográficos, estos
receptores no son, sin embargo, suficientes. El uso de receptores más precisos y
de técnicas avanzadas es necesario para obtener precisiones mayores, que pueden
ser incluso milimétricas.
Estos receptores pueden emplearse individualmente del mismo modo que se
hace con un GPS de bajo coste, y registrar puntos de forma similar. La verdadera
potencia, no obstante, se obtiene cuando se realizan mediciones con la ayuda de
una o varias unidades adicionales, las cuales aportan valores de referencia que
permiten aumentar la precisión.
Entre el receptor móvil y el de referencia se establece una línea base, y en el
cálculo de la posición lo que se calcula es el vector (x,y,z) que une a ambas. Se
trata pues, de una medición relativa, ya que expresa la posición del receptor móvil
a partir de la del receptor de referencia. Puesto que la posición de este último se
conoce con gran precisión y ese vector también se calcula con precisión, la posición
buscada que se obtiene es altamente precisa.
La principal ventaja con respecto a métodos topográficos clásicos es que no
es necesario que haya visibilidad entre los dos receptores. De esta forma, puede
utilizarse una estación de referencia aunque no sea visible desde un punto cuyas
coordenadas queremos medir, y las líneas base pueden ser de mayor longitud.
Otras ventajas también destacables son el hecho de que puede obtenerse una
productividad mucho mayor, ya que una única unidad de referencia puede ser
utilizada por varias unidades móviles.
El número de técnicas existentes en la actualidad para realizar este tipo de medi-
ciones (ya sea con uno o con varios receptores) es variada. El hecho de que se busquen
mediciones precisas hace que se realicen mediciones utilizando la fase de la portado-
ra, que como vimos implica una mayor necesidad de tiempo para registrar correcta-
mente una posición. En función de las características de la linea base y los requeri-
mientos concretos del trabajo, serán unas u otras las más adecuadas para cada caso.
La diferencia principal entre estas técnicas es el tiempo necesario para la
recogida de un punto. En general, un mayor tiempo equivale a una mayor precisión.
Entre las técnicas habituales, cabe citar las siguientes:
Estático. En base a dos puntos de referencia (con una unidad GPS fija en
cada uno de ellos), se calcula la posición de un tercero en un punto dado.
Fuentes principales de datos espaciales 169
Se trata del método más preciso, pero requiere tiempos de observación muy
largos (superiores a una hora), lo que lo hace inadecuado para levantamientos
o replanteos. Este tipo de procedimientos se emplean casi exclusivamente
en trabajos geodésicos y las lineas base pueden ser de gran longitud.
Estático rápido. Igual que el anterior, pero con tiempos menores, del orden
de 5–10 minutos por punto medido.
Cinemático. En el método cinemático los tiempos son aún menores que en el
estático rápido, del orden del minuto. El fundamento de la técnica es distinto a
los anteriores, ya que tras la inicialización el receptor móvil puede desplazarse
con más velocidad y no es necesario que se detenga durante un periodo largo
de tiempo en cada punto, pero ello exige que durante el desplazamiento tanto
la unidad móvil como la fija de referencia mantengan la recepción de las
señales, que han de ser de al menos cuatro satélites (preferiblemente cinco),
y los mismos para ambas unidades. Si alguna de ellas pierde la conexión, se
hace necesario repetir de nuevo el proceso de inicialización [83].
Existe una gran variedad de procedimientos de tipo cinemático, cuya filosofía
es esencialmente la misma, pero bajo nombres distintos. Aunque pueden
existir diferencias en los fundamentos teóricos, la forma de proceder es en
muchos casos muy similar. Técnicas como Stop & Go o pseudocinemático
pueden incluirse en este tipo de métodos. En general, estos y otros se en-
globan bajo la denominación de procedimientos cinemáticos, aunque sus
características sean distintas en cada caso.
Muchos de estos procedimientos vienen definidos por el equipo a utilizar, y
los tiempos de paradas en cada punto medido, así como otros aspectos, son
recomendados por el propio fabricante. La forma más correcta de llevar a
cabo una toma de datos en campo, en este caso, es seguir las indicaciones
concretas del fabricante de para cada producto.
Un caso particular dentro de los métodos cinemáticos es el cinemático en
tiempo real (RTK)24 , en el que, a diferencia de los anteriores, las correcciones
necesarias se efectúan en tiempo real y no requieren postproceso. Se trata
de la técnica más actual, y proporciona al operario mediciones exactas de
su posición de forma instantánea, con las ventajas que ello conlleva. Las
mediciones son más precisas, ya que el operario que las toma conoce el valor
recogido en el mismo momento de hacer la medición, y puede de esa forma
realizar una comprobación en el acto. Información más detallada sobre esta
técnica puede encontrarse en [84].
Para profundizar más al respecto, en [85] puede encontrarse información sobre
la realización de levantamientos con GPS, así como en [86].
En base a los ejemplos anteriores, y para concluir esta parte, podemos dar una
clasificación de las operaciones con un receptor GPS en función de tres criterios
24
Real Time Kinematic
170 Sistemas de Información Geográfica
básicos: el número de unidades que se emplean simultáneamente, el movimiento
(o ausencia de él) del receptor y el momento en el que se obtiene el dato ya listo
para su utilización posterior.
Según el número de unidades, tenemos:
Absolutas. Se tiene un único receptor y un único operario. La posición se
calcula con la información de los satélites, sin apoyo de otra unidad adicional.
Relativas. Se emplea una unidad adicional a modo de referencia. Las medi-
das se basan en la información de los satélites y la que aporta dicha unidad de
referencia, y la posición se calcula en relación a esta en lugar de en términos
absolutos. Estas operaciones alcanzan un grado de precisión mayor que las
de tipo absoluto.
Atendiendo al movimiento del receptor encontramos:
Estáticas.
Cinemáticas.
Variantes intermedias.
Por último, en función de la obtención de datos, distinguimos:
En tiempo real. Las correcciones pertinentes se realizan en el acto, y el
resultado que se visualiza en el receptor o se almacena en este ya ha sido
filtrado y corregido.
Con necesidad de postproceso. Las correcciones se realizan en gabinete
posteriormente, con información que el receptor no posee o no es capaz de
procesar de modo inmediato durante su utilización.
6.6.4. Integración de GPS y SIG
La utilidad de un GPS como fuente de datos para el trabajo en un SIG es
innegable. Multitud de trabajos que requieren la toma de datos en campo y la
medición de coordenadas pueden efectuarse ventajosamente con equipos GPS, y la
información derivada de ese uso puede ser posteriormente incorporada a un SIG.
EL GPS puede emplearse como una fuente de datos estática (se utiliza como
herramienta para la creación de una capa de información geográfica y esta después
se emplea en el SIG de la forma habitual), o bien para la obtención de datos en
tiempo real. Los SIG sobre dispositivos móviles (véase el apartado 24.2) pueden
aprovechar los receptores GPS que estos dispositivos habitualmente incorporan,
y alimentarse con los datos de dichos receptores en tiempo real.
Un caso particular de esto son los cada día más populares navegadores GPS.
Estos dispositivos aunan el receptor GPS y una aplicación de tipo SIG que presenta
un visor y permite ejecutar un número reducido de procesos, en concreto los de
cálculo de rutas óptimas entre dos puntos a través de una red de comunicación
(apartado 19.4). Uno de los puntos (el de destino) es fijado por el usuario, mientras
que el punto de origen es el punto actual en que se encuentra el dispositivo, que
se obtiene a partir del GPS.
Fuentes principales de datos espaciales 171
Como herramientas estáticas, el trabajo en campo con un GPS genera un
conjunto de puntos o de trazados, que pueden fácilmente transferirse al ordenador
para poder trabajar con ellos. Este trabajo puede realizarse dentro de un SIG,
ya que, o bien este incluye la capacidad de importar los archivos generados por
el GPS, o el software que acompaña a dicho GPS incorpora herramientas para
ayudar en la comunicación entre SIG y GPS.
Además de la información posicional que deriva del sistema GPS, los receptores
GPS pueden incorporar elementos que permitan la entrada de la componente
temática asociada a las distintas entidades, es decir, los atributos. Si solo se registra
la componente espacial, la información que se almacena en el GPS es de mucha
menos utilidad que si se acompaña de atributos.
Las funcionalidades incorporadas en el receptor suelen ser sencillas, pero permi-
ten que desde este se pueda llevar a cabo todo el proceso de creación de la capa que
posteriormente se empleará en el SIG. El trabajo de campo incluye de este modo
tanto el registro y creación de las entidades como la edición de las propiedades
no espaciales de estos. Existe, no obstante, la posibilidad de completar la fase de
introducción de atributos en el SIG, durante el trabajo en gabinete, lo cual en
ocasiones resulta más sencillo y práctico.
El volumen de trabajo que se requiere una vez que los datos han sido reco-
gidos dependerá también de las necesidades de precisión que se presenten y del
tipo de trabajo en que se enmarque dicha recogida de datos. La realización de
correcciones y la edición avanzada de los datos no puede en ocasiones realizarse
dentro de un SIG, ya que este no dispone de las herramientas necesarias para un
tratamiento avanzado de los datos del GPS. El SIG está preparado para trabajar
con las coordenadas que salen del GPS, pero este puede almacenar más datos
(datos «en bruto»), que pueden procesarse en gabinete para la obtención de dichas
coordenadas de forma más precisa. Para realizar esta tarea es necesario software
especializado, y las funcionalidades del SIG se emplearán posteriormente, cuando
ya se hayan verificado los datos del GPS y elaborado las capas correspondientes.
Para el lector interesado, una referencia completa sobre el uso de GPS de cara
a la integración de los datos en un SIG es [87]. En el ya mencionado apartado 24.2
veremos con detalle la tecnología de los SIG móviles, un ámbito en el que SIG y
GPS se unen para conformar herramientas conjuntas.
6.7. Información Geográfica Voluntaria
Hemos mencionado ya que los dispositivos tales como receptores GPS de bajo
coste pueden emplearse para recoger información geográfica y crear datos geográfi-
cos, y que cuando esto se une a los conceptos participativos de la denominada Web
2.0, surgen iniciativas de gran interés en las que el usuario de a pie, sin necesidad
de una formación específica como cartógrafo, puede aportar sus datos para que
172 Sistemas de Información Geográfica
otros los exploten posteriormente. Aunque no se trata de una fuente de datos como
tal, y los elementos y dispositivos empleados ya los hemos visto a lo largo de este
capítulo, el cambio que supone la inclusión de una filosofía acorde con las ideas de
la Web 2.0 es tan notable que merece ser tratado por separado. No se trata de un
cambio en la propia toma o preparación de datos, o de una tecnología nueva que se
aplique a estos, sino de un cambio social y filosófico que redefine el propio concepto
de la información geográfica en lo que a la creación del dato geográfico respecta,
y cuyas consecuencias son ciertamente importantes, ya que abren el ámbito de la
creación cartográfica a un nuevo y amplio grupo de personas.
Se conoce como Información Geográfica Voluntaria o Participativa (en inglés
Volunteered Geographical Information, VGI)[88] al uso de Internet para crear,
gestionar y difundir información geográfica aportada voluntariamente por usuarios
de la propia red. El conjunto de herramientas y técnicas que emplean esos usuarios
para aportar su información conforma lo que se ha dado en llamar neogeografía.
La comparación entre proyectos de creación de VGI y la bien conocida Wikipe-
dia, tal y como se comentó en otro punto anterior en este mismo capítulo, sirve
perfectamente para ilustrar qué es lo que entendemos por VGI y neogeografía.
En el caso particular de esta última, la neogeografía ha supuesto un profundo
cambio en algunas de las ideas básicas de la cartografía, modificando asimismo la
concepción tradicional de la información geográfica, sus características o el papel
que esta venía desempeñando en muchos ámbitos (o incluso dándole un papel
en campos donde con anterioridad el uso de información geográfica era escaso).
Algunas de las ideas principales sobre la neogeografía son las siguientes:
Popularización y democratización. La producción cartográfica ha estado
siempre en manos de gobiernos u organismos, y en muchas ocasiones fuer-
temente censurada debido a su elevado valor estratégico. Con la VGI, la
creación de información geográfica se democratiza y se convierte en un
proceso participativo libre y sin restricciones. Se invierte el esquema «hacia
abajo» de producción y uso de información geográfica.
Los ciudadanos se convierten en «sensores» y tienen mayor consciencia de
su realidad geo–espacial.
Se elimina parte del «misticismo» de la producción de información geográfica
En parte, estas ideas son también comunes a otros fenómenos basados en la Web
2.0, ya que todas se fundamentan en una mayor democratización de la información,
sea esta geográfica o no. También se comparten algunos de los problemas o críticas
que otros ámbitos han recibido al adoptar esquemas de producción similares.
Por ejemplo, la calidad de la información es puesta en entredicho al promover la
participación de todo tipo de personas, con independencia de su perfil. En el caso
de la información geográfica, con una producción tradicionalmente como hemos
dicho limitada a profesionales muy especializados, esto es especialmente relevante.
Con la proliferación de la VGI, se da voz y poder sobre la información geográfica
a individuos en gran medida sin formación, que no obtienen un beneficio tangible
Fuentes principales de datos espaciales 173
obvio y no pueden aportar garantías de veracidad o autoridad alguna. Esto puede
plantear dudas lógicas acerca de la conveniencia de usar esa información.
No debe olvidarse no obstante, que la Web 2.0 también tiene sus mecanismos
de regulación, y que en otros casos ya se ha demostrado que, para otros tipos de
información, la calidad y rigor de esta no es inferior a la creada con esquemas más
clásicos y menos abiertos. Un hecho particularmente curioso que tiene lugar a
este respecto con la información geográfica es el relacionado con los denominados
elementos trampa, y particularmente con el más popular de ellos, las calles trampa.
Aunque se trata de una práctica negada por buena parte de los productores de
cartografía, es sabido que estos introducen elementos erróneos (tales como una
calle inexistente en un callejero) como medida para proteger sus derechos de autor
y poder reconocer copias ilegales. En el caso de la VGI, puesto que no existe esa
necesidad ya que la información generada y aportada por los voluntarios es libre,
no existen este tipo de errores intencionados. La comparación de información
geográfica clásica con VGI ha puesto de manifiesto que se trata de una práctica
real que, obviamente, disminuye la calidad del dato geográfico.
Por otra parte, el hecho de que se use equipo de bajo coste y los usuarios
no sean técnicos especializados no es necesariamente un problema. Un usuario
sin formación no está capacitado para efectuar un levantamiento topográfico
preciso, pero sí para situarse delante de la puerta de una tienda y marcar su
posición, añadiendo esta a un proyecto que catalogue los comercios de la zona y
su localización. Este tipo de información geográfica, de puntos de interés muchas
veces no recogidos en cartografía más especializada, constituye una gran parte de la
VGI, y las metodologías e instrumental con que se crea son más que suficientes para
otorgarle validez y precisión adecuada al uso del que posteriormente va a ser objeto.
En resumen, la neogeografía es en la actualidad un fenómeno que no debe dejar-
se de lado, ya que los proyectos que aglutina se están convirtiendo paulatinamente
en proveedores fundamentales de datos cuya calidad en muchos casos es excelente.
Aunque las hemos tratado dentro de este capítulo dedicado a las fuentes de datos,
la VGI y la neogeografía tienen una indudable vinculación con todo lo desarrollado
en la parte de este libro dedicada al factor organizativo, ya que se trata de un
fenómeno social más que técnico. De igual modo, el capítulo 24, dedicado a los SIG
móviles, está también muy relacionado con ambas, puesto que son los dispositivos y
aplicaciones que veremos entonces, así como los servicios sobre ellos, los que han po-
sibilitado el desarrollo de la neogeografía y la abundante producción actual de VGI.
6.8. Sobre cartografía de elevaciones
La cartografía de elevaciones es probablemente la de mayor importancia de
entre todas las que se emplean de forma habitual dentro de cualquier proyecto
SIG. Su relevancia deriva del hecho fundamental de que la practica totalidad de
174 Sistemas de Información Geográfica
procesos que se estudian en un SIG tienen algún tipo de componente relacionada
con el terreno y su relieve, y por tanto puede obtenerse amplia información sobre
dichos procesos a partir de una capa con datos de elevación.
Como dato relevante, dedicaremos en este libro un capítulo entero, el 15, al
conjunto de operaciones de análisis basadas en el MDE, que van desde el simple
cálculo de pendientes hasta la extracción de parámetros más complejos, pasando
por la definición del comportamiento hidrológico de una zona según las caracterís-
ticas de su relieve, entre otros. Asimismo, gran número de otras formulaciones que
veremos en la parte dedicada a procesos tienen su principal aplicación sobre datos
de elevación, en particular los métodos de interpolación que veremos en el capítulo
13, y que nos permitirán crear cartografía de elevaciones en formato ráster. Este es,
como veremos, el formato preferido para el análisis de la cartografía de elevaciones,
ya que ofrece un mayor abanico de posibilidades frente a otros.
Aunque el formato ráster es el más indicado para llevar a cabo los análisis co-
rrespondientes, la cartografía de elevaciones puede crearse originalmente con muy
diversas características. De igual modo, y debido también a la gran importancia de
este tipo de capas, su origen puede ser muy variado, ya que son muchas las técnicas
distintas que existen para su creación. Es de interés, por tanto, exponer en este ca-
pítulo sobre fuentes de datos algunas de las ideas principales relativas a la creación
de capas de elevaciones, las características de estas o las ideas fundamentales que
residen tras las metodologías más importantes. Posteriormente, esto nos ayudará
a entender mejor las restantes formulaciones y conceptos relativos al manejo y
análisis de este tipo de cartografía, abundantes en este libro como ya se ha dicho.
A modo de resumen, he aquí una lista de metodologías a partir de las cuales
puede obtenerse cartografía de elevaciones, gran parte de las cuales han sido
tratadas con detalle antes en este mismo capítulo.
GPS. Como ya sabemos, un GPS toma datos no solo de la posición que
ocupa en coordenadas x e y, sino también su elevación. La utilización de
GPS permite obtener una nube de puntos de elevación, aunque si esta ha
de cubrir un territorio amplio y con cierta precisión en las medidas, resulta
poco idóneo el trabajar con esta tecnología, ya que es costoso en tiempo. Es
más adecuada para obtener levantamientos precisos de áreas más reducidas,
donde se demuestra como una herramienta sumamente eficaz.
Digitalización de curvas de nivel. En ocasiones la cartografía de eleva-
ciones ya existe, aunque no en el formato adecuado para su empleo en un SIG.
Ya conocemos los métodos de digitalización de entidades, tanto manuales
como automáticos, y ya sea en pantalla o en equipo especializado, y mediante
ellos podemos digitalizar las curvas de nivel, obteniendo una capa de líneas
con la información altitudinal que contiene un mapa topográfico habitual.
Estereografía. A partir de pares estereoscópicos, y con el concurso de una
estación fotogramétrica digital pueden delinearse líneas o puntos de una
elevación dada, digitalizando así la información altimétrica. El procedimiento
Fuentes principales de datos espaciales 175
es similar a la simple digitalización de curvas de nivel, solo que en este caso
estas no están presentes explícitamente en las imágenes de partida, y se
infieren a partir de la visualización tridimensional de las mismas.
Interferometría. La interferometría es una técnica cuyos fundamentos
son en cierta medida similares a los de la estereografía, pues se basan en
la información recogida de un punto concreto desde dos puntos distintos.
Si en el caso de emplear simples imágenes esto permitía crear una imagen
tridimensional, en el caso de la interferometría el estudio de las diferencias
de fases entre las ondas recibidas en dos puntos distintos permite el cálculo
de distancias. Se trata, por tanto, de un proceso automatizado, que requiere
menos intervención que en el caso de la restitución fotogramétrica.
Un uso muy habitual de esta técnica es con los denominados Radares de
Apertura Sintética 25 , utilizado por ejemplo en el caso de la misión SRTM, que
reseñamos anteriormente como producto importante. La medición desde dos
puntos puede hacerse con dos pasadas de satélite (caso por ejemplo del ERS)
o bien en una sola si la plataforma dispone de dos receptores separados una
cierta distancia (caso del SRTM). En [89] puede encontrarse una descripción
detallada de este tipo de técnicas y las etapas que comprenden.
LiDAR. La técnica más avanzada en la actualidad es el uso de aparatos
de altimetría basados en láser, como el LiDAR, que ya hemos visto en este
mismo capítulo. El LiDAR ofrece posibilidades muy interesantes tales como
la obtención de MDE y MDS (Modelo Digital de Superficie) por separado.
El resultado de un trabajo con LiDAR es una nube de puntos, normalmente
en un número muy elevado debido a la precisión del instrumento, la cual
puede emplearse para crear otro tipo de capas, tales como capas ráster. El
nivel de postproceso que se requiere para la obtención final de una capa es
mucho menor que con otras técnicas.
A la hora de plantear un proyecto SIG, debe elegirse entre estas fuentes, tanto si
se desea adquirir la cartografía ya elaborada como si se desea crearla a partir de otras
fuentes. La variedad de opciones existentes es grande, y cada una de ellas tiene sus ca-
racterísticas peculiares. Para saber más al respecto, algunas referencias donde puede
encontrarse una comparación entre las metodologías anteriores son [90], [91] y [92].
6.9. Formatos de archivo
Como hemos visto, las fuentes de datos son muy variadas, y a la hora de
elaborar un proyecto SIG podemos recoger datos de muchas procedencias distintas.
Conocer todas estas fuentes de datos es importante para elaborar una base de
datos geográfica que permita obtener los mejores resultados posibles, pero también
lo es el conocer la forma en que esos datos pueden obtenerse. Los datos geográficos
25
Synthetic Aperture Radar (SAR)
176 Sistemas de Información Geográfica
se van a almacenar en archivos, existiendo muchos formatos de archivo distintos
para recoger un mismo conjunto de datos.
Estos archivos son la materialización de los modelos de almacenamiento que
veíamos en el apartado 5.4, y su existencia obedece a distintas razones. Pueden
haber sido definidos por alguna casa comercial para ser utilizados en su software,
por un colectivo, o bien pueden ser estándares internacionales definidos para tratar
de homogeneizar la forma en que se presentan los datos dentro de un determinado
ámbito de trabajo.
Datos de una misma procedencia pueden presentarse de forma distinta si se
emplean diferentes formatos de archivo. Las circunstancias por las cuales se opta
por uno u otro formato pueden basarse únicamente en el hecho de que el software
empleado soporte o no dicho formato, pero deberían fundamentarse en las propias
características del formato y lo adecuadas que estas son para recoger la información
con la que trabajamos.
La existencia de muchos formatos de archivo dificulta el trabajo con los datos
en un SIG, principalmente porque ningún SIG implementa la capacidad de po-
der «leer» todos los formatos existentes. La interoperabilidad y la comunicación
entre distintos SIG, o incluso entre un SIG y otras aplicaciones (bases de datos,
aplicaciones para manejo de imágenes, aplicaciones CAD) no es completa, y el
aprovechamiento de todos los datos disponibles dentro de un proyecto requiere
normalmente tiempo para la gestión adecuada de datos en formatos variados.
Un problema más serio, no obstante, es el desconocimiento por parte de los
usuarios de las implicaciones que tiene el uso de uno u otro formato, ya que en
ocasiones no permiten aprovechar de modo pleno los datos de que se dispone. Por
ejemplo, dentro de un SIG es habitual emplear datos procedentes de CAD. Los
datos en un CAD se almacenan en formatos de datos definidos por esas aplicaciones
CAD, los cuales han sido definidos para satisfacer las necesidades del ámbito de
trabajo en el que se han desarrollado (el diseño asistido por ordenador). Aunque los
SIG pueden leer esos formatos de archivo y se encuentra información muy valiosa
almacenada en ellos, no son ideales para el manejo de capas de datos SIG (en este
caso, capas vectoriales), y es importante conocer este hecho.
La existencia de librerías que actúan a modo de interpretes facilita el desarrollo
de aplicaciones SIG con capacidades de lectura y escritura en muchos formatos
distintos, pero aún así se requiere un cierto grado de comprensión de estos por
parte del usuario.
Debemos pensar asimismo que los formatos de archivo no solo se emplean
en un proyecto SIG para los datos de entrada, sino también para almacenar los
resultados que se generan a lo largo de ese proyecto. Estos datos serán utilizados
en el propio SIG en otras ocasiones posteriores, o bien en otros programas. De
este modo, tomamos datos que pueden provenir de aplicaciones y fuentes diversas,
pero también «damos» datos a esas aplicaciones, por lo que la comunicación
es bidireccional. Puesto que es a través de archivos como dicha comunicación
Fuentes principales de datos espaciales 177
se produce, y estos tienen que tener un formato dado, el conocimiento de estos
formatos mejora tanto esa comunicación como la potencialidad de nuestros datos
para todo tipo de uso, ya sea dentro o fuera de un SIG.
En esta sección no se pretende describir todos los formatos existentes, ya
que estos son demasiados y ello no tendría sentido. Se describirán solo los más
populares (que no siempre han de ser necesariamente los mejores) para que el lector
obtenga un conocimiento general de cómo se van a presentar sus datos, y a través
de estos formatos se describirán los principales enfoques existentes, que son los
que realmente ha de conocer un usuario de SIG para saber discernir si un formato
es o no adecuado para sus datos y las operaciones que quiere aplicar sobre ellos.
Junto con estos formatos de archivo, en el capítulo 32 se presentan los estándares
de datos, que también se emplean para el intercambio y almacenamiento de datos
SIG, y que presentan una relación estrecha con el contenido de esta sección. El capi-
tulo 8, que veremos dentro de esta misma parte, también guarda relación con este
apartado, pues estudia las diferentes formas en que los SIG han solucionado a lo lar-
go del tiempo el acceso a los datos, incluyendo entre ellas el acceso directo a archivos.
6.9.1. Formatos para datos ráster
Los formatos de archivo para datos ráster son muy abundantes, existiendo
numerosas alternativas con diferencias en ocasiones notables entre sí. Debido a que
uno de los datos ráster más habituales en un SIG son las imágenes, a los formatos
de datos específicos para datos ráster hay que sumar aquellos ya existentes para
el almacenamiento de imágenes, que son de por sí muy variados. Estos formatos,
adaptados a la naturaleza particular de las imágenes de un SIG, pueden emplearse
para almacenar datos ráster y son de hecho de uso habitual en el ámbito de los
Sistemas de Información Geográfica.
Formatos para imágenes
Como ya sabemos, las imágenes son un tipo de dato muy habitual en un SIG,
y estas se corresponden con el modelo de datos ráster. Por ello, los formatos
de archivo empleados para el almacenamiento de imágenes digitales se emplean
también para las imágenes particulares que utilizamos en un SIG (por ejemplo,
fotografías aéreas o mapas escaneados, según vimos antes en este mismo capítulo),
e incluso para otros datos ráster que no son imágenes como tales, como por ejemplo
un Modelo Digital de Elevaciones.
Los formatos de archivo para imágenes son adecuados para recoger los colores
de las imágenes, pero esto no es suficiente a la hora de almacenar otros valores (por
ejemplo, valores decimales) o bien cuando son necesarios un número más elevado
de bandas, como en el caso de imágenes hiperespectrales.
Una imagen en blanco y negro o en escala de grises contiene una banda. Una
178 Sistemas de Información Geográfica
imagen en color contiene tres, ya que los colores se expresan como una terna de
colores básicos: rojo, verde y azul. Este es el fundamento del modelo de color RGB,
en el cual todo color es la combinación de distintas intensidades de los anteriores
colores básicos. Las intensidades de cada banda (o las intensidades de la única
banda en el caso de una imagen en escala de grises) se expresan habitualmente
con valores entre 0 y 255, un rango que resulta insuficiente para el manejo de otras
variables tales como las variables físicas que pueden emplearse en un SIG, ya que
estas presentan valores continuos.
En estos casos, los formatos de imágenes no son adecuados en su forma original,
y deben o bien adaptarse o bien emplearse formatos más específicos que tengan
en cuenta el tipo particular de imágenes que se almacenan.
Otro problema es la presencia de celdas sin datos. La existencia de celdas sin
datos es un hecho que no contemplan los formatos de imágenes. A estas celdas
se les asigna un valor establecido por defecto, el cual ha de definirse en el propio
archivo para que después sea reconocido por el SIG (para que sepa que, donde
aparezca ese valor, realmente no existen datos), pero muchos formatos de imagen
no puede almacenarlo. Una posible solución es la utilización de formatos que
permitan transparencia. En estos, se puede especificar un color como transparente,
que a efectos de su utilización en un SIG puede considerarse como indicación de
la ausencia de datos. Estos formatos, no obstante, no son los más adecuados para
datos SIG, y esta solución no resuelve por completo esta deficiencia.
Otra deficiencia de los formatos de imágenes es que no pueden recoger la
referencia geográfica de la imagen. Salvo que las imágenes sean utilizadas en un
SIG, no hay necesidad de que estas contengan información tal como el tamaño
de píxel (los metros que cada píxel representa en la realidad) o las coordenadas de
la zona que recogen. Por ello, las definiciones de los formatos de imagen, al estar
pensadas para recoger meras imágenes digitales (y no imágenes de satélite o aéreas
destinadas a un análisis espacial), no tienen en cuenta estas necesidades.
Una forma habitual de resolver esto es acompañar cada fichero de imagen
con un pequeño fichero de texto plano donde se contengan los datos geográficos
correspondiente a la imagen. Este fichero se denomina World File, y tiene una
forma como la siguiente:
1.0
0.0
0.0
-1.0
691200.0
4576000.0
El significado de las anteriores líneas es el siguiente:
Línea 1. Tamaño de celda en la dirección Este–Oeste
Fuentes principales de datos espaciales 179
Líneas 2 y 3. Ángulos de rotación del plano respecto a los ejes X e Y. Estos
valores son siempre iguales a cero.
Línea 5. Tamaño de celda en la dirección Norte–Sur, con signo negativo
Líneas 6 y 7. Coordenadas x e y del píxel superior izquierdo de la imagen.
Este World File tiene el mismo nombre que el archivo de imagen, y su extensión
se forma con la primera y la última letra de la extensión de dicho archivo, y la letra
w. Así, para un archivo imagen.tif, se tendrá un archivo imagen.tfw. Cuando
el SIG abre la imagen, busca dicho fichero y, en caso de existir este, toma de él la
información que necesita para poder incorporar la imagen al SIG de forma completa,
de tal modo que sobre ella puedan llevarse a cabo análisis espaciales u operaciones
como la digitalización en pantalla (heads–up) que hemos visto anteriormente.
Por último, un aspecto importante de los archivos de imagen es el tipo de
compresión que utilizan. Las imágenes con las que se trabaja en un SIG pueden
ser muy voluminosas, y para almacenarlas es necesaria gran cantidad de espacio
(puede ser del orden de gigabytes para el caso de imágenes de alta resolución).
Por esta razón, los formatos de imagen, especialmente los que han sido creados
específicamente para imágenes SIG, incluyen algún método de compresión para
disminuir el volumen del archivo.
En el apartado relativo a los modelos de almacenamiento vimos algunas ideas
sobre compresión, presentando la codificación run–length. Esta es una estrategia
para almacenar la información de forma que se minimice el tamaño de los datos
necesarios, y en base a los datos recogidos puede recuperarse toda la imagen de
forma exacta. Es decir, la utilización de estas formas de compresión no supone una
degradación de la información contenida en la imagen, y nada de esta se pierde en
el proceso. Podemos comprimir y descomprimir la imagen tantas veces como quera-
mos, y el resultado siempre será el mismo, fiel a la imagen original. Un formato de
archivo que cumple esto se dice que emplea un método de compresión sin pérdidas.
Por el contrario, existen otros métodos de compresión con pérdidas, en los cuales
se pierde información y la imagen resultante, además de ocupar menos espacio, tie-
ne una menor calidad y no es exactamente igual a la original, sino simplemente muy
similar a esta. Los algoritmos de compresión con pérdidas toman de la imagen ori-
ginal la información más importante para después recrear esta, ignorando la menos
relevante, que se pierde en aras de obtener un menor volumen de almacenamiento.
Siempre que sea posible, los formatos de compresión sin pérdidas deben pre-
ferirse frente a los que utilizan algoritmos de compresión son pérdidas, ya que
no se pierde información alguna con ellos. En función de las necesidades que se
tenga con respecto a las imágenes a almacenar, debe elegirse el formato adecuado,
considerando siempre la degradación que la compresión con pérdidas implica.
Algunos formatos de imagen que emplean compresión con pérdidas son alta-
mente populares, ya que se emplean para tareas donde la reducción de tamaño de
los ficheros es prioritaria, y este tipo de compresión ofrece una reducción en general
mayor que la de los algoritmos sin pérdidas. Así, por ejemplo, las imágenes que se
180 Sistemas de Información Geográfica
Figura 6.21: Efectos de la utilización de algoritmos de compresión con pérdidas. a)
Imagen original. b) Imagen almacenada mediante compresión con pérdidas. c) Imagen tras
diez procesos de lectura y almacenamiento en un formato de archivo con compresión con
pérdidas. El efecto de la degradación sucesiva que la imagen sufre es claramente apreciable.
incorporan en paginas Web han de ser de pequeño tamaño para agilizar su carga, y
ese tamaño resulta un factor decisivo, especialmente donde la velocidad de conexión
es limitada. Para el trabajo con un SIG, no obstante, la calidad de la imagen es
de mucho mayor importancia que su tamaño, y los formatos de compresión sin
pérdidas responden mejor a las necesidades del almacenamiento de datos SIG.
En la imagen 6.21 puede verse el efecto de la utilización de compresión con
pérdidas.
Formatos para datos SIG
Junto con los formatos de archivo para imágenes, los SIG ráster han desarrollado
sus propios formatos para el almacenamiento de capas ráster en general, y en parti-
cular de aquellas que no representan imágenes, tales como capas de variables físicas.
Estos formatos están pensados para las características de estas capas, que
habitualmente recogen valores decimales (a diferencia de los valores enteros de los
Niveles Digitales de una imagen), y que no suelen contener más que una única banda.
Además de corresponder a un SIG particular (prácticamente cada SIG tiene
su propio formato de archivo ráster), otras aplicaciones que trabajan con este tipo
de datos, tales como todas aquellas que usan por una u otra razón información de
elevaciones, también disponen de sus formatos particulares. Muchos SIG pueden
leer algunos de estos formatos junto con los suyos propios o los de otros SIG.
A la hora de almacenar una capa tal como un Modelo Digital del Terreno o
cualquier otra de similar índole, estos formatos son preferibles en general a las
imágenes, ya que los formatos de imagen, aunque ya hemos visto que pueden
adaptarse y ser en algunos casos plenamente operativos para otro tipo de variables,
no son formatos puramente pensados para este tipo de información.
Fuentes principales de datos espaciales 181
Principales formatos existentes
Dentro de la gran variedad de formatos existentes, he aquí una breve lista de
los principales, los cuales suelen encontrarse con frecuencia a lo largo del desarrollo
de un proyecto SIG habitual.
Dentro de los formatos para imágenes, cabe destacar los siguientes:
Tagged Image File Format (tif). Se trata de un formato complejo y
altamente flexible, con muchas variantes distintas. Puede incorporar tanto
compresión con pérdidas como sin pérdidas, en función del algoritmo que
se utilice. Se utiliza habitualmente tanto en el ámbito del tratamiento de
imágenes como en el ámbito SIG. En este último, permite también el alma-
cenamiento de valores decimales, siendo apto para almacenar capas que no
representen imágenes como tal. Es un formato habitualmente generado por
los escáneres, con lo cual es frecuente su utilización al trabajar con cartografía
escaneada, según vimos antes en este mismo capítulo. Existe una variante
denominada GeoTIFF, que permite incorporar en el propio fichero la georre-
ferencia de la imagen, haciendo innecesario el uso de un World File asociado.
Joint Photographic Experts Group (jpg o jpeg). Un formato muy
popular para imágenes (todas las cámaras digitales lo utilizan), no es sin
embargo adecuado para el trabajo con SIG. Incorpora compresión con
pérdidas (el ejemplo de la figura 6.21 ha sido realizado utilizando este
formato), y no es apto para almacenar capas ráster que no sean de tipo imagen.
Algunos formatos específicos para imágenes SIG tales como imágenes de satélite,
son:
Enhanced Compression Wavelet (ecw). Formato desarrollado por
Earth Resource Mapping. Al igual que el siguiente, está especialmente
preparado para almacenar imágenes de gran tamaño, ya que las imágenes
aéreas o de satélite en general tiene tamaños mayores que las imágenes de
uso genérico para las que están pensados los formatos como TIFF o JPEG.
En el uso de estas imágenes de gran tamaño en un SIG, es habitual que
se quiera acceder a la imagen (por ejemplo para su visualización) solo en
una parte determinada de la misma. Para optimizar este tipo de acceso,
el formato soporta acceso sin necesidad de descomprimir la totalidad del
archivo (descompresión selectiva). Se trata de un formato de compresión
con pérdidas, y su grado de compresión es alto.
Multi–resolution Seamless Image Database (MrSID) (sid). Al con-
trario que el anterior, que es un formato abierto, el formato MrSID es un forma-
to cerrado, pero sus características son similares: alta compresión, preparado
para imágenes de gran volumen y con posibilidad de descompresión selectiva.
Por último, entre los formatos para datos ráster (no imágenes) más comunes
destacar el siguiente:
182 Sistemas de Información Geográfica
ArcInfo ASCII (asc). Un formato en texto plano ASCII26 . Únicamente
soporta una única banda, y permite almacenar el valor a considerar como
valor de sin datos.
6.9.2. Formatos para datos vectoriales
Sin ser tan abundantes como los formatos para datos ráster, existe también
un buen número de formatos de archivo para datos vectoriales. Al igual que en
el caso ráster, estos formatos de archivo no derivan únicamente de los SIG, sino
también de otras aplicaciones que utilizan capas de tipo vectorial, con particular
importancia de las de diseño asistido por ordenador (CAD).
A la hora de definir las características de un formato de archivo para datos
vectoriales, encontramos dos aspectos principales, a saber:
Capacidad para recoger la topología de la capa
Capacidad para recoger los atributos de las entidades.
En el primer aspecto, debemos considerar que existen SIG no topológicos, es
decir, que no son capaces de manejar información sobre la topología de la capa,
y por tanto no la necesitan. Los formatos de archivo de estos SIG no estarán por
tanto pensados para trabajar con topología, y por ello no la almacenan.
Respecto a la capacidad para recoger los atributos de una capa, este aspecto
afecta principalmente a los formatos propios de las aplicaciones CAD. En estas, la
componente espacial es la que prima, no teniendo tanta relevancia la componente
temática. Los puntos, líneas y polígonos con los que se trabaja en un CAD no tiene
atributos asociados salvo aquellos relacionados con su propia representación tales
como color, grosor o estilo. Existen formas de asociar una componente temática a
esas entidades, pero estas son variadas y la interoperabilidad disminuye en caso de
emplearlas, ya que no están soportadas con carácter general en los distintos SIG.
Por esta razón, estos formatos son aptos para introducir información dentro de
un SIG o para exportarla a un CAD con objeto de utilizar capacidades de este que no
se tengan en el SIG, pero como formatos de almacenamiento de datos dentro de un
SIG no son los más idóneos, y debe optarse por otros más específicos para datos SIG.
Principales formatos existentes
Los formatos más extendidos para datos SIG vectoriales son los siguientes:
Shapefile (shp). Propuesto por la empresa ESRI, es el formato más utiliza-
do en la actualidad, convertido en un estándar de facto. No soporta topología
y se compone de diversos ficheros, cada uno de los cuales contiene distintos
elementos del dato espacial (geometrías, atributos, índices espaciales, etc.)
26
American Standard Code for Information Interchange. Un esquema de codificación de
caracteres ampliamente utilizado.
Spatialite. Una extensión espacial para la base de datos SQLite. Se trata de
una base de datos, pero no tiene la arquitectura clásica de esta, con aplicación
cliente y un servicio que provee los datos (lo veremos con más detalle en el
capítulo 8), sino que toda ella se encuentra almacenada en un fichero que
puede copiarse o eliminarse de la forma habitual.
GeoJSON. Un formato de texto plano basado en notación JSON27 , de
uso extendido debido a su simplicidad. Existe una variante denominada
TopoJSON, que permite el almacenamiento de topología.
6.10. Resumen
Los datos con los que trabajamos en un SIG pueden venir de muy distintas
procedencias. Distinguimos aquellos que provienen directamente de algún tipo
de medida o del empleo directo de alguna instrumentación (fuentes de datos
primarias), y otros que proceden de procesar un dato ya existente para adaptarlo
a su uso en un SIG (fuentes de datos secundarias).
Una forma básica de crear datos espaciales digitales es la utilización de fuentes
no digitales y su digitalización. Este proceso puede llevarse a cabo tanto de forma
manual como automatizada, y puede dar como resultado tanto capas ráster como
capas vectoriales.
La teledetección es una fuente de datos de gran importancia para los SIG.
Dentro de ella se incluyen técnicas de muy diversa índole cuyos productos son
muy distintos entre sí. El fundamento de la teledetección es la medición de las
propiedades de los objetos realizada sin que medie contacto con estos. Para ello,
se emplean sensores que pueden ir a bordo de aviones o montados sobre satélites,
y que pueden ser de tipo pasivo o activo. El resultado del proceso de teledetección
son imágenes con un número variable de bandas, aunque tecnologías como el radar
o el LiDAR pueden emplearse para la generación de cartografía de elevaciones.
Dentro de las tecnologías que permiten la recogida de datos en campo, el GPS
ha supuesto un cambio en la realización de este tipo de trabajos, y su integración
en SIG es sencilla. Esto les ha convertido en una fuente de datos muy utilizada
en un gran número de proyectos SIG.
Independientemente de su origen, los datos espaciales se almacenan en archivos
cuyos formatos son a su vez muy variados. En este capítulo hemos visto algunos
de los más habituales, así como los aspectos más importantes que los definen, y
que han de tenerse en cuenta a la hora de trabajar con dichos formatos y elegir
los más adecuados.
27
JavaScript Object Notation
184 Sistemas de Información Geográfica
Capítulo 7
La calidad de los datos espaciales
Todo dato espacial contiene algún tipo de error, en mayor o menor medida. Conocer las
razones por las cuales aparecen esos errores es importante para poder evaluar correctamente
la validez del trabajo que realizamos con los datos y los resultados que obtenemos a partir
de ellos. En este capítulo se estudiaran los principales errores que pueden afectar a los
distintos tipos de datos espaciales, las fuentes principales de dichos errores y las maneras
en que estos pueden gestionarse dentro de un proyecto SIG.
Puesto que los datos son la materia prima para obtención de nuevos datos a través de los
procesos y operaciones que dentro de un SIG realizamos con ellos, trataremos también la for-
ma en que los errores en los datos de partida afectan a los resultados que derivemos de ellos.
7.1. Introducción
Puesto que los datos son la base de todo el trabajo que realizamos en un SIG,
su calidad es vital para que ese trabajo tenga sentido y aporte unos resultados cohe-
rentes y útiles. Siendo la calidad el conjunto de propiedades y de características de
un producto o servicio que le confieren su aptitud para satisfacer unas necesidades
explícitas e implícitas [93], desde el punto de vista del SIG unos datos espaciales de
calidad serán aquellos que puedan servir para alcanzar los objetivos de un proyecto
concreto, dando sentido a este. En este aspecto, se debe considerar la disposición
de los datos per se, aunque también las necesidades a las que pretendemos dar
respuesta mediante los datos que utilizamos.
Por definición, ningún dato es perfecto. Todo dato que utilicemos va a contener
errores, y estos pueden ser desde totalmente irrelevantes para el desarrollo de
un proceso de análisis hasta de tal magnitud que desvirtúen por completo los
resultados de dicho análisis. Es importante no solo contar con datos de calidad
en los que estos errores sean mínimos, sino conocer el tipo de error que existe en
nuestros datos y la magnitud de estos. Saber gestionar el error y ser consciente
de las limitaciones de los datos de los que se dispone es importante para saber
interpretar los resultados derivados del trabajo con dichos datos.
A lo largo de este capítulo veremos los aspectos más importantes que derivan
de considerar el error como parte inevitable de nuestro trabajo con datos espaciales.
Ello nos permitirá saber evaluar las capacidades de los datos para servir como
punto de partida de nuestro trabajo, y a llevar este a cabo de la mejor manera
186 Sistemas de Información Geográfica
posible, considerando que se trabaja simultáneamente con un conjunto de datos
y con un error implícito asociado a estos.
[94] apunta las siguientes etapas para la modelación del error:
Identificación de la fuente de error.
Detección y medida del error.
Modelación de la propagación del error.
Propuestas de estrategias para la gestión y reducción del error.
Será sobre estas distintas fases sobre las que trataremos en las próximas
secciones.
7.2. La importancia de la calidad de los datos
A pesar de su gran importancia, la calidad de los datos espaciales no ha sido
una preocupación hasta hace relativamente poco tiempo. Los textos sobre Sistemas
de Información Geográfica tales como este mismo libro apenas trataban el tema
en sus inicios [95, 96], y solo en la actualidad aparece una concienciación acerca
de la importancia que la calidad de los datos espaciales tiene sobre el desarrollo
de cualquier trabajo basado en ellos.
Las razones por las que la calidad de los datos empieza a considerarse como un
elemento de gran relevancia en el ámbito geográfico son principalmente dos [96]:
Aparición de los SIG.
Amplio crecimiento del volumen de datos espaciales disponibles, especial-
mente los derivados de satélites.
Estos dos factores, inevitablemente unidos, han favorecido que el volumen de
trabajo sobre datos espaciales sea mayor y que además se use un número más
elevado de datos distintos. Es lógico pensar que, a raíz de esto, haya surgido el
interés por evaluar y tratar de forma rigurosa las condiciones en las que estos
trabajos se están llevando a cabo.
La preocupación por la calidad de los datos es básica por el simple hecho de
que datos de mala calidad generan invariablemente resultados de mala calidad.
Utilizar un dato de mala calidad es equivalente a utilizar un modelo equivocado.
Si el modelo no es cierto, no importa la buena calidad de los datos, ya que los
resultados que arrojará tampoco lo serán. Del mismo modo, un dato con un error
superior al que puede resultar tolerable para una determinada tarea hace que la
calidad de este sea insuficiente, y los resultados obtenidos carecen de valor.
A pesar de que la aparición de los SIG ha sido una de las razones principales para
que se tenga en consideración la calidad de los datos y se especifique formalmente el
modo de tratarla y gestionarla, los SIG en sí no disponen apenas de herramientas pa-
ra asistir en estas tareas. Aunque la ciencia de la información geográfica ha avanzado
mucho en ese sentido, y el conocimiento relativo a la calidad de los datos espaciales
es mucho mayor, los SIG no han incorporado ese conocimiento, y carecen de funcio-
La calidad de los datos espaciales 187
nalidades al respecto. Dicho de otro modo, existen las formulaciones y los elementos
teóricos, pero estos aún no se han visto materializados (o lo han hecho de forma
prácticamente anecdótica) en los SIG de uso habitual. Por esta razón, la mayoría de
usuarios de SIG no tienen en cuenta rigurosa y formalmente la calidad de los datos a
la hora de desarrollar su trabajo, quedando aún mucho por avanzar en este sentido.
Un elemento clave para el control de la calidad es la existencia de metadatos,
que informan acerca de dichos datos sobre una serie de aspectos relativos a estos,
entre ellos aquellos que afectan a la calidad. Los metadatos se tratan con gran
profundidad dentro de este libro en el capítulo 31.
7.3. Conceptos y definiciones sobre calidad de datos
Antes de entrar en el estudio directo de la calidad de los datos espaciales y
el estudio de los errores que pueden presentarse en un dato espacial, es necesario
definir algunos conceptos básicos y alguna terminología al respecto.
El concepto básico es el error, que no es sino la discrepancia existente entre
el valor real (puede ser un valor de posición, de un atributo, o cualquier otro), y el
valor recogido en una capa. El error puede ser de dos tipos: sistemático y aleatorio.
Dos términos importantes en el estudio de la calidad son la precisión y exactitud.
La precisión indica el nivel de detalle con el que se recoge la información. Un capa
en la que las posiciones se han medido con 5 valores decimales es más precisa que
una en la que se han medido con un único decimal.
Figura 7.1: Diferencia entre precisión y exactitud (Tomado de [15]). En a) y b) la
precisión es elevada, mientras que en c) y d) es baja. Por su parte, en a) y c) la exactitud
es baja, siendo alta en b) y d).
Dependiendo del uso que se pretenda dar a una capa de datos geográficos, se
requerirá una u otra precisión. Un trabajo geodésico requerirá medir la localiza-
ción de un punto con precisión milimétrica, mientras que para un muestreo para
188 Sistemas de Información Geográfica
inventario forestal es suficiente localizar las parcelas correspondientes con una
precisión mucho menor.
Por su parte, la exactitud nos indica el grado en que los valores estimados se
asemejan al valor real.
La exactitud se calcula con el error sistemático, mientras que la precisión se
calcula a partir del error aleatorio. Existe una relación directa entre precisión y
exactitud, y en ocasiones se emplean ambos términos indistintamente. Si no existen
errores sistemáticos (no existe un sesgo), la precisión y la exactitud son iguales.
Es posible, no obstante, que un dato sea muy preciso pero poco exacto, ya que
las magnitudes de los distintos tipos de errores pueden ser muy distintas. Este
hecho puede verse claramente en la figura 7.1.
Por último, un parámetro relativo al error es la incertidumbre. Habitualmente,
el valor real es desconocido, por lo que el error no puede conocerse. La incertidumbre
refleja la medida en que no podemos tener certeza de la validez de nuestros datos. La
incertidumbre es un concepto más amplio que el error, y auna tres componentes [97]:
Error
Vaguedad. Aparece como consecuencia de definiciones pobres o incompletas,
así como cuando los objetos que se modelizan en los datos no presentan límites
bien definidos. Por ejemplo, en una capa de clases de vegetación, la transición
entre una clase y otra se produce normalmente de forma gradual, por lo que
el establecimiento de una frontera brusca es un hecho artificial que aumenta
la incertidumbre, y el significado de que un punto en concreto se asigne a una
clase dada es más vago cuanto más cerca de esa frontera nos encontramos.
Ambigüedad. Cuando no existen definiciones inequívocas de los conceptos
fundamentales, aparecen ambigüedades que añaden igualmente incertidum-
bre al dato creado en función de estos.
Tradicionalmente se ha trabajado con el error y no con el concepto de incer-
tidumbre, pero conocer esta es igualmente importante a la hora de evaluar la
calidad de los datos, y la modelización de la incertidumbre es una alternativa a
la modelización del error.
7.4. Fuentes y tipos de errores
Cuando un dato espacial llega a nosotros para ser empleado en un SIG, ha pasado
por una serie de etapas a lo largo de los cuales puede haber incorporado errores. Estu-
diando esas etapas por separado, encontramos las siguientes fuentes de error [98, 15]:
Errores de concepto y modelo. Al recoger la información espacial uti-
lizamos algún modelo de representación (ráster, vectorial), el cual siempre
tiene alguna deficiencia. La realidad y las tareas que pretendemos realizar
con una capa de información espacial no se adaptan por completo a ninguno
de los modelos de representación, y el hecho de optar por uno u otro conlleva
La calidad de los datos espaciales 189
la introducción de algún error, o condiciona para la aparición de unos u otros
errores en las etapas posteriores.
Errores en las fuentes primarias. El dato vectorial del que disponemos
proviene originariamente de una fuente primaria, la cual puede contener
errores. Si esta fuente contiene errores, estos aparecerán también en los datos
que se deriven de este. Así, si digitalizamos en base a un mapa escaneado
y la hoja original es errónea, también lo serán las capas que creemos en esa
digitalización.
Errores en los procesos de creación de la capa. Los procesos que realiza-
mos para crear la capa pueden incorporar errores en el resultado. Por ejemplo,
en el proceso de digitalización en base a ese mapa escaneado pueden aparecer
errores por razones tales como un mal trabajo del operario, ya sea al digitalizar
las entidades sobre una tableta o al teclear los valores de los atributos. Otros
procesos, como pueden ser los de conversión entre los modelos ráster y vec-
torial, también pueden tener como consecuencia la aparición de errores. Los
capítulos 13 y 17 tratan estos procesos de conversión, y se verá en su momento
los posibles errores que pueden aparecer en cada caso y las razones por las
que lo hacen. Igualmente, se verá como aplicar a esos procesos los elementos
de medida del error que se desarrollarán más adelante en este capítulo.
Errores en los procesos de análisis. Un dato espacial puede derivar de un
proceso de análisis, y en él pueden aparecer errores debidos principalmente
a dos razones: o bien la capa original objeto de análisis contiene de por sí
errores, o bien el proceso no es por completo correcto. Veremos en el capítulo
15 cómo a partir de un MDE podemos calcular una capa con valores de
pendiente, y cómo existen varios algoritmos distintos para realizar este cálculo.
Ninguno de esos algoritmos es completamente preciso, y los valores calculados
presentaran discrepancias de distinta magnitud con el valor real de pendiente,
en función de diversos factores. Por su parte, el propio MDE también tiene sus
propios errores, y estos se propagan a los resultados que derivamos de él, como
veremos más adelante con detalle. En la parte de procesos veremos muchas
operaciones que van a generar nuevos datos espaciales, y que pueden implicar
la aparición de errores. Trataremos estos en su momento en la medida que
ello pueda ser relevante para el manejo y utilización de esos datos derivados.
7.4.1. Las componentes de la calidad
La calidad de un dato espacial depende de muchos factores. Las características
que dotan de dicha calidad al dato espacial son variadas, pues el dato espacial es
en sí complejo, y cada una de estas características es susceptible de incorporar
errores y por tanto de implicar una pérdida de calidad por ello. Las siguientes san
algunos de los componentes principales de la calidad del dato espacial [96]:
Exactitud posicional. Todo dato espacial tiene asociada una referencia
190 Sistemas de Información Geográfica
geográfica. La precisión con la que se toma esta condiciona la calidad del dato.
Esta precisión puede considerarse únicamente en los ejes x e y, o también
en el eje z (elevación). Esta última, no obstante, puede considerarse como
un atributo si se trabaja en un SIG bidimensional, y tratarse de la misma
forma que cualquier otra variable de similar índole sin significado espacial,
tal como la temperatura en el punto (x,y) en cuestión.
Exactitud en los atributos. Si la componente espacial puede tener erro-
res, estos también pueden aparecer en la componente temática. Los valores
asociados a una coordenada u objeto espacial pueden haber sido medidos
con más o menos exactitud, o presentar valores incorrectos por muy diversas
causas. Cuando el atributo en cuestión es de tipo categórico, puede existir un
error de clasificación (se asocia la entidad espacial a una categoría errónea),
mientras que en el caso de atributos no categóricos pueden sencillamente
aparecer valores mayores o menores que los reales.
Consistencia lógica y coherencia topológica. Los datos espaciales no
son elementos independientes, sino que existen relaciones entre ellos. Un
dato de calidad debe recoger fielmente estas relaciones, siendo la topología
la encargada de reflejar este tipo de información. Por ello, debe existir una
coherencia topológica en el dato espacial. Además de la coherencia de las
relaciones, existe una coherencia implícita en todo atributo o valor recogido,
de forma que resulte lógico. Estos atributos y valores han de ser coherentes
con las escalas de medida o el tipo de valor que se espera, entre otros. Así
un valor de elevación no puede ser igual a «suelo calizo», ni un valor de
temperatura expresado en Kelvin igual a -87.
Compleción. El dato espacial no recoge todo lo que existe en una zona
dada. Algunos elementos pueden no haberse recogido por cuestiones de escala
(menores de un tamaño mínimo), pero también pueden incluirse o excluirse
en función de otros criterios, en especial para el caso de mapas temáticos.
Estos criterios deben conocerse para saber por qué un dato espacial contiene
una serie de valores o elementos y no otros.
Calidad temporal. Aunque los datos espaciales son «imágenes» estáticas
de la realidad, el tiempo es importante en muchos sentidos, pues afecta
directamente a su calidad. La realidad que representa un dato geográfico
es una realidad que varía con el paso del tiempo, y por tanto este paso del
tiempo puede degradar la calidad del dato espacial en mayor o menor medida.
Procedencia. Un dato espacial puede provenir de una fuente más o menos
fiable, o haber sido generado a través de uno o varios procesos, en cada uno
de los cuales se puede haber introducido algún tipo de error. Conocer la
procedencia de un dato y los procesos que se han empleado en su confección
es necesario para poder evaluar su calidad.
Es importante recalcar que los errores que pueden incorporarse en estas compo-
nentes de la calidad pueden ser tanto de tipo cuantitativo como de tipo cualitativo,
La calidad de los datos espaciales 191
y que ello no está necesariamente ligado a la naturaleza de la componente o el
tipo de variable a la que esta hace referencia. Así, un error en un atributo de tipo
categórico supone un error cualitativo, pero un error posicional en la componente
z (o de atributo de tipo continuo, si lo consideramos como tal) también puede dar
lugar a un error cualitativo, como se muestra en la figura 7.2.
11 11 11 11 11 11 11 11 11
a) 11 10 11 b) 11 7 11 c) 11 12 11
11 11 11 11 11 11 11 11 11
Figura 7.2: a) MDE con valores reales. b) y c) Dos MDE con errores posicionales en
z. En el caso c), el error no solo es cualitativo, sino también cuantitativo, ya que modifica
la forma del terreno, pasando de ser una depresión a ser un pico.
En la figura, que representa una porción de un Modelo Digital de Elevaciones
y dos variantes alternativas con sendos errores de medición de la elevación, en el
primer caso, y pese a que el error es mayor (hay mayor discrepancia entre el valor
real y el recogido en el MDE), no varía la configuración del terreno. En la celda
central encontramos una depresión, ya que en ella la elevación es menor que en las
circundantes, y esto sigue ocurriendo así a pesar de existir ese error posicional. En el
segundo caso (subfigura c), sin embargo, el error es menor en magnitud, pero al ser
de signo contrario hace que la depresión se convierta en un pico, una configuración
del terreno exactamente inversa. Si estudiamos las formas del terreno en ese punto
(un análisis que arroja resultados cualitativos), obtendremos un valor erróneo.
Veremos más adelante que este tipo de errores son de gran importancia pa-
ra muchos análisis, en particular para los relacionados con el comportamiento
hidrológico del terreno, que estudiaremos en el capítulo 15.
La forma en que los distintos tipos de errores aparecen en una capa es diferente
en función del modelo de representación empleado, ya que cada uno de estos
modelos tiene sus propias debilidades, y las fuentes de datos de las que pueden
proceder son asimismo distintas.
Así, los errores posicionales son más comunes en el caso de capas vectoriales,
y una de las fuentes de error principal en este sentido son los procesos de digita-
lización, especialmente si son de tipo manual. Junto a los errores de digitalización
que vimos en el capítulo 6 (véase 6.5.5), existen otros que pueden aparecer al crear
una capa vectorial, tales como los que se muestran en la figura 7.3 para el caso
de digitalizar una línea.
Con independencia de la pericia y experiencia de un operador, resulta imposible
que sea capaz de reproducir exactamente el objeto original y trazar con el cursor de
la tableta digitalizadora o el ratón todos los detalles de este con absoluta fidelidad.
192 Sistemas de Información Geográfica
c
d
Figura 7.3: Algunos errores que aparecen en la digitalización de lineas. a) Registro inexacto,
b) puntos mal situados, c) desplazamientos por vértices insuficientes, d) errores de registro.
Entre los errores que pueden aparecer encontramos falsos nudos (intersecciones
de una línea consigo misma que no existen en realidad), puntos situados fuera del
objeto, coincidencia imperfecta entre polígonos o mala referenciación de la hoja
al situarla sobre la tableta (en el proceso de registro).
El problema principal en el caso de digitalizar líneas o polígonos (que pueden
causar la aparición de mayor número de errores por su mayor complejidad) estriba
en que aquello que se digitaliza es un conjunto infinito de puntos, y el proceso
de digitalización solo puede recoger un número finito de ellos y después unirlos
mediante segmentos rectilíneos.
La componente temática de una capa vectorial también puede adolecer de
errores, que derivan a su vez tanto del proceso de introducción de los mismos como
de los procesos de medición mediante los que se ha obtenido el valor concreto.
En el caso de capas ráster, sin embargo, existen algunas fuentes de error que
tienen menor importancia, mientras que otras sí han de tenerse en cuenta por su
relevancia. Por ejemplo, la introducción de la componente temática en una capa
vectorial puede hacerse manualmente con el teclado, mientras que en el caso de
una capa ráster los valores de las celdas no se introducen manualmente.
Ello no significa que las capas ráster no presenten errores en sus valores, pero
el origen de estos es diferente. Un error habitual aparece en capas con información
categórica que proceden de la clasificación de imágenes aéreas o de satélite. Los
procesos que clasifican cada píxel de la imagen en función de sus Niveles Digitales
(los cuales veremos en el capítulo 20) introducen frecuentemente errores, y aparecen
La calidad de los datos espaciales 193
píxeles mal clasificados cuyo valor de clase no es correcto.
Los errores posicionales se presentan de forma distinta a lo mostrado en la capa
7.3. Las entidades tales como líneas van a tener una representación errónea debido
a la resolución de la capa ráster, que no va a permitir registrar con fidelidad su
forma real. Por otra parte, la georreferenciación de una imagen incorpora asimismo
errores, que son equivalentes al error de registro en la digitalización vectorial. Este
error va a ser distinto según las zonas de la imagen, ya que la distorsión que implica
la transformación realizada no supone un error constante. Veremos estas funciones
con más detalle también en el capítulo 16, donde se tratan los dos principales
errores que afectan a las imágenes: errores geométricos y errores radiométricos
(básicamente, errores posicionales y errores en los Niveles Digitales).
Además de los errores de un único dato espacial (una capa de información),
es importante considerar la forma en que los errores de distintos datos interactúan
entre sí. En el trabajo con SIG es raro emplear una única capa, y lo más frecuente
es trabajar con varias de ellas coordinadamente, cada una con sus respectivos
errores. El modo en que esos errores se afectan entre sí puede condicionar la calidad
de los resultados de forma similar a como los propios errores como tales lo hacen.
Como muestra la figura 7.4, dos errores sistemáticos de igual magnitud en sendas
capas pueden tener efectos distintos sobre el resultado dependiendo de sus signos.
e' e'
a) b)
e e
Figura 7.4: Un error e pueden tener distintas consecuencias según interactúen con los erro-
res de otros datos espaciales (e0 ). En a) los errores casi se anulan, mientras que en b) se suman
y dan lugar a un resultado erróneo. Los elementos en negro y gris indican la posición real.
En la figura, tanto la capa de puntos como la de polígonos presentan un error
sistemático. No obstante, un análisis que cuente el número de puntos dentro del
polígono seguirá dando el mismo resultado en uno de los casos, ya que la forma
de los errores de ambas capas hace que estos no afecten a este análisis, mientras
que en el otro caso el resultado es completamente distinto del real.
7.5. Detección y medición de errores
Ahora que conocemos las fuentes y tipos de error, la evaluación y tratamiento
de este empieza por su localización para saber a qué elementos del dato espacial
afecta. Existen diversas metodologías para «inspeccionar» un dato espacial en
busca de errores, que van desde métodos sencillos y obvios hasta avanzadas técnicas
194 Sistemas de Información Geográfica
con base estadística para detectar patrones particulares o elementos «sospechosos»
de contener algún error.
La forma más sencilla es la mera exploración visual. Algunos errores resultan
obvios y una inspección sencilla permitirá localizarlos sin dificultad. Una coinci-
dencia deficiente entre polígonos dejará un espacio en blanco que, si es de tamaño
suficiente, puede ser localizado sencillamente en una exploración visual. De igual
modo sucede con otro tipo de errores, en particular los errores de posición tales
como los falsos nudos o la aparición de formas «ilógicas» (calles con ángulos muy
bruscos, por ejemplo).
Es importante en este sentido que la representación del dato espacial sobre
la que se realiza la exploración visual sea clara y adecuada, para revelar de la
forma más notoria posible las posibles deficiencias de este. En este libro se dedica
una parte entera a la visualización y representación de la información espacial
y, al contrario de lo que pueda pensarse, esta no es solo de importancia para la
generación de resultados al final de un flujo de trabajo, sino desde su mismo inicio.
El análisis visual de los datos de partida, así como otros procesos de análisis,
pueden beneficiarse de una representación correcta.
Existen errores que pueden detectarse visualmente, pero cuya detección (y
corrección) puede automatizarse. Errores de este tipo son, por ejemplo, las cone-
xiones imprecisas entre segmentos, que ya vimos en el capítulo 6. La función de
snapping (ajuste por tolerancias), que se utiliza a la hora de digitalizar una capa
vectorial, puede aplicarse a posteriori, una vez que la capa ya ha sido digitalizada.
El SIG puede buscar esos enlaces imperfectos y convertirlos en enlaces correctos,
resolviendo las uniones en las que exista una distancia entre vértices menor que
una tolerancia preestablecida.
Como sabemos, hay SIG que son capaces de manejar topología y otros que no.
También hay formatos de archivo que pueden almacenar topología y otros que no
están pensados para ello. Por esta razón, los SIG topológicos trabajan a menudo con
datos sin topología, pero a partir de los cuales puede crearse esta, e implementan
por ello las funciones para dicha creación de topología. Esta creación implica la
corrección de errores topológicos que puedan existir en los datos originales, que no
son relevantes en el caso de no trabajar con topología, y por ello pueden no haber
sido detectados o eliminados. Errores como las antedichas falsas conexiones o los po-
lígonos con adyacencia imperfecta, ambos se pueden corregir de forma automática,
formando parte esas funciones de corrección de las rutinas de creación de topología.
Otros errores no pueden detectarse visualmente, en muchos casos porque los
motivos del error no se representan y no aparecen en la visualización. Errores
topológicos relativos a las estructuras de datos empleadas para recoger dicha
topología entran en este grupo. En muchos casos, pueden no obstante corregirse de
forma automática a través de operaciones de filtrado y limpieza, que se encargan
de controlar la coherencia topológica del dato.
En el terreno de los atributos, la detección de errores puede llevarse a cabo
La calidad de los datos espaciales 195
empleando las técnicas estadísticas habituales. La detección de valores improbables
(outliers) es uno de los procesos básicos. Estos outliers son observaciones dentro de
un conjunto de datos que no parecen guardar consistencia con el resto del conjunto
[99] y cuya detección puede llevarse a cabo de modo analítico o bien de modo
visual, representando gráficamente los valores de los atributos. En general, las
metodologías se fundamentan en comparar los valores con una distribución teórica
y detectar la discordancia con esa distribución. Formas automatizadas de detectar
outliers pueden encontrarse en [100].
Observaciones de este tipo, alejadas de las características generales del conjunto
de datos, pueden derivar de medidas erróneas tales como las provocadas por un
equipo de medición en mal estado, aunque también pueden representar valores
correctos pero de carácter excepcional.
Si se combina la componente espacial con la componente temática encontramos
otro tipo de valores inusuales, los denominados outliers espaciales. Estos se definen
como observaciones que son discordantes con las observaciones realizadas en su
vecindad1 [101].
La diferencia entre un outlier en la componente temática y un outlier espa-
cial es clara. Así, un valor de 10000 metros en elevación constituye siempre un
valor excepcional, ya que va a encontrarse lejos de los valores medios recogidos,
independientemente del lugar donde se hayan efectuado las mediciones. Un valor
de 5000 metros puede constituir un outlier espacial en unas zonas (si tomamos
medidas de elevación en, por ejemplo, Madrid, ya que será muy distinto del resto de
elevaciones), pero puede ser un valor perfectamente lógico en otras zonas de estudio.
La detección de este tipo de valores puede realizarse, al igual que en el caso
no espacial, de forma analítica o bien mediante exploración visual.
En base a lo anterior, existen una serie de procedimientos y metodologías para
la detección de valores ilógicos en un juego de datos, los cuales se dividen de forma
más genérica en dos grupos principales: unidimensionales y multidimensionales.
Cuando en los multidimensionales la vecindad se define únicamente en función de la
localización espacial y sin utilizar la componente temática, se tiene la detección de
outliers espaciales. La figura 7.5 muestra un esquema de esta clasificación y las me-
todologías más habituales. En [102] puede encontrarse más información al respecto.
Una vez localizado el error, este puede cuantificarse de diversas formas, según
sea la naturaleza de la variable sobre la que se produce dicho error.
Los errores posicionales o los atributos no categóricos son variables de tipo
cuantitativo. El Error Medio Cuadrático es la forma más habitual de medir esos
errores. Su expresión es:
1
Este hecho tiene relación con el concepto de autocorrelación espacial, que veremos en detalle
en el capítulo 10, y que expresa la idea lógica de que las mediciones cercanas deben tener valores
similares
196 Sistemas de Información Geográfica
Figura 7.5: Clasificación de métodos para la detección de observaciones inconsistentes
(outliers)
v
uN
uX (yi −y 0 )2
i
EMC = t (7.5.1)
i=1
N
donde N es el total de puntos en los que se comprueba el error, y el valor real, e y 0 el
valor estimado. En esencia, se trata de una desviación típica, por lo cual se asume
al emplear esta medida que los errores son aleatorios y se distribuyen normalmente.
Otras medidas utilizadas son el Error Medio, el Error Medio Absoluto o el
Error Máximo.
Para valores cualitativos no puede aplicarse esta medida, y deben emplearse
otros parámetros. La medida del número de valores que coinciden (elementos
correctamente atribuidos) es una forma de determinar el error existente. El uso de
la matriz de confusión es la forma más habitual de medir el error en la componente
temática cuando esta es de tipo cualitativo. Veremos con más detalle su empleo
y el de otras técnicas más complejas de similar propósito en el apartado 20.2.5.
7.6. Propagación de errores y modelación del error
El análisis de un dato espacial con errores va a dar un resultado que contiene a
su vez errores, y existirá una relación directa entre los errores en el dato de partida
y aquellos que aparecen en el dato resultante de su análisis. Este hecho se conoce
como propagación de errores.
La propagación de errores puede ser muy variable en función del tipo de error
que aparezca y la clase de análisis que se lleve a cabo. Errores de gran magnitud en el
La calidad de los datos espaciales 197
dato original pueden no tener apenas efecto en el resultado, mientras que pequeños
errores pueden causar grandes alteraciones en la calidad del resultado [103].
Una de las áreas en las que más se ha trabajado en el estudio de la propagación
de errores es el trabajo con Modelos Digitales de Elevaciones. Como veremos en el
capítulo 15, los MDE son un dato de primer orden, ya que resultan de utilidad en
prácticamente cualquier tipo de proyecto SIG, y son muy numerosos los distintos
parámetros que podemos derivar de ellos. Por esta razón, la propagación de errores
es un asunto importante dentro del trabajo con un MDE, pues de él se van a
obtener muchos datos nuevos, e interesa saber cómo la calidad de estos nuevos
datos se va a ver afectada por la calidad del MDE de partida.
El error principal que se estudia en este tipo de análisis en un MDE es el
de los atributos, es decir, el de la elevación. Los datos empleados se basan en el
modelo de representación ráster, ya que este es el más habitualmente empleado
para los análisis de un MDE. No obstante, metodologías como la que veremos a
continuación pueden aplicarse igualmente para la modelación de otros errores,
tales como los errores posicionales en la digitalización de una capa vectorial.
La metodología más extendida para la modelación de errores es la basada en
simulaciones de Monte Carlo. El fundamento de este método es considerar un dato
espacial dado (un MDE para el caso de este ejemplo) como una de las posibles
«versiones» de la realidad que pueden existir con una magnitud de error concreta.
Evaluando el error existente en un dato espacial y su distribución, y realizando
simulaciones estocásticas en base a este, pueden obtenerse otras de esas «versiones»
de la realidad. Posteriormente, puede realizarse el análisis no sobre el MDE con tal,
sino sobre todo ese conjunto de datos derivados del MDE y su distribución de error.
De este modo, se simula la presencia de error añadiendo ruido al MDE original,
pero de una forma acorde con el propio error existente en el dato base. De las
alternativas que se obtienen mediante estas simulaciones, ninguna de ellas tiene
que ser necesariamente correcta y carente de errores [104] (lo más probable es que
ninguna lo sea), pero el conjunto define un intervalo probable en el cual se situarán
los valores reales. Se modela así la incertidumbre existente en el dato y la forma
en que esta se propaga a los datos derivados.
En el caso del MDE propuesto, y para una operación dada a aplicar sobre este,
la forma de proceder puede resumirse en los siguientes pasos [98]:
Estudiar la distribución del error en el MDE en base a un juego de datos de re-
ferencia (generalmente un conjunto de puntos con mediciones precisas). Para
modelizar el error no basta simplemente medir este con un parámetro como
el error medio cuadrático, sino analizar su distribución y calcular parámetros
estadísticos en base al conjunto de todos los errores medidos. Si se asume
una distribución normal de los errores, la media y la desviación típica son
necesarias para definir esa distribución. Al igual que sucede con los datos en sí,
los errores presentan una dependencia espacial. Esto es, cerca de un valor que
presenta un gran error, aparecerán otros también con errores notables, y cerca
198 Sistemas de Información Geográfica
de valores donde el error es pequeño, no existirán puntos muy erróneos. La au-
tocorrelación espacial, que veremos con detalle más adelante en este libro, se
presenta tanto en los datos como en los errores. Por esta razón, la modelación
del error requerirá conocer otros elementos adicionales para definir correcta-
mente su distribución, tales como semivariogramas o correlogramas (estudia-
remos estos en detalle en el capítulo 12, dedicado a la estadística espacial).
Utilizando la distribución de los errores se generan un número n de nuevos
MDE. Para cada uno de ellos, se genera una capa aleatoria de errores que
se ajusta a la distribución definida, y esta se suma al MDE original. De este
modo, en lugar de una posible versión de la realidad, se tienen n versiones.
La existencia de dependencia espacial puede añadirse en este paso si no se
considera en el anterior, mediante el procesado de las capas de error y la
aplicación de filtros sobre estas.
Se aplica la operación sobre cada una de las n capas obtenidas.
Se calculan parámetros estadísticos de los n resultados obtenidos, a partir
de los cuales puede crearse un resultado único. Por ejemplo, la media de
los n resultados obtenidos puede considerarse como valor resultante de la
operación, en sustitución del que se obtendría aplicando esta únicamente
al MDE original.
En la figura 7.6 se muestra un esquema gráfico de esta metodología.
Figura 7.6: Esquema de la modelación de errores mediante simulaciones de Monte Carlo
Para ver con más claridad el efecto de este proceso, la figura 7.7 muestra
respectivamente los resultados obtenidos a partir de un MDE, y la media de 20
y 50 simulaciones obtenidas según lo explicado anteriormente para el calculo de
la curvatura horizontal (esté parámetro se explica en el capítulo 15).
Pese a su importancia, las herramientas para estos análisis no se implementan
de forma habitual en los SIG, sino que deben llevarse a cabo utilizando funciona-
La calidad de los datos espaciales 199
Figura 7.7: De izquierda a derecha, curvatura horizontal obtenida a partir del MDE
original o como media de 20 y 50 simulaciones de Monte Carlo (tomado de [103])
lidades individuales de análisis y programando los procesos repetitivos que son
necesarios para calcular todas las capas derivadas empleadas. Por esta razón, es
extraño que estos procesos se lleven a cabo en proyectos SIG de modo genérico.
El usuario de SIG es consciente de los errores que presentan los datos espaciales
con los que trabaja y las implicaciones de estos en lo que respecta a la calidad de
datos, pero raramente desarrolla procesos de modelación de la incertidumbre, que
quedan por el momento reservados para un ámbito más teórico que práctico.
7.7. Gestión de errores
Conocidos los tipos de errores fundamentales que encontramos en los datos
espaciales y la manera de medir estos y su propagación, deben formularse estra-
tegias para tratar de reducir el error y definir metodologías que permitan obtener
resultados más precisos dentro de un proyecto SIG.
Estas estrategias dependen, como es lógico, del tipo de proyecto, sus objetivos,
o el tipo de dato que se emplee para su desarrollo, pues estos factores van a
condicionar directamente el tipo de errores que aparecen, y por tanto también la
forma de controlar estos.
Podemos dividir estas estrategias en dos grupos fundamentales:
Utilización de datos de partida más precisos. Deben establecerse parámetros
de calidad referidos a los datos con los que se trabaja, que permitan tener
garantía de que estos están en condiciones de dar respuestas correctas a las
cuestiones que planteemos en base a ellos.
Minimización de los errores a lo largo del desarrollo del trabajo. No todas las
operaciones que realizamos en un SIG implican la introducción de errores
en la misma medida. La propagación del error puede controlarse si estructu-
ramos adecuadamente los pasos a realizar, situando al final de la cadena de
procesos aquellos que sean más propensos a generar errores o sobre los que se
tenga más incertidumbre en cuanto a la calidad de los resultados que arrojan.
Con independencia de la forma en que la gestión de errores se aborde, es
importante que a la hora de trabajar con un SIG se tengan en cuenta ciertas
200 Sistemas de Información Geográfica
ideas fundamentales con objeto de evitar la introducción de errores innecesarios.
Algunas de estas ideas se enumeran seguidamente:
La utilización de capas de distintos orígenes y en distintos formatos favorece
la aparición de errores y puede dar lugar a resultados de precisión insuficiente
[105].
La precisión disminuye a medida que lo hace la resolución espacial [106].
La precisión de un resultado nunca sera superior a la del dato de entrada
con peor precisión [107].
Cuanto mayor es el número de capas empleadas para un análisis, mayores
oportunidades existen de incorporar error a este e imprecisión a los resultados
[107].
Es igualmente importante recalcar el hecho de que los datos digitales con los
que trabajamos en un SIG no son per se mejores que los datos analógicos en cuanto
a su precisión y su falta de errores. Si bien existen muchas ventajas asociadas
a los datos digitales, tal y como vimos en el capítulo 6, la precisión no ha de
ser necesariamente una de ellas, o al menos no como para poder asumir que su
naturaleza digital implica que un dato es de calidad suficiente. En ocasiones, los
usuarios de SIG pueden olvidar esto y trabajar bajo unas suposiciones incorrectas,
introduciendo errores en sus resultados y no siendo conscientes de ello.
La importancia de los metadatos es grande en este sentido, ya que la cartografía
impresa habitualmente contiene información acerca de su calidad y su precisión,
pero al trabajar con una capa en un SIG, esa información la contienen los metadatos.
Mientras que en un mapa impreso no podemos separar el mapa en sí de esa informa-
ción, en el contexto de capas de un SIG estas se encuentran formalmente separadas,
hasta tal punto que la práctica más habitual es trabajar con capas sin metadatos
o, de existir estos, no emplearse como parte importante de los propios datos.
7.8. Resumen
Pese a no haber sido una preocupación importante en los comienzos de los
SIG, la calidad de los datos geográficos es hoy en día un aspecto clave para el
trabajo con SIG. Las etapas fundamentales relativas a la calidad de los datos son
la identificación de la fuente de error, su detección y medición, su modelación y,
por último, la gestión de dicho error.
Las fuentes de error principales son las deficiencias de los datos originales, los
errores conceptuales, los derivados de los procesos de digitalización y los introduci-
dos en la realización de procesos con los datos. Estas fuentes introducen errores de
posicionamiento, errores en los atributos asociados o de coherencia topológica, entre
otros. Estas son algunas de las denominadas componentes de la calidad, entre las que
también encontramos la procedencia de los datos o la validez temporal de los datos.
Los errores aparecen de forma distinta en función de las características de los
datos, en particular del modelo de representación elegido.
Detectar los errores puede realizarse de forma visual o bien de forma analítica,
pudiendo automatizarse en este segundo caso. El error medio cuadrático es la
medida más habitual del error en el caso de variables cuantitativas, mientras que
la matriz de confusión es empleada para variables cualitativas.
Modelar el error y su propagación puede emplearse para conocer de forma más
adecuada la validez de los resultados obtenidos a partir de un dato espacial. La
realización de simulaciones condicionales mediante el método de Monte Carlo es
la técnica más habitual para la modelación de errores.
Por último, es importante ser consciente de los errores que contienen los datos
y de la posible aparición de estos a medida que realizamos tareas con ellos, con
objeto de minimizar dicha aparición y limitar la presencia e influencia de los errores
en los resultados finales.
202 Sistemas de Información Geográfica
Capítulo 8
Bases de datos
Los sistemas gestores de bases de datos son la herramienta más adecuada para alma-
cenar los datos en un sistema de información debido a sus características de seguridad,
recuperación ante fallos, gestión centralizada, estandarización del lenguaje de consulta
y funcionalidad avanzada. En este capítulo analizaremos algunas ideas acerca de estos
importantes componentes de los SIG en la actualidad y veremos las principales alternativas
existentes, al tiempo que estudiaremos los fundamentos de bases de datos necesarios para
comprender la forma en que los datos espaciales se almacenan en las bases de datos actuales.
Asimismo, y para entender la situación presente y conocer las ventajas e inconvenientes
de los distintos métodos de almacenar la información en los SIG, veremos la evolución
de estos respecto a la arquitectura de almacenamiento de información.
8.1. Introducción
Las bases de datos son un elemento fundamental en el entorno informático hoy
en día y tienen aplicación en la práctica totalidad de campos. Concebidas con un
propósito general, son de utilidad para toda disciplina o área de aplicación en la
que exista una necesidad de gestionar datos, tanto más cuanto más voluminosos
sean estos. En nuestro ámbito particular de los SIG, los datos son cada día más
voluminosos, debido no solo a una mayor cantidad de información, sino también
a una mayor precisión en esta, la cual implica un mayor volumen de datos. Ade-
más, presentan otra serie de características (uso múltiple, necesidad de acceso
eficiente para análisis, necesidad de indexación, etc.), haciendo todas ellas que sea
recomendable el uso de bases de datos y tecnologías específicas para su manejo.
Pese a que, como veremos en este mismo capítulo, el uso de las bases de datos en
el ámbito SIG no ha sido siempre el actual, hoy en día representan una parte clave
para la gestión de los datos geográficos, en especial dentro del marco de proyectos de
cierta envergadura. Aunque la realidad es que todavía se efectúa mucho trabajo SIG
sin emplear bases de datos (y las aplicaciones SIG así lo permiten, no siendo estric-
tamente necesario disponer de una base de datos para almacenar la información),
la naturaleza propia de los proyectos SIG y la progresiva implantación de los SIG a
niveles más allá del uso personal (por ejemplo, SIG corporativos o Infraestructuras
de Datos Espaciales, acerca de las cuales se hablará en la parte VI dedicada al
204 Sistemas de Información Geográfica
factor organizativo) traen ambas consigo un uso cada vez mayor de las bases de
datos, y por tanto una mayor necesidad de conocer el funcionamiento de estas.
8.2. Fundamentos de bases de datos
Aunque las particularidades de los datos espaciales con los que trabajamos en
un SIG han hecho necesarias modificaciones y adaptaciones sobre el esquema de
trabajo de las bases de datos genéricas, en esencia los fundamentos de estas siguen
constituyendo el elemento primordial sobre el que la arquitectura de gestión de da-
tos espaciales se apoya, y es necesario conocerlos con cierto detalle. En esta sección,
veremos de forma introductoria esos fundamentos de bases de datos genéricas,
aplicables a cualquier otro ámbito además del de los SIG, para posteriormente
poder tratar el caso particular de los datos espaciales. Para el lector interesado en
profundizar en el tema, una referencia libre y en español con información extensa
y detallada sobre bases de datos genéricas es [108].
8.2.1. ¿Qué es una base de datos?
Entendemos como Base de Datos un conjunto de datos estructurado y almace-
nado de forma sistemática con objeto de facilitar su posterior utilización. Una base
de datos puede, por tanto, constituirse con cualquier tipo de datos, incluyendo
los de tipo puramente espacial (geometrías,etc.) tales como los que se utilizan en
un SIG, así como, por supuesto, datos numéricos y alfanuméricos como los que
constituyen la componente temática de la información geoespacial. Los elementos
clave de la base de datos son esa estructuración y sistematicidad, pues ambas son
las responsables de las características que hacen de la base de datos un enfoque
superior a la hora de gestionar datos.
Podemos ver más claramente las implicaciones de utilizar una base de datos
si recurrimos al ejemplo que vimos en el primer capítulo de este libro, relativo
a la gestión forestal de un territorio. Para ello, consideremos que el número de
usuarios del SIG y de los datos asociados no se limita únicamente al gestor forestal
que ha de tomar decisiones o establecer planes de actuación, sino a muchos otros
profesionales que puedan ejercer su trabajo en ese mismo área o puedan emplear
total o parcialmente esos mismos datos.
Imaginemos, por ejemplo, el caso de un ingeniero encargado de planear la insta-
lación de un tendido eléctrico a través de nuestra zona forestal de ejemplo. Sin duda,
deberá emplear datos tales como Modelos Digitales de Elevaciones, capas de zonas
protegidas o capas de arbolado para establecer el trazado óptimo y estimar costes
de la línea, entre otras tareas. Si en una situación ideal este ingeniero estaría en
comunicación con el gestor forestal y ambos compartirían sus conocimientos dentro
de un equipo multidisciplinar, también en lo referente a los datos debería existir una
Bases de datos 205
comunicación igual que implique, ente otras cosas, un uso compartido y conveniente-
mente coordinado de ellos. En otras palabras, los datos también tienen ese carácter
multidisciplinar y deben dejar de verse como algo propio de un uso particular, para
concebirse como un conjunto global del que se benefician muy diversos usuarios.
Establecer un uso compartido de los datos en una situación como la anterior
no parece difícil, ya que simplemente se trata de dos profesionales que realizan
tareas relacionadas y que, de un modo u otro, van a tener un contacto directo. El
gestor forestal puede sencillamente dar una copia de sus datos al ingeniero y este
podrá trabajar después con ellos de forma independiente. Aunque los datos con
que trabajen son inicialmente los mismos, en realidad esta práctica da lugar son
dos copias aisladas que constituyen dos universos distintos.
La situación real, sin embargo, es habitualmente mucho más compleja, y utilizar
un esquema de colaboración como el anterior puede ser imposible, carecer por
completo de sentido, o tener un buen número de consecuencias negativas. A medida
que aumenta el número de usuarios, resulta menos recomendable que cada uno
trabaje con sus propios datos y se los hagan llegar entre ellos a medida que los
necesitan (una realidad que, desgraciadamente, se presenta con más frecuencia
de lo recomendable). No debe olvidarse que un conjunto más amplio de usuarios
que trabajan de esta forma y son ellos mismos quienes gestionan sus propios datos,
implica directamente un número también más elevado de aplicaciones informáticas
y de formatos de archivo, complicando enormemente el trabajo coordinado en
cuanto el equipo tiene un tamaño medio.
Es probable además que existan usuarios dentro de una misma organización
(por ejemplo, un organismo público) que aunque requieran para su trabajo datos
similares, no tengan contacto alguno entre sí. Aunque los usuarios sean indepen-
dientes, sus datos no lo han de ser necesariamente, y en una situación ideal deberían
acudir a un repositorio único de datos del que cada cual tomaría lo necesario, en
lugar de basar su trabajo en un conjunto de datos fragmentado y difícil de gestionar.
Pensemos en un dato que pueda ser de interés a varios usuarios, como por
ejemplo una capa de vías de comunicación. A nuestro gestor forestal le será de
interés para, por ejemplo, saber qué medios de acceso existen en caso de tener
que hacer frente a un incendio. Lo más relevante de esas vías será su trazado, es
decir su geometría, y tal vez el tipo de vía de que se trata, para poder conocer la
velocidad a la que se pueden desplazar los medios de extinción. Otros usuarios, por
su parte, pueden necesitar parámetros distintos como el volumen de tráfico medio
de cada vía. Si todos ellos tienen una capa de vías con los parámetros asociados
que necesitan para su trabajo, nos encontramos con una innecesaria redundancia
de la componente espacial (las geometrías), y una dispersión de la componente
temática, que resultaría más conveniente mantenerla agrupada.
Pensemos ahora que el gestor forestal detecta un error en el trazado de una de las
vías y lo corrige. Esa corrección no estará disponible para los restantes usuarios, que
pueden a su vez efectuar modificaciones similares que no redundarán en una mayor
206 Sistemas de Información Geográfica
calidad de los datos con los que trabaja el gestor forestal, ya que, pese a utilizar datos
similares, trabaja con su propio conjunto de datos. Incluso si en algún momento to-
dos estos usuarios deciden poner en común sus datos y unirlos, esta operación puede
ser muy compleja o incluso, como sucede frecuentemente, imposible de realizar. Por
su parte, otros usuarios pueden añadir una nueva variable temática, como por ejem-
plo un índice de siniestralidad de la vía, el cual, si bien tal vez no resulte de utilidad
inmediata para muchos usuarios, en un futuro sí pudiera serlo. Una vez más, estos
nuevos datos no quedan a disposición del resto de usuarios, y en caso de serlo, no lo
hacen en conjunto con datos similares, sino como un dato aislado de los restantes.
En definitiva, es complejo gestionar de forma adecuada los datos en el momento
en que estos alcanzan un ámbito más allá de lo personal, y las prácticas más
habituales basadas en una gestión «manual» de un conjunto de ficheros no son
una opción adecuada. La solución para lograr esa necesaria gestión centralizada
de los datos son las bases de datos y también, como veremos más adelante, los
sistemas gestores de bases de datos, que representan la interfaz entre las bases de
datos y los distintos usuarios.
8.2.2. ¿Por qué interesa usar una base de datos?
En base al ejemplo anterior, podemos analizar algo más sistemáticamente las
ventajas de una base de datos frente a una gestión no organizada de los datos.
Las ventajas de utilizar un almacenamiento estructurado se aprecian en diversos
puntos, ya que afectan no solo a los datos sino también al propio uso que se hace
de estos. Algunas ventajas que afectan directamente a los datos son las siguientes:
Mayor independencia. Los datos son independientes de las aplicaciones
que los usan, así como de los usuarios.
Mayor disponibilidad. Se facilita el acceso a los datos desde contextos,
aplicaciones y medios distintos, haciéndolos útiles para un mayor número
de usuarios.
Mayor seguridad (protección de los datos). Por ejemplo, resulta más
fácil replicar una base de datos para mantener una copia de seguridad que
hacerlo con un conjunto de ficheros almacenados de forma no estructurada.
Además, al estar centralizado el acceso a los datos, existe una verdadera
sincronización de todo el trabajo que se haya podido hacer sobre estos
(modificaciones), con lo que esa copia de seguridad servirá a todos los usuarios.
Menor redundancia. Un mismo dato no se encuentra almacenado en
múltiples ficheros o con múltiples esquemas distintos, sino en una única
instancia en la base de datos. Esto redunda en menor volumen de datos y
mayor rapidez de acceso.
Mayor eficiencia en la captura, codificación y entrada de datos.
Esto tiene una consecuencia directa sobre los resultados que se obtienen de la ex-
plotación de la base de datos, presentándose al respecto ventajas como, por ejemplo:
Bases de datos 207
Mayor coherencia. La mayor calidad de los datos que se deriva de su mejor
gestión deriva en mayor calidad de los resultados.
Mayor eficiencia. Facilitando el acceso a los datos y haciendo más sencilla
su explotación, la obtención de resultados es más eficiente.
Mayor valor informativo. Resulta más sencillo extraer la información
que los datos contienen, ya que uno de los cometidos de la base de datos es
aumentar el valor de estos como fuente de información.
Por último, los usuarios de la base de datos también obtienen ventajas al
trabajar con estas, entre los que cabe citar:
Mayor facilidad y sencillez de acceso. El usuario de la base de datos se
debe preocupar únicamente de usar los datos, disponiendo para ello de las
herramientas adecuadas y de una estructura solida sobre la que apoyarse.
Facilidad para reutilización de datos. Esto es, facilidad para compartir.
De forma resumida, puede decirse que la principal bondad de una base de datos
es la centralización que supone de todos los datos con los que se trabaja en un
contexto determinado, con las consecuencias que ello tiene para una mejor gestión,
acceso o estructuración de estos.
8.2.3. Modelos de bases de datos
En función de la estructura utilizada para construir una base de datos, existen di-
versos modelos de bases de datos. El modelo de la base de datos define un paradigma
de almacenamiento, estableciendo cómo se estructuran los datos y las relaciones en-
tre estos. Las distintas operaciones sobre la base de datos (eliminación o sustitución
de datos, lectura de datos, etc.) vienen condicionadas por esta estructura, y existen
notables diferencias entre los principales modelos, cada uno de ellos con sus ventajas
e inconvenientes particulares. Algunos de los más habituales son los siguientes:
Bases de datos jerárquicas. Los datos se recogen mediante una estructura
basada en nodos interconectados. Cada nodo puede tener un único padre
y cero, uno o varios hijos. De este modo, se crea una estructura en forma
de árbol invertido en el que todos sus nodos dependen en última instancia
de uno denominado raíz. Aunque potente, el modelo jerárquico presenta
algunas deficiencias, principalmente la escasa independencia de sus registros
(el acceso a un registro —un nodo— implica que se ha de pasar por sus padres,
restando flexibilidad a la navegación por la base de datos). Otra grave defi-
ciencia de este modelo es la mala gestión de la redundancia de datos, ya que
si un registro guarda relación con dos o más, debe almacenarse varias veces,
ya que no se permite que el nodo correspondiente tenga varios padres. Esto
tiene consecuencias no solo en el mayor volumen de datos que se almacena,
sino también en la integridad y coherencia de los datos. Si se modifica una de
las «copias» de ese registro en la base de datos, deben modificarse también las
208 Sistemas de Información Geográfica
restantes, ya que, aunque no conectadas en la estructura de la base de datos,
realmente representan una única realidad y debieran ser idénticas entre sí.
Bases de datos en red. Con objeto de solucionar los problemas de redun-
dancia de las bases de datos jerárquicas, surge el modelo en red. Este modelo
permite la aparición de ciclos en la estructura de la base de datos (es decir,
no ha de existir un único padre para cada nodo), lo cual permite una mayor
eficacia en lo que a la redundancia de datos se refiere. Presenta, no obstante,
otros problemas, siendo el más importante de ellos su gran complejidad, lo
que hace difícil la administración de la base de datos.
Bases de datos relacionales. Constituyen el modelo de bases de datos
más utilizado en la actualidad. Solucionan los problemas asociados a las
bases de datos jerárquicas y en red, utilizando para ello un esquema basado
en tablas, que resulta a la vez sencillo de comprender y fácil de utilizar para
el análisis y la consulta de los datos. Las tablas contienen un número dado de
registros (equivalentes a las filas en la tabla), así como campos (columnas),
lo que da lugar a una correcta estructuración y un acceso eficiente.
Bases de datos orientadas a objetos. Se trata de uno de los modelos
más actuales, derivado directamente de los paradigmas de la programación
orientada a objetos. El modelo extiende las capacidades de las bases de datos
relacionales, de tal modo que estas pueden contener objetos, permitiendo
así una integración más fácil con la propia arquitectura de los programas
empleados para el manejo de la base de datos, en caso de que estos hayan sido
desarrollados mediante programación orientada a objetos. Su popularidad
crece de forma notable en ciertas áreas en las cuales resultan más ventajosas
que el modelo relacional, siendo los SIG una de ellas.
La figura 8.1 muestra una comparación esquemática de los anteriores modelos
de bases de datos.
8.2.4. Bases de datos relacionales
Aunque, como ya hemos visto, existen diversos tipos de bases de datos, las más
utilizadas con diferencia en la actualidad son las relacionales, que han demostrado
su idoneidad en la mayor parte de situaciones. Estas son también las que encon-
traremos en el ámbito SIG, y resulta por ello necesario añadir algunas nociones
adicionales sobre ellas para la correcta comprensión no solo de este capítulo, sino
también de otros posteriores que desarrollan temas relacionados.
El modelo relacional fue desarrollado en 1969 por Ted Codd y publicado un año
después en un artículo ya clásico [110], y consiste básicamente en un conjunto de re-
laciones tabulares. Estas relaciones son tan importantes como los propios datos (las
tablas, en este caso), y constituyen una idea central en el modelo relacional, de ahí su
denominación. La característica principales que ha convertido a este modelo de base
de datos en el más popular en la actualidad es su gran simplicidad, la cual indirecta-
Bases de datos 209
Red Relacional
Fecha Código Ruta
Mantenimiento
01/10/01 24 I-95
15/12/01 23 I-495 Clave: 24
Pavimento rígido Pavimento flexible 17/03/02 24 I-66
Nombre actividad Fecha Ruta
Asfaltado 01/10/01 I-95
Reparar Sellar juntas Sellar grietas Parchear
Asfaltado 17/03/02 I-66
Código Nombre actividad
23 Parcheado
Sellante de silicona Sellante asfáltico
24 Asfaltado
25 Sellado de grietas
Jerárquico Orientado a objetos
Fecha 01/12/01
Mejora pavimento Actividad 24
Ruta I-95
Mantenimiento Producción diaria 2.5
Reconstrucción Rehabilitación
Horas equipamiento 6
Horas labor 6
Rutinario Correctivo Preventivo
Objecto 1: Informe de mantenimiento Instancia del objeto 1
Código actividad
Nombre actividad
Unidad de producción
Producción diaria media
Objeto 2: Actividad de mantenimiento
Figura 8.1: Comparación entre algunos modelos de base de datos más frecuentes
(adaptado de [109]).
mente le dota de una gran potencia. Paralelamente, el modelo relacional se sustenta
en unos fundamentos matemáticos sólidos y sus ideas pueden expresarse mediante
conceptos de la teoría de conjuntos, lo que posibilita un análisis formal del mismo.
Además de las denominaciones habituales de tabla, fila y columna, existe una
terminología específica empleada al referirse a las bases de datos relacionales. Así,
en el modelo relacional los datos se organizan en tablas bidimensionales, cada
una de ellas con información relativa a un determinada entidad. La tabla en sí se
conoce como relación, ya que recoge la relación existente entre sus elementos, y
constituye así el eje central del modelo relacional. Dentro de la tabla, los datos están
organizados a su vez en filas y columnas. Las columnas representan los distintos
atributos asociados a la entidad, mientras que las filas conforman los distintos
registros. Una fila se forma con un conjunto de n atributos, constituyendo una tupla.
El esquema de la relación está formado por los nombres de los atributos y un do-
minio asociado a estos, que delimita el rango de valores posibles para cada atributo.
El dominio especifica el tipo de dato a contener en cada columna. Por ejemplo, si se
recoge un nombre el atributo será de tipo alfanumérico, mientras que si el atributo
es un conteo deberá ser de tipo entero. Además de los tipos habituales (fechas, cade-
nas de texto, valores reales1 , valores enteros, etc.) pueden emplearse en ciertas bases
1
Entiéndase el adjetivo real aquí en su sentido matemático, es decir, un número n tal que
n ∈ R. Puede emplearse también la denominación menos formal de número decimal o bien
valor de coma flotante, esta última más común en el ámbito informático y referida a la forma
de almacenamiento de este tipo de valores.
210 Sistemas de Información Geográfica
de datos valores más complejos. Esto es de especial interés en el caso de los SIG, ya
que permite utilizar geometrías como un tipo de datos más, con la utilidad que esto
tiene a la hora de almacenar datos espaciales. El esquema de la relación se recoge
en la primera fila de la tabla, conocida como cabecera. El número de filas de la tabla
sin contar la cabecera (es decir, el número de tuplas) se conoce como cardinalidad.
Las relaciones son, por tanto, un conjunto de tuplas asociadas a un esquema. En
una relación, tanto el orden de las filas como el de las columnas son irrelevantes (ex-
ceptuando la cabecera, que no es un tupla como tal, sino que define el esquema como
hemos visto), pero es importante que cada atributo sea del tipo correspondiente
a la columna a la que pertenece. Es decir, que sea coherente con el esquema.
El cuadro 8.1 muestra un resumen de algunas de las equivalencias entre la
terminología habitual y la específica del modelo relacional. En la figura 8.2 puede
verse un esquema de los elementos fundamentales del modelo relacional.
Terminología habitual Modelo relacional
Tabla Relación
Fila Tupla
Columna Atributo
Número de filas Cardinalidad
Valores posibles Dominio
Identificador único Clave primaria
Cuadro 8.1: Terminología del modelo relacional (Adaptado de [111]).
Atributo (columna)
A1 A2 ... A3 Cabecera
Relación
(tabla) Tupla (fila)
Figura 8.2: Elementos del modelo relacional.
Una forma abreviada de definir las relaciones que forman parte de una base de
datos es mediante su nombre y su esquema expresado como una lista de los atri-
butos que lo constituyen. Por ejemplo, podemos definir una relación denominada
PERSONAS como
PERSONAS(DNI, Nombre, Altura, Edad, Ciudad)
Bases de datos 211
Una base de datos contiene normalmente más de una tabla, ya que suelen ser
muchos los tipos de datos a almacenar y resulta conveniente dividirlos en distintas
tablas. Además de las relaciones que la tabla en sí implica, es necesario definir relacio-
nes entre las distintas tablas, y para ello se emplean los denominados atributos clave.
Un atributo clave es aquel que tiene valor único para cada tupla, pudiendo servir pa-
ra representar a esta plenamente. Por ejemplo, en una tabla con nombres de personas
e información adicional sobre ellas según el esquema anterior, los nombres no pueden
ser la clave primaria, ya que puede haber dos personas con un mismo nombre. El nú-
mero de su Documento Nacional de Identidad, sin embargo, sí que puede servir como
atributo clave. Además de su unicidad, una clave debe ser invariable, identificando
la misma tupla a lo largo del tiempo. Un esquema de relación puede contener varios
atributos clave, que se conocen como claves candidatas. Normalmente, de estas se eli-
ge una como representante principal de las tuplas, y se conoce como clave primaria
Por convención, las claves se escriben subrayadas al definir el esquema de la
tabla, de tal modo que el de la tabla PERSONAS quedaría de la siguiente forma:
PERSONAS(DNI, Nombre, Altura, Edad, Ciudad)
Si no existe ningún atributo que cumpla los requisitos para ser utilizado como
clave, este puede incorporarse al esquema de la relación, añadiendo por ejemplo un
nuevo atributo con un código arbitrario. Un ejemplo de esto lo podemos encontrar
en el cuadro 8.2, donde se incorpora un atributo que hace la función de clave a una
tabla con información sobre personas pero que no contiene el DNI de estas entre
esa información y, por tanto, carece de un atributo adecuado para servir de clave.
En la definición de clave cabe también la presencia de claves compuestas, es
decir, formadas por varios atributos cuya combinación es única para cada tupla. No
obstante, la utilización de claves simples es preferible generalmente, ya que simpli-
fica gran parte de las operaciones en las que la presencia de una clave es necesaria.
Cuando trabajamos con datos espaciales, es habitual emplear la componente
espacial como clave, ya que esta suele ser única. En el caso de almacenar informa-
ción sobre ciudades, con los nombres sucede de forma similar a lo visto para el caso
de personas, ya que existen ciudades con el mismo nombre en distintos lugares. La
localización de estas, sin embargo, es única, ya que no puede haber dos ciudades
simultáneamente en el mismo lugar.
El empleo de estas claves permite relacionar tablas entre sí, siempre que estas
compartan algún atributo común. Por ejemplo, pensemos en una base de datos
que contenga la tabla anterior y junto a esta la tabla mostrada en el cuadro 8.3.
Es decir, la base de datos contiene información sobre personas y sobre ciudades.
Es sencillo ver que puede vincularse una tabla a la otra a través del atributo que
contiene el nombre de la ciudad. Nótese que este atributo no tiene el mismo nombre
en ambas tablas, y que, mientras que en una de ellas representa la clave primaria2 ,
2
Pese a que se ha comentado que el nombre de la ciudad puede no ser adecuado como clave, en
212 Sistemas de Información Geográfica
a)
DNI Nombre Altura Edad Ciudad
50234561 Juan Gómez 1,85 35 Madrid
13254673 Edurne Montero 1,60 30 Toledo
46576290 Luis Urrutia 1,75 46 Madrid
38941882 Juan Gómez 1, 71 55 Valencia
b)
ID Nombre Altura Edad Ciudad
001 Juan Gómez 1,85 35 Madrid
002 Edurne Montero 1,60 30 Toledo
003 Luis Urrutia 1,75 46 Madrid
004 Juan Gomez 1, 71 55 Valencia
Cuadro 8.2: Adición de un campo para crear una clave. La tabla a) contiene un atributo
único (DNI). La tabla b) no contiene un atributo único entre sus datos, pero se añade el
campo ID con un código arbitrario que puede ser empleado como clave. El nombre en este
caso no sirve como atributo único, ya que hay dos personas en la tabla con el mismo nombre.
Nombre Habitantes Superficie(km2 )
Madrid 6386932 607
Valencia 1564145 134
Toledo 80810 232
Cuadro 8.3: Tabla CIUDADES
en la otra no puede serlo pues existen nombres de ciudades repetidos. Pese a ello,
este atributo nos permite establecer una relación entre las tablas3 , que podríamos
denominar «nacido en». A cada tupla de la primera tabla, que representa a una
persona dada, podemos vincularla con una de la segunda tabla, que representa
este caso sí puede serlo debido a las pocas filas que contiene la tabla, por lo que, en aras de la simpli-
cidad, lo utilizaremos asumiendo que no van a existir en la tabla dos ciudades con el mismo nombre.
3
Nótese que estamos empleando aquí el término relación para referirnos al vínculo entre
tablas, pero que este término también se emplea para referirse a las propias tablas, lo cual puede
dar lugar a confusiones. Para evitarlo, emplearemos el término tabla para referirnos a estas, y
mediante los términos relación o interrelación haremos a partir de ahora únicamente referencia
a esos vínculos que permiten enlazar varias de dichas tablas.
Bases de datos 213
una ciudad en particular, ya que toda persona ha nacido en una ciudad y gracias
al atributo CIUDAD podemos saber exactamente cuál es dicha ciudad.
Las interrelaciones entre tablas pueden ser de distintos tipos en función del nú-
mero de elementos distintos que se vinculan de cada tabla. En nuestra relación «vive
en», una persona puede vivir en una única ciudad, mientras que una ciudad puede te-
ner muchas personas viviendo en ella. Es decir, cada tupla de la tabla PERSONAS se re-
laciona con una única de la tabla CIUDADES, y cada tupla de esta última se relaciona
con una o varias de la primera. Este tipo de relación se conoce como de uno a muchos.
Existen otros dos tipos de relaciones además de esta: las denominadas de uno
a uno y las de muchos a muchos. Un ejemplo de relación de uno a uno podrían
ser «casado con», que estableceríamos entre la tabla PERSONAS y ella misma (las
dos tablas implicadas no han de ser necesariamente distintas). Cada persona
puede estar casada únicamente con otra, por lo que la relación es de uno con uno,
relacionándose una tupla con tan solo otra distinta, y no con varias.
Es importante reseñar que en algunas relaciones como «nacido en» todos los
elementos de una o de las dos tablas se encuentran vinculados de algún modo a través
de la relación, mientras que en otros no es así necesariamente. Así, todas las personas
han nacido en alguna ciudad, y estarán relacionadas con la correspondiente tupla
en la tabla CIUDADES, pero no todas las personas están necesariamente casadas.
Un ejemplo de relación muchos a muchos la podemos plantear si contamos
en nuestra base de datos con, por ejemplo, una tabla con empresas, entre cuya
información se incluya una lista de las ciudades en las que cada empresa tiene
sede. Una empresa puede tener sedes en distintas ciudades, y una ciudad puede
acoger a varias empresas, con lo que tanto ciudades como empresas pueden estar
vinculadas a más de una tupla en la otra tabla.
8.2.5. Sistemas gestores de bases de datos
Junto con las bases de datos, el elemento fundamental para el aprovechamiento
de estas son los Sistemas Gestores de Bases de Datos (SGDB o DBMS, del inglés
DataBase Management System). Estos sistemas representan un elemento interme-
dio entre los propios datos y los programas que van a hacer uso de ellos, facilitando
las operaciones a realizar sobre aquellos. En nuestro caso, son el componente que
permite unir el SIG con la base de datos en la que se almacenan los datos espaciales
con los que este va a trabajar.
Un SGBD es una pieza de software compleja, ya que las situaciones a las que
debe responder son diversas y en muchas ocasiones con requerimientos elevados,
por ejemplo en lo que a eficiencia y volumen de datos respecta. Piénsese que una
base de datos actual puede tener millones de registros y ser utilizada simultánea-
mente por miles de usuarios, que a su vez pueden utilizar diversos programas, no
todos ellos del mismo tipo. Por ejemplo, una base de datos que contenga números
de teléfono, nombres de usuarios, direcciones y coordenadas asociadas a cada línea
214 Sistemas de Información Geográfica
telefónica, puede ser empleada desde un SIG para crear un mapa que muestre la
densidad de usuarios o también desde una aplicación que genere un listín telefónico,
o bien desde una aplicación en una página Web que permita localizar el número
de teléfono de una persona concreta. Cada una de estas aplicaciones realiza un
trabajo distinto, pero todas ellas utilizan la misma base de datos. El SGBD debe
proporcionar a todos ellos la metodología adecuada para extraer del conjunto de
datos completo cuanto sea necesario en cada caso.
Además, el SGBD es la herramienta utilizada no solo por quienes aprovechan
los datos, sino también por aquellos que se han de encargar de la propia gestión y
mantenimiento de la base de datos. Administrar una base de datos puede suponer
una tarea altamente compleja, por lo que el SGBD debe proveer los útiles necesarios
para llevar a cabo ese mantenimiento.
Para ser de verdadera utilidad y responder a todas las necesidades que pueden
plantearse en relación con la base de datos, un SGBD debe perseguir los siguientes
objetivos:
Acceso transparente a los datos. La base de datos ha de poder accederse
de forma transparente, sin que sea necesario para el usuario del SGBD
preocuparse por aspectos internos relativos a la estructura de esta u otras
características. Esto significa que, por ejemplo, si queremos recuperar un regis-
tro de la base de datos, debemos poder hacerlo sin necesidad de saber si dicha
base de datos está almacenada en un único archivo o varios, o si el registro que
pretendemos recuperar está almacenado a su vez de uno u otro modo. Así, el
SGBD debe crear una abstracción de los datos que haga el trabajo con estos
más sencillo, ocultando aspectos que no sean relevantes para dicho trabajo.
Procedimientos como las consultas que veremos en el capítulo 11 se realizan
a través del SGBD, que es quien se encarga de interpretar dichas consultas,
aplicarlas sobre la base de datos y devolver el resultado correspondiente.
El SIG no accede a los datos, sino que se comunica con el SGBD y deja en
manos de este el proceso de consulta en sí.
Protección de los datos. Si la base de datos almacena información sensible,
el SGBD debe controlar el acceso a esta, restringiendo el acceso cuando corres-
ponda (por ejemplo, estableciendo distintos permisos de acceso para distintos
tipos de usuarios) e implementando los mecanismos de protección necesarios.
Eficiencia. Acceder a los datos no es suficiente en la mayoría de los casos,
sino que se requiere un acceso eficiente. El SGBD debe ser capaz de ges-
tionar de forma fluida grandes volúmenes de datos o de operaciones (por
ejemplo, muchos usuarios accediendo simultáneamente), de modo que dé
una respuesta rápida a las peticiones de los usuarios de la base de datos.
Gestión de transacciones. Las operaciones sobre la base de datos tales
como la adición o borrado de un registro se realizan mediante transacciones.
Una transacción es un conjunto de operaciones realizadas por un usuario
sobre la base de datos como una única unidad de trabajo, de forma indivisi-
Bases de datos 215
ble. El SGBD ha de encargarse de gestionarlas de manera eficiente y segura
para que todos los usuarios de la base de datos puedan hacer su trabajo de
forma transparente. Aspectos como el acceso concurrente a la base de datos
(varias transacciones simultaneas) resultan especialmente importantes, y en
su buena gestión se pone gran esfuerzo en el diseño de los SGBD.
Se denomina transaccional al SGBD capaz de garantizar la integridad de
los datos, no permitiendo que las transacciones puedan quedar en un estado
intermedio. Esto implica la capacidad de poder volver a un estado anterior
en caso de que por cualquier causa (error en el sistema, fallo eléctrico, etc)
no haya podido completarse la transacción.
La figura 8.3 esquematiza el papel que el SGBD juega en el manejo y empleo
de los datos. Tanto los distintos usuarios (en el caso de nuestro supuesto de gestión
forestal pueden ser desde el gestor forestal al cartógrafo encargado de actualizar los
limites de las unidades inventariables) como el administrador de la base de datos
acceden a esta a través del SGBD. No existe acceso directo a la base de datos.
Base de Datos
SGBD
Usuario 1 Usuario 2 Usuario 3 Administrador
Figura 8.3: Representación esquemática del papel de un Sistema Gestor de Base de Datos.
El SGBD tendrá unas u otras características en función del modelo de base de
datos subyacente, ya que debe adaptarse a las características de este para ofrecer
las funcionalidades correspondientes en el nivel de usuario.
8.2.6. Diseño y creación de una base de datos
Una vez se toma la decisión de emplear una base de datos, el siguiente paso es el
diseño y creación de esta. El diseño implica la definición de la estructura que va a te-
ner la base de datos, que se deberá realizar teniendo en cuenta principalmente el tipo
de datos que van a almacenarse y el modelo de base de datos elegido. El diseño debe
adecuarse al uso previsto de la base de datos, de tal modo que acomode los datos de
la mejor forma posible para cumplir los objetivos enunciados anteriormente en este
mismo capítulo. Para ello debe conocerse la naturaleza de los datos que van a alma-
216 Sistemas de Información Geográfica
cenarse (no necesariamente datos de los que se dispone en el momento de la creación,
sino los que se espera pasen a formar parte de la base de datos a lo largo de su ciclo
de vida), así como la de los algoritmos y procesos que van a emplearse sobre ellos.
Posteriormente al diseño, debe procederse a la implementación de la base de
datos, esto es, a la creación propiamente dicha, incorporando los datos según los
esquemas escogidos en la fase de diseño. Por último, y una vez creada la base
de datos, debe procurarse un mantenimiento para que esté continuamente en
condiciones de ser utilizada.
Más concretamente, pueden distinguirse las siguientes fases en el proceso global
de desarrollo de una base de datos:
Diseño lógico. Independiente del SGBD empleado, es un diseño conceptual
que pretende modelizar el contenido de la base de datos.
Diseño físico. Es la adaptación del diseño conceptual a las particularidades
del SGBD escogido.
Implementación. Introducción de los datos en la base de datos.
Mantenimiento. Monitorización de la actividad sobre la base de datos.
La primera fase en el diseño de una base de datos implica un análisis de los
datos que se van a recoger. Como resultado de ese análisis debe surgir un modelo
conceptual que exprese la estructura de la información, siendo dicha estructura
susceptible de ser empleada como esquema base para la base de datos en cuestión.
El modelo conceptual ha de definir básicamente los tipos de datos a tratar y las
relaciones existentes entre ellos, elementos que serán luego expresados en términos
del modelo de base de datos elegido (relacional, orientado a objetos, etc.) una vez
se pase a la fase de diseño físico.
El modelo conceptual debe estructurar la información de forma que el usuario
de la base de datos comprenda de forma sencilla el contenido y forma de esta. Por
tanto, debe desarrollarse teniendo presentes las necesidades de los usuarios y el
hecho de que estos no necesariamente han de ser especialistas en bases de datos,
sino especialistas en los propios datos en sí. Por otra parte, el modelo debe intentar
capturar del mejor modo posible la realidad que se pretende modelizar, por lo que
el conjunto de tipos de datos y relaciones debe elaborarse de modo similar a dicha
realidad para recoger toda la complejidad del sistema. Y, por supuesto, el modelo
debe poder ser implementado posteriormente y utilizado en conjunto con el SGBD
escogido, ya que de otro modo no presenta utilidad práctica.
Existen diversas metodologías para desarrollar un modelo conceptual. Una de
las más extendidas por su sencillez y potencia es la del modelo entidad–relación
(abreviadamente, modelo E–R).
Denominamos entidad a un objeto o concepto del mundo real acerca del cual
se recoge información, y que puede diferenciarse de otros objetos, incluso si son de
su misma clase (un ordenador, por ejemplo, es un objeto, y puede diferenciarse de
otros ordenadores, incluso si son de idénticas características, ya que no son todos
el mismo objeto y ese en particular tendrá alguna propiedad distinta, como puede
Bases de datos 217
ser el número de serie). La entidad puede tener sentido físico o bien ser una idea
abstracta, como un tipo de deporte, una clase de música o una palabra.
Una entidad se describe mediante una serie de características o atributos, que
son las que definen su naturaleza y sus propiedades. Una colección de entidades es
un conjunto de entidades distintas (que representan a objetos distintos), las cuales
comparten unos atributos comunes. Por ejemplo, un conjunto de ordenadores de
los cuales se conocen los atributos modelo, marca y procesador.
Por su parte, una relación expresa la dependencia existente entre entidades y
permite la asociación de estas. No resulta difícil ver que estos conceptos —entidad,
atributos y relación— guardan un notable paralelismo con las ideas del modelo
relacional que ya conocemos. Así, y aunque no resulte por completo inmediato, es
sencillo traducir un modelo entidad-relación (conceptual) a un modelo relacional,
que constituye ya un modelo aplicado a un tipo particular de base de datos. Por
ello, el modelo E–R es una herramienta potente para el diseño lógico de la base
de datos, especialmente si esta utiliza el modelo relacional.
Para desarrollar el diseño conceptual de una base de datos siguiendo el modelo
E–R, estos son lo pasos principales:
Partimos de una descripción textual del problema o sistema que queremos
recoger. Esta descripción contiene los requisitos necesarios y ha de formular
la pregunta a la que queremos que la base de datos dé respuesta. Para
nuestro ejemplo con datos sobre personas y ciudades, el problema podríamos
formularlo como «¿qué personas han nacido en cada ciudad?»4 .
Se toman los verbos y los sustantivos de la descripción textual. Los sustan-
tivos son posibles entidades o atributos, mientras que los verbos son posibles
relaciones. En nuestro caso, «persona» y «ciudad» serán entidades y «nacido
en» una relación.
Se analizan las frases y determina la cardinalidad de las relaciones y otros
detalles.
El modelo así creado se expresa mediante un diagrama en el que las entidades
se representan como cajas rectangulares, las relaciones mediante rombos y los
atributos en círculos o elipses, todos ellos con sus correspondientes nombres en
el interior. Cuando un atributo es un identificador, se representa con su nombre
subrayado, del mismo modo que en la definición de esquemas que ya vimos an-
teriormente (Figura 8.4). Si el número de atributos es elevado o el diagrama es
complejo por existir gran cantidad de tablas e interrelaciones, pueden omitirse los
atributos para una mayor legibilidad, describiéndose en un documento adicional.
Como ejemplo de lo anterior, la información sobre personas y ciudades que
4
Nótese que, aunque por meras razones didácticas hemos presentado en el capítulo las tablas
correspondientes a personas y ciudades antes de abordar lo relativo al modelos E–R y el diseño de
la base de datos, este modelo E–R es previo a la implementación de la base de datos, y las tablas
correspondientes al modelo relacional son solo una implementación práctica de dicho esquema,
en este caso según los requisitos de una base de datos que utiliza dicho modelo relacional
218 Sistemas de Información Geográfica
Entidad Relación
Atributo Identificador
Figura 8.4: Simbología empleada en el modelo entidad–relación.
venimos manejando, así como la relación «nacido en» existente entre ambas, se
expresarían según el modelo entidad-relación con un diagrama tal como el mostrado
en la figura 8.5.
Ciudad
Nombre
DNI N:1
Altura Persona Nacido en Ciudad Habitantes
Edad
Superficie
Nombre
Figura 8.5: Ejemplo de diagrama E-R.
El modelo E–R presenta algunas limitaciones semánticas, y no es suficiente para
expresar con detalle la estructura de algunos tipos de información. Por esta razón,
surge el conocido como modelo E–R extendido, que amplía el modelo E-R añadiendo
nuevos elementos. Con su mayor potencia, el modelo E–R extendido acerca el diseño
conceptual a los conceptos de la programación orientada a objetos, incorporando por
ejemplo mecanismos de herencia. No obstante, el enfoque orientado a objetos recoge
no solo la estructura del sistema de información, sino también su comportamiento
dinámico. Para saber más sobre el modelo E–R extendido, puede consultarse [112].
DNI Nombre Altura Edad Ciudad Población Superficie
50234561 Juan Gómez 1,85 35 Madrid 6386932 607
13254673 Edurne Montero 1,60 30 Toledo 80810 232
46576290 Luis Urrutia 1,75 46 Madrid 6386932 607
38941882 Juan Gomez 1, 71 55 Valencia 1564145 134
Cuadro 8.4: La información de las tablas PERSONAS y CIUDADES puede recogerse en una
única tabla como la mostrada.
Tras el diseño lógico, el diseño físico de la base de datos ha de llevar el modelo
conceptual a la práctica y crear un repositorio de datos que pueda ser usado
por el SGBD. Debe, asimismo, mantener todas aquellas propiedades del modelo
conceptual, de modo que el contenido de la base de datos siga expresando de
forma fiel la realidad y su estructura continúe siendo fácil de comprender para los
Bases de datos 219
usuarios. Si, siguiendo el enfoque más habitual, optamos por crear una base de
datos según el modelo relacional, esto implica la creación de las correspondientes
relaciones y los esquemas asociados a cada una de ellas.
La tablas que definamos en la base de datos pueden tener consecuencias directas
sobre el uso de esta, afectando a aspectos como el rendimiento de las operacio-
nes que posteriormente se lleven a cabo o al volumen de datos total necesario.
Por ejemplo, nuestra base de datos con dos tablas, PERSONAS y CIUDADES, puede
implementarse utilizando únicamente una tabla como la mostrada en el cuadro
8.4. Esta tabla contiene la misma información que las dos tablas anteriores, y en
principio permite realizar operaciones similares. Si quisiéramos saber la población
de la ciudad donde ha nacido una persona en concreto, podríamos hacerlo de igual
modo con independencia de cuál de las estructuras mostradas tenga la base de
datos. En un caso deberemos acudir a dos tablas y una interrelación entre ellas,
mientras que en el otro solo es necesario emplear una tabla, la única que por otra
parte contiene nuestra base de datos.
Aunque la funcionalidad sea la misma, el uso de una única tabla tiene efectos
poco deseados que se advierten rápidamente, como por ejemplo la redundancia de
datos. La población y superficie de Madrid aparecen repetidos en dos ocasiones, y
aparecerían más veces si hubiera en la tabla PERSONAS más tuplas correspondientes
a individuos nacidos en esta ciudad. De igual modo sucedería con otras ciudades. En
el esquema basado en dos tablas, sin embargo, estos datos aparecen en una única oca-
sión y no dependen del número de personas de cada ciudad cuyos datos aparecen en
la base de datos. En una base de datos de pequeñas dimensiones como la que utiliza-
mos de ejemplo, esta circunstancia puede parecer poco relevante, pero si trabajamos
con millones de registros en la tabla PERSONAS la diferencia es realmente importante.
El concepto de normalización de una base de datos tiene relación con lo ante-
rior. Aunque no se entrará en detalles por exceder el alcance de este texto, puede
encontrarse más información en [113].
Otro aspecto a tener en cuenta en el diseño físico de la tabla es elegir nombres
adecuados para los atributos y las tablas. Los nombres deben ser inequívocos y dar
una idea clara de la información que contienen, y un usuario debe poder identificar
sin dificultades qué tablas y atributos son aquellos a los que debe acudir para
efectuar una consulta y dónde se encuentra la información que busca. El atributo
CIUDAD en la tabla PERSONAS, por ejemplo, cumple sin problemas su papel a la hora
de establecer la relación entre esta tabla y la que recoge los datos de las distintas
ciudades, pero si buscamos exclusivamente información sobre las personas, no es
completamente preciso, ya que no aclara si se trata de la ciudad en la que una persona
ha nacido o en la que habita. Siempre que pueda existir alguna duda razonable
a la hora de interpretar el contenido de una tabla, debe intentarse solventar esta
mediante el uso de nombres claros y concisos. Establecer una sistemática a la hora
de nombrar atributos y respetarla a lo largo de todo el conjunto de tablas de una
base de datos hará más fácil para los usuarios la comprensión de esta. Por ejemplo,
220 Sistemas de Información Geográfica
es habitual emplear el prefijo num cuando un atributo representa un conteo (y por
tanto, su tipo de dato será de tipo entero). Siguiendo esta convención, si quisiéramos
añadir un campo a la tabla PERSONAS con el número de hermanos de cada individuo,
sería más conveniente y más informativo denominar al atributo correspondiente
numHermanos, en lugar de, por ejemplo, Hermanos. Más que seguir unas u otras
normas para nombrar atributos y tablas, lo importante es ser consistente y tratar
siempre de utilizar nombres que informen y no den lugar a confusiones.
Una vez que se establece un diseño y se implementa en la base de datos, lo normal
es que este sea relativamente estable y no varíe a lo largo del tiempo. Las relaciones,
por su parte, sí se modifican frecuentemente, ya sea añadiendo tuplas a medida que
se incorporan nuevos datos o modificando las ya existentes. No obstante, los SGBD
ofrecen también funcionalidades para modificar la estructura de la base de datos,
incorporando nuevas tablas o cambiando el esquema de alguna de ellas. Estas
funcionalidades no suelen ser accesibles para los usuarios con carácter general, sino
pensadas para el mantenimiento de la base de datos por parte de su administrador.
8.2.7. Bases de datos espaciales
Todo cuanto hemos visto en los puntos anteriores constituye el conjunto de
ideas fundamentales sobre las que se asienta la creación y uso de bases de datos
de cualquier índole. No obstante, no hemos mencionado a lo largo de los ejemplos
presentados ningún dato de carácter espacial, a pesar de que sabemos bien que la
información geográfica contiene tanto una componente temática como una espacial.
Más aún, algunos de los atributos en los sencillos casos mostrados, como puede ser
el atributo CIUDAD, son fácilmente asociables a elementos geográficos (por ejemplo,
un punto que señale el centro de la ciudad o un polígono que recoja su contorno).
Aunque las ideas anteriores no pierden su validez al incorporar datos espaciales,
la inclusión de estos no es en absoluto obvia, y presenta una complejidad adicional
que requiere de nuevos planteamientos para poder seguir trabajando con la base
de datos de una forma similar a como sucede cuando se trabaja con los tipos de
datos habituales. Mantener las características propias del SGBD en el contexto
de los datos espaciales no es sencillo, y tampoco lo es integrar esa base de datos
dentro de un SIG y permitir que este aproveche la potencia de dicha base de datos
de la mejor manera posible.
Las bases de datos espaciales representan una de las áreas dentro del manejo de
datos donde se ha desarrollado últimamente una mayor evolución, especialmente
debido a la gran importancia que los SIG, usuarios primordiales de este tipo de
bases de datos, han cobrado recientemente. Esta evolución ha ido paralela a la
forma en que los SIG han trabajado con esas bases de datos y cómo se han integrado
en ellos las operaciones y funcionalidades que ofrecen.
En lugar de adentrarnos en la complejidad de las bases de datos espaciales
(aunque en el capítulo 11 veremos bastante más en lo que a las operaciones y
Bases de datos 221
posibilidades de estas respecta), veremos las distintas etapas que podemos encontrar
a lo largo de la historia de los SIG en lo referente a su integración con bases de datos,
para de este modo comprender los diversas soluciones que han ido apareciendo.
8.3. Evolución del uso de bases de datos en los SIG
Como acabamos de decir, los conceptos que hemos visto en las anteriores
secciones representan una gran parte de la realidad actual en cuanto al manejo
de datos (espaciales o no) dentro de un SIG. No obstante, el problema del acceso
a los datos se ha solucionado de diversas formas a lo largo de la historia de los SIG,
y encontramos en las aplicaciones SIG distintos enfoques a lo largo del tiempo.
Para concluir este capítulo veremos con algo más de detalle la evolución que ha
seguido esta importante faceta de los SIG.
8.3.1. Primera generación. Ficheros
Los primeros programas, entre los cuales se han de incluir los primeros SIG,
se caracterizaban en lo que al almacenamiento de datos respecta por una ausencia
completa de cualquier tipo de almacenamiento estructurado. En estas aplicaciones,
los datos no se veían como un elemento más dentro de un sistema, sino como
una parte del propio software o, al menos, como algo asociado únicamente a un
producto particular. Así, encontramos en esta época como práctica habitual el
uso de ficheros con formatos cerrados, pensados para ser leídos y escritos casi de
forma exclusiva por la aplicación particular que ha de consumirlos, limitando así
el uso compartido y el alcance de los datos a otros ámbitos distintos.
Integrar en el SIG otros datos distintos a aquellos para los que la aplicación
se había diseñado no era sencillo, ya que existía una vinculación muy directa
entre software y datos. Asimismo, las funcionalidades del software eran también
específicas para esos datos, y todas ellas se implementaban directamente en la
aplicación. Al no existir un SGBD que se encargara de gestionar las operaciones,
era el propio SIG quien debía ser responsable de las funcionalidades de acceso o
edición. Otras funcionalidades típicas de un SGBD, sin embargo, no aparecían en
estos primeros SIG, ya que no eran necesarias. Por ejemplo, velar por la integridad
de los datos en operaciones concurrentes de varios usuarios no era necesario si la
aplicación en sí no estaba diseñada para permitir este acceso múltiple.
Las únicas ventajas que pueden encontrarse en este enfoque son las relacio-
nadas con el rendimiento, que podía en ciertos casos ser mayor que el esperable
en caso de utilizar un SGBD para canalizar el trabajo con los datos. Esto es así
debido a que la propia especificidad de la aplicación permitía una optimización «a
medida», aunque todo ello a cambio de sacrificar la flexibilidad de la aplicación, su
escalabilidad, o la posibilidad de que los datos empleados pudieran ser utilizados
de forma sencilla para alimentar otras aplicaciones.
222 Sistemas de Información Geográfica
8.3.2. Segunda generación. Bases de datos relacionales
Una vez que las bases de datos comienzan a tomar su papel en el panorama
del software, no tardan en encontrar su camino dentro de las aplicaciones SIG.
Las bases de datos relacionales, que como ya sabemos son las más empleadas,
comienzan a ser utilizadas también para gestionar los datos espaciales con los
que se trabaja en un SIG. A partir de esta segunda generación, se empiezan a
adaptar las características del modelo relacional y de las bases de datos que lo
implementan a las particularidades de los datos espaciales. Las dificultades que
aparecen debido a la inherente complejidad de la componente espacial hacen que
surjan diversas alternativas para su manejo. Las más reseñables de entre ellas son
el uso de una arquitectura dual en la que únicamente la componente temática se
gestiona mediante una base de datos y el uso de una arquitectura en capas en el
que se da un pleno almacenamiento de la información espacial en la base de datos.
Arquitectura dual
El primer intento de incorporar las bases de datos lo encontramos en el uso
de una arquitectura dual en la cual el SGBD se hace cargo únicamente de la
componente temática de los datos. Puesto que la dificultad estriba en el manejo
de la componente espacial, esta no se incorpora por el momento a la base de
datos, que trabajará únicamente con los datos temáticos. Esto permite el uso de
sistemas gestores de bases de datos estándar, sin adaptación alguna, ya que estos se
encuentran perfectamente preparados para el manejo de esos datos no espaciales,
y no requieren elementos adicionales para trabajar sobre ellos.
La componente espacial, por su parte, es gestionada por el propio SIG, en el que
se implementan las funcionalidades necesarias. Al igual que sucedía anteriormente
con los SIG de primera generación, no todas las funcionalidades de un SGBD han
de aparecer necesariamente, ya que el sistema encargado de permitir el trabajo con
los datos no es como tal un SGBD. La única diferencia reside en que en este caso
esta circunstancia afecta tan solo a la componente espacial de los datos, mientras
que la componente temática queda en manos de un verdadero SGBD.
Existen, por tanto, dos subsistemas encargados de la gestión de los datos, cada
uno de los cuales se encarga de un tipo de información (Figura 8.6). Esta arquitec-
tura en la que datos espaciales y datos no espaciales se encuentran separados tiene
ciertas ventajas, puesto que permite reutilizar información ya existente de uno u otro
tipo. Por ejemplo, ficheros procedentes de aplicaciones CAD pueden incorporarse en
el SIG aunque carezcan de una componente temática, aprovechando, no obstante la
información espacial. Pese a carecer de muchas de las funcionalidades de un SIG, las
aplicaciones CAD se han utilizado tradicionalmente en arquitectura y para la elabo-
ración de cartografía, como ya vimos en el capítulo 2. El resultado de este uso es en su
mayoría de tipo gráfico, pero un SIG que presente una arquitectura dual puede tra-
Bases de datos 223
bajar con él y gestionarlo gracias al subsistema encargado de la información espacial,
suponiendo ya una mejora respecto al enfoque de los SIG de primera generación.
SGBD
Subsistema Subsistema
datos no espaciales datos espaciales
A1 A2 ... A3
Figura 8.6: Arquitectura dual con subsistemas distintos para el manejo de datos
espaciales y no espaciales.
La división entre datos espaciales y no espaciales conlleva, no obstante, una
serie de inconvenientes. Por un lado, resulta difícil integrar operaciones en las
que se empleen ambas componentes de los datos, que requerirán sendas llamadas
a ambos subsistemas y la posterior combinación de la respuesta de estos. Toda
esta labor debe implementarse en el SIG, siendo este un proceso costoso que
complica el desarrollo. Si todo el manejo de datos recayera sobre la base de datos,
estas operaciones se realizarían de forma transparente, ya que bastaría ejecutar
la operación en el SGBD y este se encargaría de realizar las tareas pertinentes y
devolver después al SIG la respuesta. Se evitaría asimismo la redundancia en el
propio software, ya que al emplear dos subsistemas han de duplicarse una buena
parte de funcionalidades, una de ellas en el SGBD externo y otra en el propio SIG.
Aunque una parte importante del SIG descansa ya sobre un SGBD, otra sigue
presentando muchas de las deficiencias que caracterizaban a la primera generación,
y constituyendo por tanto un punto débil en lo que a gestión de datos se refiere.
Mientras que la componente temática disfruta de las ventajas de usar un SGBD, la
componente espacial no goza aún de las ventajas que una base de datos provee, y
existe una cierta descompensación que limita las posibilidades y hace más complejo
el desarrollo del sistema.
224 Sistemas de Información Geográfica
Arquitectura en capas
La otra forma de aprovechar una base de datos relacional para su uso dentro
de un SIG consiste en incorporar toda la información dentro de la base de datos,
incluyendo la de corte espacial, buscando la manera más adecuada de llevar esto
a cabo pese a las limitaciones que la propia base de datos presenta en este caso.
Asumiendo que una base de datos relacional en su concepto tradicional no esta
diseñada para contener objetos complejos tales como geometrías o imágenes, y que,
especialmente, el SGBD correspondiente no presenta las mismas funcionalidades
y la misma potencia en el manejo de este tipo de datos que en el de tipos de
dato estándar (valores numéricos, cadenas de texto, fechas, etc.), es posible, sin
embargo, plantear soluciones que permitan llevar toda la información de un SIG
a una base de datos y poder gestionarla por completo a través de un SGBD, con
las ventajas que ello conlleva, y que ya conocemos.
Dos son las alternativas existentes: un almacenamiento transparente y un alma-
cenamiento opaco. Ambos se distinguen en la forma de almacenar la información y
también las operaciones sobre los datos, que vienen condicionadas por la estrategia
empleada para el almacenamiento de estos.
En el almacenamiento transparente se emplean los propios tipos de datos del
SGBD, y las operaciones se implementan en el lenguaje de consulta de este. Es decir,
se intenta implementar toda la funcionalidad deseada empleando los elementos bási-
cos del SGBD de la misma forma que haríamos si los datos a almacenar no fueran de
tipo espacial. La componente espacial de los datos se almacena empleando tuplas, va-
riando según la implementación la manera en que esto se lleva a cabo. Una geometría
como tal no se ajusta a ningún tipo básico de datos, pero en realidad esa geometría
no es sino un conjunto de coordenadas que definen una serie de puntos, y dichas coor-
denadas sí que son un tipo básico susceptible de almacenarse en un SGBD común.
En el almacenamiento opaco se emplean objetos binarios para almacenar la
información y las operaciones se implementan externamente en la herramienta
SIG. Al no utilizar los tipos de datos del SGBD, tampoco pueden emplearse
las operaciones de consulta de este, y es necesario implementar los algoritmos
correspondientes en el SIG.
La ventaja más directa de utilizar una arquitectura en capas, ya sea mediante
un almacenamiento transparente o uno opaco, es la facilidad para reutilizar un
SGBD existente. Con poco esfuerzo pueden incorporarse los datos espaciales a
un SGBD estándar, existiendo en la actualidad numerosas alternativas sobrada-
mente probadas y con una amplia gama de funcionalidades. Esta es la opción más
empleada hoy en día en los SIG, principalmente por esa sencillez, que permite
una conexión sin muchas dificultades de una aplicación SIG con la mayoría de los
SGBD de uso habitual fuera del ámbito SIG.
Existen, no obstante, inconvenientes y aspectos mejorables, achacables a la
nula especialización de los SGBD para el manejo de información espacial. En el caso
Bases de datos 225
del almacenamiento opaco, no poder emplear el lenguaje de consulta del SGBD
constituye un grave inconveniente. Por su parte, en el almacenamiento transparente
sí que puede emplearse, pero no todas las operaciones necesarias para el trabajo con
datos espaciales pueden implementarse con un lenguaje de consulta no adaptado a
las particularidades de los datos espacial, por lo que la funcionalidad es limitada.
Asimismo, la eficacia es limitada, ya que en un caso los algoritmos son externos
al SGBD y en el otro las consultas suelen ser complejas y operan sobre un elevado
número de tuplas, necesario para recoger la información espacial.
8.3.3. Tercera generación. Bases de datos extensibles
En la actualidad, las bases de datos presentan arquitecturas extensibles que
permiten ser adaptadas a la naturaleza de los datos con los que trabajan, de tal
forma que enfocan sus funcionalidades hacia la tipología particular que se manejen.
Los tipos de datos clásicos que ya se han citado conviven con nuevos tipos de datos
que pueden ser definidos, y con operaciones específicas para estos.
Un caso particular de estas bases de datos extensibles son las bases de datos
orientadas a objetos, que ya fueron comentadas al presentar los distintos modelos
de bases de datos. A pesar de que este tipo de bases de datos no ocupan una porción
significativa en el mercado global de las bases de datos y son las de tipo relacional
las más extendidas, existen algunos sectores en los que han logrado una mayor pene-
tración, entre ellos el del SIG. Por sus características, las bases de datos orientadas
a objetos resultan ventajosas para el manejo de datos complejos que no puedan
recogerse con facilidad utilizando los tipos de datos clásicos de una base de datos
relacional. En este grupo pueden incluirse las primitivas geométricas que utilizamos
en un SIG para recoger la componente espacial de un dato espacial, las cuales resul-
ta más adecuado considerar como objetos de un tipo dado (punto, línea o polígono),
aprovechando así las ventajas que un enfoque orientado a objetos proporciona.
La principal ventaja de una base de datos orientada a objetos es su mayor
eficiencia en el acceso a datos, lo que se traduce en consultas más rápidas en
comparación con una base de datos relacional (veremos más sobre consultas en
bases de datos espaciales en el capítulo 11). Por el contrario, carece de la base
matemática de esta, por lo que el soporte para esas consultas es menos robusto.
Para saber más sobre bases de datos orientadas a objetos, puede consultarse [114].
Los SGBD actuales presentan en su gran mayoría extensiones dedicadas al
manejo de datos espaciales, los cuales contienen todo lo necesario para el manejo óp-
timo de estos, la realización de ciertas operaciones fundamentales y la optimización
de las consultas y operaciones. Esta optimización es posible ya que el tipo de datos
espacial está plenamente integrado en la base de datos y es considerado de la misma
manera que cualquiera de los tipos de datos estándar como puede ser una cadena de
texto o un valor numérico. La eficiencia que se obtiene de este modo es muy elevada.
8.4. Resumen
En este capítulo hemos visto los conceptos básicos sobre bases de datos. Una
base de datos constituye un sistema que permite un manejo adecuado de los datos,
garantizando la seguridad e integridad de estos y permitiendo el acceso a distintos
usuarios de forma transparente. La base de datos está formada por los datos en
sí, organizados de forma estructurada, mientras que las operaciones las provee el
sistema gestor de base de datos (SGBD).
Existen diversos modelos para el almacenamiento de datos, siendo el modelo
relacional el más habitual en la actualidad. En el modelo relacional la información
se organiza en tablas relacionadas entre sí. Cada fila de una base de datos conforma
una tupla, que contiene la información correspondiente a una entidad dada.
El diseño de la base de datos es de gran importancia, y conlleva el diseño
de un modelo conceptual, el diseño de un modelo físico, la implementación y el
mantenimiento. Herramientas como los diagramas E–R son de ayuda en las fases
de diseño, cuyo principal objetivo es crear una estructura de la base de datos que
facilite la interpretación de la información contenida y permita sacar el máximo
rendimiento de esta.
En lo que a los SIG respecta, las bases de datos se han ido incorporando paulati-
namente a la gestión de los datos espaciales. Partiendo de una situación inicial en la
que no se empleaban sistemas gestores de bases de datos, estos han ido integrándose
en los SIG de diversas formas. En la actualidad, se emplean bases de datos relacio-
nales, que son adaptadas para poder almacenar datos espaciales y poder realizar
operaciones sobre ellos. Los SGBD extensibles representan la ultima tendencia,
y en ellos puede integrarse plenamente la información geográfica de forma óptima.