CAPÍTULO 1
1. INTRODUCCIÓN
CAPÍTULO 1
1.1. INTRODUCCIÓN
La inteligencia artificial en la actualidad se encuentra en desarrollo, a pesar de
tener grandes avances, se puede considerar que su nivel no puede ser tomado como
inteligencia verdadera. Sin embargo, el estado actual, es suficiente para el propósito de
este proyecto.
Las tareas de procesado digital de imágenes y visión por computadora tienen una
diversidad de áreas de aplicación en distintas áreas tales como metrología óptica,
inspección industrial, diagnóstico médico, reconocimiento óptico de caracteres y
percepción remota, entre otras. Entonces, el desarrollo de técnicas y algoritmos que
resuelvan problemas de optimización en visión por computadora, han sido punta de
lanza en el área de metrología óptica. Entre los problemas a los que se hace referencia
podemos mencionar entre otros, el trato de imágenes inmersas en ruido, optimización
de materiales de corte a partir de imágenes digitales, el reconocimiento de patrones
contenidos en imágenes, procesamiento de patrones de franjas y la medición de
cantidades físicas a través de imágenes que contienen información de objetos bajo
estudio.
Existen diferentes métodos para el reconocimiento de formas, algunos de estos
métodos se basan en las propiedades geométricas de las formas tales como su área y
su centro de masa. Cuando es posible describir la forma del objeto completamente por
su contorno existe la posibilidad de analizarlo de una forma alternativa usando
Descriptores de Fourier lo cual presenta la ventaja de disminuir el trabajo
computacional.
El reconocimiento automático de objetos ha sido un tema solicitado en
numerosas ocasiones, dada la gran cantidad de áreas en las que pueden ser
aplicadas.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 2
CAPÍTULO 1
1.2. PLANTEAMIENTO DEL PROBLEMA
La visión en los seres vivos es uno de los sentidos más utilizados para conocer
su entorno e interactuar con él, sin embargo, todo lo que el hombre es capaz de hacer
lo quiere realizar a través de las máquinas, desde 1964 hasta la actualidad, el
tratamiento digital de imágenes ha progresado vigorosamente.
Las técnicas de procesamiento digital de imágenes se emplean actualmente para
resolver problemas muy diversos. Aunque a menudo parecen inconexos, estos
problemas requieren normalmente métodos capaces de realzar la información de las
imágenes para la interpretación y el análisis humano.
Las imágenes tomadas con las cámaras siempre están expuestas a sufrir un
error por condiciones diversas en que fueron tomadas, entonces las imágenes
necesitan ser corregidas o tratadas antes de ser usadas en el reconocimiento de
patrones u objetos que se encuentren en ella, mejorando la calidad de la información
contenida.
La idea principal de la presente investigación surge de la necesidad de conocer
una alternativa de análisis que permita describir la forma del objeto completamente por
su contorno por medio de Descriptores de Fourier, lo cual presenta la ventaja de
disminuir el trabajo computacional en el desarrollo de aplicaciones, como el
reconocimiento automático de formas 3D, utilizando diversas técnicas de la visión
artificial.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 3
CAPÍTULO 1
1.3. OBJETIVOS
OBJETIVO GENERAL
Desarrollar un software útil para el reconocimiento automático de formas en
imágenes, usando descriptores de Fourier.
OBJETIVOS PARTICULARES
Estudiar algoritmos para el procesamiento de imágenes digitales, visión por
computadora, inteligencia artificial, y de reconocimiento de patrones.
Investigación y desarrollo de algoritmos de visión por computadora y
optimización para el mejoramiento de imágenes, segmentación de objetos, detección
de contornos y reconocimiento automático de formas.
Estudiar y aplicar técnicas de inteligencia artificial en problemas complejos de
tratamiento y procesado de imágenes.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 4
CAPÍTULO 1
1.4. JUSTIFICACIÓN
La presente investigación pretende proporcionar la teoría general de
descriptores de Fourier aplicado al procesamiento de imágenes y reconocimiento de
formas de contorno con la aplicación mínima del trabajo computacional, conservando
un completo análisis de la información.
Este proyecto se realiza con la intención de lograr que la teoría de descriptores
de Fourier se tome como base en el desarrollo de aplicaciones diversas como el
reconocimiento automático de formas 3D. Actualmente no existe completamente
desarrollada la teoría de descriptores de Fourier de tal forma que permita su uso como
base de aplicaciones para mejorar el cálculo computacional.
La gran ventaja de los Descriptores de Fourier es que son invariantes frente a la
traslación, la rotación y la escalabilidad. Estos son las principales características en
que basarse para buscar una utilidad a los Descriptores de Fourier, y su principal uso
es para, de una forma u otra, reconocer objetos.
Actualmente en el mercado no existe un sistema de este tipo que sea totalmente
independiente y que ofrezca una fiabilidad del 100%. La idea es desarrollar un software
que sea competitivo y cubra las necesidades básicas que se requieren para un sistema
de esta índole.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 5
CAPÍTULO 2
2. FUNDAMENTOS TEÓRICOS DE PROCESAMIENTO
DIGITAL DE IMÁGENES
CAPÍTULO 2
2.1. VISIÓN POR COMPUTADORA
El área denominada "visión por computadora" dentro del campo de la
inteligencia artificial tiene como objetivo obtener información del mundo real, usando
técnicas y modelos que permitan analizar y extraer información específica, a partir de
imágenes o video digitales [1].
La visión por computadora intenta crear modelos de la realidad en base a
imágenes en 2D, ya que de esta es posible obtener información sobre objetos,
características, colores, formas, iluminación, etc. Esta es una razón por la cual, se han
ido desarrollando una gran diversidad de técnicas y algoritmos que logren obtener
información específica para su procesamiento posterior.
La visión por computadora surgió en base a estudios realizados sobre la visión
humana. En la visión por computadora se intenta plasmar los mismos métodos que
hacen a la visión humana tan eficaz como eficiente.
La visión humana requiere de una cierta base de datos, la cual sirve de ayuda
para el reconocimiento de las características presentes en la imagen. Si se quisiera
hacer esto en un sistema artificial, requeriría una cantidad enorme de información, que
haría a este sistema muy lento al momento de procesar. Es aquí donde se hace
referencia a los estudios realizados sobre el procesamiento que realiza el cerebro
humano sobre las imágenes. Actualmente no se ha demostrado la forma en que el
cerebro guarda la información recibida, sin embargo, se sabe que el cerebro procesa la
información en base a semejanzas, esto es la memoria asociativa.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 7
CAPÍTULO 2
Los objetivos típicos de la visión artificial incluyen:
• La detección, segmentación, localización y reconocimiento de ciertos objetos en
imágenes (por ejemplo, caras humanas).
• La evaluación de los resultados (ej.: segmentación, registro).
• Registro de diferentes imágenes de una misma escena u objeto.
• Hacer concordar un mismo objeto en diversas imágenes.
• Seguimiento de un objeto en una secuencia de imágenes.
• Mapeo de una escena para generar un modelo tridimensional de la escena; tal
modelo podría ser usado por un robot para navegar por la escena.
• Estimación de las posturas tridimensionales de humanos.
• Búsqueda de imágenes digitales por su contenido.
Estos objetivos se consiguen por medio de reconocimiento de patrones,
aprendizaje estadístico, geometría de proyección, procesado de imágenes, teoría de
gráficos, entre otros campos.
La visión artificial cognitiva está muy relacionada con la psicología cognitiva y la
computación biológica.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 8
CAPÍTULO 2
2.2. PROCESAMIENTO DE IMÁGENES
2.2.1. INTRODUCCIÓN
Procesamiento Digital de Imágenes
El término procesamiento digital de imágenes habla sobre la manipulación y
análisis de imágenes por computadora.
El procesamiento de imagen puede considerarse como un tipo especial del
procesamiento digital en dos dimensiones, el cual se usa para revelar información
sobre imágenes y que involucra hardware, software y soporte teórico.
El procesamiento de imágenes tiene como objetivo mejorar el aspecto de las
imágenes y hacer más evidentes en ellas ciertos detalles que se desean hacer notar.
La imagen puede haber sido generada de muchas maneras, por ejemplo,
fotográficamente, o electrónicamente, por medio de monitores de televisión. El
procesamiento de las imágenes se puede en general hacer por medio de métodos
ópticos, o bien por medio de métodos digitales, en una computadora.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 9
CAPÍTULO 2
2.2.2. ELEMENTOS DE UN SISTEMA DE PROCESAMIENTO DE IMÁGENES
En la adquisición de imágenes deben existir dos elementos básicos. El primero
es algún dispositivo básico que sea sensible a una determinada banda del espectro de
energía electromagnético como son las bandas de rayos-x, el ultravioleta, el visible o el
infrarrojo, y que produce una señal eléctrica proporcional al nivel de energía censado.
El segundo es el digitalizador que convierte la salida del dispositivo físico de
censado a forma digital. En esta categoría se agrupan a las cámaras CCDs (Charge-
Coupled Devices) que tiene la ventaja de la velocidad de capitulación (hasta 1/10,000
seg.) pero un costo elevado, los scanners y cámaras de video.
El almacenamiento es un punto crítico debido a la gran cantidad de información
usada. Por ejemplo, una imagen en 8 bits de tamaño 1024 x 1024 pixeles requieren un
megabyte de espacio para su almacenamiento.
En el procesamiento, ya existen computadoras con microprocesadores
especializados en procesamiento de imágenes que permiten un manejo rápido de las
operaciones de matrices y acceso a memoria para aplicaciones de procesamiento de
marcos (frames).
En cuanto al despliegue de las imágenes, se han usado los monitores de T.V. y
monitores de computadoras. Los resultados desplegados en el monitor pueden ser
fotografiados por una cámara enfocada a la cara del tubo de rayos catódicos o generar
directamente una señal de video para grabarse.
A continuación se muestran elementos funcionales básicos de un sistema de
procesamiento de imágenes: adquisición, almacenamiento, procesado,
comunicaciones, despliegue y software.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 10
CAPÍTULO 2
Dentro de cada caja se dan ejemplos de dispositivos usados en tales sistemas.
Figura 2.1.- Elementos funcionales básicos de un sistema de procesamiento de imágenes
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 11
CAPÍTULO 2
2.2.3. IMAGEN DIGITAL
El término imagen se refiere a una función bidimensional de intensidad de luz
f(x,y), donde x y y denotan las coordenadas espaciales y el valor de f en cualquier
punto (x,y) es proporcional al brillo (o nivel de gris) de la imagen en ese punto [3].
Figura 2.2.- Representación de una imagen digital
Una imagen digital es una imagen f(x,y) que ha sido discretizada en
coordenadas espaciales y en brillo. Una imagen digital puede considerarse como una
matriz cuyos índices del renglón y columna identifican un punto en la imagen y el
correspondiente valor del elemento de la matriz que identifica el nivel de intensidad de
luz en ese punto.
Los elementos de tal arreglo digital son llamados elementos de imagen,
elementos de pintura, pixels o pels (estos dos últimos son abreviaturas del inglés
picture elements).
Existen imágenes a color, en escala de grises e imágenes binarizadas. Las
imágenes a color constan de 3 componentes por pixel, cada uno de ellos representa la
presencia de uno de los colores primarios, rojo, verde y azul. En las imágenes en
escala de grises, solo se tiene un componente que representa la brillantez promedio de
los 3 colores primarios. Por último las imágenes binarias, constan de 2 tonos, blanco y
negro.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 12
CAPÍTULO 2
Como ha de suponer, las imágenes pierden detalle al ser convertidas en escala
de grises y aún más cuando son transformadas a imágenes binarias. Sin embargo, de
la misma manera en que pierden detalle, el espacio que ocupan es mucho menor, lo
cual facilita mucho más su manejo.
Una imagen puede ser representada por una gráfica denominada histograma
(Figura 2.3), el cual muestra un rango de 0 a 255, que representan los niveles de gris
presentes en dicha imagen, donde el 0 representa la ausencia de color (negro) y el 255
la brillantez máxima posible (blanco).
(a) (b)
Figura 2.3.- (a) imagen original (b) histograma de la imagen
El histograma se puede calcular, almacenando la cantidad de pixeles del mismo
tono. Por ejemplo, si tenemos una imagen con 30 pixeles de nivel 25, en el histograma
aparecerá, en la posición 25 del eje horizontal, una barra de altura 30.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 13
CAPÍTULO 2
2.2.4. PROCESAMIENTO BÁSICO DE IMÁGENES DIGITALES
TRANSFORMACIÓN DE IMÁGENES
Por transformación de imágenes se entiende el proceso de modificar el
contenido de una imagen original para obtener una nueva. El objetivo de cualquier
transformación estriba en la necesidad de preparar la imagen con el fin de realizar un
posterior análisis de cara a su interpretación. La interpretación entra dentro de un
proceso de percepción de nivel superior que debe estar implícito en toda aplicación de
visión artificial [2].
Operaciones básicas en imágenes digitales
A continuación se presentará un informe detallado de las diferentes operaciones
básicas que se pueden realizar con las imágenes.
Operaciones puntuales:
Una operación puntual es aquella que transforma una imagen de entrada en una
imagen de salida de forma que cada pixel de la imagen de salida solo depende de la
magnitud del correspondiente pixel de entrada. Una operación puntual se puede
expresar matemáticamente como:
q(x,y) = p(x,y) Ec. 2.1
Donde q(x,y) es el pixel de salida y p(x,y) es el pixel de entrada, f especifica el
mapeo del nivel de gris de la entrada al nivel de gris de la salida. La forma en que se
transforma la imagen depende de la función ya definida.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 14
CAPÍTULO 2
Operador Inverso o Negativo:
Mediante este operador se crea una imagen de salida que es la inversa de la
imagen de entrada. Esta operación es útil en aplicaciones médicas. La función de
transformación es la siguiente:
q(x,y) = 255 - p(x,y) Ec. 2.2
(a) (b)
Figura 2.4.- Operador inverso o negativo (a) imagen original (b) imagen de salida
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 15
CAPÍTULO 2
Operador Umbral:
Esta transformación crea una imagen de salida binaria a partir de un rango de
tonos de gris. El nivel de transformación de este operador está dado por un umbral de
entrada u, donde 0<=u. La función de transformación es la siguiente:
0 para p(x,y) < u
q(x,y) = Ec. 2.3
255 para p(x,y) > u
(a) (b)
Figura 2.5.- Operador umbral para U=100 (a) imagen original (b) imagen de salida
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 16
CAPÍTULO 2
Operador Intervalo de Umbral Binario:
Esta transformación crea una imagen binaria de salida a partir de una imagen de
tonos de gris, donde todos los tonos de grises cuyo nivel está en el intervalo definido
por u1 y u2 son transformados a 255 y todos los valores fuera de este intervalo a 0.
Tenemos la siguiente función de transformación para este operador:
0 para p(x,y) < u1 o p(x,y) > u2
q(x,y) = Ec. 2.4
255 para u1 > p(x,y) < u2
(a) (b)
Figura 2.6.- Operador umbral binario para U1=100 y U2=200
(a) Imagen original (b) imagen de salida
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 17
CAPÍTULO 2
Operador Umbral de Escala de Grises:
Esta función de transformación crea una imagen con los únicos valores de nivel
de gris comprendido entre el intervalo definido por u1 y u2, los demás se transforman a
255. La función de transformación es la siguiente:
255 para p(x,y) < u1 o p(x,y) > u2
q(x,y) = Ec. 2.5
p(x,y) para u1 > p(x,y) < u2
(a) (b)
Figura 2.7.- Operador umbral de escala de grises para U1=100 y U2=200
(a) imagen original (b) imagen de salida
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 18
CAPÍTULO 2
Operador de Extensión:
Esta función de transformación crea una imagen con la escala de grises
completa para el intervalo definido por u1 y u2, los demás se transforman a 255. La
función de transformación es la siguiente:
255 para p(x,y) < u1 o p(x,y) > u2
q(x,y) = Ec. 2.6
255 * (p(x,y) – u1) / (u2 – u1) para u1 > p(x,y) < u2
(a) (b)
Figura 2.8.- Operador de extensión para U1=100 y U2=200
(a) Imagen original (b) imagen de salida
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 19
CAPÍTULO 2
Adición:
Esta transformación utiliza la información del nivel de gris contenida en la misma
localización (posición de los pixeles) de dos imágenes de entrada A y B para crear una
nueva imagen C, la dimensión de las imágenes debe ser la misma. La transformación
se aplica a todos los pares de pixeles en las imágenes de entrada. La adición se puede
utilizar para reducir los efectos del ruido en la imagen. La función de transformación es
la siguiente:
ݔ( ܥ, ܣ( = )ݕሼݔ, ݕሽ + , /! Ec. 2.7
Sustracción:
La sustracción de dos imágenes es una técnica útil para detectar el cambio
producido o el movimiento en dos imágenes que han sido captadas en dos instantes de
tiempos distintos. Al aplicar esta transformación el valor de salida puede ser un valor
fuera del rango comprendido entre 0 y 255, esto se soluciona dándole el valor de 0 a
los números negativos y 255 a los números mayores que 255. La función de
transformación es la siguiente:
, = , − , ∗ ! Ec. 2.8
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 20
CAPÍTULO 2
2.2.5. CONTRASTE
Existen diversas definiciones y opiniones sobre lo que se entiende por contraste.
El contraste se define como la tasa de cambio de la luminancia relativa de los
elementos de la imagen de una reproducción [9].
Otra significado es la que lo define como la capacidad de distinguir entre un
patrón de barras y un fondo uniforme, de tal forma que un sistema más sensible
necesita menor diferencia de contraste o luminancia, mientras que un sistema menos
sensible necesitará de un mayor contraste para ser capaz de reconocer dicho patrón de
barras. La luminancia se mantiene constante para todos los patrones.
En definitiva el contraste es la mínima diferencia de luminancia que existe entre
dos puntos de una imagen.
El escalado en amplitud de imágenes no utiliza adecuadamente el rango
dinámico de la visualización y por ello con las modificaciones de contraste se trata de
que estas si se den dentro del rango dinámico de visualización.
Existen transformaciones lineales a las imágenes para conseguir una mejora de
su contraste y también existen diversas transformaciones no lineales que mejoran el
contraste y otras que lo debilitan.
Ajuste:
Se expande linealmente el rango de grises de la imagen asignándole al nivel
más oscuro el negro y al nivel más claro el blanco. Los valores intermedios se
interpolan linealmente llevándose a cabo la mejora debida a la reasignación de los
niveles de gris y no porque aumente el número de grises de la imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 21
CAPÍTULO 2
La función de error gaussiana:
Actúa como una función cuadrática para pixeles de baja amplitud y como una
función raíz cuadrada para pixeles de gran amplitud (Ecuación 2.9).
+,,-./.1 /.1
'()* 56 * 5
$ %, & = 2√4
/.1
2√4
Ec. 2.9
'()* 5
2√4
Dónde:
9 : 4
erf = ; < => ? Ec. 2.10
√: @
La función logarítmica:
Útil para el escalado de arreglos con un gran rango dinámico y mostrar más
claras imágenes oscuras (Ecuación 2.11).
ABCD E6FG,H
$ %, & = Ec. 2.11
ABCD E6IJ:KFG,HL
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 22
CAPÍTULO 2
La función exponencial:
Puede verse como la inversa de la logarítmica, es implementada a partir de una
función exponencial (Ecuación 2.12).
' M,,-
$ %, & = Ec. 2.12
' N2OM,,-
Ecualización del histograma:
La ecualización del histograma consiste, básicamente y a grandes rasgos, en
una expansión del histograma de la imagen, dotando al mismo de mayor linealidad y
haciendo que éste ocupe el ancho del espectro de tonalidades grises por completo [4],
ello implica unas mejoras en la imagen que serán expuestas a continuación:
• Una mayor utilización de los recursos disponibles: al ecualizar el
histograma, vemos como los tonos que antes estaban más agrupados, ahora se
han separado, ocupando todo el rango de grises, por lo que la imagen se está
enriqueciendo al tener niveles de gris más distintos entre sí, mejorando, por
tanto, la apariencia visual de la imagen.
• Un aumento del contraste: esta ventaja es consecuencia del punto anterior, ya
que si hacemos que el histograma de la imagen ocupe todo el rango de grises,
estamos aumentando la distancia entre el tono más claro y el más oscuro,
convirtiendo a éstos, en blanco y negro y consecuentemente aumentando el
contraste de la imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 23
CAPÍTULO 2
• Constituye una regulación óptima y automática del contraste de la imagen.
Evitando los ajustes manuales con los que no se consigue un equilibrio óptimo
entre el blanco y el negro.
A su vez, aparecen algunos inconvenientes que surgen a la hora de ecualizar la
imagen, algunos de ellos se detallan a continuación:
• Pérdida de información: puede ocurrir que a algunos pixeles que en la imagen
original tenían distintos niveles de gris se les asigne, tras la ecualización global,
al mismo nivel de gris. Por otro lado, hay casos en los que dos niveles de gris
muy próximos se separen, dejando huecos en el histograma.
• En ocasiones, las bandas horizontales, fruto de una deficiente digitalización
pueden resultar intensificadas, resaltando aún más este error indeseado.
Suponiendo que se tiene una imagen de 8 bits. Partiendo del histograma original, el
primer paso para trabajar con el mismo es el de normalización, para ello hay que
normalizar tanto el eje horizontal (niveles de gris) como el vertical (aparición del nivel
de gris en cuestión), de manera que ambas magnitudes queden comprendidas entre 0
y 1.
Para normalizar el eje horizontal, es decir, el que indica el nivel de gris, dividimos
cada magnitud entre 255, con lo que queda: 0, 1/255, 2/255...255/255=1, obteniendo
un rango de niveles de gris comprendido entre 0 y 1. Para la normalización del eje
vertical, se debe dividir cada componente entre el número total de pixeles, así en el
caso más extremo, es decir en el que toda la imagen fuese de un mismo color, la
representación sería una única barra de altura igual a 1.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 24
CAPÍTULO 2
El siguiente paso consiste en la acumulación del histograma, esto consiste en
sustituir cada magnitud, por el valor de ella misma más el total de la suma de las
anteriores, con ello se consigue que el histograma (que reflejaba la función "densidad
de probabilidad" para cada color) se transforme en una representación de la función de
distribución. Quedando una función creciente, cuyo valor máximo será siempre 1.
Aplicando la siguiente expresión, se obtiene los nuevos niveles de gris (haciendo
que el histograma se extienda hasta el negro), además se consigue que éstos vuelvan
a encontrarse entre 0 y 255:
U=UNVW
P ∗ = Int T 255 + 0.5X Ec. 2.13
E=UNVW
Dónde:
"Int" representa la operación de tomar el entero más cercano por defecto.
PIYZ es el menor valor de s distinto de cero.
En este caso, 255 representa el número de niveles de gris menos uno.
Suponiendo que se dispone de una imagen de 9 pixeles cuyos niveles de gris
son los mostrados en la tabla 2.1.
253 253 255
253 255 254
253 254 254
Tabla 2.1 pixeles de imagen
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 25
CAPÍTULO 2
El histograma normalizado de dicha imagen sería el siguiente:
9^9
[ \ = 0 0 ≤ \ ≤ 9^^
9^` b
[ _9^^a = c
9^b `
[_ a =
9^^ c
9^^ 9
[_ a = [1 =
9^^ c
Mientras que el histograma normalizado acumulado quedaría:
9^9
[d\ = 0 0 ≤ \ ≤
9^^
9^` b
[d _ a =
9^^ c
9^b e
[d _ a =
9^^ c
9^^
[_ a = 1
9^^
Los niveles de gris de la imagen original (253, 254, 255) se transformarían en:
Nivel 253 → 0
Nivel 254 → 153
Nivel 255 → 255
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 26
CAPÍTULO 2
Con lo que la imagen resultante sería la mostrada en la tabla 2.2.
25
0 0
5
25 15
0
5 3
15 15
0
3 3
Tabla 2.2 pixeles ecualizados
2.2.6. ELIMINACIÓN DE RUIDO
Las imágenes pueden contener ruido provocado por fuentes ruidosas, como son
sensores ópticos eléctricos, mecanismos de apertura en cámaras fotográficas, y
también debido a la transmisión de dichas imágenes a través de un canal físico [5].
En cualquier caso se pueden usar técnicas de reducción de ruido para
eliminarlo, tanto lineales como no lineales. El ruido suele apreciarse en aquellos pixeles
que no están lo suficientemente correlacionados con los pixeles de alrededor,
apareciendo como pixeles "discretos" interrelacionados espacialmente. La inmersión de
ruido en una imagen suele dotarla de componentes de media-alta frecuencia, y por lo
tanto las técnicas de reducción de ruido persiguen hacer de alguna manera un filtrado
paso bajo.
Filtro de la media:
En este filtro se hace un promedio de cada pixel con los de su alrededor, a
través de una especie de convolución entre dichos pixeles y una máscara de pesos a
diseñar. Esta operación se realiza para cada pixel de la imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 27
CAPÍTULO 2
Se habla de una operación "núcleo”, en el que se multiplica el valor de los
pixeles de una zona de una imagen por los correspondientes pixeles de la máscara:
∑iN
V,, h=IjV,, kOiV,li,
∗
f:,> iN
∑V,,
Ec. 2.14
h=IjV,,
Dónde:
W = máscara
P = conjunto de pixeles de imagen
mY,G = valor del elemento (peso) de la máscara situado en i,j.
El resultado de la operación será un conjunto de nuevos pixeles actualizados P*.
Con esta operación se calcula el nuevo valor del pixel del conjunto P situado en
x,y. Con el fin de mantener intacta la energía de la señal imagen original, se debe
normalizar dividiendo por la suma de los elementos de la máscara.
La máscara es una matriz n*n donde n es un número impar, como se muestra en
la Tabla 2.3. El elemento central se corresponde con el pixel sobre el que se calculará
el nuevo valor, y los restantes se asocian con los pixeles de alrededor. Se hace
recorrer dicha máscara a lo largo de toda la imagen, pixel a pixel, actualizando el valor
de estos tras cada operación.
Tabla 2.3.- Máscara de 3x3
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 28
CAPÍTULO 2
Aplicándola a una imagen cuyos pixeles pueden ser los de la figura 2.9, se
obtiene el nuevo valor del pixel central de la imagen, 2.33. Si se actualiza el primer
pixel de la esquina se obtiene 1.33:
nnnnopnpq os
o. ppp …
r r
opopqpopo so
s. ppp …
r r
(a) (b)
Figura 2.9.- Filtro de la media. (a) imagen de entrada. (b) imagen suavizada.
Filtro de la mediana:
Una de las técnicas no lineales más utilizadas para el procesado de imágenes,
en cuanto a la eliminación de ruido, es el filtrado de mediana. Esta técnica fue
desarrollada por Tukey (1977) y Pratt (1978) a finales de los años setenta, y partió de la
idea de conseguir un suavizado de imágenes y eliminación de ruido aplicando una
técnica no lineal, pero de simple implementación.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 29
CAPÍTULO 2
Al ser un filtrado no lineal, hay que empezar destacando las diferencias entre un
filtrado lineal y otro que no lo sea. En ambos casos, se ha de recorrer la imagen pixel a
pixel, y operando con los pixeles cercanos para obtener un suavizado de la imagen,
que reduzca el ruido. En el caso del filtrado lineal, la operación que se implementa es la
convolución, en este caso bidimensional, de una matriz de pixeles con otra matriz de
coeficientes (núcleo), que define el comportamiento del filtro (Figura 2.10).
Figura 2.10.- Filtro de la mediana
En el caso de un filtro no lineal la operación no es la convolución, sino que se le
aplica algún algoritmo u operación a la matriz de pixeles. En el caso del filtrado de
mediana, la operación es sencilla, y los efectos de suavizado son, en determinados
casos, espectaculares.
La idea es que en un conjunto de pixeles cercanos, valores muy alejados del
resto, serán valores que corresponden a pixeles ruidosos. La operación consiste en
analizar una matriz de pixeles de n*n, y reemplazar el pixel central por el valor de la
mediana de todos ellos. Y por supuesto repetir el algoritmo recorriendo toda la imagen.
Aplicando este método se escoge, por razones obvias, ventanas de n*n con n
impar, para tener bien diferenciado el pixel central. Tamaños habituales son ventanas
de 3x3, de 5x5, y de hasta 7x7. Esto lleva a pensar en el hecho de la elección del
tamaño de ventana como algo importante, puesto que un valor pequeño puede no
eliminar bien el ruido, mientras que un valor demasiado alto es capaz de distorsionar la
imagen. Para la elección de la ventana, en definitiva, no existe una regla fija, sino que
se trata de escoger el orden que mejor resultados dé con una determinada imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 30
CAPÍTULO 2
En general, se suele decir que un tamaño de ventana es bueno si el número de
pixeles ruidosos dentro de la ventana es menor que la mitad de pixeles de la ventana.
Figura 2.11.- Ejemplo del filtro de la mediana
2.2.7. DETECCIÓN DE BORDES
Uno de los más importantes y sencillos procesados es la detección de bordes.
Importante porque de él se puede empezar a extraer importante información de la
imagen, como pueden ser las formas de los objetos que la componen, y sencillo porque
los operadores de detección de bordes son simples máscaras de convolución. Estos
operadores son utilizados en aplicaciones para el reconocimiento de formas,
aplicaciones industriales, militares, etc.
Dentro de las numerosas aplicaciones para la detección de bordes, los artistas
digitales lo usan para crear imágenes con contornos deslumbrantes pues la salida de
un detector de bordes puede ser agregada a una imagen original para realzar los
bordes. La detección de bordes es a menudo el primer paso en la segmentación de
imagen, que es un campo del análisis de la imagen, y se utiliza para agrupar los pixeles
en regiones para determinar una composición de la imagen. La detección de bordes
también es usada en el registro de imagen, el cual alinea dos imágenes que podrían
ser adquiridas en momentos separados y de sensores diferentes [5].
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 31
CAPÍTULO 2
Los bordes de una imagen contienen mucha de la información de la imagen.
Los bordes cuentan donde están los objetos, su forma, su tamaño, y también sobre su
textura. Los ejes o bordes se encuentran en zonas de una imagen donde el nivel de
intensidad cambian bruscamente, cuanto más rápido se produce el cambio de
intensidad, el eje o borde es más fuerte.
En general, los bordes de objetos en una imagen los podemos distinguir por los
cambios más o menos bruscos de valor entre dos o más pixeles adyacentes. Podemos
realizar una clasificación general de los bordes según sea su dirección en:
• Bordes verticales, cuando pixeles conectados verticalmente tienen valores
diferentes respecto de los anteriores o posteriores.
• Bordes horizontales, cuando tenemos pixeles conectados horizontalmente, y
estos tienen distintos valores respecto de los anteriores o posteriores.
• Bordes oblicuos, cuando tenemos una combinación de las componentes
horizontales y verticales.
La diferencia entre los valores de los pixeles nos indica lo acentuado del borde,
de forma que a mayores diferencias tenemos bordes más marcados y a menores
tenemos unos bordes suavizados.
El proceso de detección de bordes se basa en realizar un incremento del
contraste en las zonas donde hay una mayor diferencia entre las intensidades, y en una
reducción de éste donde no tenemos variación de intensidad.
El principal objetivo de los filtros de realce es resaltar aquellas características de
la imagen que por causa del mecanismo de captación o por error hayan quedado
emborronados en la imagen. Este tipo de filtros es muy usado como método directo
para mejorar una imagen cara a su presentación a un observador humano. Con mucha
frecuencia las características más importantes a realzar son las fronteras que definen
los objetos presentes en la imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 32
CAPÍTULO 2
Los métodos y objetivos del realce varían con la aplicación. Cuando una imagen
es realzada para ser visualizada por el ojo humano, como es el caso de la televisión, el
objetivo es la mejora de la apariencia visual.
En otras aplicaciones como la identificación realizada por una máquina, la
imagen puede ser realzada y considerar este realce como un pre procesamiento que
ayude a la identificación. Por otra parte, algoritmos que funcionan bien para una clase
de imágenes como por ejemplo rayos X, no tienen por qué funcionar bien para
imágenes que han sido transmitidas desde un satélite.
El realce es una técnica muy cercana e incluso confundible con la restauración.
Cuando una imagen ha sido degradada y se intenta restaurar, muchas veces ese
intento se convertirá en realce. Pero sin embargo, hay importantes diferencias entre
una y otra técnica. En la restauración, el objetivo es hacer que una imagen degradada
se parezca lo más posible a la imagen original. En el realce, el objetivo es conseguir
que la imagen procesada sea mejor que la imagen original. El resultado de cada
técnica dependerá de lo que el observador quiera ver. Para ilustrar este ejemplo, decir
que una imagen que no ha sido degradada no puede ser restaurada, pero si puede ser
realzada.
Este tipo de filtros se enmarcan dentro del filtrado espacial de la imagen. El
diseño de estos se resume en calcular un conjunto de pesos que definan una máscara
cuya transformada de Fourier tenga el comportamiento del filtro en cuestión.
Una salvedad importante es que cuando se utiliza esta técnica, la imagen a
procesar no debe presentar ruido ya que si esto no es así, en lugar de realzar la
imagen la que se producirá será un realce del ruido, produciendo un empeoramiento de
la calidad de la imagen. Si la imagen presenta ruido, se tendrá que recurrir a la
restauración.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 33
CAPÍTULO 2
Una imagen puede ser considerada como una señal en el dominio del espacio o
en el dominio de las frecuencias. Es por esto que también existen técnicas de realce en
el dominio frecuencial.
La frecuencia espacial de una imagen es el número de cambios en los valores
radiométricos por unidad de distancia, para cualquier parte de la imagen en particular.
Si hay pocos cambios en los valores radiométricos sobre un área dada en una
imagen, esto se denomina área de baja frecuencia. Al contrario si hay muchos cambios
en un área reducida, el área sería de alta frecuencia (Figura 2.12).
(a) (b)
Figura 2.12.- (a) imagen de alta frecuencia. (b) imagen de baja frecuencia.
Como bien es sabido, la expresión de la señal resultante tras pasar por un filtro
lineal, en el caso continuo unidimensional, es la siguiente:
y
u v ∗ w ;=y vx w " x?x Ec. 2.15
Puede verse cómo el valor de cada h(x) de salida se calcula como una suma o
integral del producto de la señal de entrada con la respuesta al impulso invertida del
sistema lineal.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 34
CAPÍTULO 2
Al ser un sistema lineal, sumas de dos señales a la entrada darán como salida la
suma de las respuestas que el sistema da a cada una de ellas.
El esquema de la figura 2.13 representa el paso de la señal a través del sistema
lineal:
Sistema
f(x) Lineal h(x) = f(x) * g(x)
g(x)
Figura 2.13.- Sistema lineal
En el caso tratado (imágenes bidimensionales), la señal además de depender de
x e y, estará discretizada. La expresión a la salida del filtro será:
u v ∗ w = ∑}=E
~h@ ∑>h@ v z, { w − {, − z
|=E
Ec. 2.16
La convolución involucra el paso de una ventana móvil (núcleo, matriz de
coeficientes o máscara) encima de una imagen, creando otra nueva donde cada pixel
en esta nueva imagen, es una función de los valores de los pixeles originales dentro de
la ventana móvil, siendo los coeficientes de dicha ventana los especificados por el
usuario.
Para pasar del dominio espacial al frecuencial se usa la transformada de Fourier
cuya expresión para la señal f(x) es la siguiente:
y
= ;=y v< =G9: ? Ec. 2.17
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 35
CAPÍTULO 2
Y que en el caso discreto bidimensional:
4
E
[ , = ℎ, = ∑ , ∑ z, { vz, {w − z, − {< =G W :6> Ec. 2.18
Z
La relación entre estos dos dominios puede verse en La figura 2.14:
Mascarilla de Convolución
Espacio: f(x,y) g(x,y) h(x,y)
Transformada de Fourier
Filtro Lineal (2-D)
Frecuencia: F(u,v) G(u,v) H(u,v)
Figura 2.14.- Relación espacio- frecuencia.
Todo esto está dentro de la teoría lineal del filtrado, sin embargo existen filtros
de tipo no-lineal. En estos casos tanto la convolución como herramienta base del
filtrado y la suma como operación matemática que la define dejan de tener sentido, y
habrá que calcular usando funciones de tipo no lineal.
Los casos más sencillos son aquellos en los que se sustituye la suma por la
operación de máximo o mínimo.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 36
CAPÍTULO 2
Los filtros utilizados para la detección de bordes son filtros diferenciales, que
se basan en la derivación o diferenciación. Dado que el promediado de los pixeles de
una región tiende a difuminar o suavizar los detalles y bordes de la imagen, y esta
operación es análoga a la integración, es de esperar que la diferenciación tenga el
efecto contrario, el de aumentar la nitidez de la imagen, resaltando los bordes.
Derivada de primer orden:
Muchas técnicas basadas en la utilización de máscaras para la detección de
bordes utilizan máscaras de tamaño 3x3 o incluso más grandes. La ventaja de utilizar
máscaras grandes es que los errores producidos por efectos del ruido son reducidos
mediante medias locales tomadas en los puntos en donde se superpone la máscara.
Por otro lado, las máscaras normalmente tienen tamaños impares, de forma que
los operadores se encuentran centrados sobre los puntos en donde se calculan los
gradientes.
v, v + ?: , − v,
= ∆: =
?
Ec. 2.19
v, v, ?> + − v,
= ∆> =
?
∆ = v\ + 1, % − v\, %
∆ = v \, % + 1 − v\, % Ec. 2.20
Los operadores de gradiente común (o gradiente ortogonal) encuentran bordes
horizontales y verticales. Estos operadores trabajan mediante convolución. Los
operadores de Prewitt, Sobel, Roberts y Frei-Chen son operadores dobles o de dos
etapas.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 37
CAPÍTULO 2
La detección de bordes se realiza en dos pasos, en el primero se aplica una
máscara para buscar bordes horizontales, y en el segundo paso se busca los
verticales, el resultado final es la suma de ambos (Figura 2.15).
Figura 2.15.- Máscaras de detección de bordes.
Los filtros diferenciales ayudan a detectar bordes pues las zonas que en la
imagen original son de un tono uniforme (cualquiera sea) se transforman en un gris
mediano (valores cercanos al cero).
Mientras, los bordes, zonas donde hay un cambio abrupto de intensidad, son
enfatizados. Algunos resultan negros (valores negativos) y otros blancos (valores
positivos). Otros bordes no son enfatizados y quedan grises (valores cercanos al cero).
Esta alteración de los bordes produce una ilusión de relieve. La imagen parece
hundirse y sobresalir, iluminada por una fuente de luz. Los aclarados parecen ser más
iluminados, y los oscurecidos parecen sombras. Las zonas que en la imagen original
eran más oscuras parecen hundirse, mientras que las más claras parecen sobresalir.
Es como considerar a la imagen como una superficie bidimensional en un espacio
tridimensional, siendo el valor del pixel la altura de la superficie en ese punto.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 38
CAPÍTULO 2
2.3. TRANSFORMADA DE FOURIER
2.3.1. INTRODUCCIÓN
Muchas técnicas de procesado de señal se hacen en un espacio matemático
conocido como el dominio de la frecuencia. Para representar datos en el dominio de la
frecuencia, algunas transformaciones son necesarias. Quizás la más estudiada es la
transformada de Fourier (TF).
Por una señal continua entenderemos una función continua de una o varias
dimensiones. Podemos encontrar ejemplos de distintos tipos de señales en los muy
diversos aparatos de medida asociados al estudio de la física, química, biología,
medicina, etc. Así por ejemplo, los distintos tipos de electrogramas que son usados en
medicina son señales unidimensionales ya que se representan por una o varias curvas
en función del tiempo, así como una señal de audio que va a un altavoz. Sin embargo,
los distintos tipos de radiografías, así como todas las imágenes en 2D, son señales
bidimensionales y los resultados de la tomografía axial computarizada y la resonancia
nuclear magnética son señales tridimensionales.
Un prisma es un ejemplo común de cómo una señal es una composición de las
señales de frecuencias que varían: mientras que la luz blanca pasa a través de un
prisma, el prisma rompe la luz en sus componentes de frecuencia que revelan un
espectro completo de color.
La frecuencia espacial de una imagen se refiere al rango en el cual las
intensidades del pixel cambian. Las de alta frecuencia se concentran alrededor de los
ejes que dividen la imagen en cuadrantes. Las esquinas tienen frecuencias más bajas,
las frecuencias espaciales bajas se observan en áreas grandes de valores casi
constantes.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 39
CAPÍTULO 2
Debido a su amplia gama de usos en el procesado de imagen, la transformada
de Fourier es una de las más populares, y se aplica a una función continua de longitud
infinita f(x). La expresión matemática de dicho cálculo es:
y
;=y v < =9: ? Ec. 2.21
Donde % √"1, y la variable u que aparece en la función F(u) representa a las
frecuencias. Puede demostrarse además que esta transformación tiene inversa, es
decir que dada la función F(u) podemos a partir de ella calcular la función f(x). La
expresión matemática de dicha transformada inversa es:
% Ec. 2.22
Donde R(u) denota la parte real e I(u) la parte imaginaria. Como todo número
complejo para cada valor de u, F(u) puede expresarse en términos de su módulo
|F(u)|, también conocido como espectro de frecuencia, y de su ángulo de fase ∅(u) .
Es decir, F(u) también puede expresarse como:
||< G∅ Ec. 2.23
Dónde:
E
|| K 9 9 L 9
Ec. 2.24
∅ d{ =E
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 40
CAPÍTULO 2
En el caso de que la señal sea una función de dos dimensiones los conceptos
que hemos introducido para el caso unidimensional se generalizan a este caso de
forma directa. Así el par de transformadas Fourier en notación matemática se expresan
de la siguiente manera, donde u y v son variables de frecuencias.
TF directa en 2D
y y
, = ;=y ;=y v, < =G9:6> ?? Ec. 2.25
TF inversa en 2D
y y
, = ;=y ;=y v, < =G9:6> ?? Ec. 2.26
Rápidamente llega a ser evidente que las dos operaciones son muy similares
con un signo menos en el exponente que es la única diferencia. Por supuesto, las
funciones que se aplican son diferentes, una es una función espacial, la otra es una
función frecuencial. Hay también un correspondiente cambio en las variables. En el
dominio de la frecuencia, u representa la frecuencia espacial a lo largo del eje x de las
imágenes originales y v representa la frecuencia espacial a lo largo del eje y. En el
centro de la imagen u y v tienen su origen.
2.3.2. TRANSFORMADA DISCRETA DE FOURIER
Al trabajar con imágenes digitales, nunca nos dan una función continua, sino que
debemos trabajar con un número finito de muestras discretas. Estas muestras son los
pixeles que componen una imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 41
CAPÍTULO 2
El análisis computarizado de imágenes requiere la transformada discreta de
Fourier (DFT). La transformada discreta de Fourier es un caso especial de la
transformada continua de Fourier.
En el caso discreto unidimensional, el par de transformadas de Fourier queda:
E
∑|=E
:h@ v<
=9:/|
Para u = 0, 1, 2,…, N-1
|
Ec. 2.27
v ∑|=E
h@ <
9:/|
Para x = 0, 1, 2,…, N-1
En el caso bidimensional, el par de transformadas de Fourier discretas, para
imágenes de tamaño M x N, vendrán dadas por las siguientes expresiones:
}=E |=E
1 : >
, = v, < =G9 } 6 |
:h@ >h@
Ec. 2.28
Para u = 0, 1, 2,…, M-1
Para v = 0, 1, 2,…, N-1
}=E |=E
: >
v, = , < G9 } 6 |
h@ h@
Ec. 2.29
Para x = 0, 1,2…M-1
Para y = 0, 1,2…N-1
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 42
CAPÍTULO 2
Cuando M = N algunas de las expresiones anteriores pueden expresarse de
forma más sencilla. En particular el par de transformadas de Fourier tendrían las
siguientes expresiones:
|=E |=E
1
, = v, < =G9:6>/|
:h@ >h@
Ec. 2.30
Para u = 0, 1, 2,…, M-1
Para v = 0, 1, 2,…, N-1
|=E |=E
v , = , < G9:6>/|
h@ h@
Ec. 2.31
Para x = 0, 1, 2,…, M-1
Para y = 0, 1, 2,…, N-1
2.3.3. TRANSFORMADA RÁPIDA DE FOURIER
La transformada discreta de Fourier es de cómputo intensivo requiriendo
multiplicaciones de complejidad N2 para un conjunto de N elementos. Se agrava este
problema al trabajar con datos bidimensionales, como las imágenes.
Una imagen del tamaño M x M requerirá (M2)2 o M4 multiplicaciones complejas.
Afortunadamente, se descubrió que la transformada discreta de Fourier de longitud N
se podría reescribir como la suma de dos transformadas de Fourier de longitud N/2.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 43
CAPÍTULO 2
Este concepto se puede aplicar recurrentemente al conjunto de datos hasta que
se reduce a transformadas de solamente dos puntos.
Esta técnica de división y conquista se conoce como la transformada rápida de
Fourier (FFT), que reduce el número de multiplicaciones de complejidad N2 al orden N
log2 N. Estos ahorros son especialmente substanciales en el procesado de imagen. La
FFT es separable, lo que incluso vuelve las transformadas de Fourier más fáciles de
hacer.
Debido a la separabilidad, podemos reducir la operación de FFT de una
operación bidimensional a dos operaciones unidimensionales. Primero procesamos la
FFT de las filas de una imagen y en seguida seguimos con la FFT de las columnas.
Para una imagen del tamaño M x N, esto requiere N + M FFTs para ser
computadas. Del orden de NM log2 NM cómputos son requeridos para transformar
nuestra imagen.
Se debe recordar que la FFT no es una transformada diferente de la DFT, pero
sí una familia de algoritmos más eficientes para lograr la transformada de datos.
Generalmente cuando uno acelera un algoritmo, esta aceleración viene con un coste,
con la FFT, el coste es complejidad. Hay complejidad en la ejecución de la contabilidad
y del algoritmo. Los ahorros de cómputo, sin embargo, no se realizan a expensas de la
exactitud.
2.3.4. VISUALIZACIÓN DEL ESPECTRO DE FOURIER
Hay que superar algunas dificultades al mostrar el espectro de frecuencia de una
imagen. La primera surge debido al amplio rango dinámico de los datos resultantes de
la transformada discreta de Fourier.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 44
CAPÍTULO 2
En la imagen original el valor de un pixel será un número entero entre [0,255],
representando el grado de intensidad, pero en la imagen que representa el espectro de
Fourier los valores de los pixeles son números en punto flotante y no están limitado a
los valores de [0,255]. Estos datos deben ser escalados de nuevo para transformarlos
en un formato visible, de forma que no exceda la capacidad del dispositivo de
visualización.
Una cuantización lineal simple no proporciona siempre los mejores resultados,
pues muchas veces se pierden los puntos de baja amplitud. El término cero de la
frecuencia es generalmente el componente simple más grande, es también el punto
menos interesante al examinar el espectro de la imagen. Una solución común a este
problema es representar el logaritmo del espectro mejor que el espectro por sí mismo.
La función que se aplica a la imagen del espectro para su representación es una
función de compresión de rango dinámico.
La expresión matemática genérica de esta transformación para el caso de
rangos muy grandes es:
D (u,v)= c log(1+|H(u,v)|) Ec. 2.32
Donde |H(u,v)| es la magnitud de los datos a mostrar en frecuencia y c es una
constante de escala que en el caso de una imagen con rango R toma el siguiente valor:
c = 255 / log (1+|R|) Ec. 2.33
La suma de 1 asegura que el valor 0 del pixel no consigue pasar por la función
del logaritmo.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 45
CAPÍTULO 2
2.3.5. TEOREMA DE CONVOLUCIÓN
La gran importancia de la operación de convolución en el dominio frecuencial
radica en el hecho de que la TF de la convolución de dos funciones es igual al producto
de las TFs de dichas funciones, es decir:
f(x) g(x) F(u)G(u) Ec. 2.34
Esto indica que la convolución en el domino de las x también se puede obtener
realizando la transformada inversa de Fourier al producto F(u)G(u). Un resultado
análogo al visto en la ecuación anterior es que la convolución en el dominio de
frecuencias se reduce a la multiplicación en el dominio de las x, es decir:
f(x)g(x) F(u) G(u) Ec. 2.35
Estos dos resultados se conocen habitualmente con el nombre de Teorema de
Convolución, el cual implica que podemos calcular la convolución de dos funciones
multiplicando sus correspondientes TF y al resultado aplicarle la TF inversa. En el caso
de señales discretas, como en el caso de las imágenes, las distintas longitudes que
pudieran tener las sucesiones de puntos de cada una de las funciones son posibles
causas de errores en el cálculo final de la convolución, es por ello que ambas funciones
han de definirse en una misma cantidad de puntos por cada eje.
Dado que la convolución bidimensional es análoga formalmente a la ecuación de
la convolución unidimensional, el teorema de convolución en dos dimensiones se
expresa entonces por las siguientes relaciones:
f(x,y) g(x,y) F(u,v)G(u,v) Ec. 2.36
f(x,y)g(x,y) F(u,v) G(u,v)
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 46
CAPÍTULO 2
2.4. DESCRIPTORES DE FOURIER
2.4.1. INTRODUCCIÓN
Existen diferentes métodos para el reconocimiento de formas en imágenes
binarias, algunos de estos métodos se basan en las propiedades geométricas tales
como su área y su centro de masa. Cuando es posible describir la forma del objeto
completamente por su contorno, existe la posibilidad de analizarlo de forma alternativa
utilizando Descriptores de Fourier lo cual presenta la ventaja de disminuir el trabajo
computacional [12,13].
La determinación de formas de objetos en imágenes binarias es un problema
que encuentra diversas aplicaciones cuando se requiere detectar objetos con
determinadas características. Muchas veces cuando se tiene una imagen de un objeto,
este se puede encontrar colocado en diferentes partes del campo de visión, rotado o
amplificado. Este tipo de situaciones hace difícil el detectar automáticamente si se trata
de un objeto en particular, sin embargo esto se puede simplificar si se obtienen algunas
propiedades geométricas, tales como su área y centro de masa [14]. Si se representa
una imagen como una función binaria f(x,y) tal que f(x,y)=1 en el objeto y f(x,y)=0 en
otra parte (fig. 2.16), entonces el área del objeto se puede representar por la integral de
dicha función sobre todo el campo de visión.
∬ , Ec. 2.37
Para determinar la posición del objeto en el campo de visión es posible
determinar el centro de la masa para escogerlo como un punto representativo de este.
En un objeto bidimensional el momento sobre el eje x está dado por:
∬ , = ∬ ,
Ec. 2.38
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 47
CAPÍTULO 2
Mientras que para el eje y es:
∬ , ∬ ,
Ec. 2.39
En donde
,
Ec. 2.40
Son las coordenadas del centro de masa
Figura 2.16.- Imagen binaria f(x,y) la cual toma valores de cero y uno
En una imagen digital el área del objeto binario se calcula con la sumatoria de
todos los pixeles que corresponden a este de tal forma que la ecuación (2.51) será
ahora:
∑ ho ∑¢
¡ho ¡ Ec. 2.41
Igualmente para las ecuaciones (2.52) y (2.53) las coordenadas del centro de la
masa en forma discreta estarán dadas por:
∑ ∑¢
¡£o ¡
£o
Ec. 2.42
∑ ∑¢
¡£o ¡ ¡
£o
Ec. 2.43
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 48
CAPÍTULO 2
2.4.2. DESCRIPTORES POLARES DE FOURIER
Una forma de caracterizar el contorno de un determinado objeto se puede llevar
a cabo tomando las distancias del centro de masa al contorno de diferentes ángulos,
tomados a partir de uno de los ejes coordenados para obtener un vector r (fig. 2.17).
Figura 2.17.- Distancia del centro de masa a diferentes puntos del contorno
De esta forma se obtiene una secuencia de valores r de N elementos igualmente
espaciados angularmente (vector característico), los Descriptores Polares de Fourier
estarán dados por la transformada discreta de Fourier de esta secuencia:
s¨¢
¤¢ ∑©=o
hn ¥¦§ _" a Ec. 2.44
©
m = 0, 1, 2,…, N-1
Para hacer que estos descriptores sean invariantes a la rotación es posible
utilizar la propiedad de desplazamiento de la transformada de Fourier [15]. Como se
sabe, la propiedad de desplazamiento dice que se tiene una función r(x) con su
respectiva transformada de Fourier R(ω), entonces cuando existe un desplazamiento
ª " @ la transformada de Fourier será:
F ¥ " n ¤«¬® " s¨n « Ec. 2.45
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 49
CAPÍTULO 2
Al obtener el módulo de la ecuación (2.58) este será invariante para cualquier
desplazamiento @ . En forma discreta el módulo R(m) estará dado por:
|¤¢| ¯¤¦¤¢s ¢¤¢s Ec. 2.46
m = 0,1,2,…,N-1
El vector característico es invariante a la escala si se normaliza haciéndolo de tal
forma que:
¥
¥ ← Ec. 2.47
¥¢±
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 50
CAPÍTULO 3
3. ARQUITECTURA DEL SISTEMA
CAPÍTULO 3
3.1. ALGORITMOS UTILIZADOS PARA EL PROCESAMIENTO
DIGITAL DE IMÁGENES
Inicio
Obtención de la Imagen
Color Escala de
Grises
Binarizar
Ecualizar
Eliminación de Ruido
Detección de Bordes
Obtención del Centro de la Imagen
Obtención del Vector Característico
x = (int)[Link](xc + i * [Link](angle * [Link] / 180));
y = (int)[Link](yc + i * [Link](angle * [Link] / 180));
TDF del Vector Característico (Descriptores polares de Fourier)
R[0, m] += rads[n] * [Link](-2 * [Link] * m * n / N); // Real
R[1, m] += rads[n] * [Link](-2 * [Link] * m * n / N); // Imaginary
Se obtiene el Módulo de los Descriptores
R_magnitude[m] = [Link]([Link](R[0, m], 2) + [Link](R[1, m], 2));
Se Normaliza
el Módulo
Se Comparan los Descriptores polares de Fourier con los ya
Almacenados en una Base de Datos.
Se Reconoce
la Forma
Fin
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 52
CAPÍTULO 3
TRANSFORMACIÓN DE IMÁGENES
El objetivo de cualquier transformación estriba en la necesidad de preparar la
imagen con el fin de realizar un posterior análisis de cara a su interpretación. La
interpretación entra dentro de un proceso de percepción de nivel superior que debe
estar implícito en toda aplicación de visión artificial.
CONTRASTE
Ecualización del histograma:
La ecualización del histograma de una imagen es una transformación que
pretende obtener para una imagen un histograma con una distribución uniforme. Es
decir, que exista el mismo número de pixeles para cada nivel de gris del histograma de
una imagen monocromática.
La función de la ecualización es:
FY,G= FJ
\, % = T_ a L − 1 + 0.5X Ec. 3.1
E=FJ
Dónde:
Fu(u) Frecuencia de aparición del nivel de gris u
U(i,j) Tonalidad del pixel ubicado en la posición i,j
F(u,a) Frecuencia acumulada de los niveles de gris
L Representa la cantidad de tonalidades posibles en la imagen
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 53
CAPÍTULO 3
(b)
(a)
Figura 3.1 (a) imagen original (b) histograma de la imagen
(b)
(a)
Figura 3.2 (a) imagen Ecualizada (b) histograma de la imagen
ELIMINACIÓN DE RUIDO
Estos métodos son muy útiles cuando se presenta ruido aleatorio, propio de todo
procedimiento. Este tipo de ruido puede atribuirse tanto a la cámara con la que fue
tomada la imagen, así como al medio de transmisión de datos, e inclusive al medio
natural en el que fue tomada la imagen.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 54
CAPÍTULO 3
Aunque como ha de suponerse en todo proceso, el ruido no puede ser eliminado
al 100% sin tener pérdida de información, que en la mayoría de los casos esa pérdida
se considera despreciable, comparándola con el beneficio que se obtiene al utilizar
algún algoritmo.
El método más sencillo de explicar, es el método de la media. Este método
realiza una convolución de una máscara de tamaño predefinido (impar) con una
sección de la imagen a la vez.
Tabla 3.1.- Máscara de 3x3
Una vez que se hace la convolución de la máscara con la sección de la imagen,
al resultado obtenido se le aplica la media, esto es, se divide este resultado entre la
cantidad de elementos que ocupe la máscara, y este resultado es asignado al valor del
pixel central.
La diferencia que se usó en esta ocasión, es el valor del pixel central, el cual fue
de 0. Esto se debe a que si el pixel central representa un pixel de ruido, hacer el
promedio de todos los pixeles vecinos incluyéndolo, hará que el nivel nuevo de gris, se
base en su mayoría en el nivel de gris del ruido.
El resultado se puede observar en la Figura 3.3 a la cual se le aplico el filtro de
media, con una máscara de 3x3, y un umbral de 50.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 55
CAPÍTULO 3
(a) (b)
Figura 3.3.- Imagen con filtro de media.
(a) imagen original. (b) imagen con filtro media y umbral 50.
Como puede verse en la figura 3.3, este método es eficiente con el ruido de tipo
sal, sin embargo existe otro filtro paso bajos, con el cual se obtienen mejores
resultados, se refiere al filtro de la mediana.
Este filtro tiene el mismo procedimiento que el anterior, con un ligero cambio en
la parte final, en lugar de asignar el promedio de los valores de pixeles, se le asigna el
valor de la media de estos valores.
Este el efecto se observa más claramente con un ejemplo (Figura 3.4).
(a) (b)
Figura 3.4.- (a) imagen original. (b) imagen con filtro de la mediana
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 56
CAPÍTULO 3
DETECCIÓN DE BORDES
Los bordes de una imagen contienen mucha de la información de la imagen.
Los bordes cuentan donde están los objetos, su forma, su tamaño, y también sobre su
textura. Los ejes o bordes se encuentran en zonas de una imagen donde el nivel de
intensidad cambian bruscamente, cuanto más rápido se produce el cambio de
intensidad, el eje o borde es más fuerte.
Los algoritmos para la detección de bordes que son usados en este proyecto
son los gradientes de Roberts y Sobel.
El gradiente de Roberts hace uso de la convolución de una máscara de 2x2 con
ciertos coeficientes con la imagen a procesar. Como se puede ver el procedimiento es
similar al de los filtros paso bajos.
Gráficamente esto se observaría como en la figura 3.5:
Figura 3. 5.- Imagen con filtro Roberts.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 57
CAPÍTULO 3
El otro método mencionado, Sobel, utiliza dos máscaras de 3x3, en la que el pixel que
está siendo modificado, se encuentra en el centro, los coeficientes de las máscaras son
los que se muestran en la figura 3.6
.
Figura 3. 6.- Máscara filtro Sobel.
La primera máscara corresponde al gradiente en el eje horizontal, mientras que
la segunda máscara pertenece al gradiente en el eje vertical.
El resultado obtenido de la convolución de cada una de estas máscaras es
sumado para obtener el resultado final del valor del pixel.
El resultado que se obtiene se muestra en la figura 3.7.
Figura 3. 7.- Imagen con filtro Sobel
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 58
CAPÍTULO 3
3.2. PROCESO FINAL PARA EL RECONOCIMIENTO DE LA FORMA
OBTENCIÓN DEL CENTRO DE LA IMAGEN
La determinación de formas de objetos en imágenes binarias es un problema
que encuentra diversas aplicaciones cuando se requiere detectar objetos con
determinadas características.
Muchas veces cuando se tiene una imagen de un objeto, este se puede
encontrar colocado en diferentes partes del campo de visión, rotado o amplificado. Este
tipo de situaciones hace difícil el detectar automáticamente si se trata de un objeto en
particular, sin embargo esto se puede simplificar si se obtienen algunas propiedades
geométricas, tales como su área y centro de masa.
En una imagen digital el área del objeto binario se calcula con la sumatoria de
todos los pixeles que corresponden a este:
∑ ho ∑¢
¡ho ¡ Ec. 3.2
Las coordenadas del centro de la masa en forma discreta estarán dadas por:
∑ ∑¢
¡£o ¡
£o
Ec. 3.3
∑ ∑¢
¡£o ¡ ¡
£o
Ec. 3.4
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 59
CAPÍTULO 3
DESCRIPTORES POLARES DE FOURIER
Una forma de caracterizar el contorno de un determinado objeto se puede llevar
a cabo tomando las distancias del centro de masa al contorno de diferentes ángulos,
tomados a partir de uno de los ejes coordenados para obtener un vector r (fig. 3.8).
Figura 3.8.- Distancia del centro de masa a diferentes puntos del contorno
De esta forma se obtiene una secuencia de valores r de N elementos igualmente
espaciados angularmente (vector característico), los Descriptores Polares de Fourier
estarán dados por la transformada discreta de Fourier de esta secuencia:
s¨¢
¤¢ ∑©=o
hn ¥¦§ _" a Ec. 3.5
©
m = 0, 1, 2,…, N-1
Para hacer que estos descriptores sean invariantes a la rotación es posible
utilizar la propiedad de desplazamiento de la transformada de Fourier. Como se sabe,
la propiedad de desplazamiento dice que se tiene una función r(x) con su respectiva
transformada de Fourier R(ω), entonces cuando existe un desplazamiento ª " @ la
transformada de Fourier será:
F ¥ " n ¤«¬® " s¨n « Ec. 3.6
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 60
CAPÍTULO 3
Al obtener el módulo de la ecuación (3.6) este será invariante para cualquier
desplazamiento @ . En forma discreta el módulo R(m) estará dado por:
|¤¢| ¯¤¦¤¢s ¢¤¢s Ec. 3.7
m = 0,1,2,…,N-1
El vector característico es invariante a la escala si se normaliza haciéndolo de tal
forma que:
¥
¥ ← Ec. 3.8
¥¢±
Figura 3. 9.- Gráfica del Vector Característico
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 61
CAPÍTULO 3
Figura 3. 10.- Gráfica del Módulo de los Descriptores Polares
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 62
CAPÍTULO 4
4. ANÁLISIS DE RESULTADOS
CAPÍTULO 4
El proceso final del reconocimiento de la forma mediante los Descriptores de
Fourier se muestra a continuación. Comienza por la ejecución del programa, después
la apertura de la imagen a analizar (Figura 4.1), se lleva a cabo el proceso de
binarización, esto de acuerdo a la imagen a analizar, se mejora la imagen y por último
se obtiene la imagen óptima para analizar, tal y como se muestra en la figura 4.2.
Figura 4.1.- Imagen a analizar
Imagen
Binarizada
Figura 4.2.- Interfaz 1
Usando Operador Umbral con U=200
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 64
CAPÍTULO 4
Teniendo binarizada la imagen se obtiene el vector característico al cual se le
aplica la TDF, así obtenemos los Descriptores Polares de Fourier. Por último se
obtienen los Descriptores invariantes a la rotación, traslación y escala tal y como se
muestra en las figuras 4.3 y 4.4.
Gráfica del Módulo
de la Imagen
Figura 4.3.- Interfaz 2
Valores del Módulo de la TDF
del vector Característico
Figura 4.4.- Interfaz 3
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 65
CAPÍTULO 4
Una vez obtenidos los valores del módulo ya normalizado, se realiza la
comparación con la base de datos previamente guardada, así determinando la forma
de la imagen tal y como se muestra en la figura 4.5.
Figura 4.5.- Imagen reconocida.
Para tener más claro la ventaja computacional al usar los Descriptores de
Fourier, se realizaron pruebas con imágenes de figuras geométricas modificando su
tamaño y posición, en donde se puede apreciar que los Descriptores Polares de Fourier
se mantienen invariantes a la rotación, traslación y escala tal y como se muestra en las
siguientes figuras:
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 66
CAPÍTULO 4
Figura 4.6.- Imagen de pentágono reconocida.
Figura 4.7.- Imagen de pentágono rotada y escalada reconocida.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 67
CAPÍTULO 4
Figura 4.8.- Imagen de triángulo reconocida.
Figura 4.9.- Imagen de triángulo rotada y escalada reconocida.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 68
CONCLUSIONES
CONCLUSIONES
Se logró desarrollar un software que cumpliera con las características
necesarias para llevar a cabo el reconocimiento automático de formas, mediante el
desarrollo y uso de diversos algoritmos, siendo el software desarrollado bastante
eficiente, tomando en cuenta que la interfaz gráfica es entendible y fácil de usar,
además de que el tiempo de procesamiento de una imagen es relativamente corto,
teniendo en cuenta la cantidad de procesos que se le realizan. El tiempo de
procesamiento varía entre 2 y 7 segundos.
El software desarrollado está enfocado hacia el reconocimiento de formas con
imágenes binarias usando los Descriptores de Fourier, lo cual presenta la ventaja de
que computacionalmente es menor el trabajo que el de otras técnicas. Los Descriptores
de Fourier son invariantes a la escala, la traslación y la rotación, además de que
muestran una buena descripción del contorno del objeto, por lo tanto este software
puede ser utilizado para reconocimiento de cualquier objeto, tanto para su clasificación
como para su detección.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 69
RECOMENDACIONES DE USO
RECOMENDACIONES DE USO
• El software puede ejecutarse únicamente en la plataforma Windows.
• El software está diseñado bajo una resolución de pantalla de 1600 x 900 pixeles,
si no se cuenta con esta resolución tendría que ser adaptado.
• No apague el sistema o intente cerrar el software durante algún proceso en
ejecución.
• Las imágenes a analizar no deben tener un tamaño mayor a 640 x 480 pixeles
(VGA) o un tamaño mínimo de 128 x 128 pixeles además estar en un formato
conocido (JPG, BMP, JPEG, etc.).
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 70
TRABAJO A FUTURO
TRABAJO A FUTURO
Entre los trabajos a futuros se pueden mencionar:
• Automatización de la forma de obtención de la imagen a analizar, desde el
diseño hasta la implementación de una tarjeta de adquisición de datos.
• Conexión entre el software desarrollado con un manejador de base de datos tal
como MySQL o SQL Server, para tener un mejor desempeño y seguridad al
momento de realizar las consultas al momento de reconocer la forma.
• Complementar el software con los procesos de Segmentación de la imagen y
corrección de inclinación para obtener aún mejores resultados.
• Mejorar el método de comparación, siendo una buena opción el método K
Nearest Neighbors (Vecino más cercano) siendo un método de clasificación
supervisada (Aprendizaje, estimación basada en un conjunto de entrenamiento y
prototipos).
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 71
BIBLIOGRAFÍA
BIBLIOGRAFÍA
[1] Tratamiento Digital de Imágenes
Rafael C. González, Richard E. Woods
Addison-Wesley / Díaz de Santos, 1996
[2] Visión por computador, Imágenes digitales y aplicaciones - 2da. Edición
Gonzalo pajares Martinsanz, Jesús M. de la Cruz García
Alfaomega – Ra-Ma
[3] Digital Image Processing
Castleman, K. R. (1991).
Prentice Hall.
[4] A threshold selection method for gray level histograms
Otsu, N. (1979).
IEEE transactions on system, man and cybernetics.
[5] Visión por computadora: imágenes digitales y aplicaciones
Zans, P. M. (2000).
Alfaomega.
[6] Reconocimiento de formas y visión artificial.
Allende, D. G. (1998).
Eddison Wesley.
[7] Recognizing characters in scene images
Ohya, J. (1994)
IEEE Transactions on Pattern Analysis and Machine Intelligence
[8] Pratt “Digital Image Processing”
Haralick & Shapiro
[9] Digital Image Processing algorithms and applications
Pitas, I. (1996)
Wiley-Interscience
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 72
BIBLIOGRAFÍA
[10] Detecting the skew angle in document images
Farrow, G. S. (1994)
Signal Processing: Image Communication
[11] Contribución al reconocimiento de caracteres en imágenes complejas
Rodríguez, F. M. (1997)
Tesis doctoral, Universidad de Vigo
[12] Digital Image Processing
B. Jahne (1991)
Springer-Verlag.
[13] Fundamental of Digital Image Processing
K. Jain (1989)
Prentice-Hall.
[14] Robot vision
B. Horn (1986)
Mc. Graw-Hill.
[15] The Fourier Transform and its Applications
Ronald N. Bracewell (1986)
Mc. Graw-Hill.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 73
ANEXO A
USO DEL SOFTWARE
USO DEL SOFTWARE
1.- Verificar que la imagen a analizar se encuentre en un formato conocido, esto
para obtener un mejor resultado, considerando el peso y las dimensiones de la misma,
teniendo en cuenta que entre más pesada sea la imagen el proceso será más tardado.
2.- Ejecutar el software llamado Procesamiento digital de Imá[Link]
3.- Abrir la imagen a analizar mediante la pestaña “Archivo” en el submenú
“Abrir Imagen” o bien presionando la serie de teclas CTRL + A para después
seleccionar la imagen a analizar.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 75
USO DEL SOFTWARE
4.- Una vez abierta la imagen se procede a graficar el histograma de la imagen, esto
para determinar el método y las correcciones necesarias para que la imagen sea
óptima para el análisis. El Histograma lo encontramos en la pestaña “Histograma”, en
seguida el submenú “Calcular Histograma”.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 76
USO DEL SOFTWARE
5.- Después de determinar el mejor método para la corrección de la imagen, se aplica
usando cualquiera de las opciones que se encuentran dentro de las pestañas
“Transformación de Imágenes”, “Histograma” o “Filtros”, esto según lo requiera.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 77
USO DEL SOFTWARE
6.- Ya corregida la imagen a analizar se procede a guardarla mediante la opción
“Guardar la Imagen Modificada” ubicada en la pestaña “Archivo” o bien presionando la
serie de teclas CTRL + S.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 78
USO DEL SOFTWARE
7.- Una vez corregida y guardada la imagen a analizar, la abrimos y nos dirigimos a la
pestaña “Parones” y elegimos el submenú “Graficar Módulo de Descriptores Polares”,
después de haber hecho esto una ventana emergente nos mostrará los valores del
Módulo.
8.- Cerramos la ventana anterior y podremos observar la gráfica del Módulo.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 79
USO DEL SOFTWARE
9.- Por ultimo nos dirigimos nuevamente al menú “Patrones” y elegimos el submenú
“Reconocer Forma”, inmediatamente un mensaje emergente nos dirá el nombre de la
forma del objeto de la imagen que se está analizando, hay que tener en cuenta que los
valores del Módulo de Descriptores Polares de la imagen debieron ser cargados
previamente en la base de datos local para que la imagen pueda ser reconocida.
10.- Como podemos observar, el software cuenta con más pestañas, estas muestran
uno a uno los métodos y algoritmos que fueron necesarios para obtener los resultados,
desde el mejoramiento de la imagen, reconocimiento de contornos hasta el
reconocimiento del objeto.
Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 80
ANEXO B
CÓDIGO DEL SOFTWARE
(Ver CD Incluido)
CONTENIDO
1. INTRODUCCIÓN ........................................................................................................ 1
1.1. INTRODUCCIÓN ............................................................................................... 2
1.2. PLANTEAMIENTO DEL PROBLEMA............................................................... 3
1.3. OBJETIVOS....................................................................................................... 4
1.4. JUSTIFICACIÓN................................................................................................ 5
2. FUNDAMENTOS TEÓRICOS DE PROCESAMIENTO DIGITAL DE IMÁGENES .. 6
2.1. VISIÓN POR COMPUTADORA......................................................................... 7
2.2. PROCESAMIENTO DE IMÁGENES ................................................................. 9
2.2.1. INTRODUCCIÓN ......................................................................................... 9
2.2.2. ELEMENTOS DE UN SISTEMA DE PROCESAMIENTO DE IMÁGENES ......... 10
2.2.3. IMAGEN DIGITAL ..................................................................................... 12
2.2.4. PROCESAMIENTO BÁSICO DE IMÁGENES DIGITALES ....................... 14
2.2.5. CONTRASTE ............................................................................................ 21
2.2.6. ELIMINACIÓN DE RUIDO ......................................................................... 27
2.2.7. DETECCIÓN DE BORDES ....................................................................... 31
2.3. TRANSFORMADA DE FOURIER ................................................................... 39
2.3.1. INTRODUCCIÓN ....................................................................................... 39
2.3.2. TRANSFORMADA DISCRETA DE FOURIER .......................................... 41
2.3.3. TRANSFORMADA RÁPIDA DE FOURIER ............................................... 43
2.3.4. VISUALIZACIÓN DEL ESPECTRO DE FOURIER .................................... 44
2.3.5. TEOREMA DE CONVOLUCIÓN ............................................................... 46
2.4. DESCRIPTORES DE FOURIER ...................................................................... 47
2.4.1. INTRODUCCIÓN ....................................................................................... 47
2.4.2. DESCRIPTORES POLARES DE FOURIER ............................................. 49
3. ARQUITECTURA DEL SISTEMA ......................................................................... 51
3.1. ALGORITMOS UTILIZADOS PARA EL PROCESAMIENTO DIGITAL DE IMÁGENES ....... 52
3.2. PROCESO FINAL PARA EL RECONOCIMIENTO DE LA FORMA ............... 59
4. ANÁLISIS DE RESULTADOS ............................................................................... 63
CONCLUSIONES ......................................................................................................... 69
RECOMENDACIONES DE USO .................................................................................. 70
TRABAJO A FUTURO ................................................................................................. 71
BIBLIOGRAFÍA ............................................................................................................ 72
USO DEL SOFTWARE ................................................................................................. 74
CÓDIGO DEL SOFTWARE (Ver CD Incluido) ............................................................ 81