0% encontró este documento útil (0 votos)
187 vistas84 páginas

Capítulo 1: 1. Introducción

Cargado por

Manny Merazinni
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
187 vistas84 páginas

Capítulo 1: 1. Introducción

Cargado por

Manny Merazinni
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

CAPÍTULO 1

1. INTRODUCCIÓN
CAPÍTULO 1

1.1. INTRODUCCIÓN

La inteligencia artificial en la actualidad se encuentra en desarrollo, a pesar de


tener grandes avances, se puede considerar que su nivel no puede ser tomado como
inteligencia verdadera. Sin embargo, el estado actual, es suficiente para el propósito de
este proyecto.

Las tareas de procesado digital de imágenes y visión por computadora tienen una
diversidad de áreas de aplicación en distintas áreas tales como metrología óptica,
inspección industrial, diagnóstico médico, reconocimiento óptico de caracteres y
percepción remota, entre otras. Entonces, el desarrollo de técnicas y algoritmos que
resuelvan problemas de optimización en visión por computadora, han sido punta de
lanza en el área de metrología óptica. Entre los problemas a los que se hace referencia
podemos mencionar entre otros, el trato de imágenes inmersas en ruido, optimización
de materiales de corte a partir de imágenes digitales, el reconocimiento de patrones
contenidos en imágenes, procesamiento de patrones de franjas y la medición de
cantidades físicas a través de imágenes que contienen información de objetos bajo
estudio.

Existen diferentes métodos para el reconocimiento de formas, algunos de estos


métodos se basan en las propiedades geométricas de las formas tales como su área y
su centro de masa. Cuando es posible describir la forma del objeto completamente por
su contorno existe la posibilidad de analizarlo de una forma alternativa usando
Descriptores de Fourier lo cual presenta la ventaja de disminuir el trabajo
computacional.

El reconocimiento automático de objetos ha sido un tema solicitado en


numerosas ocasiones, dada la gran cantidad de áreas en las que pueden ser
aplicadas.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 2


CAPÍTULO 1

1.2. PLANTEAMIENTO DEL PROBLEMA

La visión en los seres vivos es uno de los sentidos más utilizados para conocer
su entorno e interactuar con él, sin embargo, todo lo que el hombre es capaz de hacer
lo quiere realizar a través de las máquinas, desde 1964 hasta la actualidad, el
tratamiento digital de imágenes ha progresado vigorosamente.

Las técnicas de procesamiento digital de imágenes se emplean actualmente para


resolver problemas muy diversos. Aunque a menudo parecen inconexos, estos
problemas requieren normalmente métodos capaces de realzar la información de las
imágenes para la interpretación y el análisis humano.

Las imágenes tomadas con las cámaras siempre están expuestas a sufrir un
error por condiciones diversas en que fueron tomadas, entonces las imágenes
necesitan ser corregidas o tratadas antes de ser usadas en el reconocimiento de
patrones u objetos que se encuentren en ella, mejorando la calidad de la información
contenida.

La idea principal de la presente investigación surge de la necesidad de conocer


una alternativa de análisis que permita describir la forma del objeto completamente por
su contorno por medio de Descriptores de Fourier, lo cual presenta la ventaja de
disminuir el trabajo computacional en el desarrollo de aplicaciones, como el
reconocimiento automático de formas 3D, utilizando diversas técnicas de la visión
artificial.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 3


CAPÍTULO 1

1.3. OBJETIVOS

OBJETIVO GENERAL

Desarrollar un software útil para el reconocimiento automático de formas en


imágenes, usando descriptores de Fourier.

OBJETIVOS PARTICULARES

Estudiar algoritmos para el procesamiento de imágenes digitales, visión por


computadora, inteligencia artificial, y de reconocimiento de patrones.

Investigación y desarrollo de algoritmos de visión por computadora y


optimización para el mejoramiento de imágenes, segmentación de objetos, detección
de contornos y reconocimiento automático de formas.

Estudiar y aplicar técnicas de inteligencia artificial en problemas complejos de


tratamiento y procesado de imágenes.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 4


CAPÍTULO 1

1.4. JUSTIFICACIÓN

La presente investigación pretende proporcionar la teoría general de


descriptores de Fourier aplicado al procesamiento de imágenes y reconocimiento de
formas de contorno con la aplicación mínima del trabajo computacional, conservando
un completo análisis de la información.

Este proyecto se realiza con la intención de lograr que la teoría de descriptores


de Fourier se tome como base en el desarrollo de aplicaciones diversas como el
reconocimiento automático de formas 3D. Actualmente no existe completamente
desarrollada la teoría de descriptores de Fourier de tal forma que permita su uso como
base de aplicaciones para mejorar el cálculo computacional.

La gran ventaja de los Descriptores de Fourier es que son invariantes frente a la


traslación, la rotación y la escalabilidad. Estos son las principales características en
que basarse para buscar una utilidad a los Descriptores de Fourier, y su principal uso
es para, de una forma u otra, reconocer objetos.

Actualmente en el mercado no existe un sistema de este tipo que sea totalmente


independiente y que ofrezca una fiabilidad del 100%. La idea es desarrollar un software
que sea competitivo y cubra las necesidades básicas que se requieren para un sistema
de esta índole.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 5


CAPÍTULO 2

2. FUNDAMENTOS TEÓRICOS DE PROCESAMIENTO


DIGITAL DE IMÁGENES
CAPÍTULO 2

2.1. VISIÓN POR COMPUTADORA

El área denominada "visión por computadora" dentro del campo de la


inteligencia artificial tiene como objetivo obtener información del mundo real, usando
técnicas y modelos que permitan analizar y extraer información específica, a partir de
imágenes o video digitales [1].

La visión por computadora intenta crear modelos de la realidad en base a


imágenes en 2D, ya que de esta es posible obtener información sobre objetos,
características, colores, formas, iluminación, etc. Esta es una razón por la cual, se han
ido desarrollando una gran diversidad de técnicas y algoritmos que logren obtener
información específica para su procesamiento posterior.

La visión por computadora surgió en base a estudios realizados sobre la visión


humana. En la visión por computadora se intenta plasmar los mismos métodos que
hacen a la visión humana tan eficaz como eficiente.

La visión humana requiere de una cierta base de datos, la cual sirve de ayuda
para el reconocimiento de las características presentes en la imagen. Si se quisiera
hacer esto en un sistema artificial, requeriría una cantidad enorme de información, que
haría a este sistema muy lento al momento de procesar. Es aquí donde se hace
referencia a los estudios realizados sobre el procesamiento que realiza el cerebro
humano sobre las imágenes. Actualmente no se ha demostrado la forma en que el
cerebro guarda la información recibida, sin embargo, se sabe que el cerebro procesa la
información en base a semejanzas, esto es la memoria asociativa.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 7


CAPÍTULO 2

Los objetivos típicos de la visión artificial incluyen:

• La detección, segmentación, localización y reconocimiento de ciertos objetos en


imágenes (por ejemplo, caras humanas).
• La evaluación de los resultados (ej.: segmentación, registro).
• Registro de diferentes imágenes de una misma escena u objeto.
• Hacer concordar un mismo objeto en diversas imágenes.
• Seguimiento de un objeto en una secuencia de imágenes.
• Mapeo de una escena para generar un modelo tridimensional de la escena; tal
modelo podría ser usado por un robot para navegar por la escena.
• Estimación de las posturas tridimensionales de humanos.
• Búsqueda de imágenes digitales por su contenido.

Estos objetivos se consiguen por medio de reconocimiento de patrones,


aprendizaje estadístico, geometría de proyección, procesado de imágenes, teoría de
gráficos, entre otros campos.

La visión artificial cognitiva está muy relacionada con la psicología cognitiva y la


computación biológica.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 8


CAPÍTULO 2

2.2. PROCESAMIENTO DE IMÁGENES

2.2.1. INTRODUCCIÓN

Procesamiento Digital de Imágenes

El término procesamiento digital de imágenes habla sobre la manipulación y


análisis de imágenes por computadora.

El procesamiento de imagen puede considerarse como un tipo especial del


procesamiento digital en dos dimensiones, el cual se usa para revelar información
sobre imágenes y que involucra hardware, software y soporte teórico.

El procesamiento de imágenes tiene como objetivo mejorar el aspecto de las


imágenes y hacer más evidentes en ellas ciertos detalles que se desean hacer notar.
La imagen puede haber sido generada de muchas maneras, por ejemplo,
fotográficamente, o electrónicamente, por medio de monitores de televisión. El
procesamiento de las imágenes se puede en general hacer por medio de métodos
ópticos, o bien por medio de métodos digitales, en una computadora.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 9


CAPÍTULO 2

2.2.2. ELEMENTOS DE UN SISTEMA DE PROCESAMIENTO DE IMÁGENES

En la adquisición de imágenes deben existir dos elementos básicos. El primero


es algún dispositivo básico que sea sensible a una determinada banda del espectro de
energía electromagnético como son las bandas de rayos-x, el ultravioleta, el visible o el
infrarrojo, y que produce una señal eléctrica proporcional al nivel de energía censado.

El segundo es el digitalizador que convierte la salida del dispositivo físico de


censado a forma digital. En esta categoría se agrupan a las cámaras CCDs (Charge-
Coupled Devices) que tiene la ventaja de la velocidad de capitulación (hasta 1/10,000
seg.) pero un costo elevado, los scanners y cámaras de video.

El almacenamiento es un punto crítico debido a la gran cantidad de información


usada. Por ejemplo, una imagen en 8 bits de tamaño 1024 x 1024 pixeles requieren un
megabyte de espacio para su almacenamiento.

En el procesamiento, ya existen computadoras con microprocesadores


especializados en procesamiento de imágenes que permiten un manejo rápido de las
operaciones de matrices y acceso a memoria para aplicaciones de procesamiento de
marcos (frames).

En cuanto al despliegue de las imágenes, se han usado los monitores de T.V. y


monitores de computadoras. Los resultados desplegados en el monitor pueden ser
fotografiados por una cámara enfocada a la cara del tubo de rayos catódicos o generar
directamente una señal de video para grabarse.

A continuación se muestran elementos funcionales básicos de un sistema de


procesamiento de imágenes: adquisición, almacenamiento, procesado,
comunicaciones, despliegue y software.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 10


CAPÍTULO 2

Dentro de cada caja se dan ejemplos de dispositivos usados en tales sistemas.

Figura 2.1.- Elementos funcionales básicos de un sistema de procesamiento de imágenes

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 11


CAPÍTULO 2

2.2.3. IMAGEN DIGITAL

El término imagen se refiere a una función bidimensional de intensidad de luz


f(x,y), donde x y y denotan las coordenadas espaciales y el valor de f en cualquier
punto (x,y) es proporcional al brillo (o nivel de gris) de la imagen en ese punto [3].

Figura 2.2.- Representación de una imagen digital

Una imagen digital es una imagen f(x,y) que ha sido discretizada en


coordenadas espaciales y en brillo. Una imagen digital puede considerarse como una
matriz cuyos índices del renglón y columna identifican un punto en la imagen y el
correspondiente valor del elemento de la matriz que identifica el nivel de intensidad de
luz en ese punto.

Los elementos de tal arreglo digital son llamados elementos de imagen,


elementos de pintura, pixels o pels (estos dos últimos son abreviaturas del inglés
picture elements).

Existen imágenes a color, en escala de grises e imágenes binarizadas. Las


imágenes a color constan de 3 componentes por pixel, cada uno de ellos representa la
presencia de uno de los colores primarios, rojo, verde y azul. En las imágenes en
escala de grises, solo se tiene un componente que representa la brillantez promedio de
los 3 colores primarios. Por último las imágenes binarias, constan de 2 tonos, blanco y
negro.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 12


CAPÍTULO 2

Como ha de suponer, las imágenes pierden detalle al ser convertidas en escala


de grises y aún más cuando son transformadas a imágenes binarias. Sin embargo, de
la misma manera en que pierden detalle, el espacio que ocupan es mucho menor, lo
cual facilita mucho más su manejo.

Una imagen puede ser representada por una gráfica denominada histograma
(Figura 2.3), el cual muestra un rango de 0 a 255, que representan los niveles de gris
presentes en dicha imagen, donde el 0 representa la ausencia de color (negro) y el 255
la brillantez máxima posible (blanco).

(a) (b)

Figura 2.3.- (a) imagen original (b) histograma de la imagen

El histograma se puede calcular, almacenando la cantidad de pixeles del mismo


tono. Por ejemplo, si tenemos una imagen con 30 pixeles de nivel 25, en el histograma
aparecerá, en la posición 25 del eje horizontal, una barra de altura 30.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 13


CAPÍTULO 2

2.2.4. PROCESAMIENTO BÁSICO DE IMÁGENES DIGITALES

TRANSFORMACIÓN DE IMÁGENES

Por transformación de imágenes se entiende el proceso de modificar el


contenido de una imagen original para obtener una nueva. El objetivo de cualquier
transformación estriba en la necesidad de preparar la imagen con el fin de realizar un
posterior análisis de cara a su interpretación. La interpretación entra dentro de un
proceso de percepción de nivel superior que debe estar implícito en toda aplicación de
visión artificial [2].

Operaciones básicas en imágenes digitales

A continuación se presentará un informe detallado de las diferentes operaciones


básicas que se pueden realizar con las imágenes.

Operaciones puntuales:

Una operación puntual es aquella que transforma una imagen de entrada en una
imagen de salida de forma que cada pixel de la imagen de salida solo depende de la
magnitud del correspondiente pixel de entrada. Una operación puntual se puede
expresar matemáticamente como:

q(x,y) = p(x,y) Ec. 2.1

Donde q(x,y) es el pixel de salida y p(x,y) es el pixel de entrada, f especifica el


mapeo del nivel de gris de la entrada al nivel de gris de la salida. La forma en que se
transforma la imagen depende de la función ya definida.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 14


CAPÍTULO 2

Operador Inverso o Negativo:

Mediante este operador se crea una imagen de salida que es la inversa de la


imagen de entrada. Esta operación es útil en aplicaciones médicas. La función de
transformación es la siguiente:

q(x,y) = 255 - p(x,y) Ec. 2.2

(a) (b)

Figura 2.4.- Operador inverso o negativo (a) imagen original (b) imagen de salida

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 15


CAPÍTULO 2

Operador Umbral:

Esta transformación crea una imagen de salida binaria a partir de un rango de


tonos de gris. El nivel de transformación de este operador está dado por un umbral de
entrada u, donde 0<=u. La función de transformación es la siguiente:

0 para p(x,y) < u


q(x,y) = Ec. 2.3
255 para p(x,y) > u

(a) (b)

Figura 2.5.- Operador umbral para U=100 (a) imagen original (b) imagen de salida

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 16


CAPÍTULO 2

Operador Intervalo de Umbral Binario:

Esta transformación crea una imagen binaria de salida a partir de una imagen de
tonos de gris, donde todos los tonos de grises cuyo nivel está en el intervalo definido
por u1 y u2 son transformados a 255 y todos los valores fuera de este intervalo a 0.
Tenemos la siguiente función de transformación para este operador:

0 para p(x,y) < u1 o p(x,y) > u2


q(x,y) = Ec. 2.4
255 para u1 > p(x,y) < u2

(a) (b)

Figura 2.6.- Operador umbral binario para U1=100 y U2=200


(a) Imagen original (b) imagen de salida

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 17


CAPÍTULO 2

Operador Umbral de Escala de Grises:

Esta función de transformación crea una imagen con los únicos valores de nivel
de gris comprendido entre el intervalo definido por u1 y u2, los demás se transforman a
255. La función de transformación es la siguiente:

255 para p(x,y) < u1 o p(x,y) > u2


q(x,y) = Ec. 2.5
p(x,y) para u1 > p(x,y) < u2

(a) (b)

Figura 2.7.- Operador umbral de escala de grises para U1=100 y U2=200


(a) imagen original (b) imagen de salida

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 18


CAPÍTULO 2

Operador de Extensión:

Esta función de transformación crea una imagen con la escala de grises


completa para el intervalo definido por u1 y u2, los demás se transforman a 255. La
función de transformación es la siguiente:

255 para p(x,y) < u1 o p(x,y) > u2


q(x,y) = Ec. 2.6
255 * (p(x,y) – u1) / (u2 – u1) para u1 > p(x,y) < u2

(a) (b)

Figura 2.8.- Operador de extensión para U1=100 y U2=200


(a) Imagen original (b) imagen de salida

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 19


CAPÍTULO 2

Adición:

Esta transformación utiliza la información del nivel de gris contenida en la misma


localización (posición de los pixeles) de dos imágenes de entrada A y B para crear una
nueva imagen C, la dimensión de las imágenes debe ser la misma. La transformación
se aplica a todos los pares de pixeles en las imágenes de entrada. La adición se puede
utilizar para reducir los efectos del ruido en la imagen. La función de transformación es
la siguiente:

‫ݔ( ܥ‬, ‫ܣ( = )ݕ‬ሼ‫ݔ‬, ‫ݕ‬ሽ + ,  /! Ec. 2.7

Sustracción:

La sustracción de dos imágenes es una técnica útil para detectar el cambio


producido o el movimiento en dos imágenes que han sido captadas en dos instantes de
tiempos distintos. Al aplicar esta transformación el valor de salida puede ser un valor
fuera del rango comprendido entre 0 y 255, esto se soluciona dándole el valor de 0 a
los números negativos y 255 a los números mayores que 255. La función de
transformación es la siguiente:

 ,  = ,  − ,   ∗ ! Ec. 2.8

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 20


CAPÍTULO 2

2.2.5. CONTRASTE

Existen diversas definiciones y opiniones sobre lo que se entiende por contraste.


El contraste se define como la tasa de cambio de la luminancia relativa de los
elementos de la imagen de una reproducción [9].

Otra significado es la que lo define como la capacidad de distinguir entre un


patrón de barras y un fondo uniforme, de tal forma que un sistema más sensible
necesita menor diferencia de contraste o luminancia, mientras que un sistema menos
sensible necesitará de un mayor contraste para ser capaz de reconocer dicho patrón de
barras. La luminancia se mantiene constante para todos los patrones.

En definitiva el contraste es la mínima diferencia de luminancia que existe entre


dos puntos de una imagen.

El escalado en amplitud de imágenes no utiliza adecuadamente el rango


dinámico de la visualización y por ello con las modificaciones de contraste se trata de
que estas si se den dentro del rango dinámico de visualización.

Existen transformaciones lineales a las imágenes para conseguir una mejora de


su contraste y también existen diversas transformaciones no lineales que mejoran el
contraste y otras que lo debilitan.

Ajuste:

Se expande linealmente el rango de grises de la imagen asignándole al nivel


más oscuro el negro y al nivel más claro el blanco. Los valores intermedios se
interpolan linealmente llevándose a cabo la mejora debida a la reasignación de los
niveles de gris y no porque aumente el número de grises de la imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 21


CAPÍTULO 2

La función de error gaussiana:

Actúa como una función cuadrática para pixeles de baja amplitud y como una
función raíz cuadrada para pixeles de gran amplitud (Ecuación 2.9).

+,,-./.1 /.1
'()* 56 * 5
$ %, & = 2√4
/.1
2√4
Ec. 2.9
'()* 5
2√4

Dónde:

9 : 4
erf = ; < => ? Ec. 2.10
√: @

La función logarítmica:

Útil para el escalado de arreglos con un gran rango dinámico y mostrar más
claras imágenes oscuras (Ecuación 2.11).

ABCD E6FG,H
$ %, & = Ec. 2.11
ABCD E6IJ:KFG,HL

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 22


CAPÍTULO 2

La función exponencial:

Puede verse como la inversa de la logarítmica, es implementada a partir de una


función exponencial (Ecuación 2.12).

' M,,-
$ %, & = Ec. 2.12
' N2OM,,-

Ecualización del histograma:

La ecualización del histograma consiste, básicamente y a grandes rasgos, en


una expansión del histograma de la imagen, dotando al mismo de mayor linealidad y
haciendo que éste ocupe el ancho del espectro de tonalidades grises por completo [4],
ello implica unas mejoras en la imagen que serán expuestas a continuación:

• Una mayor utilización de los recursos disponibles: al ecualizar el


histograma, vemos como los tonos que antes estaban más agrupados, ahora se
han separado, ocupando todo el rango de grises, por lo que la imagen se está
enriqueciendo al tener niveles de gris más distintos entre sí, mejorando, por
tanto, la apariencia visual de la imagen.

• Un aumento del contraste: esta ventaja es consecuencia del punto anterior, ya


que si hacemos que el histograma de la imagen ocupe todo el rango de grises,
estamos aumentando la distancia entre el tono más claro y el más oscuro,
convirtiendo a éstos, en blanco y negro y consecuentemente aumentando el
contraste de la imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 23


CAPÍTULO 2

• Constituye una regulación óptima y automática del contraste de la imagen.


Evitando los ajustes manuales con los que no se consigue un equilibrio óptimo
entre el blanco y el negro.

A su vez, aparecen algunos inconvenientes que surgen a la hora de ecualizar la


imagen, algunos de ellos se detallan a continuación:

• Pérdida de información: puede ocurrir que a algunos pixeles que en la imagen


original tenían distintos niveles de gris se les asigne, tras la ecualización global,
al mismo nivel de gris. Por otro lado, hay casos en los que dos niveles de gris
muy próximos se separen, dejando huecos en el histograma.

• En ocasiones, las bandas horizontales, fruto de una deficiente digitalización


pueden resultar intensificadas, resaltando aún más este error indeseado.

Suponiendo que se tiene una imagen de 8 bits. Partiendo del histograma original, el
primer paso para trabajar con el mismo es el de normalización, para ello hay que
normalizar tanto el eje horizontal (niveles de gris) como el vertical (aparición del nivel
de gris en cuestión), de manera que ambas magnitudes queden comprendidas entre 0
y 1.

Para normalizar el eje horizontal, es decir, el que indica el nivel de gris, dividimos
cada magnitud entre 255, con lo que queda: 0, 1/255, 2/255...255/255=1, obteniendo
un rango de niveles de gris comprendido entre 0 y 1. Para la normalización del eje
vertical, se debe dividir cada componente entre el número total de pixeles, así en el
caso más extremo, es decir en el que toda la imagen fuese de un mismo color, la
representación sería una única barra de altura igual a 1.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 24


CAPÍTULO 2

El siguiente paso consiste en la acumulación del histograma, esto consiste en


sustituir cada magnitud, por el valor de ella misma más el total de la suma de las
anteriores, con ello se consigue que el histograma (que reflejaba la función "densidad
de probabilidad" para cada color) se transforme en una representación de la función de
distribución. Quedando una función creciente, cuyo valor máximo será siempre 1.

Aplicando la siguiente expresión, se obtiene los nuevos niveles de gris (haciendo


que el histograma se extienda hasta el negro), además se consigue que éstos vuelvan
a encontrarse entre 0 y 255:

U=UNVW
P ∗ = Int T 255 + 0.5X Ec. 2.13
E=UNVW

Dónde:

"Int" representa la operación de tomar el entero más cercano por defecto.


PIYZ es el menor valor de s distinto de cero.
En este caso, 255 representa el número de niveles de gris menos uno.

Suponiendo que se dispone de una imagen de 9 pixeles cuyos niveles de gris


son los mostrados en la tabla 2.1.

253 253 255


253 255 254
253 254 254

Tabla 2.1 pixeles de imagen

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 25


CAPÍTULO 2

El histograma normalizado de dicha imagen sería el siguiente:

9^9
[ \  = 0 0 ≤ \ ≤ 9^^

9^` b
[ _9^^a = c

9^b `
[_ a =
9^^ c

9^^ 9
[_ a = [1 =
9^^ c

Mientras que el histograma normalizado acumulado quedaría:

9^9
[d\  = 0 0 ≤ \ ≤
9^^

9^` b
[d _ a =
9^^ c

9^b e
[d _ a =
9^^ c

9^^
[_ a = 1
9^^

Los niveles de gris de la imagen original (253, 254, 255) se transformarían en:

Nivel 253 → 0

Nivel 254 → 153

Nivel 255 → 255

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 26


CAPÍTULO 2

Con lo que la imagen resultante sería la mostrada en la tabla 2.2.

25
0 0
5
25 15
0
5 3
15 15
0
3 3

Tabla 2.2 pixeles ecualizados

2.2.6. ELIMINACIÓN DE RUIDO

Las imágenes pueden contener ruido provocado por fuentes ruidosas, como son
sensores ópticos eléctricos, mecanismos de apertura en cámaras fotográficas, y
también debido a la transmisión de dichas imágenes a través de un canal físico [5].

En cualquier caso se pueden usar técnicas de reducción de ruido para


eliminarlo, tanto lineales como no lineales. El ruido suele apreciarse en aquellos pixeles
que no están lo suficientemente correlacionados con los pixeles de alrededor,
apareciendo como pixeles "discretos" interrelacionados espacialmente. La inmersión de
ruido en una imagen suele dotarla de componentes de media-alta frecuencia, y por lo
tanto las técnicas de reducción de ruido persiguen hacer de alguna manera un filtrado
paso bajo.

Filtro de la media:

En este filtro se hace un promedio de cada pixel con los de su alrededor, a


través de una especie de convolución entre dichos pixeles y una máscara de pesos a
diseñar. Esta operación se realiza para cada pixel de la imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 27


CAPÍTULO 2

Se habla de una operación "núcleo”, en el que se multiplica el valor de los


pixeles de una zona de una imagen por los correspondientes pixeles de la máscara:

∑iN
V,, h=IjV,, kOiV,li,

f:,>  iN
∑V,,
Ec. 2.14
h=IjV,,

Dónde:
W = máscara
P = conjunto de pixeles de imagen
mY,G = valor del elemento (peso) de la máscara situado en i,j.

El resultado de la operación será un conjunto de nuevos pixeles actualizados P*.

Con esta operación se calcula el nuevo valor del pixel del conjunto P situado en
x,y. Con el fin de mantener intacta la energía de la señal imagen original, se debe
normalizar dividiendo por la suma de los elementos de la máscara.

La máscara es una matriz n*n donde n es un número impar, como se muestra en


la Tabla 2.3. El elemento central se corresponde con el pixel sobre el que se calculará
el nuevo valor, y los restantes se asocian con los pixeles de alrededor. Se hace
recorrer dicha máscara a lo largo de toda la imagen, pixel a pixel, actualizando el valor
de estos tras cada operación.

Tabla 2.3.- Máscara de 3x3

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 28


CAPÍTULO 2

Aplicándola a una imagen cuyos pixeles pueden ser los de la figura 2.9, se
obtiene el nuevo valor del pixel central de la imagen, 2.33. Si se actualiza el primer
pixel de la esquina se obtiene 1.33:

nnnnopnpq os
  o. ppp …
r r

opopqpopo so
  s. ppp …
r r

(a) (b)
Figura 2.9.- Filtro de la media. (a) imagen de entrada. (b) imagen suavizada.

Filtro de la mediana:

Una de las técnicas no lineales más utilizadas para el procesado de imágenes,


en cuanto a la eliminación de ruido, es el filtrado de mediana. Esta técnica fue
desarrollada por Tukey (1977) y Pratt (1978) a finales de los años setenta, y partió de la
idea de conseguir un suavizado de imágenes y eliminación de ruido aplicando una
técnica no lineal, pero de simple implementación.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 29


CAPÍTULO 2

Al ser un filtrado no lineal, hay que empezar destacando las diferencias entre un
filtrado lineal y otro que no lo sea. En ambos casos, se ha de recorrer la imagen pixel a
pixel, y operando con los pixeles cercanos para obtener un suavizado de la imagen,
que reduzca el ruido. En el caso del filtrado lineal, la operación que se implementa es la
convolución, en este caso bidimensional, de una matriz de pixeles con otra matriz de
coeficientes (núcleo), que define el comportamiento del filtro (Figura 2.10).

Figura 2.10.- Filtro de la mediana

En el caso de un filtro no lineal la operación no es la convolución, sino que se le


aplica algún algoritmo u operación a la matriz de pixeles. En el caso del filtrado de
mediana, la operación es sencilla, y los efectos de suavizado son, en determinados
casos, espectaculares.

La idea es que en un conjunto de pixeles cercanos, valores muy alejados del


resto, serán valores que corresponden a pixeles ruidosos. La operación consiste en
analizar una matriz de pixeles de n*n, y reemplazar el pixel central por el valor de la
mediana de todos ellos. Y por supuesto repetir el algoritmo recorriendo toda la imagen.

Aplicando este método se escoge, por razones obvias, ventanas de n*n con n
impar, para tener bien diferenciado el pixel central. Tamaños habituales son ventanas
de 3x3, de 5x5, y de hasta 7x7. Esto lleva a pensar en el hecho de la elección del
tamaño de ventana como algo importante, puesto que un valor pequeño puede no
eliminar bien el ruido, mientras que un valor demasiado alto es capaz de distorsionar la
imagen. Para la elección de la ventana, en definitiva, no existe una regla fija, sino que
se trata de escoger el orden que mejor resultados dé con una determinada imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 30


CAPÍTULO 2

En general, se suele decir que un tamaño de ventana es bueno si el número de


pixeles ruidosos dentro de la ventana es menor que la mitad de pixeles de la ventana.

Figura 2.11.- Ejemplo del filtro de la mediana

2.2.7. DETECCIÓN DE BORDES

Uno de los más importantes y sencillos procesados es la detección de bordes.


Importante porque de él se puede empezar a extraer importante información de la
imagen, como pueden ser las formas de los objetos que la componen, y sencillo porque
los operadores de detección de bordes son simples máscaras de convolución. Estos
operadores son utilizados en aplicaciones para el reconocimiento de formas,
aplicaciones industriales, militares, etc.

Dentro de las numerosas aplicaciones para la detección de bordes, los artistas


digitales lo usan para crear imágenes con contornos deslumbrantes pues la salida de
un detector de bordes puede ser agregada a una imagen original para realzar los
bordes. La detección de bordes es a menudo el primer paso en la segmentación de
imagen, que es un campo del análisis de la imagen, y se utiliza para agrupar los pixeles
en regiones para determinar una composición de la imagen. La detección de bordes
también es usada en el registro de imagen, el cual alinea dos imágenes que podrían
ser adquiridas en momentos separados y de sensores diferentes [5].

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 31


CAPÍTULO 2

Los bordes de una imagen contienen mucha de la información de la imagen.


Los bordes cuentan donde están los objetos, su forma, su tamaño, y también sobre su
textura. Los ejes o bordes se encuentran en zonas de una imagen donde el nivel de
intensidad cambian bruscamente, cuanto más rápido se produce el cambio de
intensidad, el eje o borde es más fuerte.

En general, los bordes de objetos en una imagen los podemos distinguir por los
cambios más o menos bruscos de valor entre dos o más pixeles adyacentes. Podemos
realizar una clasificación general de los bordes según sea su dirección en:

• Bordes verticales, cuando pixeles conectados verticalmente tienen valores


diferentes respecto de los anteriores o posteriores.
• Bordes horizontales, cuando tenemos pixeles conectados horizontalmente, y
estos tienen distintos valores respecto de los anteriores o posteriores.
• Bordes oblicuos, cuando tenemos una combinación de las componentes
horizontales y verticales.

La diferencia entre los valores de los pixeles nos indica lo acentuado del borde,
de forma que a mayores diferencias tenemos bordes más marcados y a menores
tenemos unos bordes suavizados.

El proceso de detección de bordes se basa en realizar un incremento del


contraste en las zonas donde hay una mayor diferencia entre las intensidades, y en una
reducción de éste donde no tenemos variación de intensidad.

El principal objetivo de los filtros de realce es resaltar aquellas características de


la imagen que por causa del mecanismo de captación o por error hayan quedado
emborronados en la imagen. Este tipo de filtros es muy usado como método directo
para mejorar una imagen cara a su presentación a un observador humano. Con mucha
frecuencia las características más importantes a realzar son las fronteras que definen
los objetos presentes en la imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 32


CAPÍTULO 2

Los métodos y objetivos del realce varían con la aplicación. Cuando una imagen
es realzada para ser visualizada por el ojo humano, como es el caso de la televisión, el
objetivo es la mejora de la apariencia visual.

En otras aplicaciones como la identificación realizada por una máquina, la


imagen puede ser realzada y considerar este realce como un pre procesamiento que
ayude a la identificación. Por otra parte, algoritmos que funcionan bien para una clase
de imágenes como por ejemplo rayos X, no tienen por qué funcionar bien para
imágenes que han sido transmitidas desde un satélite.

El realce es una técnica muy cercana e incluso confundible con la restauración.


Cuando una imagen ha sido degradada y se intenta restaurar, muchas veces ese
intento se convertirá en realce. Pero sin embargo, hay importantes diferencias entre
una y otra técnica. En la restauración, el objetivo es hacer que una imagen degradada
se parezca lo más posible a la imagen original. En el realce, el objetivo es conseguir
que la imagen procesada sea mejor que la imagen original. El resultado de cada
técnica dependerá de lo que el observador quiera ver. Para ilustrar este ejemplo, decir
que una imagen que no ha sido degradada no puede ser restaurada, pero si puede ser
realzada.

Este tipo de filtros se enmarcan dentro del filtrado espacial de la imagen. El


diseño de estos se resume en calcular un conjunto de pesos que definan una máscara
cuya transformada de Fourier tenga el comportamiento del filtro en cuestión.

Una salvedad importante es que cuando se utiliza esta técnica, la imagen a


procesar no debe presentar ruido ya que si esto no es así, en lugar de realzar la
imagen la que se producirá será un realce del ruido, produciendo un empeoramiento de
la calidad de la imagen. Si la imagen presenta ruido, se tendrá que recurrir a la
restauración.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 33


CAPÍTULO 2

Una imagen puede ser considerada como una señal en el dominio del espacio o
en el dominio de las frecuencias. Es por esto que también existen técnicas de realce en
el dominio frecuencial.

La frecuencia espacial de una imagen es el número de cambios en los valores


radiométricos por unidad de distancia, para cualquier parte de la imagen en particular.

Si hay pocos cambios en los valores radiométricos sobre un área dada en una
imagen, esto se denomina área de baja frecuencia. Al contrario si hay muchos cambios
en un área reducida, el área sería de alta frecuencia (Figura 2.12).

(a) (b)
Figura 2.12.- (a) imagen de alta frecuencia. (b) imagen de baja frecuencia.

Como bien es sabido, la expresión de la señal resultante tras pasar por un filtro
lineal, en el caso continuo unidimensional, es la siguiente:

y
u  v ∗ w  ;=y vx w " x?x Ec. 2.15

Puede verse cómo el valor de cada h(x) de salida se calcula como una suma o
integral del producto de la señal de entrada con la respuesta al impulso invertida del
sistema lineal.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 34


CAPÍTULO 2

Al ser un sistema lineal, sumas de dos señales a la entrada darán como salida la
suma de las respuestas que el sistema da a cada una de ellas.

El esquema de la figura 2.13 representa el paso de la señal a través del sistema


lineal:

Sistema
f(x) Lineal h(x) = f(x) * g(x)
g(x)

Figura 2.13.- Sistema lineal

En el caso tratado (imágenes bidimensionales), la señal además de depender de


x e y, estará discretizada. La expresión a la salida del filtro será:

u   v  ∗ w = ∑}=E


~h@ ∑>h@ v z, {  w − {,  − z
|=E
Ec. 2.16

La convolución involucra el paso de una ventana móvil (núcleo, matriz de


coeficientes o máscara) encima de una imagen, creando otra nueva donde cada pixel
en esta nueva imagen, es una función de los valores de los pixeles originales dentro de
la ventana móvil, siendo los coeficientes de dicha ventana los especificados por el
usuario.

Para pasar del dominio espacial al frecuencial se usa la transformada de Fourier


cuya expresión para la señal f(x) es la siguiente:

y
 €  = ;=y v< =G9‚: ? Ec. 2.17

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 35


CAPÍTULO 2

Y que en el caso discreto bidimensional:


E
[ €, ƒ  = „ ℎ,  = ∑ ,  ∑ z, { vz, {w − z,  − {< =G W ‚:6†> Ec. 2.18
Z

La relación entre estos dos dominios puede verse en La figura 2.14:

Mascarilla de Convolución
Espacio: f(x,y) g(x,y) h(x,y)

Transformada de Fourier

Filtro Lineal (2-D)


Frecuencia: F(u,v) G(u,v) H(u,v)

Figura 2.14.- Relación espacio- frecuencia.

Todo esto está dentro de la teoría lineal del filtrado, sin embargo existen filtros
de tipo no-lineal. En estos casos tanto la convolución como herramienta base del
filtrado y la suma como operación matemática que la define dejan de tener sentido, y
habrá que calcular usando funciones de tipo no lineal.

Los casos más sencillos son aquellos en los que se sustituye la suma por la
operación de máximo o mínimo.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 36


CAPÍTULO 2

Los filtros utilizados para la detección de bordes son filtros diferenciales, que
se basan en la derivación o diferenciación. Dado que el promediado de los pixeles de
una región tiende a difuminar o suavizar los detalles y bordes de la imagen, y esta
operación es análoga a la integración, es de esperar que la diferenciación tenga el
efecto contrario, el de aumentar la nitidez de la imagen, resaltando los bordes.

Derivada de primer orden:

Muchas técnicas basadas en la utilización de máscaras para la detección de


bordes utilizan máscaras de tamaño 3x3 o incluso más grandes. La ventaja de utilizar
máscaras grandes es que los errores producidos por efectos del ruido son reducidos
mediante medias locales tomadas en los puntos en donde se superpone la máscara.

Por otro lado, las máscaras normalmente tienen tamaños impares, de forma que
los operadores se encuentran centrados sobre los puntos en donde se calculan los
gradientes.

‡v,  v + ?: ,  − v, 


= ∆: =
‡ ?
Ec. 2.19

‡v,  v‰, ?> + Š − v, 


= ∆> =
‡ ?

∆ = v\ + 1, % − v\, %
∆ = v \, % + 1 − v\, % Ec. 2.20

Los operadores de gradiente común (o gradiente ortogonal) encuentran bordes


horizontales y verticales. Estos operadores trabajan mediante convolución. Los
operadores de Prewitt, Sobel, Roberts y Frei-Chen son operadores dobles o de dos
etapas.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 37


CAPÍTULO 2

La detección de bordes se realiza en dos pasos, en el primero se aplica una


máscara para buscar bordes horizontales, y en el segundo paso se busca los
verticales, el resultado final es la suma de ambos (Figura 2.15).

Figura 2.15.- Máscaras de detección de bordes.

Los filtros diferenciales ayudan a detectar bordes pues las zonas que en la
imagen original son de un tono uniforme (cualquiera sea) se transforman en un gris
mediano (valores cercanos al cero).

Mientras, los bordes, zonas donde hay un cambio abrupto de intensidad, son
enfatizados. Algunos resultan negros (valores negativos) y otros blancos (valores
positivos). Otros bordes no son enfatizados y quedan grises (valores cercanos al cero).

Esta alteración de los bordes produce una ilusión de relieve. La imagen parece
hundirse y sobresalir, iluminada por una fuente de luz. Los aclarados parecen ser más
iluminados, y los oscurecidos parecen sombras. Las zonas que en la imagen original
eran más oscuras parecen hundirse, mientras que las más claras parecen sobresalir.
Es como considerar a la imagen como una superficie bidimensional en un espacio
tridimensional, siendo el valor del pixel la altura de la superficie en ese punto.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 38


CAPÍTULO 2

2.3. TRANSFORMADA DE FOURIER

2.3.1. INTRODUCCIÓN

Muchas técnicas de procesado de señal se hacen en un espacio matemático


conocido como el dominio de la frecuencia. Para representar datos en el dominio de la
frecuencia, algunas transformaciones son necesarias. Quizás la más estudiada es la
transformada de Fourier (TF).

Por una señal continua entenderemos una función continua de una o varias
dimensiones. Podemos encontrar ejemplos de distintos tipos de señales en los muy
diversos aparatos de medida asociados al estudio de la física, química, biología,
medicina, etc. Así por ejemplo, los distintos tipos de electrogramas que son usados en
medicina son señales unidimensionales ya que se representan por una o varias curvas
en función del tiempo, así como una señal de audio que va a un altavoz. Sin embargo,
los distintos tipos de radiografías, así como todas las imágenes en 2D, son señales
bidimensionales y los resultados de la tomografía axial computarizada y la resonancia
nuclear magnética son señales tridimensionales.

Un prisma es un ejemplo común de cómo una señal es una composición de las


señales de frecuencias que varían: mientras que la luz blanca pasa a través de un
prisma, el prisma rompe la luz en sus componentes de frecuencia que revelan un
espectro completo de color.

La frecuencia espacial de una imagen se refiere al rango en el cual las


intensidades del pixel cambian. Las de alta frecuencia se concentran alrededor de los
ejes que dividen la imagen en cuadrantes. Las esquinas tienen frecuencias más bajas,
las frecuencias espaciales bajas se observan en áreas grandes de valores casi
constantes.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 39


CAPÍTULO 2

Debido a su amplia gama de usos en el procesado de imagen, la transformada


de Fourier es una de las más populares, y se aplica a una función continua de longitud
infinita f(x). La expresión matemática de dicho cálculo es:

y
 €  ;=y v < =‹9‚: ? Ec. 2.21

Donde %  √"1, y la variable u que aparece en la función F(u) representa a las


frecuencias. Puede demostrarse además que esta transformación tiene inversa, es
decir que dada la función F(u) podemos a partir de ella calcular la función f(x). La
expresión matemática de dicha transformada inversa es:

 €  Œ€   %€ Ec. 2.22

Donde R(u) denota la parte real e I(u) la parte imaginaria. Como todo número
complejo para cada valor de u, F(u) puede expresarse en términos de su módulo
|F(u)|, también conocido como espectro de frecuencia, y de su ángulo de fase ∅(u) .

Es decir, F(u) también puede expresarse como:

 €   |€|< G∅‚ Ec. 2.23

Dónde:


|€|  KŒ 9 €  9 €L 9

Ec. 2.24
€
∅€  ‘d{ =E ’ “
Œ€

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 40


CAPÍTULO 2

En el caso de que la señal sea una función de dos dimensiones los conceptos
que hemos introducido para el caso unidimensional se generalizan a este caso de
forma directa. Así el par de transformadas Fourier en notación matemática se expresan
de la siguiente manera, donde u y v son variables de frecuencias.

TF directa en 2D

y y
€, ƒ = ;=y ;=y v, < =G9‚:6†> ?? Ec. 2.25

TF inversa en 2D

y y
 ,  = ;=y ;=y v€, ƒ< =G9‚:6†> ?€?ƒ Ec. 2.26

Rápidamente llega a ser evidente que las dos operaciones son muy similares
con un signo menos en el exponente que es la única diferencia. Por supuesto, las
funciones que se aplican son diferentes, una es una función espacial, la otra es una
función frecuencial. Hay también un correspondiente cambio en las variables. En el
dominio de la frecuencia, u representa la frecuencia espacial a lo largo del eje x de las
imágenes originales y v representa la frecuencia espacial a lo largo del eje y. En el
centro de la imagen u y v tienen su origen.

2.3.2. TRANSFORMADA DISCRETA DE FOURIER

Al trabajar con imágenes digitales, nunca nos dan una función continua, sino que
debemos trabajar con un número finito de muestras discretas. Estas muestras son los
pixeles que componen una imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 41


CAPÍTULO 2

El análisis computarizado de imágenes requiere la transformada discreta de


Fourier (DFT). La transformada discreta de Fourier es un caso especial de la
transformada continua de Fourier.
En el caso discreto unidimensional, el par de transformadas de Fourier queda:

E
 €  ∑|=E
:h@ v<
=‹9‚:/|
Para u = 0, 1, 2,…, N-1
|
Ec. 2.27

v   ∑|=E
‚h@ €<
‹9‚:/|
Para x = 0, 1, 2,…, N-1

En el caso bidimensional, el par de transformadas de Fourier discretas, para


imágenes de tamaño M x N, vendrán dadas por las siguientes expresiones:

}=E |=E
1 ‚: †>
€, ƒ = – – v, < =G9 } 6 | 
”•
:h@ >h@

Ec. 2.28
Para u = 0, 1, 2,…, M-1
Para v = 0, 1, 2,…, N-1

}=E |=E
‚: †>
v,  = – – €, ƒ< G9 } 6 | 
‚h@ †h@
Ec. 2.29
Para x = 0, 1,2…M-1
Para y = 0, 1,2…N-1

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 42


CAPÍTULO 2

Cuando M = N algunas de las expresiones anteriores pueden expresarse de


forma más sencilla. En particular el par de transformadas de Fourier tendrían las
siguientes expresiones:

|=E |=E
1
 €, ƒ  = – – v, < =G9‚:6†>/|
•
:h@ >h@

Ec. 2.30
Para u = 0, 1, 2,…, M-1
Para v = 0, 1, 2,…, N-1

|=E |=E

v ,  = – – €, ƒ< G9‚:6†>/|


‚h@ †h@
Ec. 2.31
Para x = 0, 1, 2,…, M-1
Para y = 0, 1, 2,…, N-1

2.3.3. TRANSFORMADA RÁPIDA DE FOURIER

La transformada discreta de Fourier es de cómputo intensivo requiriendo


multiplicaciones de complejidad N2 para un conjunto de N elementos. Se agrava este
problema al trabajar con datos bidimensionales, como las imágenes.

Una imagen del tamaño M x M requerirá (M2)2 o M4 multiplicaciones complejas.


Afortunadamente, se descubrió que la transformada discreta de Fourier de longitud N
se podría reescribir como la suma de dos transformadas de Fourier de longitud N/2.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 43


CAPÍTULO 2

Este concepto se puede aplicar recurrentemente al conjunto de datos hasta que


se reduce a transformadas de solamente dos puntos.

Esta técnica de división y conquista se conoce como la transformada rápida de


Fourier (FFT), que reduce el número de multiplicaciones de complejidad N2 al orden N
log2 N. Estos ahorros son especialmente substanciales en el procesado de imagen. La
FFT es separable, lo que incluso vuelve las transformadas de Fourier más fáciles de
hacer.
Debido a la separabilidad, podemos reducir la operación de FFT de una
operación bidimensional a dos operaciones unidimensionales. Primero procesamos la
FFT de las filas de una imagen y en seguida seguimos con la FFT de las columnas.

Para una imagen del tamaño M x N, esto requiere N + M FFTs para ser
computadas. Del orden de NM log2 NM cómputos son requeridos para transformar
nuestra imagen.

Se debe recordar que la FFT no es una transformada diferente de la DFT, pero


sí una familia de algoritmos más eficientes para lograr la transformada de datos.
Generalmente cuando uno acelera un algoritmo, esta aceleración viene con un coste,
con la FFT, el coste es complejidad. Hay complejidad en la ejecución de la contabilidad
y del algoritmo. Los ahorros de cómputo, sin embargo, no se realizan a expensas de la
exactitud.

2.3.4. VISUALIZACIÓN DEL ESPECTRO DE FOURIER

Hay que superar algunas dificultades al mostrar el espectro de frecuencia de una


imagen. La primera surge debido al amplio rango dinámico de los datos resultantes de
la transformada discreta de Fourier.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 44


CAPÍTULO 2

En la imagen original el valor de un pixel será un número entero entre [0,255],


representando el grado de intensidad, pero en la imagen que representa el espectro de
Fourier los valores de los pixeles son números en punto flotante y no están limitado a
los valores de [0,255]. Estos datos deben ser escalados de nuevo para transformarlos
en un formato visible, de forma que no exceda la capacidad del dispositivo de
visualización.

Una cuantización lineal simple no proporciona siempre los mejores resultados,


pues muchas veces se pierden los puntos de baja amplitud. El término cero de la
frecuencia es generalmente el componente simple más grande, es también el punto
menos interesante al examinar el espectro de la imagen. Una solución común a este
problema es representar el logaritmo del espectro mejor que el espectro por sí mismo.

La función que se aplica a la imagen del espectro para su representación es una


función de compresión de rango dinámico.

La expresión matemática genérica de esta transformación para el caso de


rangos muy grandes es:

D (u,v)= c log(1+|H(u,v)|) Ec. 2.32

Donde |H(u,v)| es la magnitud de los datos a mostrar en frecuencia y c es una


constante de escala que en el caso de una imagen con rango R toma el siguiente valor:

c = 255 / log (1+|R|) Ec. 2.33

La suma de 1 asegura que el valor 0 del pixel no consigue pasar por la función
del logaritmo.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 45


CAPÍTULO 2

2.3.5. TEOREMA DE CONVOLUCIÓN

La gran importancia de la operación de convolución en el dominio frecuencial


radica en el hecho de que la TF de la convolución de dos funciones es igual al producto
de las TFs de dichas funciones, es decir:

f(x) g(x) F(u)G(u) Ec. 2.34

Esto indica que la convolución en el domino de las x también se puede obtener


realizando la transformada inversa de Fourier al producto F(u)G(u). Un resultado
análogo al visto en la ecuación anterior es que la convolución en el dominio de
frecuencias se reduce a la multiplicación en el dominio de las x, es decir:

f(x)g(x) F(u) G(u) Ec. 2.35

Estos dos resultados se conocen habitualmente con el nombre de Teorema de


Convolución, el cual implica que podemos calcular la convolución de dos funciones
multiplicando sus correspondientes TF y al resultado aplicarle la TF inversa. En el caso
de señales discretas, como en el caso de las imágenes, las distintas longitudes que
pudieran tener las sucesiones de puntos de cada una de las funciones son posibles
causas de errores en el cálculo final de la convolución, es por ello que ambas funciones
han de definirse en una misma cantidad de puntos por cada eje.

Dado que la convolución bidimensional es análoga formalmente a la ecuación de


la convolución unidimensional, el teorema de convolución en dos dimensiones se
expresa entonces por las siguientes relaciones:

f(x,y) g(x,y) F(u,v)G(u,v) Ec. 2.36

f(x,y)g(x,y) F(u,v) G(u,v)

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 46


CAPÍTULO 2

2.4. DESCRIPTORES DE FOURIER

2.4.1. INTRODUCCIÓN

Existen diferentes métodos para el reconocimiento de formas en imágenes


binarias, algunos de estos métodos se basan en las propiedades geométricas tales
como su área y su centro de masa. Cuando es posible describir la forma del objeto
completamente por su contorno, existe la posibilidad de analizarlo de forma alternativa
utilizando Descriptores de Fourier lo cual presenta la ventaja de disminuir el trabajo
computacional [12,13].

La determinación de formas de objetos en imágenes binarias es un problema


que encuentra diversas aplicaciones cuando se requiere detectar objetos con
determinadas características. Muchas veces cuando se tiene una imagen de un objeto,
este se puede encontrar colocado en diferentes partes del campo de visión, rotado o
amplificado. Este tipo de situaciones hace difícil el detectar automáticamente si se trata
de un objeto en particular, sin embargo esto se puede simplificar si se obtienen algunas
propiedades geométricas, tales como su área y centro de masa [14]. Si se representa
una imagen como una función binaria f(x,y) tal que f(x,y)=1 en el objeto y f(x,y)=0 en
otra parte (fig. 2.16), entonces el área del objeto se puede representar por la integral de
dicha función sobre todo el campo de visión.

—  ∬ ™š, ›œšœ› Ec. 2.37

Para determinar la posición del objeto en el campo de visión es posible


determinar el centro de la masa para escogerlo como un punto representativo de este.
En un objeto bidimensional el momento sobre el eje x está dado por:

ž ∬ ™š, ›œšœ› = ∬ š™š, ›œšœ›


š Ec. 2.38

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 47


CAPÍTULO 2

Mientras que para el eje y es:

ž ∬ ™š, ›œšœ›  ∬ ›™š, ›œšœ›


› Ec. 2.39

En donde
ž, ›
š ž Ec. 2.40

Son las coordenadas del centro de masa

Figura 2.16.- Imagen binaria f(x,y) la cual toma valores de cero y uno

En una imagen digital el área del objeto binario se calcula con la sumatoria de
todos los pixeles que corresponden a este de tal forma que la ecuación (2.51) será
ahora:

—  ∑Ÿ ho ∑¢
¡ho ™ ¡ Ec. 2.41

Igualmente para las ecuaciones (2.52) y (2.53) las coordenadas del centro de la
masa en forma discreta estarán dadas por:

∑Ÿ ∑¢
¡£o   ™ ¡
ž 
š
 £o
Ec. 2.42
—

∑Ÿ ∑¢
¡£o ¡ ™ ¡
ž 
›
 £o
Ec. 2.43
—

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 48


CAPÍTULO 2

2.4.2. DESCRIPTORES POLARES DE FOURIER

Una forma de caracterizar el contorno de un determinado objeto se puede llevar


a cabo tomando las distancias del centro de masa al contorno de diferentes ángulos,
tomados a partir de uno de los ejes coordenados para obtener un vector r (fig. 2.17).

Figura 2.17.- Distancia del centro de masa a diferentes puntos del contorno

De esta forma se obtiene una secuencia de valores r de N elementos igualmente


espaciados angularmente (vector característico), los Descriptores Polares de Fourier
estarán dados por la transformada discreta de Fourier de esta secuencia:

 s¨Ÿ¢
¤¢  ∑©=o
Ÿhn ¥Ÿ¦š§ _" a Ec. 2.44
©
m = 0, 1, 2,…, N-1

Para hacer que estos descriptores sean invariantes a la rotación es posible


utilizar la propiedad de desplazamiento de la transformada de Fourier [15]. Como se
sabe, la propiedad de desplazamiento dice que se tiene una función r(x) con su
respectiva transformada de Fourier R(ω), entonces cuando existe un desplazamiento
ª " @  la transformada de Fourier será:

F ¥š " šn   ¤«¬­® " s¨šn « Ec. 2.45

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 49


CAPÍTULO 2

Al obtener el módulo de la ecuación (2.58) este será invariante para cualquier


desplazamiento @ . En forma discreta el módulo R(m) estará dado por:

|¤¢|  ¯¤¦¤¢s  ¢¤¢s Ec. 2.46

m = 0,1,2,…,N-1

El vector característico es invariante a la escala si se normaliza haciéndolo de tal


forma que:

¥Ÿ
¥Ÿ ← Ec. 2.47
¥¢±š

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 50


CAPÍTULO 3

3. ARQUITECTURA DEL SISTEMA


CAPÍTULO 3

3.1. ALGORITMOS UTILIZADOS PARA EL PROCESAMIENTO


DIGITAL DE IMÁGENES

Inicio

Obtención de la Imagen

Color Escala de
Grises

Binarizar

Ecualizar

Eliminación de Ruido

Detección de Bordes

Obtención del Centro de la Imagen

Obtención del Vector Característico


x = (int)[Link](xc + i * [Link](angle * [Link] / 180));
y = (int)[Link](yc + i * [Link](angle * [Link] / 180));

TDF del Vector Característico (Descriptores polares de Fourier)


R[0, m] += rads[n] * [Link](-2 * [Link] * m * n / N); // Real
R[1, m] += rads[n] * [Link](-2 * [Link] * m * n / N); // Imaginary

Se obtiene el Módulo de los Descriptores


R_magnitude[m] = [Link]([Link](R[0, m], 2) + [Link](R[1, m], 2));

Se Normaliza
el Módulo

Se Comparan los Descriptores polares de Fourier con los ya


Almacenados en una Base de Datos.

Se Reconoce
la Forma

Fin

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 52


CAPÍTULO 3

TRANSFORMACIÓN DE IMÁGENES

El objetivo de cualquier transformación estriba en la necesidad de preparar la


imagen con el fin de realizar un posterior análisis de cara a su interpretación. La
interpretación entra dentro de un proceso de percepción de nivel superior que debe
estar implícito en toda aplicación de visión artificial.

CONTRASTE

Ecualización del histograma:

La ecualización del histograma de una imagen es una transformación que


pretende obtener para una imagen un histograma con una distribución uniforme. Es
decir, que exista el mismo número de pixeles para cada nivel de gris del histograma de
una imagen monocromática.

La función de la ecualización es:

F‚‚Y,G= F‚J
ƒ\, % = T_ a L − 1 + 0.5X Ec. 3.1
E=F‚J

Dónde:

Fu(u) Frecuencia de aparición del nivel de gris u


U(i,j) Tonalidad del pixel ubicado en la posición i,j
F(u,a) Frecuencia acumulada de los niveles de gris
L Representa la cantidad de tonalidades posibles en la imagen

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 53


CAPÍTULO 3

(b)
(a)

Figura 3.1 (a) imagen original (b) histograma de la imagen

(b)
(a)

Figura 3.2 (a) imagen Ecualizada (b) histograma de la imagen

ELIMINACIÓN DE RUIDO

Estos métodos son muy útiles cuando se presenta ruido aleatorio, propio de todo
procedimiento. Este tipo de ruido puede atribuirse tanto a la cámara con la que fue
tomada la imagen, así como al medio de transmisión de datos, e inclusive al medio
natural en el que fue tomada la imagen.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 54


CAPÍTULO 3

Aunque como ha de suponerse en todo proceso, el ruido no puede ser eliminado


al 100% sin tener pérdida de información, que en la mayoría de los casos esa pérdida
se considera despreciable, comparándola con el beneficio que se obtiene al utilizar
algún algoritmo.

El método más sencillo de explicar, es el método de la media. Este método


realiza una convolución de una máscara de tamaño predefinido (impar) con una
sección de la imagen a la vez.

Tabla 3.1.- Máscara de 3x3

Una vez que se hace la convolución de la máscara con la sección de la imagen,


al resultado obtenido se le aplica la media, esto es, se divide este resultado entre la
cantidad de elementos que ocupe la máscara, y este resultado es asignado al valor del
pixel central.

La diferencia que se usó en esta ocasión, es el valor del pixel central, el cual fue
de 0. Esto se debe a que si el pixel central representa un pixel de ruido, hacer el
promedio de todos los pixeles vecinos incluyéndolo, hará que el nivel nuevo de gris, se
base en su mayoría en el nivel de gris del ruido.

El resultado se puede observar en la Figura 3.3 a la cual se le aplico el filtro de


media, con una máscara de 3x3, y un umbral de 50.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 55


CAPÍTULO 3

(a) (b)
Figura 3.3.- Imagen con filtro de media.
(a) imagen original. (b) imagen con filtro media y umbral 50.

Como puede verse en la figura 3.3, este método es eficiente con el ruido de tipo
sal, sin embargo existe otro filtro paso bajos, con el cual se obtienen mejores
resultados, se refiere al filtro de la mediana.

Este filtro tiene el mismo procedimiento que el anterior, con un ligero cambio en
la parte final, en lugar de asignar el promedio de los valores de pixeles, se le asigna el
valor de la media de estos valores.

Este el efecto se observa más claramente con un ejemplo (Figura 3.4).

(a) (b)
Figura 3.4.- (a) imagen original. (b) imagen con filtro de la mediana

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 56


CAPÍTULO 3

DETECCIÓN DE BORDES

Los bordes de una imagen contienen mucha de la información de la imagen.


Los bordes cuentan donde están los objetos, su forma, su tamaño, y también sobre su
textura. Los ejes o bordes se encuentran en zonas de una imagen donde el nivel de
intensidad cambian bruscamente, cuanto más rápido se produce el cambio de
intensidad, el eje o borde es más fuerte.

Los algoritmos para la detección de bordes que son usados en este proyecto
son los gradientes de Roberts y Sobel.

El gradiente de Roberts hace uso de la convolución de una máscara de 2x2 con


ciertos coeficientes con la imagen a procesar. Como se puede ver el procedimiento es
similar al de los filtros paso bajos.

Gráficamente esto se observaría como en la figura 3.5:

Figura 3. 5.- Imagen con filtro Roberts.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 57


CAPÍTULO 3

El otro método mencionado, Sobel, utiliza dos máscaras de 3x3, en la que el pixel que
está siendo modificado, se encuentra en el centro, los coeficientes de las máscaras son
los que se muestran en la figura 3.6

.
Figura 3. 6.- Máscara filtro Sobel.

La primera máscara corresponde al gradiente en el eje horizontal, mientras que


la segunda máscara pertenece al gradiente en el eje vertical.

El resultado obtenido de la convolución de cada una de estas máscaras es


sumado para obtener el resultado final del valor del pixel.

El resultado que se obtiene se muestra en la figura 3.7.

Figura 3. 7.- Imagen con filtro Sobel

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 58


CAPÍTULO 3

3.2. PROCESO FINAL PARA EL RECONOCIMIENTO DE LA FORMA

OBTENCIÓN DEL CENTRO DE LA IMAGEN

La determinación de formas de objetos en imágenes binarias es un problema


que encuentra diversas aplicaciones cuando se requiere detectar objetos con
determinadas características.

Muchas veces cuando se tiene una imagen de un objeto, este se puede


encontrar colocado en diferentes partes del campo de visión, rotado o amplificado. Este
tipo de situaciones hace difícil el detectar automáticamente si se trata de un objeto en
particular, sin embargo esto se puede simplificar si se obtienen algunas propiedades
geométricas, tales como su área y centro de masa.

En una imagen digital el área del objeto binario se calcula con la sumatoria de
todos los pixeles que corresponden a este:

—  ∑Ÿ ho ∑¢
¡ho ™ ¡ Ec. 3.2

Las coordenadas del centro de la masa en forma discreta estarán dadas por:

∑Ÿ ∑¢
¡£o   ™ ¡
ž 
š
 £o
Ec. 3.3
—

∑Ÿ ∑¢
¡£o ¡ ™ ¡
ž 
›
 £o
Ec. 3.4
—

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 59


CAPÍTULO 3

DESCRIPTORES POLARES DE FOURIER

Una forma de caracterizar el contorno de un determinado objeto se puede llevar


a cabo tomando las distancias del centro de masa al contorno de diferentes ángulos,
tomados a partir de uno de los ejes coordenados para obtener un vector r (fig. 3.8).

Figura 3.8.- Distancia del centro de masa a diferentes puntos del contorno

De esta forma se obtiene una secuencia de valores r de N elementos igualmente


espaciados angularmente (vector característico), los Descriptores Polares de Fourier
estarán dados por la transformada discreta de Fourier de esta secuencia:

 s¨Ÿ¢
¤¢  ∑©=o
Ÿhn ¥Ÿ¦š§ _" a Ec. 3.5
©
m = 0, 1, 2,…, N-1

Para hacer que estos descriptores sean invariantes a la rotación es posible


utilizar la propiedad de desplazamiento de la transformada de Fourier. Como se sabe,
la propiedad de desplazamiento dice que se tiene una función r(x) con su respectiva
transformada de Fourier R(ω), entonces cuando existe un desplazamiento ª " @  la
transformada de Fourier será:

F ¥š " šn   ¤«¬­® " s¨šn « Ec. 3.6

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 60


CAPÍTULO 3

Al obtener el módulo de la ecuación (3.6) este será invariante para cualquier


desplazamiento @ . En forma discreta el módulo R(m) estará dado por:

|¤¢|  ¯¤¦¤¢s  ¢¤¢s Ec. 3.7

m = 0,1,2,…,N-1

El vector característico es invariante a la escala si se normaliza haciéndolo de tal


forma que:

¥Ÿ
¥Ÿ ← Ec. 3.8
¥¢±š

Figura 3. 9.- Gráfica del Vector Característico

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 61


CAPÍTULO 3

Figura 3. 10.- Gráfica del Módulo de los Descriptores Polares

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 62


CAPÍTULO 4

4. ANÁLISIS DE RESULTADOS
CAPÍTULO 4

El proceso final del reconocimiento de la forma mediante los Descriptores de


Fourier se muestra a continuación. Comienza por la ejecución del programa, después
la apertura de la imagen a analizar (Figura 4.1), se lleva a cabo el proceso de
binarización, esto de acuerdo a la imagen a analizar, se mejora la imagen y por último
se obtiene la imagen óptima para analizar, tal y como se muestra en la figura 4.2.

Figura 4.1.- Imagen a analizar

Imagen
Binarizada

Figura 4.2.- Interfaz 1


Usando Operador Umbral con U=200

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 64


CAPÍTULO 4

Teniendo binarizada la imagen se obtiene el vector característico al cual se le


aplica la TDF, así obtenemos los Descriptores Polares de Fourier. Por último se
obtienen los Descriptores invariantes a la rotación, traslación y escala tal y como se
muestra en las figuras 4.3 y 4.4.

Gráfica del Módulo


de la Imagen

Figura 4.3.- Interfaz 2

Valores del Módulo de la TDF


del vector Característico

Figura 4.4.- Interfaz 3

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 65


CAPÍTULO 4

Una vez obtenidos los valores del módulo ya normalizado, se realiza la


comparación con la base de datos previamente guardada, así determinando la forma
de la imagen tal y como se muestra en la figura 4.5.

Figura 4.5.- Imagen reconocida.

Para tener más claro la ventaja computacional al usar los Descriptores de


Fourier, se realizaron pruebas con imágenes de figuras geométricas modificando su
tamaño y posición, en donde se puede apreciar que los Descriptores Polares de Fourier
se mantienen invariantes a la rotación, traslación y escala tal y como se muestra en las
siguientes figuras:

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 66


CAPÍTULO 4

Figura 4.6.- Imagen de pentágono reconocida.

Figura 4.7.- Imagen de pentágono rotada y escalada reconocida.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 67


CAPÍTULO 4

Figura 4.8.- Imagen de triángulo reconocida.

Figura 4.9.- Imagen de triángulo rotada y escalada reconocida.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 68


CONCLUSIONES

CONCLUSIONES

Se logró desarrollar un software que cumpliera con las características


necesarias para llevar a cabo el reconocimiento automático de formas, mediante el
desarrollo y uso de diversos algoritmos, siendo el software desarrollado bastante
eficiente, tomando en cuenta que la interfaz gráfica es entendible y fácil de usar,
además de que el tiempo de procesamiento de una imagen es relativamente corto,
teniendo en cuenta la cantidad de procesos que se le realizan. El tiempo de
procesamiento varía entre 2 y 7 segundos.

El software desarrollado está enfocado hacia el reconocimiento de formas con


imágenes binarias usando los Descriptores de Fourier, lo cual presenta la ventaja de
que computacionalmente es menor el trabajo que el de otras técnicas. Los Descriptores
de Fourier son invariantes a la escala, la traslación y la rotación, además de que
muestran una buena descripción del contorno del objeto, por lo tanto este software
puede ser utilizado para reconocimiento de cualquier objeto, tanto para su clasificación
como para su detección.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 69


RECOMENDACIONES DE USO

RECOMENDACIONES DE USO

• El software puede ejecutarse únicamente en la plataforma Windows.

• El software está diseñado bajo una resolución de pantalla de 1600 x 900 pixeles,
si no se cuenta con esta resolución tendría que ser adaptado.

• No apague el sistema o intente cerrar el software durante algún proceso en


ejecución.

• Las imágenes a analizar no deben tener un tamaño mayor a 640 x 480 pixeles
(VGA) o un tamaño mínimo de 128 x 128 pixeles además estar en un formato
conocido (JPG, BMP, JPEG, etc.).

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 70


TRABAJO A FUTURO

TRABAJO A FUTURO

Entre los trabajos a futuros se pueden mencionar:

• Automatización de la forma de obtención de la imagen a analizar, desde el


diseño hasta la implementación de una tarjeta de adquisición de datos.

• Conexión entre el software desarrollado con un manejador de base de datos tal


como MySQL o SQL Server, para tener un mejor desempeño y seguridad al
momento de realizar las consultas al momento de reconocer la forma.

• Complementar el software con los procesos de Segmentación de la imagen y


corrección de inclinación para obtener aún mejores resultados.

• Mejorar el método de comparación, siendo una buena opción el método K


Nearest Neighbors (Vecino más cercano) siendo un método de clasificación
supervisada (Aprendizaje, estimación basada en un conjunto de entrenamiento y
prototipos).

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 71


BIBLIOGRAFÍA

BIBLIOGRAFÍA

[1] Tratamiento Digital de Imágenes


Rafael C. González, Richard E. Woods
Addison-Wesley / Díaz de Santos, 1996

[2] Visión por computador, Imágenes digitales y aplicaciones - 2da. Edición


Gonzalo pajares Martinsanz, Jesús M. de la Cruz García
Alfaomega – Ra-Ma

[3] Digital Image Processing


Castleman, K. R. (1991).
Prentice Hall.

[4] A threshold selection method for gray level histograms


Otsu, N. (1979).
IEEE transactions on system, man and cybernetics.

[5] Visión por computadora: imágenes digitales y aplicaciones


Zans, P. M. (2000).
Alfaomega.

[6] Reconocimiento de formas y visión artificial.


Allende, D. G. (1998).
Eddison Wesley.

[7] Recognizing characters in scene images


Ohya, J. (1994)
IEEE Transactions on Pattern Analysis and Machine Intelligence

[8] Pratt “Digital Image Processing”


Haralick & Shapiro

[9] Digital Image Processing algorithms and applications


Pitas, I. (1996)
Wiley-Interscience

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 72


BIBLIOGRAFÍA

[10] Detecting the skew angle in document images


Farrow, G. S. (1994)
Signal Processing: Image Communication

[11] Contribución al reconocimiento de caracteres en imágenes complejas


Rodríguez, F. M. (1997)
Tesis doctoral, Universidad de Vigo

[12] Digital Image Processing


B. Jahne (1991)
Springer-Verlag.

[13] Fundamental of Digital Image Processing


K. Jain (1989)
Prentice-Hall.

[14] Robot vision


B. Horn (1986)
Mc. Graw-Hill.

[15] The Fourier Transform and its Applications


Ronald N. Bracewell (1986)
Mc. Graw-Hill.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 73


ANEXO A

USO DEL SOFTWARE


USO DEL SOFTWARE

1.- Verificar que la imagen a analizar se encuentre en un formato conocido, esto


para obtener un mejor resultado, considerando el peso y las dimensiones de la misma,
teniendo en cuenta que entre más pesada sea la imagen el proceso será más tardado.

2.- Ejecutar el software llamado Procesamiento digital de Imá[Link]

3.- Abrir la imagen a analizar mediante la pestaña “Archivo” en el submenú


“Abrir Imagen” o bien presionando la serie de teclas CTRL + A para después
seleccionar la imagen a analizar.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 75


USO DEL SOFTWARE

4.- Una vez abierta la imagen se procede a graficar el histograma de la imagen, esto
para determinar el método y las correcciones necesarias para que la imagen sea
óptima para el análisis. El Histograma lo encontramos en la pestaña “Histograma”, en
seguida el submenú “Calcular Histograma”.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 76


USO DEL SOFTWARE

5.- Después de determinar el mejor método para la corrección de la imagen, se aplica


usando cualquiera de las opciones que se encuentran dentro de las pestañas
“Transformación de Imágenes”, “Histograma” o “Filtros”, esto según lo requiera.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 77


USO DEL SOFTWARE

6.- Ya corregida la imagen a analizar se procede a guardarla mediante la opción


“Guardar la Imagen Modificada” ubicada en la pestaña “Archivo” o bien presionando la
serie de teclas CTRL + S.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 78


USO DEL SOFTWARE

7.- Una vez corregida y guardada la imagen a analizar, la abrimos y nos dirigimos a la
pestaña “Parones” y elegimos el submenú “Graficar Módulo de Descriptores Polares”,
después de haber hecho esto una ventana emergente nos mostrará los valores del
Módulo.

8.- Cerramos la ventana anterior y podremos observar la gráfica del Módulo.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 79


USO DEL SOFTWARE

9.- Por ultimo nos dirigimos nuevamente al menú “Patrones” y elegimos el submenú
“Reconocer Forma”, inmediatamente un mensaje emergente nos dirá el nombre de la
forma del objeto de la imagen que se está analizando, hay que tener en cuenta que los
valores del Módulo de Descriptores Polares de la imagen debieron ser cargados
previamente en la base de datos local para que la imagen pueda ser reconocida.

10.- Como podemos observar, el software cuenta con más pestañas, estas muestran
uno a uno los métodos y algoritmos que fueron necesarios para obtener los resultados,
desde el mejoramiento de la imagen, reconocimiento de contornos hasta el
reconocimiento del objeto.

Tesis Profesional | Instituto Tecnológico de Tuxtla Gutiérrez 80


ANEXO B

CÓDIGO DEL SOFTWARE


(Ver CD Incluido)
CONTENIDO

1. INTRODUCCIÓN ........................................................................................................ 1

1.1. INTRODUCCIÓN ............................................................................................... 2

1.2. PLANTEAMIENTO DEL PROBLEMA............................................................... 3

1.3. OBJETIVOS....................................................................................................... 4

1.4. JUSTIFICACIÓN................................................................................................ 5

2. FUNDAMENTOS TEÓRICOS DE PROCESAMIENTO DIGITAL DE IMÁGENES .. 6

2.1. VISIÓN POR COMPUTADORA......................................................................... 7

2.2. PROCESAMIENTO DE IMÁGENES ................................................................. 9

2.2.1. INTRODUCCIÓN ......................................................................................... 9

2.2.2. ELEMENTOS DE UN SISTEMA DE PROCESAMIENTO DE IMÁGENES ......... 10

2.2.3. IMAGEN DIGITAL ..................................................................................... 12

2.2.4. PROCESAMIENTO BÁSICO DE IMÁGENES DIGITALES ....................... 14

2.2.5. CONTRASTE ............................................................................................ 21

2.2.6. ELIMINACIÓN DE RUIDO ......................................................................... 27

2.2.7. DETECCIÓN DE BORDES ....................................................................... 31


2.3. TRANSFORMADA DE FOURIER ................................................................... 39

2.3.1. INTRODUCCIÓN ....................................................................................... 39

2.3.2. TRANSFORMADA DISCRETA DE FOURIER .......................................... 41

2.3.3. TRANSFORMADA RÁPIDA DE FOURIER ............................................... 43

2.3.4. VISUALIZACIÓN DEL ESPECTRO DE FOURIER .................................... 44

2.3.5. TEOREMA DE CONVOLUCIÓN ............................................................... 46

2.4. DESCRIPTORES DE FOURIER ...................................................................... 47

2.4.1. INTRODUCCIÓN ....................................................................................... 47

2.4.2. DESCRIPTORES POLARES DE FOURIER ............................................. 49

3. ARQUITECTURA DEL SISTEMA ......................................................................... 51

3.1. ALGORITMOS UTILIZADOS PARA EL PROCESAMIENTO DIGITAL DE IMÁGENES ....... 52

3.2. PROCESO FINAL PARA EL RECONOCIMIENTO DE LA FORMA ............... 59

4. ANÁLISIS DE RESULTADOS ............................................................................... 63

CONCLUSIONES ......................................................................................................... 69

RECOMENDACIONES DE USO .................................................................................. 70

TRABAJO A FUTURO ................................................................................................. 71


BIBLIOGRAFÍA ............................................................................................................ 72

USO DEL SOFTWARE ................................................................................................. 74

CÓDIGO DEL SOFTWARE (Ver CD Incluido) ............................................................ 81

También podría gustarte