Detección de Frutos con Láser para Agribot
Detección de Frutos con Láser para Agribot
net/publication/39157425
Article
Source: OAI
CITATIONS READS
7 644
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Antonio Ramón Jiménez on 05 June 2014.
TESIS DOCTORAL
1998
A Ma Ángeles
Índice general
Agradecimientos VII
Resumen de la tesis IX
i
1.2.3. Análisis de las soluciones propuestas: Limitaciones . . . . . . . . . . 26
[Link]. Captación de la imagen . . . . . . . . . . . . . . . . . . . . 27
[Link]. Métodos de análisis aplicados . . . . . . . . . . . . . . . . . 29
[Link]. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3. La estrategia de recolección asistida: El robot AGRIBOT . . . . . . . . . . 30
1.3.1. Principio de operación asistido . . . . . . . . . . . . . . . . . . . . . 31
1.3.2. Descripción del robot AGRIBOT . . . . . . . . . . . . . . . . . . . . 31
1.3.3. Resultados y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . 36
ii
2.3.2. Telémetro láser: Selección y análisis tecnológico . . . . . . . . . . . . 70
[Link]. Selección: Acuity Range 4000-LIR . . . . . . . . . . . . . . 70
[Link]. Análisis tecnológico: Índice de eficiencia tecnológica . . . . 73
2.3.3. Configuración fı́sica del sistema de exploración . . . . . . . . . . . . 76
[Link]. Componentes del sistema de deflexión . . . . . . . . . . . . 77
[Link]. Aspectos de seguridad ante la radiación láser . . . . . . . . 79
[Link]. Adquisición de las imágenes . . . . . . . . . . . . . . . . . 83
[Link]. Limitaciones encontradas . . . . . . . . . . . . . . . . . . . 84
2.4. Caracterización del telémetro láser . . . . . . . . . . . . . . . . . . . . . . . 86
2.4.1. Modelado de los factores que afectan a la reflectancia registrada . . 86
[Link]. Planteamiento inicial del modelo . . . . . . . . . . . . . . . 87
[Link]. Modelo general: Superficies no ideales . . . . . . . . . . . . 90
[Link]. Modelo aproximado: Superficies difusoras perfectas . . . . 93
[Link]. Reflectividad y fracción difusa: Propiedades caracterı́sticas
de una superficie . . . . . . . . . . . . . . . . . . . . . . . 95
2.4.2. Modelado de la repetitividad de la distancia . . . . . . . . . . . . . . 96
[Link]. Repetitividad en régimen estático . . . . . . . . . . . . . . 97
[Link]. Repetitividad en situaciones dinámicas . . . . . . . . . . . 100
2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
iii
3.2.1. Definición de una nueva métrica de calidad de restauración: GRI . . 126
3.2.2. Evaluación de técnicas de restauración mediante la métrica GRI . . 128
3.3. Nuevo método de restauración adaptativa por ajustes de planos
multiresolución con fidelidad-3σ . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3.1. Definición de la técnica de restauración 3σ-MPF . . . . . . . . . . . 132
3.3.2. Evaluación comparativa de la técnica de restauración 3σ-MPF por
la métrica GRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
iv
[Link]. Clasificación de los puntos imagen . . . . . . . . . . . . . . 194
4.3.2. Primitivas puntuales corona . . . . . . . . . . . . . . . . . . . . . . . 196
4.3.3. Primitivas regionales convexas . . . . . . . . . . . . . . . . . . . . . 203
4.3.4. Primitivas regionales reflectividad . . . . . . . . . . . . . . . . . . . 204
4.4. Estimación de parámetros e indicios . . . . . . . . . . . . . . . . . . . . . . 207
4.4.1. Estimación con primitivas puntuales . . . . . . . . . . . . . . . . . . 209
4.4.2. Estimación con primitivas regionales . . . . . . . . . . . . . . . . . . 213
4.5. Generación de hipótesis finales y verificación . . . . . . . . . . . . . . . . . . 215
4.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
v
vi
En primer lugar quisiera agradecer a mi director de tesis, el Dr. D. Ramón Ceres Ruiz, la
oportunidad brindada para realizar el trabajo de investigación ligado al proyecto Agribot
que ahora culmina con la finalización de esta tesis. Destacando la gran ayuda prestada con
sus consejos, su manera de enfocar los problemas y los esfuerzos en perfeccionar el trabajo
realizado. Junto con Leopoldo y José Miguel el trabajo se hizo más fácil y se creó un
entorno de trabajo agradable, se proporcionaron todos los recursos materiales necesarios
siendo esto muy importante para trabajar con eficacia.
Gracias también a mi hermana Marı́a Antonia, que asumiendo muy bien el papel de mayor
de los hermanos, ha estado siempre pendiente de mı́, preocupándose de mis problemas y
tratando de guiarme por el mejor camino. Quiero ası́ mismo recordar a Teo, Eduardo,
Vicente y José Manuel que estuvieron trabajando junto a mı́ al principio, y de los cuales
aprendı́ las primeras cosas de ultrasonidos. Cómo no, agradecer a mis compañeros de tesis
José Luis y Enrique, al primero por los consejos y ánimos dados para seguir adelante, y
al segundo por los “rollos” filosófico-técnicos que me concedió, con los que yo me distraı́a
al cambiar de tema, y él se desahogaba contando sus logros e incertidumbres. También
recordar al resto de compañeros del departamento, unos aún aquı́ y otros que ya se fueron,
sin los cuales las cosas no hubiesen sido iguales.
Quiero expresar mi agradecimiento a todo el personal del IAI, que bajo la dirección del
Dr. D. Antonio Cordero, han hecho posible que las diferentes tareas que implicaba el
trabajo realizado se hayan desarrollado de una forma distribuida. En especial me gustarı́a
agradecer a Angel Rebollo la cantidad de “cables” que me ha echado (en todos los
sentidos), y a Román Cordero por su capacidad para distribuir la tarea entre los talleres
de mecanizado, electrónica y delineación, agilizando el trabajo hasta donde era posible.
Finalmente, agradecer al MEC-CICYT la beca de posgraduado concedida y las
oportunidades en forma de salidas de perfeccionamiento al extranjero, las cuales han
resultado ser muy positivas tanto para mi formación académica como personal. En primer
lugar, agradecer al Prof. H. Van Brussel, Dr. D. Reynaerts y al Dr. Adhi S. Soembajijo las
facilidades prestadas en todo momento para realizar los primeros trabajos con imágenes en
la Universidad de Lovaina. Igualmente, la estancia en la Universidad Estatal de Michigan
con el profesor A.K. Jain y S. Shirai fueron de indudable valor, ası́ como el trabajo
desarrollado en la Universidad de Surrey bajo la supervisión de J. Illingworth y J. Kittler
donde aprendı́ más aspectos del procesamiento y análisis de imágenes.
vii
viii Agradecimientos
Resumen de la tesis
Objetivos
ix
x Resumen de la tesis
los frutos son discernibles del fondo por reflectividad e introducen dos factores degradantes
que influyen en la calidad de las imágenes captadas; estos son el viento y la iluminación
solar.
Finalmente, se presentan las conclusiones, las aportaciones realizadas y las posibles lı́neas
futuras de investigación en este campo.
Capı́tulo 1
Automatización agrı́cola: La
detección de frutos. El robot
asistido AGRIBOT
1
2 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
del entorno.
Fundamentalmente el sector industrial es el que ha experimentado un mayor auge en la
incorporación de nuevas tecnologı́as que permiten automatizar un gran número de procesos
anteriormente realizados por el hombre. En el sector agrario, sin embargo, la incorporación
de sistemas automáticos ha sido más limitada. A pesar de ello, aunque quizás a un ritmo
lento, cada vez son más las tareas agropecuarias que se ven beneficiadas por estas nuevas
tecnologı́as.
que precisamente constituye un área de gran actividad en la investigación actual; por este
motivo, las automatizaciones en este sector ya implantadas han sido aquellas que suponen
una menor incertidumbre y que se caracterizan por presentar una mayor uniformidad y
ambientes más controlados.
Cultivo. Las máquinas de sembrado de grano son los dispositivos más desarrollados,
constando de un tractor al que se acopla un remolque con el grano y el mecanismo de
distribución de éste. La técnica más común es la que utiliza un sistema de dispersión
centrı́fugo que distribuye el grano uniformemente a medida que el tractor avanza.
Las primeras soluciones presentadas se basan en técnicas mecánicas, sin embargo la
reciente incorporación de la electrónica ha permitido realizar sistemas de distribución
de grano con diferentes configuraciones, como la distribución en rombo que presenta
algunas ventajas en cierto tipo de cultivos. Durante el proceso de crecimiento de las
1.1 La automatización agrı́cola 5
Figura 1.1: Uno de los primeros tractores a vapor que entró en servicio en 1860, que
requerı́a la intervención de tres personas para su manejo.
plantas la tendencia actual consiste en configurar las plantaciones de tal forma que se
faciliten las posteriores tareas automáticas de recolección al aumentar la visibilidad
de los frutos. Este cambio de fisonomı́a de las plantaciones se produce en algunos
casos aplicando diversas técnicas de poda [112] y en otros mediante el guiado fibrilar
de las plantas [207, 121]. Para dotar a las plantas leñosas de nuevas propiedades
se recurre a diversos tipos de injertos, los cuales se empiezan a realizar de forma
automática siendo el robot ROSAL [19] y los trabajos de Hwang [87] destacados
ejemplos representativos.
Recolección. En este proceso cabe diferenciar entre dos grupos de cultivos que hacen
que el proceso de recolección sea diferente: los granos (cereales, maı́z, zahı́na,. . . )
y las frutas/hortalizas. En el primer caso se corta y se recoge toda la planta,
dejándose para una etapa posterior la separación del grano y la paja. La recolección
de este tipo de productos está resuelta de forma satisfactoria mediante el uso
de cosechadoras las cuales podrán ser completamente automatizadas mediante
técnicas de autoguiado basadas en GPS (Global Positioning System) o análisis
6 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
Como hemos podido ver existe ya un cierto grado de automatización en los procesos
agroalimentarios, sin embargo existen unas etapas que están más desarrolladas que otras.
Con un alto nivel de automatización están los procesos de dosificación y envasado de
lı́quidos, y la conservación y maduración en ambientes artificiales. A un nivel en proceso
acelerado de implantación están los procesos de inspección y clasificación, de fertirrigación,
el empaquetado y la paletización. Sin embargo existen otros procesos con un bajo nivel
de automatización; nos estamos refiriendo a ciertas tareas de recolección en campo,
especialmente en la recogida de productos delicados donde se han desarrollado varios
trabajos de investigación, pero que no han llegado a implantarse debido a los problemas
técnicos encontrados al intentar dotar al robot de comportamientos totalmente autónomos.
tenerse que hacer de forma individualizada, se debe realizar de forma selectiva recolectando
solo aquellos frutos que están en estado idóneo para su consumo. Este hecho provoca que
los sistemas sensoriales del robot deban ser numerosos y altamente especializados para
captar las diferentes caracterı́sticas según las cuales se debe guiar para realizar la toma de
decisiones.
En la literatura podemos encontrar diversos robots o sistemas experimentales desarrollados
con el objetivo de automatizar la recolección. Cabe citar los trabajos desarrollados en las
universidades de Virginia [160], Florida [188, 189, 76], California [187] y en el centro
italiano A.I.D. [130, 17] con diferentes investigaciones y desarrollos para la recolección de
manzanas, naranjas, tomates y melocotones. Otro tipo de recolecciones como la de melones
[213, 27, 46, 10], sandı́as, uvas, calabazas, repollo, bayas, pepinos o champiñones también
han sido investigadas [163, 191, 207, 148, 88]. El proyecto Magali [45, 170] se dedicó a la
realización de un robot para la recolección de manzanas, que consta de un manipulador
esférico accionado hidráulicamente y de un vehı́culo autopropulsado que permite el
guiado automático en el campo utilizando cuatro sensores ultrasónicos. Igualmente, para
la recolección de manzanas fue diseñado el robot Aufo [117] que utilizaba seis brazos
con solo dos ejes horizontales cada uno, pudiendo realizar movimientos limitados a un
plano vertical. Mediante desplazamientos angulares se barre todo el árbol y la fruta
se detecta por triangulación utilizando visión esteroscópica. El proyecto hispano-francés
Citrus [112, 165, 113] está dedicado a la recolección de naranjas, incluyendo un estudio
agronómico, el desarrollo de un sistema de localización automático del fruto, y el diseño
y control de un brazo que inicialmente utilizaba un sistema de coordenadas cilı́ndricas y
que en la versión final se sustituyó por un sistema esférico similar al utilizado en el robot
Magali.
Las principales dificultades encontradas en las soluciones presentadas para recolección
automática están en el guiado del robot en campo, la detección automática de los frutos
y el agarre/desprendimiento de cada fruta.
Luz Cubierta
estroboscópica Lábios cortadores
Sensor de proximidad
óptico
Ventosa
de vacío
Figura 1.3: Pinza diseñada para el robot de recolección de naranjas CPR de la Universidad
de Florida [188, 189, 76, 182].
que sean suficientemente robustos como para adaptarse a estos cambios. Debido a que los
frutos se pueden presentar con diferentes tonalidades de color, los métodos de detección
no se deberı́an basar fundamentalmente en el color para realizar las clasificaciones.
Otros entornos más estructurados (p. ej. pruebas en laboratorio, lı́neas industriales de
inspección y clasificación) reducen y simplifican el problema de reconocimiento al tener
un mayor conocimiento acerca del proceso. Las fuentes de iluminación son controladas, el
universo de objetos está más definido y se conocen incluso las zonas posibles de localización
y orientación de los objetos. En el entorno agrı́cola existe un menor conocimiento de las
condiciones en las que se puede presentar un objeto, y en consecuencia una dificultad en
su modelado. Debido a que el reconocimiento consiste en comparar algo con un modelo,
si no somos capaces de generar este modelo adecuadamente los resultados serán pobres.
Por tanto, el proceso de reconocimiento en entornos no estructurados es más complejo y
se necesita un diseño especial con el fin de dotar al sistema de una aceptable robustez.
Eje óptico
Cámara
Figura 1.4: Principio básico de localización tridimensional del fruto: Primero se obtiene
las coordenadas angulares en base a la posición bidimensional del fruto en la imagen, y
finalmente, se mueve el brazo a lo largo del eje de visión del fruto, hasta que se produce
un contacto.
70
60
50
Reflectividad (%)
40
30
20 Golden (amarillo-verde)
Starky (roja)
Granny Smith (verde)
10
0
500 600 700 800 900 1000 1100 1200 1300 1400 1500
Longitud de onda (nm)
Figura 1.5: Reflectividad de varios tipos de manzanas (datos del CEMAGREF [170]).
los 900 nm se caracterizaba por permitir distinguir fácilmente cualquier tipo de fruta de
las hojas debido a que la reflectividad de la fruta es mayor que la de las hojas en esta zona
espectral. En la banda visible de 500 a 700 nm la fruta tiene una reflectividad mayor en
promedio, sin embargo algunos tipos de fruta se confunden con algunas hojas. Los autores
eligieron las frecuencias de los filtros interferenciales en la zona visible (650 y 550 nm),
aspecto que parece poco comprensible debido a la existencia de la banda de 750 a 900
que permitirı́a distinguir fácilmente entre las dos clases (fruta y hoja). Posteriormente se
calculaba el coeficiente de relación entre las imágenes de 650 y 550 nm respecto a la de 950
nm. Este cómputo se realizaba mediante un sistema electrónico analógico obteniéndose una
imagen segmentada binaria. Un análisis posterior calcula la posición del centro geométrico
de los segmentos en la imagen binaria. Utilizando una técnica similar a esta segunda
versión del MAGALI, Kawamura también se ha estudiado la detección y recolección de
tomates [119].
El sistema de visión desarrollado para el MAGALI es capaz de reconocer incluso manzanas
de color verde, pero la tasa de aciertos es baja (aprox. 50 %) y además los autores reconocen
que se producen bastantes detecciones falsas, aunque no lo cuantifican, y que es sensible a
las variaciones de iluminación. Ası́ mismo el sistema no es flexible puesto que si se quiere
utilizar para recolectar otro tipo de frutos se necesitarı́a realizar otro estudio espectral
para poder extraer de nuevo las frecuencias óptimas de los filtros ópticos interferenciales.
Con el fin de dotar al robot recolector de naranjas CPR (Citrus Picking Robot) de
la capacidad de reconocimiento automático de frutos se realizan varias labores de
investigación mediante una colaboración entre la Universidad de Florida (Harrell) y
16 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
70
60 1
50
Reflectividad (%)
40 2
30 3
0
500 600 700 800 900 1000 1100 1200 1300 1400 1500
Longitud de onda (nm)
Figura 1.6: Reflectividad de las hojas de un manzano y de una variedad de manzana (datos
del CEMAGREF [170]).
el centro de investigación biológica USDA (Slaughter). Este robot tiene tres grados
de libertad utilizando un sistema de coordenadas cilı́ndrico y por tanto realizando la
aproximación al fruto de forma horizontal. La cámara de visión utilizada, ası́ como otros
dispositivos y sensores, van incorporados en el interior del brazo en las proximidades
del órgano de captura (fig. 1.3), de esta forma la localización se hace centrando el fruto
detectado respecto a la cámara y realizando un movimiento de aproximación horizontal a
este, que finaliza cuando se detecta su presencia mediante un sensor ultrasónico.
Existen dos enfoques para la solución del problema de reconocimiento, aunque ambos
están basados en el uso de una cámara de color. En el primer enfoque [188], se emplea una
cámara de color con control de apertura e iluminación artificial pero sin ayuda de ningún
filtro óptico. Las componentes de saturación y tono de color (hue) de cada uno de los
puntos de la imagen se utilizan para realizar la segmentación mediante una clasificación
en un espacio bidimensional de caracterı́sticas. La clasificación se realiza mediante el
uso de un clasificador lineal que actúa aislando una región rectangular en el espacio de
caracterı́sticas mediante el uso de un valor umbral máximo y mı́nimo para cada una de estas
caracterı́sticas. Mediante esta aproximación se consigue clasificar correctamente un 75 %
de los puntos, siendo el sistema muy sensible a las condiciones de iluminación y no siendo
capaz de reconocer naranjas que no estén maduras. Se sugiere la ejecución del algoritmo
de clasificación mediante una etapa electrónica analógica que aplique automáticamente
los umbrales mediante el uso de comparadores; de esta forma se podrı́a reducir el tiempo
de procesamiento de 2.5 segundos por imagen (para un procesador Motorola 68020 a 12.5
MHz e imágenes de 384*485 puntos) a una cifra más reducida.
En el segundo trabajo presentado se utiliza básicamente la misma configuración anterior
aunque ya no se utiliza luz artificial [189]. En este caso se trabaja con las componentes RGB
1.2 Percepción automática en los procesos de recolección 17
a b
Figura 1.7: (a) fotografı́a de un naranjo donde aparecen tres naranjas maduras, y de fondo,
hojas y cielo. (b) segmentación basada en color de la imagen anterior [189].
a b
Figura 1.8: (a) imagen en B/N de una plantación de tomates. (b) bordes y direcciones del
gradiente correspondientes a la imagen anterior [213].
captura de fruta. El sistema de visión utilizado emplea una cámara de color y se ayuda de
iluminación artificial. El reconocimiento de los frutos se realiza analizando la distribución
de los gradientes en la imagen, aspecto que caracteriza a este sistema (junto al trabajo
anterior de Whittaker) en ser pionero en basar el reconocimiento de frutas en el análisis
de la forma. Como en los anteriores trabajos, el sistema de visión determina la coordenada
de profundidad por medio del movimiento del órgano terminal del brazo a lo largo del eje
de visión al fruto. El algoritmo de procesamiento de la imagen en color se puede dividir
en tres etapas claramente diferenciadas:
Los resultados obtenidos son aceptables cuando se utiliza una luz artificial de 3200 K
de temperatura de color, de esta forma, en torno a un 70 % de las naranjas visibles son
reconocidas aunque los resultados se degradan cuando los frutos tienden a estar verdes.
Cuando se trabaja de noche con luz artificial los resultados son algo mejores debido a que
es más fácil obtener la iluminación deseada.
Cabe reseñar que un método muy parecido al utilizado por Levi, pero realizando la
segmentación por crecimiento de regiones y búsqueda de esferas, fue utilizado por Cox
y otros para buscar objetos esféricos en fotografı́as aéreas [39].
2. Mejora. Utilizando un filtro morfológico, que actúa sobre los ocho vecinos de cada
punto, se realiza una erosión de la imagen.
Se realizaron una serie de pruebas y los resultados en cuanto a detecciones correctas fueron
del 89 % trabajando de noche para evitar problemas con el cielo y el Sol. En las pruebas
realizadas trabajando de dı́a, los resultados son del 84 % y 20 % en detecciones correctas
y falsas, respectivamente. El sistema fue diseñado para detectar fruta madura, pero aún
bajo esta restricción aparecen muchos problemas al trabajar de dı́a debido al cielo, a las
nubes cambiantes, a la luz solar frontal incidiendo sobre la cámara y a que las hojas
directamente iluminadas por el Sol pueden aparecer más luminosas que una fruta con
iluminación solar difusa a pesar de estar utilizando siempre la luz directa del sistema de
iluminación artificial. Esto hace que de dı́a se produzcan bastantes detecciones erróneas y
se sugiera el uso de cubiertas para eliminar los fondos en la imagen con regiones de cielo
o de Sol.
Entre los años 1980 y 1989 se desarrolló, en el “Central Enterprise for the Organization
of Agriculture and Food Industry” de Budapest, el robot AUFO-06 para la recolección
de manzanas [117]. El robot está diseñado para operar con seis brazos, de dos grados de
libertad cada uno, permitiendo un movimiento de trabajo en un plano vertical. El prototipo
utilizado para realizar pruebas experimentales en 1991 constaba de un único brazo, una
plataforma motorizada, el sistema hidráulico de movimiento, el órgano terminal de captura,
la electrónica de control y el sistema de visión para el reconocimiento y localización de los
frutos.
El sistema de visión consta de dos cámaras de color situadas a una cierta distancia
y colocadas entre sı́ de tal forma que exista una cierta convergencia entre ellas para
poder capturar imágenes de la misma escena y poder obtener la posición de los frutos
mediante una técnica sencilla de estereo-visión. Primeramente se realiza una segmentación
1.2 Percepción automática en los procesos de recolección 21
por umbralización en cada una de las dos imágenes de color, obteniéndose las imágenes
binarias que contienen las regiones que corresponden a la superficie de las manzanas. Se
calcula el centro geométrico de estos segmentos en ambas imágenes y a continuación por
cada una de las parejas de segmentos se calcula la posición tridimensional. El método de
cálculo de la posición 3-D se basa en el principio de triangulación, calculándose en primer
lugar la posición de la posible fruta en las coordenadas X e Y mediante la proyección de
los ejes de visión sobre el plano horizontal que contiene el eje óptico de ambas cámaras.
A continuación se calculan las coordenadas z1 y z2 , o alturas del fruto respecto a cada
cámara. Para ello aplica un criterio de coincidencia calculando el ángulo en el plano vertical
formado entre el eje de visión y el plano horizontal. Si ambas alturas difieren en menos de
40 mm entonces el fruto es considerado válido.
El método descrito presenta varios problemas, el primero de ellos aparece al considerar
todas las posibles combinaciones de parejas entre segmentos de ambas imágenes, lo cual
supone una búsqueda exhaustiva y además puede llevar a situaciones en las cuales aparecen
posiciones virtuales de frutos que en realidad no existen. Este problema es compensado en
parte por la comprobación descrita anteriormente entre las dos alturas obtenidas a partir
de cada cámara, pero esta comprobación no sirve para solucionar todos las situaciones
erróneas posibles. El hecho de trabajar con el método de estéreo visión en entornos donde
hay tantas oclusiones y contrastes de iluminación, hace que no se encuentren siempre las
correctas parejas y por tanto no se produzca la detección. Como consecuencia el porcentaje
de frutos detectados frente a los visibles por un operador humano es de solo un 41 %. Los
algoritmos de visión y de control de los movimientos de el brazo se ejecutaron sobre un
Intel 8085, obteniéndose tiempos medios de procesamiento para el sistema de detección y
de localización ligeramente superiores a 1 segundo, lo cual es aceptable teniendo en cuenta
que el ciclo de trabajo del robot es de 14 segundos.
70
12-Dic
60
30-Nov
50
Reflectividad (%)
40
10-Nov
30
30-Oct
20 20-Oct
Hojas
10
0
400 440 480 520 560 600 640 680
Longitud de onda (nm)
una esfera debido al modelo de iluminación utilizado, y este ajuste solo se realiza en las
direcciones horizontal y vertical de la imagen. El objetivo final de esta segunda etapa
consiste en obtener un mayor nivel de certeza sobre la presencia de un objeto esférico. En
función de si el ajuste fue satisfactorio o no, se reactualiza la imagen umbralizada de grados
de convexidad sumando o no un cierto peso predefinido. Esta imagen de convexidades,
finalmente, determina qué regiones corresponden a las frutas. Los resultados obtenidos
mediante esta técnica son de un 75 % en cuanto a detecciones correctas y un 8 % en
detecciones falsas. El método funciona tanto para naranjas maduras como verdes, pero
sigue presentando falsas detecciones debidas a las zonas de cielo y de suelo presentes en
la imagen (fig. 1.10). Utilizando un PC-386 el tiempo medio de procesamiento por cada
fruta era de 20 segundos y el procesamiento por cada imagen de 512*512 puntos es de 3
a 4 minutos.
Un sistema de visión para la recolección de melones ha sido investigado bajo una estrecha
colaboración entre la universidad de Purdue, EEUU, y el centro israelı́ Volcani. El caso de
la detección de melones es muy similar a la detección de otro tipo de frutas que nacen en los
árboles como son las naranjas, manzanas, etc.. Pero existen unas caracterı́sticas peculiares
que hacen de este tipo de recolección una tarea sensiblemente menos complicada que las
anteriores. El hecho de que todas las frutas yazcan sobre el suelo hace que se restrinja
significativamente el espacio de búsqueda y en cierta medida se estructura el entorno; de
esta forma es posible aplicar ciertas heurı́sticas referentes a la ubicación espacial del melón
cuando se dispone de información de distancia. Ası́ mismo, debido al peso del melón y a
que este está apoyado sobre el suelo, se pueden aplicar técnicas para mover las hojas que
ocultan los frutos sin mover estos. De esta forma se puede reducir el factor de oclusión
presente en este tipo de plantaciones.
En una primera aproximación a la resolución del problema de detección [27], se utiliza
una cámara en blanco y negro para obtener una imagen de intensidades de la plantación
de melones. La técnica de detección comprende dos etapas. La primera etapa identifica
24 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
al melón, su posición bidimensional y su tamaño. Para hacer esto se realiza una mejora
de la imagen, se aplica un umbral para segmentar la imagen, seguido de una extracción
de caracterı́sticas, una generación de hipótesis de posibles localizaciones de melón y la
posterior verificación de esas hipótesis analizando la forma y la textura en determinados
vecindarios entorno a la posición bajo hipótesis. De esta forma se obtienen finalmente los
candidatos definitivos. La segunda etapa realiza una evaluación basada en el conocimiento
del entorno, en el tamaño de los melones y en las restricciones que se deben cumplir
entre los candidatos para que no haya múltiples ocurrencias y detecciones falsas. Estas
reglas asignan los candidatos de la primera etapa a una de las siguientes clases: melón,
ruido o redundante. Cuando no se usa esta segunda etapa un 89 % de los melones son
detectados pero se produce una enorme cantidad de falsas detecciones. Usando ambas
etapas los resultados en cuanto a detecciones correcta y falsas son de un 84 % y un 10 %
respectivamente, con lo cual se eliminan muchas falsas detecciones a costa de perder alguna
localización correcta.
Otro sistema de visión para la recolección de melones es presentado por Dobrousin (fig.
1.11) y se caracteriza porque se divide en dos subsistemas: subsistema de visión lejana y
de visión cercana [46]. El subsistema de visión lejana usa una cámara en blanco y negro
para localizar las coordenadas X-Y del melón. Varias imágenes de la misma escena son
capturadas pero con diferentes configuraciones en la posición de las hojas que cubren
los melones. Esto se consigue mediante el uso de un ventilador de aire que mueve las
hojas de la plantación, siendo su objetivo la eliminación de la oclusión de los melones
por parte de las hojas. Todas las imágenes son filtradas, segmentadas aplicando umbrales
elegidos analizando sus histogramas y finalmente se aplica un operador morfológico de
erosión. Las imágenes binarias obtenidas son integradas realizando una operación lógica
“O”. Posteriormente, sobre la única imagen binaria resultante, se realiza una extracción
de caracterı́sticas incluyendo forma, área y tamaño. Finalmente una clasificación basada
en reglas es utilizada para obtener las frutas válidas, aproximadamente un 80 % de los
melones son detectados. Estas rutinas fueron integradas en un sistema de procesamiento
en cascada (pipeline) en tiempo real. Los principales problemas encontrados se deben a
la sensibilidad en la selección del umbral de segmentación, a la iluminación variable, a
las sombras y a las hojas presentes. Los autores proponen el uso de imágenes infrarrojas
para detectar la diferencia de temperatura que deberı́a existir entre las hojas, el suelo
y los melones, presentando unos resultados en los que se muestra que por la tarde la
temperatura de los melones es inferior a la de la tierra visible a través de las hojas (fig.
1.12).
El subsistema de visión cercano es presentado en otra publicación por Benady y Miles.
Pretende obtener la altura Z a la que se encuentra el centro del melón, que es el único
parámetro que no calculó el subsistema lejano, y refinar las posiciones en el plano X,Y
[10]. En este sistema se usa una proyección lineal de luz láser para iluminar la escena.
Este plano de luz cuando interactua con la superficie del melón es visualizado como una
lı́nea curva al ser registrado por una cámara que forma un determinado ángulo con el
plano de luz láser. La deformación de la lı́nea recta inicial indica la altura del objeto
usando una técnica de triangulación. Estos perfiles lineales deformados son capturados a
1.2 Percepción automática en los procesos de recolección 25
Ordenador
Pinza Monitor
Depósito
Cámara lejana
Láser
Figura 1.11: Esquema del remolque de tractor utilizado para la recolección de melones.
Se puede apreciar el sistema de visión lejano, el cercano, la ubicación de la pinza y del
sistema de soplado para mover las hojas de la plantación.
60
1 1. Tierra
2. Melón verde
50 2 3. Melón Amarillo
3
Temperatura (ºC)
40
30
20
intervalos espaciales regulares a medida que avanza el sistema y son analizados utilizando
la transformada circular de Hough para obtener la matriz de votos indicando los candidatos
a ser el centro de un melón. Para obtener los candidatos más probables, la distribución
de votos alrededor de cada punto es utilizada en vez de un valor absoluto de votos. Para
incrementar la eficiencia del algoritmo se utilizan algunas reglas especı́ficas del dominio.
El conocimiento incluido en el sistema utiliza el tamaño, la forma del fruto y la posición
esperada del suelo. Estas son las reglas utilizadas:
Altura absoluta. Sabiendo donde está el suelo y el radio de los melones, podemos
saber de antemano si un punto de la imagen pertenece al suelo o a las hojas en
función de su altura absoluta.
Mediante este sistema todas las frutas que eran visualmente discernibles fueron detectadas
correctamente y no se produjeron detecciones falsas.
En los trabajos revisados, el proceso de captación genera tres tipos de imágenes, cada una
de las cuales representa diferentes propiedades del entorno: intensidad de luz reflejada,
respuesta espectral y distancia. La captación de la intensidad, se realiza utilizando
cámaras B/N con o sin iluminación artificial. La captación de caracterı́sticas espectrales
en determinadas bandas del espectro, se obtienen empleando cámaras en color que
suministran las componentes RGB o HSI, y también, utilizando cámaras en B/N con
filtros ópticos centrados en determinadas frecuencias espectrales. Ambos tipos de imágenes
se caracterizan por:
Oclusión. La oclusión de los frutos por parte de las hojas y otros frutos.
Sombras. Las sombras que surgen por la iluminación solar y el alto contraste presente
no se ven completamente solucionados mediante el uso de iluminación artificial. La
fruta al Sol es diez veces más brillante que las hojas a la sombra y las hojas al Sol
son cuatro veces más brillantes que una fruta a la sombra [184] y este problema no
se soluciona completamente con iluminación artificial [187].
Tipo de fruta1
(tipo imagen)
investigación
Detecciones
Referencias
fruta verde
accesorios2
Método de
Sensores y
correctas-
erróneas4
análisis3
Detecta
Grupo
Cuadro 1.1: Resumen de los sistemas de visión más importantes para la detección y
localización de productos agrı́colas para labores de recolección.
1.2 Percepción automática en los procesos de recolección 29
suele recomendar trabajar de noche o con cubiertas opacas detrás del árbol para
evitar estos problemas y obtener mejores resultados.
[Link]. Resultados
Hemos visto en los métodos utilizados tres variantes de captación de imágenes: intensidad,
caracterı́sticas espectrales y distancia. Las técnicas de análisis a su vez se basan en
propiedades puntuales ([Link]. color, intensidad) o en la forma. Los diferentes trabajos son
el resultado de combinar estos enfoques, obteniéndose, según la pareja captación/análisis
utilizada, las siguientes categorı́as :
Espectro/forma [130].
Distancia/forma [10].
Salvo en el caso especial de la recolección de melones presentado por Benady y Miles [10],
los resultados obtenidos se pueden resumir ası́: porcentajes de reconocimiento correctos
limitados, que están en torno al 80-85 %, detección únicamente de fruta madura (salvo en
los casos de análisis por forma), tasas de detección erróneas superiores al 5-10 %. Estos
resultados no son malos teniendo en cuenta los porcentajes de detecciones correctas, sin
embargo el hecho de que existan frecuentes detecciones falsas provocarı́a la activación
de ciclos de recolección con resultados no productivos, ocasionando una disminución del
rendimiento del robot recolector. Además si consideramos el grado de adaptabilidad a
otras condiciones o variedades de fruta, los métodos se caracterizan por no ser flexibles ni
generalizables. En definitiva son aún poco eficientes y sobre todo poco robustos.
Volumen
de trabajo
Brazos Recolectores
Vehículo
Tractor
Cabina de
Mando
Sistema Localizador
-Telémetro Laser-
Módulo interfaz de
alimentación y amplificación
Brazo manipulador
del robot AGRIBOT
Sistema de localización.
El componente principal de este sistema es un telémetro láser para la medida
de distancias (modelo DME-2000 de la firma Sick), presentando como principales
caracterı́sticas, un rango neto de medida de 2 metros, precisión de 10 mm, frecuencia
de medida 30 Hz, potencia 3.4 mW, longitud de onda 670 nm y clase II. Este
telémetro va montado sobre una torreta, desarrollada igualmente en el IAI [166],
que permite moverlo con dos grados de libertad: acimut y elevación, mediante
dos motores DC de 15 W, pudiéndose conocer la posición actual de cada eje en
cada momento mediante el uso de codificadores ópticos (fig. 1.17). De esta forma
disponemos de un sistema de medida en coordenadas esféricas, que es utilizado para
obtener la posición espacial del fruto cuando el haz láser visible incide sobre la
superficie de este.
Sensores infarrojos
de proximidad Pedúnculo
a)
b) Sierra de corte
Figura 1.16: Primer prototipo de pinza del robot Agribot: (a) proceso de aproximación de
la pinza y detección del pedúnculo, (b) operaciones de agarre y corte.
Figura 1.17: Sistema para la localización asistida de frutos del robot Agribot.
36 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
De los dos brazos manipuladores previstos en el diseño inicial se ha construido uno, que
permite obtener una velocidad lineal máxima del extremo del brazo de 2.8 m/s en el caso
de una extensión del brazo completa, consiguiéndose un alcance de 2,2 metros desde el
eje de la cintura del brazo. El tiempo medio alcanzado para un movimiento tı́pico de
aproximación al árbol es de 1.7 segundos, mientras que el tiempo empleado en el proceso
de agarre, corte y depositado ronda los 3 segundos, lo cual, unido al tiempo de señalización,
permite realizar ciclos de captura a una cadencia de una fruta cada 6 segundos, que es
significativamente superior al tiempo de 3 segundos marcado como objetivo en cada brazo.
El sistema de localización presenta un buen comportamiento alcanzando precisiones de
5 mm para objetos con buena reflectividad, degradándose la precisión paulatinamente a
medida que aquella disminuye, y alcanzándose 11 mm de precisión para reflectividades
del 20-30 %. En cuanto a la señalización del fruto utilizando el haz luminoso del telémetro
láser Sick-DME-2000, la detección del punto luminoso de color rojo por parte del operario,
es factible en ambientes internos con iluminaciones tenues, pero resulta casi imposible su
visualización en ambientes con fuerte iluminación solar. Este hecho hace que sea necesario
aumentar la potencia de emisión del haz señalizador y a su vez disminuir la longitud de
onda del láser utilizado para trabajar en una banda donde el ojo humano sea más sensible
(555 nm).
1.3 La estrategia de recolección asistida: El robot AGRIBOT 37
La tarea de señalización manual de cada uno de los frutos supone un alto esfuerzo de
concentración del operario que en muchas ocasiones no puede seguir señalando porque el
brazo robótico interfiere la lı́nea de visualización o porque el proceso de captura provoca
un cierto movimiento en las ramas y frutos a los que se pretende señalar. Teniendo además
en cuenta que el ciclo pretendido es de 1.5 frutas por segundo, esto implica que el operario
debe realizar el proceso de señalización y pulsación a esta misma cadencia, lo cual supone
un gran estrés y crea la necesidad de realizar descansos o cambios de turno de trabajo
frecuentemente. Es por ello que serı́a conveniente facilitar de algún modo el proceso de
apuntamiento de la fruta para hacer que la intervención del operario no sea tan intensa,
para lo cual un sistema de reconocimiento automático que captase los frutos más evidentes
serı́a lo más aconsejable.
38 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
Capı́tulo 2
39
40 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
En el capı́tulo anterior hemos visto que la estrategia de recolección asistida que se presenta
en el proyecto AGRIBOT, permite reducir la complejidad de las tareas asignadas al robot
recolector mediante la cooperación del operario con la máquina en las etapas de guiado y
detección de las frutas. Para la localización de la fruta, el operario utiliza un sistema de
señalización láser movido por una palanca de mando mediante el cual comunica al sistema
de control del robot las coordenadas de las frutas que ha reconocido. Teniendo en cuenta
que la velocidad de ciclo pretendida para el robot Agribot es de 1.5 segundos/fruto [167],
nos encontramos con que el proceso de señalización es una tarea intensa y el operario
difı́cilmente va a ser capaz de realizar la señalización con esta cadencia, especialmente si
se pretende que este trabaje de forma continuada durante una jornada laboral. Por estos
motivos nos planteamos la forma de dotar al robot de un sistema automático adicional
de detección y localización de frutos que permita al operario reducir el tiempo dedicado a
la señalización manual de las frutas. Esta solución que proponemos la hemos denominado
estrategia de detección y localización mixta.
también desaparece.
Para llevar a la práctica la estrategia mixta de percepción disponemos en la actualidad del
modo de localización asistido, sin embargo no tenemos ningún sistema de reconocimiento
automático, y los revisados en el primer capı́tulo (sección 1.2) no son suficientemente
robustos y suelen presentar detecciones falsas. Por ello tenemos la necesidad de integrar
al modo asistido un sistema automático de reconocimiento y localización que detecte
el mayor porcentaje de frutos, y especialmente que no genere detecciones falsas. Como
ya adelantamos en el apartado inicial “Objetivos y metodologı́a del trabajo”, este es
precisamente el objetivo central de la tesis.
Una vez definido lo que entendemos por reflectancia, podemos decir que alguna de las
limitaciones de este tipo de imágenes, tal como se vio en el capı́tulo 1 (sección 1.2.3),
son los contrastes producidos por la iluminación natural que crea fuertes sombras, la
42 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
aparición de regiones confusas debidas al Sol o al cielo visible a través del árbol, y
la ausencia de información de profundidad. Los valores puntuales de reflectancia en la
imagen son parámetros bastante variables y por tanto no constituyen bases discriminantes
estables. Un buen método de reconocimiento debe basarse en la caracterización del
objeto mediante propiedades estables y que no cambien al presentarse dicho objeto en
diferentes entornos o condiciones. Por ello, un método de detección de frutos debe utilizar
caracterı́sticas intrı́nsecas al propio fruto y depender lo mı́nimo posible de otros factores
externos como las condiciones de iluminación o ambientales. Debido a que los mapas
de distancia son independientes de la iluminación y la reflectividad, y que las sombras
o las marcas no aparecen, el proceso de reconocimiento de objetos basándose en la
forma deberı́a ser menos difı́cil en imágenes de distancia que en imágenes de reflectancia
[100]. No por ello la información de reflectancia hay que desestimarla, ya que si la
iluminación está controlada, permite captar propiedades ópticas de la superficie de los
objetos posibilitando su caracterización. De esta forma se aportan factores discriminantes
adicionales a los generados mediante un análisis de forma en mapas de distancia.
La distancia a la que se encuentran los objetos (frutos), es un factor esencial para obtener
la localización tridimensional de estos y para que no se requiera utilizar la técnica de
aproximación ciega del brazo manipulador a lo largo de la lı́nea de visualización del fruto,
que ralentiza el ciclo de trabajo del robot. Adicionalmente la información de distancia
permite realizar análisis basados en la distribución espacial de los objetos, es decir, se
puede limitar el espacio de búsqueda en la imagen de distancias a aquellos volúmenes
donde se prevea la aparición de los objetos de interés, o como es nuestro caso, al volumen
de trabajo del robot manipulador.
Por los motivos expuestos proponemos realizar el sistema de detección y localización
automático mediante un análisis basado en la forma, en las propiedades ópticas de una
superficie, y en la distribución espacial de los objetos, para lo cual se deberá utilizar
una técnica de captación que genere imágenes incluyendo información de distancia y
reflectancia.
En este apartado vamos a definir las caracterı́sticas que debe satisfacer la técnica de
captación de imágenes de distancia y reflectancia, para que un proceso de análisis sea
viable. Teniendo presente que nuestro objetivo se centra en la detección de frutos tales
como naranjas, manzanas o melocotones, esto implica tamaños medios del objeto a detectar
entre 60-130 mm y una distancia de posicionamiento respecto al sensor entre 1 y 4 metros.
Uniendo estos factores a otros requisitos básicos de resolución espacial, resolución en
profundidades y a otras consideraciones necesarias para aplicar las técnicas de análisis
en tiempo real, obtenemos que la técnica de captación de profundidad/reflectancia debe
cumplir las siguientes especificaciones:
Rango de medida en distancia. El rango de medida del sensor debe alcanzar los
cuatro metros para cubrir el volumen de trabajo definido por el conjunto formado
por el robot manipulador y el árbol (fig. 1.13).
dar una desviación estándar que se estima no debe superar 1 mm. Ambos factores,
resolución y repetitividad, son muy importantes a la hora de captar la forma de las
superficies en la imagen de una forma fiable y ajustada a la realidad.
Con estas especificaciones se han dado datos cuantitativos referentes a los requisitos
necesarios para obtener imágenes de distancia/reflectancia con la suficiente fidelidad
como para poder plantear una posterior etapa de reconocimiento y localización de frutos
basándose en la forma, en las propiedades ópticas superficiales y en la distribución espacial
de los frutos. A pesar de que las especificaciones han sido dadas atendiendo a un problema
concreto, el planteamiento tiene la suficiente generalidad como para permitir cubrir un
gran número de problemas y aplicaciones de reconocimiento, con excepción de aquellas
que trabajan con objetos grandes a largas distancias, o con objetos pequeños a cortas
distancias.
láser [50, 13, 67, 101, 110, 132, 179, 183, 186, 40], la estructuración de la luz [65, 66], la
estéreo visión [55, 102, 146], ultrasonidos [133] ó mediante pieles táctiles [177], registrando
en algunos casos tanto distancia como reflectancia [155]. A continuación vamos a revisar
las técnicas más representativas de captación, tanto activas como pasivas, que nos van
a permitir sentar las bases para posteriormente seleccionar el principio de medida más
adecuado a nuestro problema.
Las cámaras son los principales dispositivos utilizados en los sistemas de visión artificial.
Teniendo en cuenta el principio de captación utilizado, existen dos tipos de cámaras,
las basadas en tubos de rayos catódicos (Vidicon) y las basadas en captadores de estado
sólido (CCD y CID). Tanto en un caso como en otro, hablamos de sensores pasivos, puesto
que utilizan la propia energı́a electromagnética reflejada por los objetos del entorno, para
captar las imágenes. En este sentido, para este tipo de sensores, es de vital importancia la
correcta iluminación de la escena a registrar. Por tanto, a continuación vamos a dedicar
un apartado a las técnicas y fuentes de iluminación más empleadas para la captación
adecuada de imágenes utilizando cámaras.
Técnicas y fuentes de iluminación asociadas. Tal como se ha indicado las cámaras
son sensores pasivos y requieren por tanto una excitación del entorno mediante iluminación.
La iluminación de una escena es un factor muy importante ligada a la complejidad de esta.
Una iluminación arbitraria del entorno no suele ser aceptable puesto que puede producir
imágenes de bajo contraste, reflexiones especulares, sombras y otros tipos de efectos no
deseables. Un sistema de iluminación bien diseñado, debe iluminar la escena de tal forma
que reduzca la complejidad de la imagen, resaltando las caracterı́sticas importantes para
la detección de objetos.
Existen fundamentalmente cuatro técnicas de iluminación de la escena. En la figura 2.1 se
pueden apreciar las cuatro configuraciones que a continuación se describen:
Luz difusa. La luz difusa se suele emplear cuando los objetos tienen superficies suaves
y regulares, y nos interesa captar estas propiedades superficiales.
Cámara
Cámara
Objeto
a) Difusa b) Contraluz
Luz
Luz
Cámara Cámara
Rejilla
Objeto
d) Especular o directa
c) Estructurada
Flashes. Un flash es un dispositivo que genera una fuente de luz muy intensa, con
una duración muy breve. Si los objetos se mueven a velocidades altas, se suele
utilizar flashes para “congelar” la imagen y evitar obtener imágenes borrosas. La
luz suministrada por el flash, debe ser varias veces mayor que la luz ambiental para
conseguir el efecto deseado de captación instantánea de la imagen.
Cámaras de tubo. La cámara de tubo más utilizada es el Vidicon. Existen otros tipos
con caracterı́sticas mejoradas en cuanto a la composición quı́mica del sensor, pero el
principio de funcionamiento es el mismo. Las cámaras de tubo fueron populares en las
primeras aplicaciones de visión artificial, pero actualmente se han visto desplazadas por
las cámaras de estado sólido. Constan de un tubo de rayos catódicos sobre cuya cara
frontal se proyecta la imagen de la escena (fig. 2.2). La parte interna de la cara frontal del
tubo, presenta un sustancia fotosensible cuya resistencia es inversamente proporcional a la
intensidad de la luz incidente. Mediante un haz de electrones se va realizando un barrido
por la superficie fotosensible, en los puntos donde no incide luz la resistencia es grande,
se produce una acumulación de cargas negativas y la corriente producida es baja. Por el
contrario, en las zonas iluminadas la resistencia es baja, con lo cual hay una descarga
y el haz de electrones produce un flujo de corriente de recarga superior al caso de no
iluminación. Esta variación de corriente producida durante el barrido electrónico genera
la señal de vı́deo que es proporcional a la intensidad de la imagen captada. El haz de
electrones recorre la superficie completamente a una frecuencia de 30 veces por segundo
en cuadros de 525 lı́neas de las cuales 480 contienen información de la imagen. Existen
otros modos de barridos, para evitar parpadeos, usando dos campos entrelazados de 265,5
lı́neas cada uno, o utilizando 559 lı́neas con 512 lı́neas de datos, siendo este último estándar
popular en visión artificial por ser el número de lı́neas una potencia entera de 2.
Las cámaras vidicon tienen limitaciones en las aplicaciones industriales ya que son
poco ligeras y manejables, la respuesta espectral es limitada (0,4 a 0,8 µm), y pueden
distorsionar la imagen o quemarse la superficie fotosensible por exceso de iluminación. Su
vida útil es limitada.
Cámaras de estado sólido. Las cámaras de estado sólido, utilizando dispositivos CCD
(Charge-Couppled Devices) o CID (Charge-Injected Devices), constituyen los sensores más
extendidos para los sistemas de visión artificial. Todas ellas están compuestas por series
lineales o matriciales de dispositivos elementales de detección; ası́, considerando el tipo de
imagen capturada, encontramos dos categorı́as principales: cámaras de lı́nea o cámaras de
área. Estas categorı́as aparecen según la distribución espacial de los elementos sensibles a
la luz. La utilización de uno u otro tipo, depende de la clase de aplicación que se plantee.
48 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Haz de electrones
Lente Objeto
Pines del tubo Rejilla
Puerta de lectura
Puerta de
salida
Registro de transporte vertical
Elementos fotosensibles
Señales de control
Puerta de lectura
Amplificador
Salida
Las cámaras lineales son indicadas en situaciones en la que el objeto se mueve (p. ej. sobre
una cinta de un sistema de inspección), obteniéndose finalmente imágenes sobre toda la
superficie del objeto.
Los dispositivos sensibles a la luz de las cámaras de estado sólido, se fabrican con
materiales semiconductores y contienen configuraciones lineales o matriciales de elementos
fotosensibles espaciados con gran precisión (fig. 2.3). Cada una de estas células fotosensibles
se puede direccionar independientemente mediante un circuito lógico de direccionamiento;
de esta forma ya no se utiliza el sistema de lectura por haz de electrones usado por
las cámaras Vidicon, lo cual permite obtener una mayor miniaturización. La densidad de
integración de los sensores matriciales supera actualmente los 200 elementos por milı́metro,
permitiendo obtener 1000 puntos de muestreo en vectores CCD de 5 mm de longitud.
Los componentes CCD están basados en elementos de transferencia de cargas en serie,
principio utilizado también en las memorias serie RAM. Cada lı́nea consta de una serie de
celdas que actúan como un condensador de tipo MOS, acumulando la carga producida por
los fotones incidentes sobre cada celda. Estas cargas pasan mediante unas puertas a los
registros de transporte, desde donde finalmente se llevan a un amplificador que genera un
voltaje proporcional a la carga de la celda direccionada en ese momento. A diferencia,
los componentes CID se basan en una matriz de condensadores MOS direccionables
2.2 Técnicas para captar distancia y reflectancia 49
individualmente de forma similar a las memorias RAM. Cuando se lee una celda, un
amplificador repone la carga del condensador por inyección de corriente, generándose la
propia señal de vı́deo.
Las cámaras de estado sólido ofrecen importantes ventajas sobre las Vidicon: Son más
compactas y ligeras, los elementos fotosensibles no se degradan con el uso, poseen baja
distorsión, son insensibles a los campos magnéticos, tienen baja persistencia (efecto que
consiste en una permanencia de la imagen durante un tiempo pequeño cuando varı́a la
imagen repentinamente), mejor respuesta espectral (0,4 a 1,1 µm) y hay un bajo efecto de
florecimiento (fenómeno ligado a la nitidez que ocurre cuando se ilumina excesivamente
un punto, el cual propaga su efecto fotoconductor a las zonas próximas, desvirtuando la
imagen).
Mediante estéreo visión se obtienen dos vistas diferentes de una escena, normalmente
utilizando dos cámaras separadas una cierta distancia a través de lo que se conoce como
lı́nea base. Si conocemos la posición de un mismo punto de la escena en las dos imágenes,
es decir conocemos (x1 , y1 ) y (x2 , y2 ), el objetivo consiste en averiguar las coordenadas
tridimensionales (X, Y, Z) de dicho punto en la escena (fig. 2.4). Considerando que las dos
cámaras no convergen entre sı́, que sus focales son idénticas e iguales a f , y que están
separadas una distancia B a lo largo de la lı́nea base, podemos utilizar las ecuaciones 2.1
para obtener la localización espacial del punto.
Z = f − (f B/(x2 − x1 ))
X = x1 (f − Z)/f (2.1)
Y = y1 (f − Z)/f
Una vez que se conocen las coordenadas (x1 , y1 ) y (x2 , y2 ) correspondientes a los puntos
homólogos, estas ecuaciones son muy sencillas de calcular. Sin embargo, la obtención de
estas parejas de puntos es una tarea muy problemática, existiendo una gran cantidad de
trabajos de investigación orientados a aportar nuevas soluciones. A estas técnicas se las
conoce como métodos de correspondencia.
El método de correspondencia más evidente puede consistir en realizar un emparejamiento
de regiones próximas en ambas imágenes y realizar la comparación mediante técnicas
de correlación. También, si una imagen contiene caracterı́sticas fácilmente distinguibles,
como por ejemplo esquinas, es posible realizar la comparación a un nivel descriptivo de
alto nivel, manipulando menos cantidad de información y por tanto más eficientemente.
En este sentido un trabajo reciente [1] ha explorado esta posibilidad realizando una
correspondencia jerárquica con dos niveles de resolución. En un primer nivel se realiza la
correspondencia de regiones segmentadas obteniendo mapas en profundidad poco precisos,
y en el segundo nivel se realiza la correspondencia de las esquinas de las regiones previas, las
cuales son determinadas con mayor precisión, y por tanto la información tridimensional
obtenida es más precisa. Otros métodos utilizados para realizar la correspondencia se
50 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
y
(x1,y1)
x
y
Eje óptico
x
B
(x2,y2)
Una forma muy interesante de obtener información tridimensional de una escena consiste
en utilizar una única cámara para capturar una secuencia de imágenes, las cuales deben
ser analizadas para obtener la información tridimensional. Esta técnica se puede ver como
una generalización de la visión esteroscópica, donde el desplazamiento de la cámara no
está solamente limitado a un desplazamiento lateral, sino que la cámara se puede mover
a distintas posiciones y además podemos obtener más de una pareja de imágenes.
2.2 Técnicas para captar distancia y reflectancia 51
Existen dos enfoques fundamentales para este problema: Métodos basados en movimientos
grandes y métodos con desplazamientos pequeños y sucesivos. En el primer caso se
suelen capturar pocas imágenes separadas por intervalos de tiempo elevados puesto que
hay que realizar movimientos de la cámara grandes. El método de análisis utilizado
consiste en localizar caracterı́sticas comunes en la pareja de imágenes y realizar el
emparejamiento para obtener las correspondencias correctas. Es una estrategia similar
a la visión esteroscópica y se requiere el conocimiento del desplazamiento realizado por la
cámara para obtener la información tridimensional, la cual suele ser poco densa.
En la segunda aproximación, se captura una secuencia de imágenes a una alta frecuencia
mientras la cámara se mueve a una determinada velocidad. En este caso, el análisis
se centra en la obtención del flujo óptico entre las sucesivas imágenes o en el uso de
derivadas espacio-temporales. Estas observaciones deben estar combinadas con la medida
de la velocidad de la cámara (en lugar del desplazamiento) para determinar la estructura
tridimensional de la escena. Sin embargo, no existe un método robusto y preciso para
realizar la correspondencia de caracterı́sticas o para el cálculo de los campos de flujo óptico,
y las aproximaciones existentes requieren unos algoritmos costosos computacionalmente.
La reconstrucción tridimensional no suele ser muy fiable debido a la presencia de mucho
ruido y a los fenómenos de oclusión presentes. Por este motivo es usual ver estrategias
hı́bridas en las que se combina la velocidad de las cámaras con su desplazamiento y la
extracción de caracterı́sticas.
Recientemente están apareciendo soluciones mediante métodos activos, tomando como
referencia trabajos como el de Bajcsy [5]. Estas técnicas tratan de realizar una adquisición
de datos de una forma inteligente o adaptativa. El propósito consiste en obtener las
posiciones o la secuencia de imágenes óptima necesaria para obtener la reconstrucción
tridimensional de un objeto cuyo modelo geométrico conocemos. De esta forma, análisis
que son complejos de realizar mediante una estrategia pasiva, pueden ser calculados más
fácilmente mediante una solución activa, fundamentalmente porque la información captada
es la más adecuada para el propósito que nos estábamos planteando.
Un trabajo reciente en esta dirección es aplicable a la caracterización y a la localización
de objetos tales como cilindros, cı́rculos y esferas en entornos estructurados [31]. En
este trabajo se muestran resultados que mejoran a los precedentes que utilizan visión
dinámica pasiva, obteniendo errores máximos en profundidad entre 2 y 20 mm, mejorando
las precisiones obtenidas respecto a la visión dinámica pasiva que estaba en torno los 4
cm.
[Link]. Enfoque
Plano imagen
Plano focal
Objeto
Imagen f ⋅v
f u=
v− f
v u
Las técnicas basadas en textura se inspiran en uno de los métodos utilizados por el hombre
para extraer información volumétrica del entorno. Cuando observamos una superficie plana
2.2 Técnicas para captar distancia y reflectancia 53
posicionada frontalmente con un cierto patrón o textura, vemos que no se produce ninguna
deformación en esta. Sin embargo, al observar la superficie con un cierto ángulo, según
aumenta la profundidad el patrón que define la textura se va haciendo mas pequeño. A esta
variación progresiva de la textura se la conoce como gradiente de textura, y es utilizado
para obtener información referente a distancias relativas entre superficies de una escena.
Caracterizando las texturas de la imagen, por ejemplo mediante descriptores obtenidos a
partir de transformaciones de Fourier, es posible obtener información de distancia relativa.
El tamaño de la ventana utilizada para caracterizar las superficies, es bastante crı́tico y
dependerá del tipo de textura presente. Si el patrón de la textura de la imagen es conocido,
cosa poco habitual, es posible también obtener coordenadas absolutas.
Una restricción importante a esta técnica, es que la textura debe ser uniforme a lo
largo de las superficies, o en otro caso, las medidas se falsearı́an. Además, todos los
elementos de la imagen deben presentar texturas para poder ser analizados, de tal forma
que para una superficie uniformemente iluminada ([Link]. una pared blanca), no es posible
obtener información tridimensional. Finalmente los algoritmos utilizados son costosos
computacionalmente y requieren incluso la segmentación previa de la imagen.
Esta estrategia trata de obtener la orientación de las superficies en una imagen a partir
del análisis de la distribución luminosa a lo largo de la escena. Si consideramos que un
tipo concreto de superficie presenta diferentes luminosidades cuando varı́a la fuente de
iluminación y la orientación de la superficie, podemos representar este hecho mediante
una función <(p, q, lx , ly ) que depende de p,q (pendientes de la superficie en direcciones
x e y) y de lx ,ly (componentes de la dirección de la luz). A esta función se la conoce
como reflectancia de la imagen, y contiene el modelo de como deberı́a variar la intensidad
de la imagen al cambiar la orientación de la superficie y de la fuente de iluminación,
para un tipo de superficie. Si obtenemos este modelo, por ejemplo experimentalmente,
podemos plantear el problema como la resolución de un conjunto de ecuaciones del tipo:
I(x, y) = <(p, q, lx , ly ), para cada uno de los casos posibles de iluminación. De esta manera,
por cada punto en la imagen (x, y), obtenemos la pendiente (p, q) de la superficie en torno
a su vecindario.
Este método suministra distancias relativas, no pudiendo dar información absoluta por los
saltos bruscos que hay entre las superficies suaves y por la falta de una referencia absoluta.
Las superficies que además reciben iluminación indirecta de otros objetos desvirtúan los
resultados afectando a la precisión de los datos. Además el método, tal como se planteó,
se limita solamente a objetos con un determinado tipo de superficie.
Las técnicas basadas en luz estructurada utilizan un patrón de luz conocido que se proyecta
sobre la escena y mediante una cámara colocada a una cierta distancia y con un cierto
54 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
cambio entre dos lı́neas adyacentes y de que signo es, basta realizar un desplazamiento en
las rejillas o cambiar la frecuencia de espaciamiento entre ellas. Para realizar esto de una
forma flexible, las rejillas de recepción se suelen sustituir por otras virtuales creadas al
explorar la imagen en lı́neas verticales igualmente espaciadas.
Esta técnica puede ser utilizada para medir distancias relativas en superficies continuas,
pero la medida de distancias absolutas se pierde cuando existen discontinuidades en la
imagen mayores de 2 mm o la pendiente de la superficie es superior a 60o . Las oclusiones
en la iluminación que se pueden crear debido a la existencia de discontinuidades también
son un problema. Por el contrario como ventajas están la captura directa de la información
sin necesidad de barrido, la resolución en profundidad obtenible (10 µm en un rango de 5
cm) y el bajo coste.
Transductor Zona de
ultrasónico focalización acústica
a) Resolución lateral
Profundidad de foco
Lente focalizadora
t
V
t
V
c) t
Desplazamiento
angular
una mejor resolución lateral (fig. 2.6). Si el sensor es desplazado linealmente o girado
angularmente se obtienen imágenes en formato rectangular o unas secciones circulares,
respectivamente. Una caracterı́stica común de los sistemas monoelemento es que, debido
al tiempo invertido en mover el transductor, la captura de la imagen es lenta. Además, son
poco flexibles, haciendo prácticamente necesario un diseño especı́fico para cada aplicación.
Por otro lado, operando con lentes de foco fijo, solamente se obtiene buena resolución
lateral en un rango de distancias pequeño.
La utilización de sistemas multielemento, permite superar las limitaciones presentes en los
sistemas monoelemento. Una matriz consta de varios transductores ultrasónicos dispuestos
geométricamente, de forma que puedan cubrir el volumen de interés. Se pueden simular
lentes acústicas de distintos perfiles sin más que intercalar lı́neas de retardo en sus
elementos. Para simular una lente, basta controlar el instante de emisión de los elementos,
con lo cual se logra que los pulsos emitidos por cada elemento de la matriz, lleguen
simultáneamente al foco. En recepción, existen lı́neas de retardo programables capaces
de controlar la focalización en tiempo real. Una de las caracterı́sticas más notables de los
sistemas basados en matrices es su flexibilidad, ya que al variar los retardos se pueden
obtener condiciones óptimas de resolución según la aplicación. Otra ventaja de estos
sistemas es que, hace innecesario el movimiento mecánico para realizar el barrido, con
lo cual se incrementa la frecuencia de captura de imágenes. A pesar de estas ventajas, los
sistemas de imagen existentes hoy en dı́a suelen usar un único elemento como transductor,
por su simplicidad y la no necesidad de altas velocidades. Sin embargo, en el campo de la
medicina se utilizan cada vez con más frecuencia los sistemas multielemento, pudiéndose
obtener tomografı́as de órganos como el corazón en tres dimensiones.
2.2 Técnicas para captar distancia y reflectancia 57
Luz
λ <<
Onda reflejada
Objeto
Objeto
perturbador
Ultrasonido
λ >>
Medida falsa
Transductor ultrasónico
Superficie mate en detalle
a) b)
Figura 2.7: a) Reflexión ultrasónica sin retorno directo de señal al sensor y medida falsa
por reflexiones múltiples. b) Modelo de la pelota elástica de tamaño igual a su longitud
de onda para comprender los fenómenos de reflexión especular en los ultrasonidos y de
reflexión difusa en la luz.
La mayorı́a de los seres vivos hacen uso de la información táctil. La idea predefinida
que tenemos de un sensor táctil, es la de una piel artificial que intenta emular el
comportamiento del sentido del tacto de los seres vivos, es decir, el sentido que nos permite
caracterizar un objeto mediante un contacto directo de la piel con el objeto. Sin embargo,
existen otras modalidades de sensores muy relacionados con la sensación táctil. Estos
sensores son los propioceptivos o cinestésicos, mediante los cuales se conoce la posición y
orientación de las articulaciones de por ejemplo un brazo manipulador y el par al que se ven
sometidas dichas articulaciones. Los sensores propioceptivos utilizados para captar estas
posiciones son de diversos tipos: potenciómetros, codificadores ópticos, transformadores
diferenciales variables (LVDT) y sincros. En cuanto a la medida de la fuerza y el par,
se puede utilizar la propia corriente que consumen los motores, células de carga, galgas
extensométricas, cristales piezoeléctricos y otros [177, 85].
Las pieles táctiles o sensores exteroceptivos, están formados fundamentalmente de un
conjunto de elementos sensoriales básicos dispuestos de tal forma que crean una matriz
sensitiva. Mediante estas pieles es posible captar propiedades de los objetos como la
temperatura, la forma y textura de su superficie, ası́ como la posición, orientación y
el tamaño de estos. Los requisitos deseables para un sensor táctil, exigen resoluciones
espaciales de 1 a 2 mm, tamaño de la matriz de entre 10 × 10 a 20 × 20 elementos, umbral
de sensibilidad de 0.005 a 0.1 Newtons, ausencia de histéresis, frecuencia de muestreo por
celda de 100 Hz a 1kHz y robustez. Se han utilizado muchas tecnologı́as para realizar estas
matrices táctiles. A continuación indicamos las más representativas [177, 43]:
Terminal
eléctrico
Fluido
presurizado Electrodo Contacto Mayor fuerza
Punto
a) b) de
contacto
c) d) Pin telescópico
Objeto Sensor posición
Piel
Barrera
elástica
móvil
Piezoeléctricos. Los cristales de cuarzo producen una carga eléctrica cuando se aplica
presión sobre el cristal. Este fenómeno, conocido como piezoelectricidad, se da en
los cristales que no tienen centro de simetrı́a y presentan un dipolo variable con
la presión. Existen otros materiales diferentes al cuarzo, polı́meros de polivinilo-
fluor (PVF), que presentan un efecto piezoeléctrico mayor y que han sido utilizados
recientemente para la fabricación de sensores táctiles. Las láminas de PVF son
flexibles adaptándose bien a formas sencillas, sin embargo, son sensibles al calor,
presentando cierta piroelectricidad que puede interferir la medida de presión [44, 49].
Ópticos. Se caracterizan por utilizar una fuente de luz. Algunos sensores utilizan el
principio de reflexión total, que se produce cuando la luz se propaga por un medio
más denso que el medio externo que le rodea, y a la vez se cumple, que el ángulo
de incidencia es menor que un cierto ángulo crı́tico. Si un objeto aparece en el
medio externo, cesará en esa zona la reflexión total y aparecerá una luz emergente
procedente de ese punto [194]. Para capturar esta luz emergente, se puede utilizar
una cámara o una matriz de fotodiodos, pero los sensores basados en esta técnica son
difı́ciles de construir. Existen otras versiones optomecánicas que utilizan, por cada
elemento de la matriz, un fotodetector y un fotoemisor alineados, cuya transferencia
de luz se puede ver interrumpida, por una barrera móvil acoplada a la piel elástica
(fig. 2.8c) [173]. Debido a que el elemento flexible suele ser goma, presenta problemas
de deriva, memoria, histéresis y dependencia con la temperatura. Otros sensores
emplean fibra óptica, y se basan en los diferentes comportamientos en la transmisión
60 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Agujas retráctiles. Una matriz de agujas retráctiles se utiliza como interfase entre
el objeto y un sensor de posición, que mide el desplazamiento de estos tentáculos al
entrar en contacto con el objeto (fig. 2.8d).
los niveles 2 y 1. Este salto energético genera energı́a electromagnética de una frecuencia
dada por la relación ν = (E2 − E1 )/h, siendo h la constante de Planck. Por este motivo
la luz láser es monocromática, obteniéndose diferentes tipos de frecuencia en función de
los saltos energéticos caracterı́sticos de la materia utilizada o medio activo para crear
el láser. Ası́ mismo, debido a que la emisión es estimulada y no aleatoria, y a que se
encierra el medio activo entre dos espejos paralelos, separados a una distancia múltiplo
de la longitud de onda deseada, la luz es coherente, esto es, está en fase, presentando una
alta direccionalidad y una muy baja dispersión por lo que la intensidad radiante (w/srad)
del haz es muy elevada.
En función del medio activo utilizado se encuentran diferentes tipos de láser, agrupándose
en tres categorı́as: sólidos, lı́quidos y gaseosos. Entre los láseres sólidos se encuentran los
de neodimio, rubı́ (primero que se creó en 1960), cristal y diodos semiconductores. Los
gaseosos más representativos son los de CO2 , Helio-Neón y Argón. Otros láseres menos
populares son los lı́quidos como los colorantes y alcohólicos. De los láseres anteriores, los
láseres de diodo están teniendo una gran difusión en aplicaciones donde no se requieren
potencias elevadas (1mW a 5mW), debido a su bajo coste, su pequeño tamaño y a la
calidad del haz que cada vez es mayor.
Asi pues, la radiación láser, que ha revolucionado muchos aspectos de la ciencia y de
la tecnologı́a, es una energı́a electromagnética que se encuentra en las bandas visible,
infrarroja o ultravioleta (fig. 2.9), y que se distingue del resto de fuentes de energı́a en estas
mismas bandas, en que la luz láser es monocromática, altamente directiva y coherente, es
decir, la luz no interfiere consigo misma mientras no encuentre un medio que provoque una
dispersión [138]. La gran direccionalidad del haz láser (divergencia < 1 mrad), posibilita
la generación de un haz altamente colimado manteniéndose una alta densidad de energı́a
incluso a grandes distancias. Las propiedades luminosas del láser permiten utilizar lentes,
espejos y fibras ópticas para distribuir esta energı́a, pudiéndose focalizar su luz en un
punto generando incluso una fusión nuclear. La coherencia del láser lo hacen ideal para
ser utilizado en casos en los que las interferencias jueguen un papel importante. Estas
caracterı́sticas únicas permiten aplicar el láser a innumerables campos:
Militares: Guiado de misiles, técnicas antimisiles, armas con visores láser, visión
nocturna, láser radar, etc.
CO Metanol
Nd:YAG
5-7 µm 37-1217 µm
1.064 µm CO2
F2
GaAs/GaAlAs 10.6 µm
H2 N2 850 nm
152 nm 110-162 nm 337 nm (780-905 nm)
Una vez vistos los fundamentos del láser, estamos en condiciones de pasar a describir las
técnicas utilizadas para medir distancias. A continuación veremos las cuatro técnicas más
utilizadas: Triangulación, diferencia de fases, tiempo de vuelo y modulación en frecuencia.
distancia
máxima y
mínima
d
de medida
θ
Línea
θ base Láser f
Láser Lente f
b b
Detector puntual
Detector lineal
x
a) b)
fb
d= (2.2)
x + f / tan θ
donde f es la focal de la lente (fig. 2.10a).
Utilizando un sensor puntual, es necesario efectuar un barrido angular continuo del haz
láser a lo largo del plano definido por la lı́nea base y el eje de emisión, variando el ángulo
θ. Además de una forma sincronizada, el detector puntual se debe desplazar linealmente
(o angularmente en otras modalidades), hasta que se produce una detección. En este
momento, el detector se encuentra enfrentado al punto de impacto (fig. 2.10b) y la distancia
se puede calcular de esta forma tan sencilla:
d = b tan θ (2.3)
Emisor
Emisor
Detector
Detector
Objetos
Oclusión Sombra
a) b)
de superficies continuas a distancias cortas (100 mm a 400 mm) y con altas resoluciones
(0,5-10 micras).
Esta técnica consiste en medir la diferencia de fase entre el haz emitido y el recibido
correspondiente a una fuente de luz láser continua modulada en amplitud. En la figura
2.12 se muestra un diagrama de bloques del sistema de medida láser desarrollado en el
“Stanford Research Institute” por Nitzan y Duda [155]. Se utiliza un láser modulado a
9 MHz, que pasa a través de un divisor de haz o superficie semiespejada que desvı́a el
haz por dos caminos diferentes. El haz que es transmitido a través del divisor de haz,
mediante otro espejo es transmitido al medio exterior donde incide sobre la superficie del
objeto a medir. Suponiendo una dispersión Lambertiana de la luz, la energı́a contenida
en el ángulo sólido definido entre el punto de dispersión y el área de recepción del sensor,
es capturada por el dispositivo de medida para posibilitar el cálculo de la distancia.
Mediante un filtro interferencial, una lente y un pequeño orificio, se capta mediante un
fotomultiplicador la energı́a que proviene según el eje de emisión. Este hecho implica
que los ejes de emisión y recepción del haz láser van a ser idénticos. La señal eléctrica
generada en el fotomultiplicador es filtrada mediante un filtro paso-banda centrado a la
frecuencia de modulación de 9 MHz, con el objeto de eliminar la energı́a provenientes
de otras fuentes diferentes a la del telémetro láser. Posteriormente la señal filtrada es
comparada con la señal de referencia mediante un analizador de amplitud y fase. La fase
detectada es utilizada para calcular de una forma directa la distancia. La amplitud de
la señal informa de la atenuación producida en el haz debida a diversos factores como la
dispersión de la luz producida al incidir el haz sobre una superficie o la fracción de energı́a
que el sensor es capaz de captar a través de la óptica de recepción.
66 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Objeto
Dispersión de Lambert
Oscilador
a 9 MHz l
cia
ren dor
rfe lica
inte ultip
Analizador tro
Fil Foto
m
Láser Cristal
modulador Filtro
Espejo 9 MHz
Len Orif
te icio
Fotocélula Motor de
Señal de referencia barrido Control de barrido
Amplitud
Analizador de
Computador
Fase y Amplitud
Fase
Objeto
Dispersión de Lambert
al
nci
rf ere o r
inte cad
tro ultipli
Fil F otom
Fuente de Discriminador
Láser
excitación de comienzo
Espejo de pulso
Señal Len Orif
te ic io
de comienzo
de pulso de Motor de
referencia barrido Control de barrido
de conocer en cual de los posibles rangos virtuales estamos trabajando, a no ser que se
varı́e la frecuencia de modulación. Por este motivo, la utilización de estos sensores es
recomendable hacerla en entornos donde la máxima distancia esté dentro del rango en el
cual no se produzca un desfase mayor de 360o .
En este caso el haz emitido es pulsado y lo que se mide es el tiempo que invierte el
pulso de energı́a en retornar al sensor por una reflexión desde el objeto a medir. En la
figura 2.13, se presenta un esquema de un sistema de medida que utiliza este principio
[102]. El pulso emitido por el láser incide en la superficie del objeto y a través del mismo
eje de emisión retorna al dispositivo de medida, donde la señal luminosa se convierte en
eléctrica mediante un fotodetector. Un elemento discriminador genera un pulso digital en
el momento que se detecta el eco, siendo esta detección independiente de la magnitud de
este eco. Posteriormente un conversor tiempo/amplitud de pulso, compara los instantes de
emisión y recepción generando un tren de pulsos digitales cuya frecuencia es fija pero cuya
amplitud varı́a con el intervalo temporal detectado. Finalmente se realiza un promediado
de la altura de estos pulsos digitales para obtener una medida más precisa y estable.
Las caracterı́sticas de este método son bastante semejantes a las de la técnica de diferencia
de fase, aunque en el caso de medida por tiempo de vuelo, debido a que la velocidad de
transmisión de la luz es muy alta, los tiempos implicados son muy pequeños. Esto complica
la medida de rangos pequeños; por ello las aplicaciones más abundantes se centran en
mediciones de distancias superiores a varias decenas o cientos de metros. Ası́, si queremos
hacer una medida con una capacidad de discriminación de 1 mm, teniendo en cuenta la
velocidad de la luz, debemos ser capaces de discriminar 3 ps. Este hecho limita en gran
medida las resoluciones en distancia alcanzables mediante esta técnica de telemetrı́a que
tı́picamente están en torno a 20-30 mm, pudiéndose alcanzar los 5 mm con tiempos de
68 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Esta técnica utiliza una onda electromagnética modulada en frecuencia mediante una
señal triangular periódica. Por tanto, la onda es una señal cuya frecuencia varia de forma
lineal con el paso del tiempo. Al comparar la señal de referencia con la señal recibida tras
incidir sobre la superficie a medir, debido a que existe una diferencia de frecuencia entre
ellas, se genera una señal modulada en amplitud a una frecuencia caracterı́stica que al ser
identificada permite calcular la distancia al objeto. La distancia calculada es directamente
proporcional a la frecuencia de modulación detectada y es tan precisa como la linealidad
en la generación del barrido de frecuencias [50, 67].
La mayorı́a de los dispositivos que utilizan esta técnica no usan energı́a láser, sino
microondas u ondas milimétricas. Por ello, se necesitan pequeñas antenas parabólicas
para su emisión y recepción, los haces son menos direccionales, aunque la capacidad de
penetrar en la atmósfera y de lograr largos alcances es superior que en el caso de utilizar
energı́a infrarroja o visible láser. Las aplicaciones tı́picas de estos sensores están en la
medida a largas distancias (>100 m) con precisiones poco exigentes (1 m). Sin embargo,
los diodos láser se pueden sintonizar en frecuencia variando su temperatura, lo cual unido
al incremento en la linealidad de su control, permite emplean láseres utilizando esta técnica
con resultados cada vez más prometedores.
Una vez revisadas las principales técnicas para la generación de información de distancia,
que en algunos casos también viene acompañada de información de reflectancia, vamos
a realizar un análisis global de todas ellas haciendo una estimación del método más
adecuado a los objetivos que se plantearon en la sección 2.1.3. En este sentido hemos
creado una tabla comparativa (tabla 2.1) donde se presentan todos los métodos vistos
anteriormente, analizando las principales condiciones que deben satisfacer. Cada una de
las columnas de la tabla representa una condición, cuyo cumplimiento indica un aspecto
positivo para nuestros objetivos. De esta forma, si representamos por un ⊕ la satisfacción
de una condición, un método ideal será aquel que cumpla todas las condiciones y se
representará mediante una fila completa de signos positivos. Las condiciones no satisfechas,
o aspectos negativos, vendrán indicadas por un signo negativo ª, y las condiciones que
sean muy variables y difı́cilmente evaluables, se representan con un ¯.
La tabla 2.1 nos permite clasificar las diferentes técnicas sensoriales en función del grado
de adecuación a nuestros objetivos particulares. Los resultados de evaluación obtenidos
2.3 Análisis, selección y configuración del sistema de medida 69
Resolución profundidad1 ≤ 1 mm
Robustez2
Coste
Estéreo ⊕ ⊕ ⊕ ª ª ª ª ª ª ª ⊕ ⊕
Visión dinámica ⊕ ⊕ ⊕/ª ª/⊕ ª ª ª ª ª ª ⊕ ⊕
Enfoque ⊕ ⊕ ª ⊕ ⊕ ª ⊕ ª ª ⊕ ⊕ ⊕
Textura ª ⊕ ⊕ ª ª ª ª ª ª ⊕ ⊕ ⊕
Gradiente ilum. ª ⊕ ⊕ ª ¯ ⊕ ⊕ ª ª ⊕ ⊕ ⊕
Luz ⊕ ⊕ ª/⊕ ⊕/ª ⊕/ª ⊕ ⊕ ª ¯ ª ⊕ ⊕
estructurada
Moiré ª ⊕ ª ª ⊕ ⊕ ⊕ ª ¯ ª ⊕ ⊕
Ultrasonidos ⊕ ª ª/⊕ ⊕/ª ⊕/ª ª ª ⊕ ¯ ⊕ ⊕ ⊕
Tel. láser triang. ⊕ ⊕ ª/⊕ ⊕/ª ⊕/ª ⊕ ¯ ⊕ ⊕ ª ª ª
Tel. láser AM ⊕ ⊕ ⊕ ⊕ ⊕ ⊕ ¯ ⊕ ⊕ ⊕ ª ª
Tel. láser t. ⊕ ⊕ ⊕ ª ª ⊕ ¯ ⊕ ⊕ ⊕ ª ª
vuelo
Tel. láser FM ⊕ ⊕ ⊕ ª ª ª ¯ ⊕ ⊕ ⊕ ª ª
1 Rango, precisión y resolución son parámetros dependientes, por tanto, el cumplimiento de una
condición puede forzar a que otras condiciones sean falsas. La aparición de la barra “/” significa
que cada lı́nea se debe leer de 2 formas: 1) leyendo los signos a la izquierda de la barra y 2)
mirando los signos de la derecha. Por ejemplo, Distancia ⊕ Rango ⊕/ª Precisión ª/⊕ debe
leerse: 1) Distancia ⊕ Rango ⊕ Precisión ª, y 2) Distancia ⊕ Rango ª Precisión ⊕.
2 Robustezante: Iluminación ambiental, presecia/ausencia texturas, discontinuidades superficies
o cambios en temperatura.
Cuadro 2.1: Tabla comparativa de diferentes técnicas para la captación de distancia y/o
reflectancia, mostrando su grado de adecuación a las especificaciones fijadas como objetivo.
70 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
utilizando tablas con este formato dependen de los objetivos concretos perseguidos y del
desarrollo futuro de las tecnologı́as implicadas. En nuestro caso, podemos observar que no
hay ningún método absolutamente perfecto o que cumpla todos los objetivos que nos hemos
planteado. Sin embargo, podemos apreciar que la telemetrı́a láser, en particular aquella
que opera según el principio de diferencia de fases (AM), es el método más destacado al
cumplir la mayorı́a de las condiciones crı́ticas.
En efecto, este método de medida presenta un buen comportamiento en casi todos
los aspectos, siendo sus puntos débiles la relativa lentitud en la exploración de una
imagen densa, los riesgos producidos por incidencias directas del haz láser sobre el ojo
humano (excepto en la clase I que es inocuo), y el relativo alto coste del equipo. Por
lo demás, la técnica es capaz de suministrarnos medidas de distancia absolutas, con
resoluciones y precisiones buenas, no viéndose afectada apenas por parámetros externos,
siendo por tanto una técnica bastante robusta. La medida se realiza a través del eje
de iluminación y la información de distancia es generada de forma directa sin ningún
tipo de interpretación posterior. Adicionalmente, muchos de estos dispositivos generan
información correspondiente a la atenuación que sufre el haz láser durante el proceso de
medida, lo cual permite obtener imágenes de reflectancia más estables que las captadas
mediante cámaras CCD, al ser independientes de la iluminación existente sobre la escena.
Por todos estos motivos hemos decidido utilizar esta técnica de medida en nuestro trabajo.
Una vez decidida la técnica de medida a utilizar, debemos proceder a la selección del
dispositivo existente más ajustado a las especificaciones dadas en la sección 2.1.3. Hemos
realizado una amplia revisión de diferentes medidores de distancia láser, presentando a
modo de resumen unas tablas donde se reflejan los diferentes parámetros caracterı́sticos de
estos sistemas de medida. Se han incluido indistintamente tanto sensores puntuales, lineales
o regionales, es decir, aquellos que realizan medidas de un punto fijo, con barrido en un
eje o que captan un matriz de datos de profundidad al barrer en dos ejes, respectivamente.
A pesar de partir con la idea de elegir un dispositivo que opere mediante el principio de
diferencia de fases, vamos también a presentar, a modo ilustrativo, modelos que operan
con los otros tres principios de medida, de esta forma cuantificaremos el análisis cualitativo
realizado en la sección 2.2.
En las tablas 2.2, 2.3, 2.4, 2.5 se presentan los telémetros láser que operan según los
principios de diferencia de fases, triangulación, tiempo de vuelo y modulación en frecuencia,
respectivamente. Aquellas casillas con un fondo oscuro significan que el dispositivo presenta
unas especificaciones que no satisfacen los requisitos establecidos como necesarios para
nuestro propósito, y por tanto el modelo deja de ser adecuado. Si alguno de los parámetros
no es conocido se indica mediante un guión.
Como era de esperar, los modelos basados en técnicas de triangulación presentan buenas
2.3 Análisis, selección y configuración del sistema de medida 71
Resolución (mm)
Frecuencia max.
Tamaño imagen
Precisión (mm)
Diámetro haz
a 2 m (mm)
Modelo
Resolución (mm)
Frecuencia max.
Tamaño imagen
Precisión (mm)
Diámetro haz
a 2 m (mm)
Modelo
Resolución (mm)
Frecuencia max.
Tamaño imagen
Precisión (mm)
Diámetro haz
a 2 m (mm)
Modelo
Resolución (mm)
Frecuencia max.
Tamaño imagen
Precisión (mm)
Diámetro haz
a 2 m (mm)
Modelo
precisiones a costa de unos rangos de medida muy limitados y unas frecuencias de lectura
bajas. Las técnicas basadas en tiempo de vuelo consiguen rangos y precisiones elevadas pero
a costa de utilizar largos periodos de integración con lo cual las frecuencias de medida son
muy bajas. En el caso de la frecuencia modulada, cuando se utiliza radiación milimétrica
se consiguen altos alcances con bajas precisiones en profundidad y una pobre resolución
espacial al ser el frente de ondas emitido poco puntual. Las técnicas que miden el desfase de
la señal modulada en amplitud dan las mejores soluciones, con parámetros más próximos
a los requeridos. Se obtienen buenos rangos de medida con altas frecuencias de muestreo
utilizando poca energı́a, y en algunos casos las precisiones son las deseadas. En concreto,
de todos los modelos presentados y considerando todas las técnicas, solamente hay un caso
en el cual todos los parámetros requeridos se satisfacen. Es el caso del modelo AC4000-
LIR de la casa Acuity. Por tanto este es el sensor seleccionado y con él dotaremos al robot
Agribot del modo de detección automático, requerido para poder aplicar la estrategia de
detección mixta.
En el apartado anterior hemos visto que de todos los modelos analizados solamente uno
satisfacı́a nuestros requisitos y no de una forma muy holgada, es decir, algunos parámetros
estaban próximos a la frontera que marca el lı́mite entre un método válido y otro que no
lo es. En concreto la potencia estaba muy próxima a la máxima admisible, la frecuencia
de muestreo máxima (50000 puntos/segundo) permite captar imágenes de 167 × 167 en
poco menos de un segundo, y la precisión y resolución de ±5 y 0.8 son muy próximas a
las requeridas. Esto hace pensar que existe actualmente una limitación tecnológica que
no permite mejorar homogéneamente todos estos parámetros generando sensores más
avanzados. Lo más que se puede hacer es mejorar en algún parámetro a consta de perjudicar
en otro. Existe un compromiso que hace que si se quiere mejor precisión se necesite mayor
tiempo de integración y viceversa. Si queremos mayor rango de medida perdemos precisión,
y si queremos mantener ambas caracterı́sticas hay que aumentar la potencia de emisión o
de nuevo reducir la frecuencia de medición. Existe por lo expuesto, un compromiso estrecho
entre todos los parámetros.
Según el desarrollo que se mostrará en la sección 2.4.2, podemos ver como la relación señal-
ruido (SNR) en el fotodetector de un dispositivo de medida depende de diversos factores
(ec. 2.22 o 2.4). Entre estos factores están la longitud de onda del láser λ, el periodo de
integración T , la potencia o flujo radiante de emisión Fi , la reflectividad de la superficie
medida ρ, el ángulo de incidencia sobre la superficie θ, la distancia de medida D, el área
de recepción óptica de la señal A y otros parámetros relacionados con la eficiencia en la
conversión de la señal electromagnética en eléctrica, que ya se explicarán en la sección
2.4.2 y que ahora no tienen mayor interés.
s
λT βAFi ρ cos θ
SN R(f ) = η (2.4)
hc π D2
74 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
D
σD ∝ √ (2.5)
T · Fi
D
M= √ (2.6)
σD T · Fi
Utilizando M podemos deducir que una técnica de medida será más eficiente cuando
se consigan mejores rangos de medida con buenas repetitividades, pequeños tiempos de
integración y se requiera una energı́a mı́nima. En este caso el valor de M será grande, y
en el caso de tecnologı́as menos eficientes M tendrá un valor absoluto más reducido.
El compromiso existente entre los parámetros T , D y σD , lo podemos ver de una forma
gráfica en la figura 2.14. En esta gráfica el origen (0,0,0) del sistema de referencia
corresponde con un sistema de medida ideal, que tendrı́a un rango de medida infinito,
una repetitividad absoluta y frecuencias de muestreo infinitas. Cada una de las superficies
√
se caracterizan por tener un M · Fi constante. Si este producto aumenta la superficie
se aproxima paulatinamente al origen de referencia, lo cual implica que a igualdad de
tecnologı́a podemos mejorar las especificaciones simplemente aumentando la potencia de
emisión Fi . Sin embargo si la potencia de emisión láser es un parámetro que debe estar
acotado, [Link]. por razones de seguridad, la solución para obtener sensores mejores pasa
por incrementar la eficiencia M de la técnica.
En la tabla 2.6 se presentan algunos de los modelos comerciales de los que se dispone
de suficiente información para calcular su factor M . Para obtener la repetitividad en la
distancia σD hemos asumido que los medidores están bien calibrados y que la precisión
está dada en términos de ±2σ, con lo cual podemos obtener la repetitividad en la
2.3 Análisis, selección y configuración del sistema de medida 75
T (seg)
2 M ⋅ Fi = cte
1 D
T=
M Fi σ D
M ⋅ Fi = 2 ⋅ cte
M ⋅ Fi = 3 ⋅ cte
σD (mm)
1/D (m-1)
Figura 2.14: Compromiso existente entre algunos de los parámetros que caracterizan a un
telémetro láser.
√
# Modelo Fi /D T (seg.) σD (mm) M
1 Acuity 4000-LIR 0.19 2 × 10−5 2.5 474
2 Acuity 4000-LV 0.18 2 × 10−5 7.5 160
3 Selcom 2005 1.6 6 × 10−5 0.5 160
4 Odetics 3-D 0.15 2,5 × 10−6 75 54
5 Monocrom MKLT-30 0.75 1 × 10−3 5 8.5
6 Riegl LD90-3100 HA 0.03 0.5 5 8.5
7 Leica DISCO 0.03 3.3 2.5 8.5
8 Riegl LD90-210 0.06 1.25 2.5 5.3
9 ESP-Technologies ORS-1 0.35 5 × 10−4 37.5 3.4
10 Sick DME-2000 0.92 0.033 2.5 2.4
medida sin más que dividir el valor absoluto de la precisión entre dos. Los modelos están
enumerados siguiendo un orden decreciente en su ı́ndice de eficiencia M . Podemos ver que
el sensor elegido (AC4000-LIR) no solamente se ajusta a las especificaciones requeridas
sino que también utiliza la técnica más eficiente (M=474). Por tanto podemos decir que
existe una barrera tecnológica que ninguno de los sensores analizados ha podido superar,
que está en torno a M = 500. En la figura 2.15 se muestra esa barrera y los vectores
de especificaciones, indicados mediante cruces, de algunos de los sensores analizados.
Podemos ver igualmente como el volumen de las especificaciones deseadas (σD ' 1mm,
√
T = 1 × 10−4 − 1 × 10−5 , Fi /D = 0,23 − 0,75 con Fi = 5 mW) es seccionado por la
superficie M = 500, lo cual indica que estas especificaciones son muy exigentes estando
parte de ellas fuera del alcance de la tecnologı́a actual.
En un futuro inmediato, si se requieren especificaciones aún más exigentes que las
planteadas en nuestro trabajo, habrı́a que mejorar las técnicas de medida o en su defecto,
no quedarı́a más remedio que aumentar la potencia de emisión Fi . Para seguir respetando
76 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
T (seg)
2
10
0
10
7
6 8
-2 10
10
Volumen de especificaciones
9 5
deseadas
-4
10
3
4 1,2
-6
10
-8
10 Frontera tecnológica actual
M=500
-10
10
2
10
1 2
10 1.5
0 1
σ D (mm) 10 -1
0.5
10 0 Fi (mW1/2/m)
D
las normas de seguridad frente a daños en la retina de una persona, este aumento de energı́a
deberı́a ser acompañado de la sustitución de fuentes láser visibles o en el infrarrojo cercano
por láseres trabajando en el infrarrojo medio o lejano. De esta forma, utilizando láseres
en estas bandas del infrarrojo, se podrı́an utilizar potencias bastante más elevadas que
las actuales mejorando las especificaciones de los medidores. El motivo se debe a que a
partir de longitudes de onda superiores a 1540 nm [132], el agua presente en los tejidos de
ojo absorbe la energı́a que llega a la retina, y además la radiación trasmitida a través del
cristalino pierde capacidad de focalización al aumentar la longitud de onda, con lo cual la
densidad de energı́a que incide en la retina es mı́nima.
Espejo "caliente"
50 mm diametro
es de 6.7 radianes por segundo. Por el contrario el barrido lento solo requiere una velocidad
de 0.04 rad/s. Considerando una resolución espacial de 3 mm/punto, tenemos que a la
distancia media de trabajo de 2500 mm, el incremento angular mı́nimo de nuestro sistema
de barrido dα es de 1.2 miliradianes. Con el objeto de satisfacer estas especificaciones
hemos optado por una solución que realiza una deflexión del haz láser utilizando un espejo
motorizado (fig. 2.16).
El sistema por deflexión de haz que hemos diseñado tanto para la adquisición de imágenes
como para la señalización asistida de frutos, consta básicamente de un espejo motorizado
en acimut y elevación, el telémetro láser infrarrojo Acuity-4000-LIR, un diodo láser visible
con luz estructurada, una ventana de integración para hacer coaxiales los dos haces láser y
unas monturas de ajuste fino para alinear los haces. El motivo para incorporar un sistema
de señalización mediante un láser visible es doble; por un lado es necesario para permitir
trabajar de una forma asistida con un operario señalando la fruta, y por otro es útil para
determinar la posición en torno a la cual se desea captar una imagen. Por estos motivos,
y debido a que el telémetro láser trabaja con un haz invisible, se tuvo que incorporar el
sistema de señalización mencionado. A continuación presentamos una breve descripción
de estos componentes, aunque si se desean más detalles, en el apéndice A presentamos las
hojas técnicas de los distintos componentes.
Motores. El motor utilizado para el eje de barrido rápido incorpora una etapa de
reducción (1:29.6) precargada, con objeto de eliminar histéresis por holguras, un
codificador óptico de 1000 pasos por revolución, que permite giros máximos tras la
etapa de reducción de 135 rpm, o lo que es lo mismo 14.1 rad/s, generando 5.6 pasos
en cada intervalo de barrido angular dα = 1,2 mrad. En el otro eje de barrido, el
motor que se utilizaba en la antigua torreta de localización del Agribot es adecuado,
78 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Diodo láser apuntador. El puntero láser visible que sirve al operador para saber
donde está señalando, es un diodo láser rojo de 5 mW a 633 nm. Con esta potencia
y longitud de onda, se consigue que el riesgo de daños al ojo humano sea limitado
(véase la sección siguiente para más detalles relativos a la seguridad). Debido a que la
longitud de onda está próxima a la zona de alta sensibilidad (555 nm), la visibilidad
del haz es muy clara en entornos sin luz ambiental intensa, requiriéndose el uso de
filtros centrados en 633 nm para poder vez el haz al incidir sobre una superficie
cuando se trabaja en el exterior con luz solar. Para facilitar la detección inicial de la
posición del haz y el seguimiento de este, hemos estructurado el haz acoplando un
generador de cruz, con lo que se mejora su visibilidad, aunque también supone un
descenso significativo de su densidad de energı́a.
se corresponda con el punto donde el haz visible este incidiendo, es necesario que
ambos haces estén perfectamente alineados en el mismo eje. Para conseguirlo, aparte
de los ajustes groseros existentes para la posición del telémetro y del diodo láser,
hemos añadido dos ajustes finos en acimut y elevación en el espejo caliente y en el
puntero láser utilizando dos monturas de posicionamiento preciso a tornillo.
Según los estándares de seguridad (ANSI, American National Standards Institute y IEC,
International Electrotechnical Commision [89]), todo producto que emplee radiación láser
debe atender unas mı́nimas normas de seguridad, relativas fundamentalmente a ciertas
especificaciones de diseño y construcción de los equipos, y a la correcta información de
peligrosidad en etiquetas o pilotos de advertencia. Según estas normas, y atendiendo a la
potencia de emisión de la radiación y su relación con los riesgos al ojo o a la piel humana,
los láseres se pueden clasificar en cinco clases o categorı́as:
Clase II. Potencia menor de 1 mW. Es permisible la exposición directa del haz al
ojo durante cortos periodos de tiempo.
El sistema de exploración que hemos presentado utiliza dos haces láser, uno visible
correspondiente al diodo visible de 633 nm con 5 mW de potencia, y otro invisible utilizado
por el telémetro Ac-4000-LIR de 780 nm y 8 mW de potencia. Debido a su potencia, estos
láseres quedan clasificados en las clases 3a, en el caso del visible, y en la clase 3b para el
láser con haz invisible. Simplemente por el hecho de utilizar dos láseres correspondientes
a las clases 3a y 3b (aunque este último esta muy próximo a la clase 3a) podemos deducir
con total certeza que existen riesgos de daño en la retina ante exposiciones directas del
haz sobre el ojo, o bien, a través de reflexiones especulares.
Vamos a tratar de cuantificar estos factores de riesgo de tal forma que podamos ser más
explı́citos en las precauciones que se deben ser tomadas para poder trabajar con seguridad
en el entorno de este sistema de exploración. Estudiaremos tanto el daño a los ojos como
el daño sobre la piel ante exposiciones directas y ante reflexiones difusas, viendo cuales son
los umbrales de energı́a de riesgo y deduciendo las protecciones oculares apropiadas para
trabajar de forma segura o las distancias mı́nimas a las que se debe trabajar del equipo
láser para no sufrir daños.
80 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Figura 2.17: MPE para exposición ocular directa con duraciones superiores a 1 segundo
para longitudes de onda entre 400 y 1400 nm [89].
Según las normas, entendemos por MPE (Maximum Permissible Exposure) o exposición
permisible máxima, el nivel de radiación para el cual, ante circunstancias normales, las
personas pueden ser expuestas sin sufrir efectos adversos sobre la piel o la retina. Este
concepto suele tener unidades de irradiancia [w/m2 ] y está relacionado con la longitud
de onda de la radiación, el tiempo de exposición y el tipo de tejido expuesto. En las
figuras 2.17 y 2.18 se presentan unas gráficas donde se dan los valores de MPE para
diferentes tiempos de exposición y diferentes longitudes de onda, para daños en la retina
con exposición directa o difusa respectivamente. La tabla 2.7 muestra MPE para el caso
de incidencia directa sobre la piel.
Cuando un láser no es seguro existen normalmente dos soluciones: trabajar siempre a
una distancia de seguridad del equipo o utilizar gafas de protección. La distancia nominal
de daño ó NOHD (Nominal Ocular Hazard Distance), es aquella distancia a la cual la
exposición producida sobre el ojo tiene una irradiancia que se ha atenuado suficientemente
con la distancia como para que no exista riesgo. Por tanto la determinación de NOHD nos
va a marcar la distancia de trabajo a partir de la cual existe seguridad. En el caso de
que esta distancia sea muy grande, resultando imposible desde un punto de vista práctico
trabajar tan alejado del equipo, la solución pasa por utilizar gafas de protección. La
densidad óptica D de un filtro protector se define como el logaritmo decimal negativo
del cociente entre el flujo radiante transmitido y el flujo incidente (ec. 2.7). Por tanto,
para determinar la densidad óptica de las gafas a utilizar, basta calcular esta relación
2.3 Análisis, selección y configuración del sistema de medida 81
Figura 2.18: MPE para exposición ocular procedente de reflexiones difusas con duraciones
superiores a 1 segundo para longitudes de onda entre 400 y 1400 nm [89].
Cuadro 2.7: MPE para exposición directa de radiación láser sobre la piel [89].
82 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
entre la potencia del láser y la MPE de seguridad que los filtros de las gafas pueden dejar
transmitir.
Ft
D = − log10 (2.7)
Fi
Para el caso del láser de 8 mW con una longitud de onda de 780 nm, tenemos que su
divergencia α es de 0.5 mrad y el diámetro del haz a es de 3 mm, por tanto la irradiancia
a la salida del sensor es de 1132 W/m2 . En el caso de exposición sobre el ojo y piel de
forma directa o difusa, tenemos los siguientes resultados:
En el caso del láser visible la potencia emitida es ligeramente inferior al caso anterior, 5
mW, y la divergencia y el diámetro del haz a la salida del diodo son iguales (707 W/m2
a la salida del diodo). Como consecuencia los valores de MPE y NOHD obtenidos para
el diodo visible son muy similares a los presentados anteriormente, con lo cual se deberı́a
recomendar el uso de gafas de densidad óptica 2 o superior para longitudes de onda de
633 nm. Sin embargo debido a que existe un generador de cruz que reduce la densidad
de energı́a por un factor variable con la distancia, que para 2 metros está en torno a 100,
no es necesario el uso de estas gafas para reflexiones difusas y solamente podrı́a existir
un riesgo ante incidencias directas. Esta última circunstancia también queda minimizada
2.3 Análisis, selección y configuración del sistema de medida 83
ya que la respuesta temporal, ante un destello de haz visible, en cerrar la pupila y girar
la cabeza (respuesta de aversión) es de 0.25 segundos, con lo cual la exposición no es
lo suficientemente prolongada como para producir daños ya que el MPE de respuesta de
aversión es de 25 W/m2 (fig. 2.17) y la densidad de potencia del haz con la cruz generada
a 2 metros es de 707/100=7 W/m2 .
Por tanto, para trabajar de forma segura con este sistema de exploración no se necesita
ninguna protección ante el haz visible, y se puede trabajar igualmente sin protección para el
haz infrarrojo si se producen siempre reflexiones difusas estando a más de 60 centı́metros
de distancia. Como esta circunstancia no tiene porque cumplirse siempre, ya que bien
debido a la presencia de superficies especulares o bien a que por accidente podemos mirar
directamente el haz infrarrojo, se recomienda el uso de gafas de protección (D=2, λ = 780
nm) para trabajar de forma segura y no confiar en que las circunstancias poco probables
anteriormente citadas no se vayan a dar nunca.
a) b) c)
Figura 2.19: Escena de un árbol con cuatro frutos: fotografı́a natural (a), y las
correspondientes imágenes de distancia (b) y reflectancia (c) captadas mediante el sistema
de exploración.
en el lugar deseado (fig. 2.20a). Mediante este método de sincronización los ángulos de
inicio y fin de barrido en elevación se corresponden con los extremos superior e inferior de
la imagen a captar, ya que el proceso de medida puede realizarse incluso en las zonas de
aceleración y deceleración.
En el método ası́ncrono, el almacenamiento de los datos de distancia y reflectancia se hace
sin consultar la posición angular actual. El barrido vertical se hace realizando un rastreo
mayor que la altura de la imagen, de tal forma que las regiones exploradas mientras
se está en zona de aceleración/deceleración no se contemplan y solamente almacenamos
los datos captados mientras el movimiento se realiza con velocidad uniforme (fig. 2.20b).
Como el telémetro genera la información a intervalos regulares y el movimiento es uniforme,
solamente con realizar una sincronización al inicio de cada barrido es suficiente. Este modo
de barrido tiene sentido debido a que el modo sı́ncrono requiere una carga extra de trabajo
al necesitar consultar constantemente la posición angular del motor de barrido vertical.
Además, las tarjetas de control que estamos utilizando (basadas en LM629) no permiten
consultas a más de 500 µs con lo cual trabajar a más de 2 kHz en el modo sı́ncrono se
hace imposible.
Cualquiera de los dos modos de barridos son válidos a la hora de generar imágenes, sin
embargo si se pretende trabajar a menos de 2 kHz el método que recomendamos es el
sı́ncrono, pues requiere menor exploración, y para más de 2 kHz hay que utilizar el modo
ası́ncrono que permite realizar barridos más rápidos aunque también necesita mayores
exploraciones.
V(rad/s)
puntos de muestreo
V(rad/s)
puntos de muestreo
En nuestro caso los componentes ópticos tienen reflectividades del 99.5 % en el espejo
móvil y del 98 % en el caliente. Esto hace que considerando las reflexiones en el camino de
ida y vuelta tengamos una pérdidas totales del 5 % de la energı́a. A esto hay que añadir
la sección del espejo caliente que es de 50 mm de diámetro, debido a que la óptica de
recepción del telémetro es de 60 mm de diámetro y el espejo está dispuesto a 45o , existe
una pérdida adicional de un 10 %, con lo cual la energı́a total perdida con el sistema de
deflexión de haz presentado es del 15 %, frente al sistema operando directamente sobre
el blanco. Este factor, con estos niveles de pérdidas no es muy significativo, ya que solo
supone una reducción uniforme en los valores del mapa de reflectancia y un aumento del
nivel de ruido en la imagen de distancias como consecuencia de la menor señal captada.
En esta sección nos planteamos la caracterización del telémetro láser Ac-4000-LIR, con
el fin de conocer otras caracterı́sticas adicionales a las suministradas por el fabricante en
las especificaciones del aparato. En especial estamos interesados en identificar cuales son
los factores que influyen en el valor de la reflectancia que proporciona el sensor como
salida, y ver de que forma este valor influye en la calidad de las medidas de distancia.
Los dos apartados siguientes presentan y desarrollan ambos aspectos, indicando también
la utilidad de sendos estudios.
aplicado a diversos sistemas telemétricos operando con los mismos principios de medida.
El telémetro láser genera un haz de energı́a electromagnética que al incidir sobre una
superficie se ve afectado por fenómenos de atenuación, reflexión y dispersión. Dependiendo
del tipo de superficie, de su orientación y de su posición espacial, la amplitud de la radiación
recibida por el sensor varı́a. Los principios generales en los que se basan estos fenómenos
son conocidos [9, 155, 36, 84, 193, 66], sin embargo, también será necesario modelar las
variables especı́ficas de nuestro telémetro para poder cuantificar todos los fenómenos a los
que se ve sometida la señal final de reflectancia, desde que se emite el haz láser hasta que
ya en forma de corriente eléctrica se amplifica y se almacena.
Inicialmente vamos a suponer que la superficie sobre la que incide la radiación es un
difusor perfecto, o superficie Lambertiana. Este tipo de superficies se caracteriza porque
la radiancia, o luminancia en el caso del ojo humano, es constante independientemente del
ángulo desde donde se observe. Una superficie que tiene caracterı́sticas muy próximas a las
de un difusor perfecto es el sulfato de Bario (BaSO4 ), aunque cualquier otra superficie de
las denominadas “mate” (papel, madera, escayola,. . . ) presenta caracterı́sticas próximas
a las de un difusor perfecto. Debido a que la luminancia es constante, si la iluminación
es fija, al observar estas superficies desde ángulos distintos siempre tendremos la misma
sensación de claridad (luminancia constante [w/m2 sr]). Sin embargo si nos olvidamos del
parámetro que capta el ojo humano o sensores como cámaras (luminancia o radiancia,
respectivamente), y nos referimos a la intensidad radiante o intensidad luminosa [w/sr],
la distribución de este parámetro en un difusor perfecto no es uniforme y obedece a una
función que depende del coseno del ángulo de observación. Este hecho es conocido como
ley de Lambert, y se expresa ası́:
Fi
I= ρ cos θ (2.9)
π
donde el término constante π tiene dimensiones de estereoradian para que las unidades a
ambos lados de la expresión sean las de una intensidad radiante [w/sr].
La reflectividad difusa, ρ, es la relación entre el total del flujo radiante difuso reflejado
y el total del flujo radiante incidente Fi . Este coeficiente depende de la longitud de
onda utilizada y del tipo de superficie, sin embargo en nuestro caso al utilizar una onda
88 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
a) b)
Figura 2.21: Distribución de intensidad (a) y radiancia (b) de una superficie difusora
perfecta.
βAFi ρ cos θ
Fc = βIΩ = ( ) (2.10)
π D2
Debido a que la energı́a electromagnética es transformada en señal eléctrica mediante un
sensor fotoeléctrico y posteriormente se realiza una amplificación logarı́tmica de esta señal,
finalmente podemos modelar la amplitud de la señal recibida, o reflectancia, por
AFi ρ cos θ
< = cte1 log(cte · Fc ) = cte1 log(cte2 ) (2.11)
π D2
donde cte1 representa el factor de amplificación y cte2 representa varios factores: el factor
de atenuación óptica β, el factor de conversión y la sensibilidad del fotodiodo η, y la
preamplificación en la señal eléctrica.
Tanto cte1 como cte2 son desconocidos, por tanto para determinarlos se realizó la recogida
de los datos experimentales que se muestran en el apéndice B, para una superficie
difusora casi perfecta (superficie mate), y posteriormente se realizó un ajuste por mı́nimos
cuadrados. Realizando tantos ajustes como diferentes distancias ensayadas, se pudo
comprobar que cte1 tenı́a un valor medio en torno a 80 con unas variaciones máximas
2.4 Caracterización del telémetro láser 89
160 200
140
160
130
140
120
120
110
100 100
90 80
0 10 20 30 40 50 60 70 80 1000 1500 2000 2500 3000 3500 4000
θ D (mm)
a) b)
Figura 2.22: Adaptación del modelo inicial expresado en la ec. 2.11 (trazo continuo) a los
datos experimentales (‘+’) ante variaciones en θ (a) y ante variaciones en D (b).
del 6 %, mientras que cte2 tenı́a una valor promedio de 5,8 × 107 con variaciones del 200 %.
Analizando la figura 2.22a, se puede apreciar cómo el modelo planteado, ante cambios en
θ, se ajusta bastante bien a los datos experimentales, con lo que se confirma que para
esta superficie casi difusora perfecta la ley de Lambert es un buen modelo. Analizando
la figura 2.22b se puede observar que los datos experimentales, ante cambios en D, no
se ajustan al modelo planteado y se produce una clara discrepancia. Esto significa que
la señal no se atenúa según el cuadrado de la distancia. Como esta ley evidentemente se
cumple, se deduce que debe existir otro factor que varı́e con la distancia y que provoque
el comportamiento global observado. Es por tanto necesario considerar el término cte2 ,
que por lo visto en el ajuste inicial tenı́a una gran dispersión (200 %), como un factor
no constante y que depende de la distancia D. Por tanto cte2 será reemplazado por una
función f (D) que depende de la distancia, que al incorporarlo a la ecuación 2.11 genera el
siguiente modelo corregido:
AFi ρ cos θ
< = c1 log((aD3 + bD2 + cD + d) ) (2.12)
π D2
donde f (D) lo hemos desarrollado como un polinomio de orden tres de tal forma que
obtengamos sus coeficientes de forma empı́rica, sin necesidad de realizar un desarrollo
analı́tico de su comportamiento.
El telémetro no dispone de ningún tipo de compensación o amplificación variable en
función de la distancia D, por tanto la causa de esta dependencia añadida de la señal
con la distancia lo atribuimos fundamentalmente a un fenómeno de reducción de la señal
luminosa transmitida a través de la óptica de recepción cuando la distancia al sensor
disminuye. Este hecho puede ser debido a la disminución de la capacidad de focalización
de la lente cuando la distancia disminuye y a la presencia del orificio previo al fotodiodo
que limita la energı́a que no fue focalizada correctamente.
Realizando un ajuste por mı́nimos cuadrados a los datos experimentales, obtenemos los
coeficientes a, b, c y d (−4,10 × 10−3 , 34,25, −2,71 × 104 y 7,98 × 106 respectivamente).
90 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
8
x 10 160
2
θ=0
1.8 150 θ=20 θ=10
1.6 θ=30
140 θ=40
1.4 θ=50
130
1.2
θ=60
f(D) 1 120
El término cte1 lo hemos considerado temporalmente igual a 80, por ser una estimación
bastante estable de la amplificación logarı́tmica utilizada en el sensor y por no influir
significativamente su elección arbitraria en la determinación de f (D).
En la figura 2.23a, podemos ver la representación gráfica de f (D), apreciándose una
actuación casi lineal con un punto de inflexión en torno a 2500 mm que corresponde a la
distancia de máxima sensibilidad del sensor. La gráfica de la derecha (fig. 2.23b) muestra
la adaptación del modelo corregido planteado a todos los datos experimentales incluyendo
variaciones en θ, pudiéndose apreciar una clara mejorı́a en el ajuste.
Observando de nuevo la figura 2.23b podemos ver que el modelo define reflectancias
similares para el caso de incidencias con un ángulo θ = 0o que igual a 10o . Sin embargo los
datos experimentales no manifiestan este comportamiento, existiendo una diferencia media
de una unidad en la reflectancia entre ambas situaciones. Atribuimos este efecto a que la
superficie elegida no es una superficie difusora perfecta y existe un pequeño porcentaje de
reflexión difusa que se propaga siguiendo el eje de reflexión especular.
Existen trabajos previos [84, 36, 7] en los cuales se ha tratado de modelar el
comportamiento difuso de la luz al incidir sobre una superficie. Cuando la luz incide
sobre una superficie, parte se absorbe, parte se transmite y el resto se refleja en un grado
que depende de cual sea el factor de reflexión. La energı́a reflejada a su vez se puede dividir
en dos componentes: especular y difusa. La luz especular, siguiendo la ley de Snell de la
óptica geométrica, proviene de las caras con superficies suficientemente pulidas para que
las irregularidades superficiales sean menores que la longitud de onda de la luz. La luz
difusa proviene de las múltiples reflexiones que se producen en las microcaras orientadas
aleatoriamente de una superficie mate, y también se genera por dispersión interna cuando
la luz incidente penetra dentro de la superficie del material.
2.4 Caracterización del telémetro láser 91
1
2
a) b) c)
Figura 2.24: Distribuciones de intensidad radiante reflejada para: (a) difusor ideal, (b)
superficie común, (c) superficie idealmente especular.
c2 )2
e−(θ/c1 g
Kesp = (2.14)
g c2
Por tanto el modelo completo, válido para todo tipo de superficies desde las muy rugosas
hasta las más especulares, es el siguiente:
c4 )2
3 2 AFi ρ e−(θ/c3 g
< = c1 log((aD + bD + cD + d) (g cos θ + (1 − g) )) (2.15)
π D2 g c4
Realizando un ajuste por mı́nimos cuadrados obtenemos los resultados que se muestran
en la figura 2.25a, donde se puede ver como los datos experimentales se ajustan mucho
mejor que en el modelo restringido a superficies mates perfectas (fig. 2.23b). Asumiendo
que la superficie utilizada en los experimentos refleja de forma difusa el 75 % (ρ = 0,75) de
la luz con longitud de onda de 0,78 µm, hemos deducido que g = 0,95 lo cual indica que
el 95 % de la energı́a reflejada lo hace según una distribución difusa lambertiana y el 5 %
restante sigue una distribución difusa en la dirección especular. Utilizando otras superficies
con propiedades ópticas diferentes, se pudo comprobar la adaptación del modelo general
a los datos experimentales. Como muestra de esta adaptación véase el gráfico de la figura
2.25b, donde se aprecia la distribución total correspondiente a la interacción de las dos
componentes difusas. Evidentemente la superficie con g = 0,78 presenta un pico más
pronunciado que el resto en torno a incidencias frontales a la superficie. A igualdad de
reflectividad, debido a que la superficie más pulida refleja más energı́a de forma difusa
en la dirección especular y a que la energı́a total reflejada se debe conservar, la energı́a
reflejada lambertianamente disminuye proporcionalmente al aumentar la especularidad de
la superficie, apreciándose una menor reflectancia para ángulos de incidencia entre 10o
y 90o que corresponden a reflexiones difusas puras. Véase un ejemplo de este hecho en
la figura 2.25b, donde se muestra el caso de dos superficies con la misma reflectividad,
ρ = 0,75, pero con distintos grados de difusión g = 0,95 y g = 0,78
Las constantes obtenidas por los ajustes realizados proporcionaron los siguientes valores:
c1 = 80,9, c3 ' 20 y c4 ' 5. Por tanto estamos ya en condiciones de presentar el modelo
2.4 Caracterización del telémetro láser 93
160 180
150 160
140
140
130
120 120
110 100
g=0.95 ρ=0.75
100
80 g=0.78 ρ=0.75
90 g=0.83 ρ=0.98
80 60
1000 1500 2000 2500 3000 3500 4000 0 10 20 30 40 50 60 70 80
D (mm) θ (grados)
a) b)
Figura 2.25: Adaptación del modelo general (ec. 2.16) con: a) los datos experimentales del
apéndice B, b) superficies con diferentes ρ y g.
5 )2
3 AFi ρ
2 e−(θ/20g (2.16)
< = 80,9 log((aD +bD +cD+d) (g cos θ+(1−g) ))
π D2 g5
La figura 2.26 nos presenta de una forma gráfica el comportamiento de la reflectancia, <, en
función de la distancia, D, y el ángulo de incidencia, θ, para superficies caracterizadas por
el grado de reflexión difusa g y la reflectividad ρ. Las figuras 2.26a y 2.26d muestran dos
casos con g=1, es decir, superficies difusoras perfectas, donde no hay puntos de inflexión y
los cambios en la reflectividad, ρ, no afecta a la forma de la superficie modelada, aunque
si generan desplazamientos relativos a lo largo del eje <. En las figuras 2.26a,b,c se
puede observar el paulatino aumento de la inflexión en torno a θ = 0o , a medida que
el coeficiente de reflexión difusa g va disminuyendo, y por tanto, aumenta la reflexión
difusa en la dirección especular. Es importante destacar que este tipo de reflexión se
podrá dar en cualquier dirección en función de cual sea la orientación de la superficie, sin
embargo, solamente aquellas reflexiones con θ próximas a cero (incidencias normales a la
superficie) serán captadas por nuestro telémetro láser. Por este motivo, podemos decir que
la energı́a captada en el rango de 10 a 90 grados se deberá únicamente a reflexiones difusas
lambertianas, mientras que en el rango de 0 a 10 grados la energı́a recibida corresponde a
la suma de las dos componentes difusas.
Como acabamos de indicar, nuestro sensor, al tener el eje de emisión y recepción iguales, va
a captar solamente la reflexión difusa lambertiana, salvo en el caso de incidencias normales
a la superficie donde ambos términos difusos contribuyen, pero esta circunstancia tiene una
baja probabilidad. Por este motivo tiene sentido plantearse utilizar un modelo aproximado
94 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
160 180
160
140
140
120
120
100 100
80 80
4000 4000
3000 3000
0 0
2000 20 2000 20
40 40
D D 60
θ θ
1000 80 60 1000 80
g=1 g=0.85
a) b)
ρ=0.9 ρ=0.9
250
140
200
120
150
100
100
80
50
4000 60
4000
3000
0 3000
2000 20 0
40 2000 20
D 1000 80 60
θ D 40
θ
1000 80 60
c) g=0.65 d) g=1
ρ=0.9 ρ=0.5
=130
60
50 =140
θ
40
30
=150
20
10
0
1000 1500 2000 2500 3000 3500 4000
D(mm)
Figura 2.27: Contornos de reflectancia constante para el caso de una superficie difusora
perfecta con una reflectividad ρ = 0,75.
que no considere la reflexión difusa en la dirección especular. Además puede ser conveniente
trabajar con un modelo aproximado por motivos de simplicidad computacional. En este
caso podemos deducir a partir del modelo general de la ecuación 2.16 la situación
correspondiente a un comportamiento totalmente difuso. Basta considerar g = 1 y
obtendremos el modelo aproximado siguiente:
AFi ρ cos θ
< = 80,9 log((aD3 + bD2 + cD + d) ) (2.17)
π D2
Según el modelo expresado en la ecuación 2.16, vemos que existen cinco variables que
quedan relacionadas entre sı́. Estas variables son la reflectancia, <, la distancia a la
superficie, D, el ángulo de incidencia del haz láser con respecto a la normal a la superficie,
θ, la reflectividad de la superficie, ρ, y la fracción difusa g. De estos parámetros, D y <
96 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
son directamente medibles a través del telémetro láser, mientras que θ se puede estimar
mediante el análisis de la imagen de distancias generada. Los otros dos parámetros que
quedan por deducir, ρ y g, solo dependen de las propiedades ópticas de la superficie, por lo
tanto su estimación permitirı́a caracterizar la superficie sobre la cual estamos realizando
la medida.
La obtención de estos parámetros discriminantes, ρ y g, junto con el análisis previsto
basado en la forma, deberı́a proporcionar un método más potente para realizar el análisis
de las imágenes, para lo cual los parámetros ρ y g deben ser diferentes para el objeto
que para el fondo. No solamente se podrı́a facilitar el reconocimiento, sino que además,
se podrı́a hacer una caracterización más precisa del objeto reconocido, no incluyendo
solamente su posición y tamaño, sino también propiedades relativas a la superficie del
objeto. Estas propiedades superficiales del objeto permitirı́an realizar una clasificación
más rica dentro de los objetos reconocidos. En el caso del reconocimiento de frutas, estas
propiedades podrı́an servir para obtener el grado de madurez del fruto o la presencia de
defectos.
Cuando realizamos una medida con el telémetro sobre un blanco, obtenemos un valor
indicando la distancia a la que se encuentra este. En nuestro caso particular de análisis
de escenas mediante imágenes de profundidad interesa, más que la precisión absoluta
de la distancia, la sensibilidad y la dispersión en la medida de un punto. Una forma
de cuantificar esta sensibilidad consiste en el cálculo de la repetitividad en distancia,
o desviación estándar σD , obtenida al medir repetidamente sobre un punto fijo. Esta
varianza en la distancia depende de muchos factores, como la distancia, la orientación
de la superficie, la temperatura, el tipo de superficie y la frecuencia de muestreo. Si la
repetitividad de la señal es pobre (σD altas), el resultado obtenido cuando generamos
una imagen en distancias, es que esta imagen presenta una baja relación señal-ruido y
las superficies obtenidas no representan de una forma fiel a las reales. Este hecho hace
que la imagen de distancias sin preprocesamiento sea poco adecuada para realizar un
reconocimiento basado en la forma y se hace necesario una restauración de la imagen.
Existen muchas técnicas de restauración de imágenes, las cuales se estudiarán con detalle
en el capı́tulo 3. Estas técnicas suelen aplicar filtros gausianos, filtros no lineales, filtros
adaptativos o ajustes a curvas predefinidas, siendo unas estrategias más adecuadas que
otras en función de las caracterı́sticas del problema. En algunos de estos casos es necesario
realizar una estimación del ruido presente en la imagen de tal forma que sea posible
establecer un criterio para distinguir lo que es ruido de lo que es una discontinuidad
propia de la escena la cual debe ser preservada. En la mayorı́a de los casos la estimación
del ruido presente en un punto local de la imagen se hace mediante estadı́sticas sobre un
vecindario muy reducido. Esta estimación suele ser aceptable pero no siempre plenamente
satisfactoria debido al reducido número de datos que intervienen en la estimación. El
conocimiento local de la repetitividad σD correspondiente a cada punto de la imagen,
mediante un método determinı́stico, permitirı́a obtener una estimación local más fiel del
2.4 Caracterización del telémetro láser 97
ruido presente en la imagen y por tanto realizar una restauración adaptativa respetando
discontinuidades en la imagen y suavizando regiones continuas contaminadas de ruido,
mejorándose significativamente la calidad de la imagen. Por este motivo, la obtención de
un modelo que nos permita obtener de una forma directa la repetitividad σD de cada
punto de la imagen, serı́a deseable para nuestro propósito de restauración de imágenes de
distancia.
La restauración de la imagen también se puede hacer tomando varias medidas de distancia
en un mismo punto y posteriormente promediando. Esto es posible gracias a que la
desviación estándar de la señal se reduce según la raı́z cuadrada del número de medidas
realizadas. Sin embargo esta técnica requiere una enorme cantidad de medidas reiteradas
para conseguir obtener buenas reconstrucciones en las zonas con alto valor de σD . Si
se utiliza una aproximación activa calculando, en cada punto de la imagen, el número
de medidas necesarias para que al promediar se obtenga una σD fija, el número total de
medidas disminuirı́a al estar realizando promedios de tamaño variables sobre cada punto de
la imagen [155]. Sin embargo esta técnica requiere un barrido de la escena a velocidades
variables para poder realizar en cada punto el número de medidas adecuadas, lo cual
redunda en una baja velocidad de barrido.
La obtención del modelo que nos de una σD local, permitirı́a realizar una restauración
adaptativa en el sentido descrito anteriormente, y a la vez la velocidad de barrido serı́a la
más alta posible, puesto que solamente es necesario realizar una medida en cada punto de
la imagen. A continuación presentamos el desarrollo de este modelo. Su aplicación para la
reconstrucción de imágenes de distancia se verá en el capitulo 3.
Existen múltiples fuentes de ruido en un sistema óptico de medida como el que estamos
utilizando, entre ellos está el ruido fotónico, de cuantificación, del diodo láser, ruido
ambiental, térmico y ruidos de amplificación. El ruido térmico originado en el fotodetector
o elementos resistivos tiene una distribución gausiana de media cero, siendo directamente
proporcional a la temperatura e inversamente proporcional a la impedancia. Este ruido es
independiente de la imagen captada y en los casos en que existe suficiente amplificación en
el fotodetector queda enmascarado por el ruido fotónico [169]. En particular, los factores
más significativos que afectan en mayor medida a nuestro sensor son dos: el ruido fotónico
en el fotodiodo y el debido a la cuantificación. El primer foco de ruido es generado en
el diodo fotodetector, lo que se pone especialmente de manifiesto cuando el nivel de la
señal recibida es muy baja. Representaremos la desviación estándar de este ruido por
σD(f ) . El segundo foco proviene de la cuantificación en la digitalización de la señal, siendo
además variable debido a que el sensor es programable y se pueden seleccionar diversos
parámetros que afectan a la resolución en la medida. En este caso su desviación estándar
la representaremos por σD(c) . Suponiendo que estos dos ruidos no están correlacionados, la
varianza de la suma de dos señales es la suma de las varianzas de las señales individuales,
por tanto podemos plantear la siguiente ecuación
98 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
q
σD = 2
σD(f 2
) + σD(c) (2.18)
hc
E= (2.19)
λ
donde λ es la longitud de onda de la radiación láser utilizada, h es la constante de Planck
(6, 62 × 10−34 J · s) y c es la velocidad de la luz.
El número de fotones n recibidos en el fotodiodo del telémetro durante el intervalo de
muestreo T , vendrá dado por
Fc T λT
n= = Fc (2.20)
E hc
donde Fc es el flujo radiante capturado por el telémetro láser, cuya expresión puede verse
en la ecuación 2.10.
El número de fotoelectrones nf e generados por el fotodiodo de eficiencia cuántica η en el
intervalo de tiempo T , vendrá dado por nf e = ηn. Asumiendo que el proceso de fotoemisión
es un proceso de Poisson [169], la desviación estándar en la fotoemisión σf e es igual a la
raı́z cuadrada del número nf e de fotoelectrones emitidos. Planteando la relación señal-
ruido en el fotodetector SN R(f ) como el cociente entre los electrones nf e emitidos en el
intervalo T y el ruido de fotoemisión σf e , obtenemos la siguiente expresión:
s
nf e nf e √ λT
SN R(f ) = =√ = nf e = η Fc (2.21)
σf e nf e hc
s
λT βAFi ρ cos θ
SN R(f ) = η (2.22)
hc π D2
Identificando términos con la ecuación 2.17, obtenemos que la relación señal-ruido se puede
expresar de la siguiente forma:
s
λ p
SN R(f ) = T 10</80,9 = 20 × 108 T 10</80,9 (2.23)
hc
1
σD(f ) ∝ √ (2.24)
T 10A/80,9
Dmax
σD(c) = (2.25)
9 × 107 T
donde Dmax es un factor programable que indica la máxima distancia a la cual se pretende
medir (expresada en mm), y T es el periodo de muestreo expresado en segundos.
Finalmente, podemos plantear el modelo que representa la desviación estándar de la
distancia medida por el telémetro láser mediante la ecuación 2.26, donde se puede ver
que aparecen tres factores que influyen en la fiabilidad de la medida: <, T y Dmax . Y
existe un factor constante k que se determinará en función de los datos experimentales
que se presentan en el apéndice B.
s
k Dmax 2 (2.26)
σD = +( )
T 10</80,9 9 × 107 T
1.6
1/T = 1 KHz
1.4 Dmax = 4000 mm
1.2
σD (mm) 1
0.8
0.6
0.4
0.2
40 60 80 100 120 140 160 180
Figura 2.28: Adaptación del modelo de repetitividad en distancia (ec. 2.26) a los datos
experimentales presentados en el apéndice B.
entre 0.75 mm para reflectancias en torno a 160 y 2.1 mm para reflectancias cercanas a
80.
Hasta ahora todas las experimentaciones han sido realizadas en régimen estático, es decir,
sin realizar ningún tipo de barrido o exploración mediante el telémetro láser. Entre los
aspectos considerados anteriormente para deducir el modelo de la repetitividad σD , no se
incluyó ningún parámetro que considerase si el modo de medida era estático o dinámico,
puesto que no hay razones objetivas para que este aspecto deba ser incluido. Sin embargo,
los resultados experimentales indican que hay una diferencia en la repetitividad de la
medida entre un modo estático y uno dinámico o de exploración. La figura 2.31 muestra
de una forma gráfica cómo la amplitud del ruido, para un perfil de distancia, es superior
en las primeras mil muestras (régimen dinámico) que en las últimas mil muestras (régimen
estático).
En la tabla 2.8 se pueden ver algunos de los datos experimentales tomados de forma
dinámica para diferentes frecuencias de muestreo 1/T y distintas reflectancias <. Al
comparar la situación dinámica con la estática ante diferentes circunstancias, aparece un
ruido constante de magnitud 1 mm que se suma al ruido estático deducido con anterioridad
(ec. 2.26). El ruido adicional lo hemos estimado según la ecuación 2.27 y los resultados
obtenidos se muestran en la columna de la derecha de la tabla 2.8.
q
σD = 2
σD 2
− σD (2.27)
adicional din est
2.4 Caracterización del telémetro láser 101
Dmax = 4000 mm
σD(mm)
12
10
0
50
40
30 40
20 60
80
1/T (KHz) 100
10 120
140
0 160
180
Dmax=4000 mm
160 σD =0.25 mm
σD =0.5 mm
σD =1 mm
140
σD =2 mm
120
σD =3 mm
100
σD =4 mm
80
σD =6 mm
60 σD =8 mm
0 5 10 15 20 25 30 35 40 45 50
1/T (KHz)
{
{
2934
Dmax=4000 mm
2932 1/T=1 kHz
D 2930
(mm)
2928
2926
0 500 1000 1500 2000
nº muestras
144
Dmax=4000 mm
1/T=1 kHz
142
140
138
0 500 1000 1500 2000
nº muestras
Cuadro 2.8: Datos de repetitividad en modo estático y dinámico que muestran la existencia
de un ruido adicional de amplitud 1 mm.
2.5 Conclusiones 103
s
µ ¶2
8,37 · 10−3 Dmax (2.28)
σD = + +1
T · 10</80,9 9 · 107 T
En la figura 2.32 se puede ver la diferencia que existe en repetitividad según el modo
sea estático (ec. 2.26) o dinámico (ec. 2.28). Finalmente, en la figura 2.33 podemos ver
los contornos de σD = cte para el caso dinámico. De acuerdo a nuestros objetivos la
captura de una imagen de 167 × 167 puntos en 5 segundos requiere una frecuencia de 5.6
kHz, con lo cual la repetitividad es de 1.2 mm para amplitudes de 160 y de 2.4 mm para
amplitudes de 80. Esto significa que nuestros mapas de distancia van a estar contaminados
con ruido gausiano con unas amplitudes que variarán entre ±2,4 y ±4,8 mm. Este hecho
hace que sea necesario aplicar un preprocesamiento a las imágenes de distancia con el
propósito de restaurarlas y obtener unas superficies mucho más regulares que permitan
realizar un correcto análisis basado en la forma de dichas superficies, incluso utilizando
regiones reducidas y muy localizadas. Este proceso de restauración se tratará en el capı́tulo
3, donde se presentará un nuevo método de restauración que utiliza como estimación del
ruido presente en la imagen, el modelo de repetitividad que acabamos de obtener (ec.
2.28).
2.5. Conclusiones
Por lo expuesto anteriormente, los aspectos más destacables que se han tratado a lo largo
del capı́tulo 2 son los siguientes:
104 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
1.8
Dmax=4000 mm
1/T=1 kHz
1.6
1.4
1.2
Régimen dinámico
σD (mm)
1
0.8
0.6
Régimen estático
0.4
0.2
40 60 80 100 120 140 160 180
Figura 2.32: Repetitividad en modo dinámico para una frecuencia de muestreo de 1 kHz
y Dmax =4000 mm.
Dmax=4000 mm
160 σD =1.1 mm
σD =1.3 mm
σD =1.6 mm
140
σD =2 mm
120
σD =3 mm
100 σD =4 mm
80
σD =6 mm
60 σD =8 mm
0 5 10 15 20 25 30 35 40 45 50
1/T (kHz)
107
108 Capı́tulo 3: Restauración del mapa de distancias
En el capı́tulo anterior vimos cómo mediante un sistema de exploración por deflexión del
haz de un telémetro láser, éramos capaces de obtener una imagen de distancia y otra
de reflectancia. La imagen de distancia, obtenida utilizando el sensor láser configurado
para medir a 5.6 kHz, está contaminada de ruido gausiano aditivo con amplitudes entre
±2,4 mm y ±4,8 mm. Además, dicha imagen puede contener ruido impulsivo en lugares
donde la amplitud de la señal láser recibida es muy baja o donde aparezcan reflexiones
altamente especulares. Este tipo de ruido se caracteriza por valores de distancia alejados
de los valores reales, sin embargo solo suele afectar a porcentajes muy reducidos de la
imagen. La presencia de ambos tipos de ruido supone una desviación de los valores reales
frente a los capturados, lo cual redunda en la adquisición de una imagen degradada.
Es indudable que imágenes degradadas, presentan mayores dificultades a la hora de
extraer caracterı́sticas de sus datos, puesto que la información contaminada puede alejarse
significativamente de un determinado modelo asumido. En nuestro caso el modelo de
objetos a procesar corresponde a una esfera de radio medio en torno a 35-45 mm (naranjas).
Variaciones entre ±2,4 mm y ±4,8 mm suponen una degradación importante a la hora
de detectar formas y curvaturas en regiones reducidas, como es el caso de escenas con
árboles frutales donde debido a las oclusiones solo es visible parte de la superficie de
cada fruto. Por tanto, antes de comenzar realizando cualquier tipo de análisis sobre las
imágenes, necesitamos aplicar algún algoritmo de restauración eficiente. Debido a que
existe un gran rango dinámico en los mapas de profundidad con diversas superficies a muy
distintas distancias, lo cual genera discontinuidades muy abruptas en la transición de una
superficie a otra, este algoritmo debe ser capaz de eliminar la mayor cantidad de ruido y
a la vez preservar las discontinuidades significativas en la imagen. Esto es, el método de
restauración debe ofrecer suavidad y fidelidad.
Con el objetivo de aplicar la técnica de restauración más apropiada a nuestro
problema, comenzaremos realizando un repaso de las principales técnicas existentes de
preprocesamiento de imágenes.
Existen dos grandes categorı́as en las que podemos encuadrar las diversas técnicas de
preprocesamiento existentes. La finalidad de cada una de estas categorı́as se define a
continuación:
consiste en obtener una imagen lo más próxima a una imagen de referencia ideal, la
cual no contiene el ruido presente en la imagen degradada de origen.
Debido a que nuestro objetivo no está dirigido hacia el realce de una imagen, solamente
vamos a presentar de una manera ilustrativa las tendencias más destacadas en este campo,
lo cual nos permitirá apreciar con mayor claridad la diferencia de enfoque entre realce y
restauración.
Dada una imagen con diversos niveles de gris, podemos obtener su histograma, h, mediante
un gráfico donde, en abscisas, se representan los n niveles de gris que existen en la imagen
y en ordenadas se indica la frecuencia de aparición del nivel de gris correspondiente h(n).
Para imágenes digitales, el histograma corresponde a un diagrama de barras donde la
altura h(nk ) de cada una de ellas representa el número de puntos (pixels) con un nivel
de gris nk . Frecuentemente los niveles de gris nk son normalizados entre los valores 0 y
1, donde el cero se corresponde con la mı́nima intensidad o negro y el uno con el blanco
o máxima intensidad. En el caso de imágenes de distancia la normalización se realiza
asignando un 1 a la distancia máxima y un 0 a la distancia mı́nima, y si las imágenes son
de color el proceso es análogo con cada uno de los tres histogramas correspondientes a las
componentes espectrales RGB.
Las técnicas de realce presentadas en este apartado se basan en modificar el histograma
caracterı́stico de una imagen con la intención de aumentar su visibilidad. Para ello se
aplica una función sk = T (nk ) que transforma los niveles de gris iniciales nk en otra gama
de niveles sk . Estas son las estrategias habituales de conformación de histogramas:
Rx 2
2 e−y dy
Aumento de contraste. Aplicando la función error f er(x) = 0 √π , se puede
conseguir un aumento de contraste tanto en las zonas claras como en las oscuras. El
efecto final es la generación de un histograma bimodal, donde cada modo contiene
los tonos oscuros y los claros. La transformación viene dada por [135]:
√
f er( nk√−0,5
2
) + 2/4
T (nk ) = √ (3.1)
f er( 2/4)
Diversos estudios muestran que una imagen con los bordes acentuados es subjetivamente
más agradable de ver que una reproducción fiel de la escena [169]. El realce de los bordes
de una imagen puede ser realizado de diversas formas:
[Link]. Coloreado
El color es otra caracterı́stica que permite resaltar diferentes componentes en una imagen.
En este sentido existen dos técnicas básicas usadas para facilitar la visualización de una
imagen [169]:
Seudocolor. Esta técnica utiliza imágenes con tonos de gris y realiza una
transformación para generar una imagen en color, la cual es más agradable de
visualizar. Para ello se utilizan transformaciones lineales o no lineales, las cuales
se pueden visualizar como una trayectoria a través de un espacio tridimensional
RGB, donde el inicio de la trayectoria corresponde a la transformación aplicada a
los tonos negros y el final de la trayectoria indica la transformación que se aplica a
los tonos blancos.
fˆ(i, j) estimación de la imagen ideal f (i, j) a partir de la imagen captada g(i, j). Es
el resultado de la restauración.
N × N tamaño de la imagen.
Este tipo de filtros están basados en la teorı́a de sistemas lineales. La idea básica radica en
que normalmente las señales o imágenes a restaurar tienen un contenido espectral de baja
frecuencia, mientras que el ruido que las contamina está caracterizado por anchos de banda
mayores. La estrategia de filtrado consiste en eliminar las componentes de alta frecuencia
y quedarse con el resto. Este filtrado, que normalmente es paso-bajo, se puede hacer
tanto en el dominio de la frecuencia como es el dominio espacial aplicando la convolución,
siendo el efecto totalmente equivalente aunque no la eficiencia del cálculo. En principio
3.1 Técnicas de preprocesamiento de imágenes 113
1 1 2 2 2 1 1
1 2 2 4 2 2 1
2 2 4 8 4 2 2
2 4 8 16 8 4 2
2 2 4 8 4 2 2
1 2 2 4 2 2 1
1 1 2 2 2 1 1
una convolución tiene una complejidad O(N 4 ), resultando menos eficiente que un filtrado
mediante transformada rápida de Fourier FFT O(N 2 × log(N )) [135]. Sin embargo, el
filtro diseñado en el dominio de la frecuencia se corresponde en el dominio espacial a un
filtro de tamaño N × N , el cual se puede aproximar por una máscara de tamaño muy
reducido n × n, con lo cual al aplicar la convolución se obtienen complejidades del orden
de O(N 2 × n2 ) que son menores que en el caso de la FFT. Realizando el filtrado mediante
convolución de máscaras reducidas se consigue mayor eficiencia computacional que cuando
se hace en el dominio de la frecuencia, especialmente cuando N À n [169]. En función de
la máscara utilizada para la convolución obtenemos las siguientes soluciones:
Filtro Gausiano. En este caso la máscara utilizada tiene una distribución gausiana.
Para ello se utilizan como mı́nimo máscaras de tamaño 7 × 7 (fig. 3.1), pudiéndose
utilizar de mayor tamaño pero teniendo en cuenta que se va a producir un suavizado
con un alto efecto desfocalizador.
En otros casos, la restauración puede hacerse sin utilizar máscaras de convolución que se
desplazan a lo largo de la imagen. Si disponemos de varias imágenes de la misma escena
que están degradadas por la adición de ruido con distribución normal, al promediarlas
obtenemos una imagen resultante que tiene un ruido cuya desviación estándar es menor que
la correspondiente a cada imagen individual. En concreto, la dependencia es inversamente
proporcional a la raı́z cuadrada del número M de imágenes promediadas:
σ
σpromedio = √ (3.4)
M
Filtro inverso. Dada una imagen degradada g(i, j), que se ha generado al actuar un
sistema lineal degradante H(u, v) sobre una imagen ideal f (i, j), podemos reconstruir
la imagen ideal sin más que invertir la función degradante H(u, v) y aplicarla sobre
g(i, j). Es decir, en el dominio de Fourier tendrı́amos que la transformada de la
imagen reconstruida es: F̂ (u, v) = G(u, v)/H(u, v). Este método solo es correcto
cuando no existe ruido aditivo y la función degradante H(u, v) no tiene términos
igual a cero en alguna de sus componentes espectrales. Si esto se cumple, y por
supuesto se conoce con certeza al sistema lineal degradante H(u, v), se obtiene una
reconstrucción perfecta.
Sin embargo, si existe un cierto ruido N(u,v) en la imagen y si hay términos
de H(u, v) pequeños, se producen grandes valores en el espectro de la imagen
reconstruida F̂ (u, v) y por tanto se producen errores en la reconstrucción puesto
que el componente aditivo introducido por el ruido hace que F (u, v) y F̂ (u, v) se
hagan diferentes, como se puede ver en la siguiente ecuación:
H ∗ (u, v)
WN (u,v)
(3.6)
|H(u, v)|2 + WF (u,v)
Una de las familias de filtros no lineales más representativas son los filtros de orden. La
técnica recibe este nombre debido a que siempre se realiza una ordenación de los valores
correspondientes al vecindario de un punto, y posteriormente se aplica una transformación
lineal. Si denominamos por ~vij al vector desordenado que contiene L puntos vecinos al
3.1 Técnicas de preprocesamiento de imágenes 115
punto (i, j), y a ~v(ij) al mismo vector pero con sus componentes ordenadas, podemos
representar la acción de un filtro de orden de la siguiente forma:
donde ~aT es un vector que expresa el tipo particular de filtro de orden que se está utilizando.
Este vector debe ser simétrico y no debe producir desviaciones en la salida, es decir,
PL
i=1 ak = 1 y ak = aL−k . En función del vector ~
a utilizado podemos destacar los siguientes
filtros de orden [34]:
Mediana. Consiste en ordenar todos los valores y coger el del medio como estimación,
es decir, ~aT = [0 . . . 0 1 0 . . . 0]. El filtro de la mediana se caracteriza por eliminar
ruido impulsivo y preservar discontinuidades, siendo por tanto de naturaleza robusta
al no verse influenciado por la presencia de ciertos valores dispares muy alejados del
valor real. Sin embargo no realiza un suavizado satisfactorio cuando el ruido no es
impulsional.
Mediana ponderada. El efecto de dar más peso o influencia a unos valores que a
otros, se puede conseguir duplicando algunos valores, p. ej. aquellos que estén más
cerca del punto central del vecindario. Una vez hecho esto se aplica el filtro de la
mediana, con lo cual aumenta la probabilidad de que alguno de los puntos que se
han duplicado sean considerados como la mejor estimación.
Media truncada (Trimmed mean). Esta técnica combina las caracterı́sticas del filtro
de la mediana en cuanto a la supresión de ruido impulsional y preservar bordes,
con las propiedades de suavizado de ruido no impulsional de los filtros lineales
paso bajos. La idea consiste en eliminar los extremos del vector ordenado ~v(ij) y
aceptar como estimación el promedio de los valores centrales no eliminados. Es decir,
1 1
~aT = [0| .{z
. . 0} L−2M . . . L−2M 0| .{z
. . 0}].
M M
Rango medio. En este caso se promedian solamente los extremos del vector ordenado
~v(ij) , con lo cual ~aT = [1/2 0 . . . 0 1/2]. Este filtro puede ser una estimación más
eficiente que la media cuando la distribución del ruido tiene colas ligeras y suaves.
Otro grupo de filtros no lineales son los filtros morfológicos, los cuales tienen versiones tanto
para imágenes binarias como para aquellas con un rango completo de valores. Funcionan
aplicando un elemento estructurante, o máscara de forma definible y que normalmente es
una ventana cuadrada 3 × 3, sobre toda la imagen realizando operaciones binarias entre el
elemento estructurante y los puntos de la imagen correspondientes. En el caso de imágenes
116 Capı́tulo 3: Restauración del mapa de distancias
no binarias se aplican funciones como el máximo y el mı́nimo. Estos son algunos de los
operadores:
Cierre. Es una dilatación seguida de una erosión. Se llama cierre puesto que
los pequeños agujeros dentro de los objetos quedan rellenados y los objetos muy
próximos quedan unidos.
Apertura. Es una erosión seguida de una dilatación. En este caso objetos alargados
con algunos agujeros o semicortes quedan fraccionados y separados, de ahı́ su nombre.
Igualmente objetos pequeños compuestos de unos pocos puntos desaparecen.
Además de los filtros de orden y los morfológicos existen muchos más filtros no lineales
aplicados en la restauración de imágenes o señales. A continuación citamos algunos:
De esta forma se pueden aplicar filtros lineales para separar ambas componentes
y posteriormente mediante una exponenciación se puede recuperar la imagen
restaurada la cual ya no contiene la degradación multiplicativa.
3.1 Técnicas de preprocesamiento de imágenes 117
Media armónica. Este filtro no lineal es adecuado para eliminar ruido gausiano,
preservar bordes y a la vez eliminar ruido impulsional de tipo positivo. Considerando
que vij es el vecindario de tamaño L entorno al punto (i, j), podemos definir el filtro
ası́:
L
fˆ(i, j) = P 1 (3.15)
x,y∈Vij g(i+x,j+y)
Media geométrica. Es otro tipo de filtros de promedio no lineal que se define como
el producto de L puntos pertenecientes al vecindario elevados a 1/L. Es adecuado
para eliminar ruido gausiano y preservar bordes, pero se ve afectado por impulsos
negativos. Y
fˆ(i, j) = g(i + x, j + y)1/L (3.18)
x,y∈Vij
Otra gama de técnicas de restauración procede del análisis por ondı́culas (wavelets).
Una ondı́cula o wavelet es una onda de una duración limitada y con una media cero.
La transformada de ondı́culas consiste en realizar una convolución de una ondı́cula a
diferentes escalas y en diferentes posiciones respecto a la señal a transformar. El resultado
de esta transformación es un espacio escala-tiempo o escala-posición que contiene los
coeficientes que caracterizan a la señal. Cada coeficiente indica lo mucho que se parece
una ondı́cula de una determinada escala a la señal en un determinado lugar de esta. A
diferencia de la transformada de Fourier donde no se sabe la localización en el tiempo
de las componentes de una determinada frecuencia, o de la representación en el tiempo
donde se puede ver la localización pero no la frecuencia de una señal, la transformada
de ondı́culas permite determinar la escala (o frecuencia) que existe en una determinada
localización espacial o temporal. Por tanto podemos decir que la transformación permite
118 Capı́tulo 3: Restauración del mapa de distancias
Los filtros adaptativos son aquellos que presentan diferentes comportamientos cuando
actúan ante discontinuidades que cuando lo hacen ante secciones continuas. Dentro de
los filtros adaptativos, podemos encontrar dos soluciones: aquellos que utilizan métodos
iterativos para ir realizando el filtrado y aquellos que solamente utilizan una iteración.
A continuación veremos las técnicas de filtrado más relevantes, que solo requieren una
iteración y que por tanto son más eficientes computacionalmente:
Eliminación de impulsos por contraste (CDOR). Este filtro mide si el punto a filtrar
está demasiado alejado del promedio de un vecindario de centro borrado (vecindario
sin el punto central). Si esto es ası́ significa que el punto es un impulso indeseable
y por tanto el valor restaurado es la media del vecindario de centro borrado ğ(i, j).
Si por el contrario hay proximidad entre el punto g(i, j) y ğ(i, j), entonces no se
produce ningún filtrado. Esta es la expresión que describe el filtro CDOR (Contrast-
dependent outlier removal)
(
g(i, j) si | g(i,j)−ğ(i,j) |<T
fˆ(i, j) = σ̆ (3.19)
ğ(i, j) en otro caso
donde es necesario seleccionar un umbral definido T y calcular la varianza del
vecindario de centro borrado σ̆.
3.1 Técnicas de preprocesamiento de imágenes 119
| g(i,j)−ğ(i,j) | k
fˆ(i, j) = σ̆
ğ(i, j) + g(i, j) (3.20)
| g(i,j)−ğ(i,j)
σ̆ | +k | g(i,j)−ğ(i,j)
σ̆ | +k
Pesado inverso al gradiente (GIW). La idea de este filtro radica en que los puntos
del vecindario deberı́an contribuir en la reconstrucción de un punto en función de lo
cerca que se encuentren de él. Para ello se utilizan unos pesos w(i, j, x, y) que miden
esta distancia:
1/2 si x = 0 y y = 0
w(i, j, x, y) = P (3.21)
0,5/ (1/max(0,5,|g(i+x,j+y)−g(i,j)|)) en otro caso
max{0,5,|g(i+x,j+y)−g(i,j)|}
X
fˆ(i, j) = w(i, j, x, y)g(i + x, j + y) (3.22)
x,y
Filtro sigma. El filtro sigma mira a los puntos en un vecindario de g(i, j) y realiza un
promedio de solo aquellos que están dentro de un intervalo ±2σ centrado en g(i, j).
(
(i + x, j + y) ∈ vij
fˆ(i, j) = ḡ(i + x, j + y) ∀ x,y
g(i, j) − 2σn < g(i + x, j + y) < g(i, j) + 2σn
(3.23)
Experimentos realizados por Lee [128] indican que el filtro sigma se comporta mejor
ante ruido gausiano que el filtro GIW, la mediana y la media SNA. Este aspecto
también lo hemos podido comprobar nosotros [109] aplicando una métrica para medir
la calidad de restauración, como presentaremos más adelante en la sección 3.2.
MSME. El filtro MMSE (Minimun Mean Square Error), introducido por Lee [126],
hace uso del conocimiento de la varianza local σl para determinar si se debe realizar
120 Capı́tulo 3: Restauración del mapa de distancias
MSME Mejorado. Lee [127] mejora el método MSME presentado por él mismo [126],
incrementando el suavizado de los puntos cercanos a las discontinuidades. Para ello
se calcula la dirección del borde y se promedia solo con aquellos puntos del vecindario
que están al mismo lado del borde que el punto central.
a) b)
de los puntos en una ventana de tamaño q × q (q > n), que están incluidos en un
intervalo simétrico en torno al punto estimado anteriormente mediante la mediana.
Este intervalo viene definido por un factor proporcional k a la desviación estándar
σn del ruido esperado. Matemáticamente podrı́amos expresar el filtro DW-MTM de
la siguiente forma
−q/2 < x < q/2
−q/2 < y < q/2
fˆ(i, j) = ḡ(i + x, j + y) ∀ x,y (3.25)
g(i + x, j + y) > med(vij ) − kσn
g(i + x, j + y) < med(v ) + kσ
ij n
a)
b)
c)
comparando una medida de homogeneidad local con una medida global. Si una
ventana es declarada homogénea, al punto central se le asigna el valor promedio
de la ventana. Si no se encuentran regiones homogéneas, entonces estamos sobre
una discontinuidad y se aplica el método de suavizado adaptativo con preservación
de bordes MSME de Lee [126]. El trabajo de Meer muestra una comparación del
filtro MAS con otros métodos iterativos. En particular, realiza la comparación con
los métodos iterativos de Saint-Marc y Perona [178, 162] para el caso de una sola
iteración, y mediante criterios visuales determina que el filtro MAS se comporta
apreciablemente mejor. A pesar de los buenos resultados, el método presenta algunas
limitaciones ya que al utilizar un filtro MSME en presencia de discontinuidades, no
hay suavizado en puntos próximos a bordes. Además, la presencia de pendientes
en las superficies hace que la máscara de promediado se reduzca mucho en esos
puntos, debido a que la varianza local de una región inclinada es mayor que la de
una horizontal, generando suavizados pobres en este tipo de superficies.
Dentro de los filtros iterativos, uno de los primeros trabajos descritos en la literatura
de visión artificial, es el suavizado basado en el modelo facetado de Haralick y Watson
[74]. Por cada punto de la imagen, se realiza un conjunto de 9 ajustes de una superficie
polinómica a los puntos contenidos en una ventana 3 × 3 situada en las nueve posibles
posiciones conteniendo al pixel bajo consideración. De los nueve ajustes, aquel con menor
residuo es utilizado para generar el valor restaurado. Siguiendo esta aproximación, los
3.1 Técnicas de preprocesamiento de imágenes 123
∂calor
= b · ∇2 calor donde calor(i, j, t = 0) = g(i, j) (3.26)
∂t
Perfil ideal
Reconstrucción
Figura 3.4: Ejemplo de dos reconstrucciones con el mismo error cuadrático medio
Las métricas analı́ticas más frecuentemente utilizadas son el error cuadrático medio y el
error absoluto. Sin embargo, ambos métodos contemplan solamente la desviación local
entre los puntos de la imagen reconstruida y de la imagen ideal, pero no considera la
disposición de un punto en relación con los de su vecindario. La figura 3.4 muestra un
claro ejemplo donde dos reconstrucciones que no deberı́an ser consideradas con la misma
calidad de restauración, sin embargo, tienen el mismo error cuadrático medio.
¯n mide que la orientación de las superficies sea la misma en la imagen ideal y
La métrica d~
la restaurada, y por tanto si la superficie ideal es suave premiará aquellas superficies que
también lo sean. Sin embargo, como norma general no mide la fidelidad en términos de la
separación entre la imagen ideal y la restaurada, y dos superficies perfectamente paralelas
separadas por un desplazamiento constante no es posible detectarlo con esta métrica de
forma aislada.
Otros métodos de evaluación se basan en la observación de los resultados después de pasar
la imagen restaurada por alguna etapa posterior de procesamiento, como una extracción
de bordes o una votación en un espacio paramétrico de Hough. Sin embargo en este caso
se corre el riesgo de elegir un método de restauración que funciona óptimamente siempre y
cuando se mantengan fijas las etapas posteriores de procesamiento con las que se realizó la
evaluación. Por tanto, si el sistema de procesado se modifica, la etapa de restauración no
tiene por qué seguir siendo la más adecuada y por tanto el método está muy fuertemente
ligado con una determinada aplicación.
En vista de la falta de estandarización y poca fiabilidad para determinar la fidelidad
de una restauración mediante los métodos actuales, vemos la necesidad de definir una
métrica analı́tica que nos dé una medida objetiva que nos establezca un criterio para
poder seleccionar el mejor método de restauración dentro de un conjunto de posibles
126 Capı́tulo 3: Restauración del mapa de distancias
candidatos. A continuación presentaremos una métrica que considera tanto los residuos
puntuales como las relaciones entre puntos, para valorar positivamente a aquellas técnicas
que no introducen distorsiones y además suavizan las superficies.
El error cuadrático medio o el error absoluto medio son excelentes métricas para medir la
desviación de la señal restaurada frente a la señal original. En zonas donde un borde
no se preserva o un ruido impulsional no es eliminado aparece un residuo elevado,
con lo cual ambas métricas penalizan las distorsiones no eliminadas por el método de
restauración. La evaluación visual permite medir de una forma poco fiable las distorsiones
en discontinuidades, sin embargo capta mejor la textura fı́sica de las superficies continuas.
Si las superficies homogéneas contienen aún ruido sin eliminar, la apreciación visual no
será positiva. Esta misma valoración de la suavidad se podrı́a hacer utilizando la métrica
que mide la diferencia en las normales, sin embargo, en las regiones suaves en las que no
se preservan adecuadamente los bordes se produce una fuerte penalización debido a la
pérdida de paralelismo entre las superficies restaurada e ideal. Esto hace que esta métrica
no solo mida suavidades sino que también en determinadas regiones mide fidelidades y por
tanto es más difı́cil de interpretar.
La idea principal de la métrica que vamos a presentar, combina las caracterı́sticas de las
evaluaciones visuales que captan la suavidad o rugosidad, con la de evaluaciones basadas
en residuos que focalizan su atención en la fidelidad. Por tanto, nuestra métrica va a tratar
de valorar positivamente la fidelidad en la preservación de discontinuidades, y a la vez,
la suavidad o ausencia de rugosidad en las zonas que deben ser homogéneas. Para ello
vamos a combinar dos métricas que miden de forma aislada e individual la fidelidad y la
suavidad.
Para medir la fidelidad en la restauración, y en particular la preservación de
discontinuidades, definimos la métrica de fidelidad de restauración FI (Fidelity Index)
mediante una exponencial del promedio de los errores absolutos entre la imagen ideal
f (i, j) y la imagen restaurada fˆ(i, j) (ec. 3.33). El motivo de utilizar la función no lineal
“exponencial negativa” se debe por un lado a que normaliza el ı́ndice de medida entre 0
y 1, y por otro a que aumenta la capacidad de discriminación en los valores próximos a
1 y hace lo contrario en los valores con alto residuo a los cuales les corresponde siempre
valores muy próximos a cero, con lo cual se agrupa todas las técnicas con preservaciones
malas, muy malas ó pésimas en un mismo grupo que indica que todas ellas son inadecuadas
(F I ' 0).
³P ´
N,N
− i,j=1
|f (i,j)−fˆ(i,j)| /N 2
FI = e (3.33)
n f (i − 1, j ) n f (i , j )
dα fx
f
n f (i , j )
n f (i − 1, j )
dα fx
f
Figura 3.5: Incrementos angulares entre las normales de puntos vecinos en la dirección x
para un perfil ideal y el mismo restaurado.
SI = e−ξ (3.34)
à !
n~f (i, j) · n~f (i − 1, j)
dαf x = arc cos (3.35)
kn~f (i, j)k · kn~f (i − 1, j)k
à !
n~f (i, j) · n~f (i, j − 1)
dαf y = arc cos (3.36)
kn~f (i, j)k · kn~f (i, j − 1)k
à !
n~fˆ(i, j) · n~fˆ(i − 1, j)
dαfˆx = arc cos (3.37)
kn~fˆ(i, j)k · kn~fˆ(i − 1, j)k
à !
n~fˆ(i, j) · n~fˆ(i, j − 1)
dαfˆy = arc cos (3.38)
kn~fˆ(i, j)k · kn~fˆ(i, j − 1)k
N,N
X
ξ= (dαfˆx − dαf x ) · (dαfˆx ≥ dαf x ) + (dαfˆy − dαf y ) · (dαfˆy ≥ dαf y ) /(2N 2 )
i,j=1
(3.39)
128 Capı́tulo 3: Restauración del mapa de distancias
en donde los términos condicionales dαfˆx ≥ dαf x y dαfˆy ≥ dαf y aparecen para no
considerar los incrementos angulares en las zonas de transición de la imagen ideal como
si fuesen posibles rugosidades, con lo cual la rugosidad en la imagen restaurada solo se
calcula en las zonas donde la imagen ideal sea continua.
Nótese que los valores de ambas métricas, FI y SI, están acotados entre 0 y 1.
Correspondiendo un valor de 1 para el caso de fidelidad y suavizado perfectos, mientras que
valores próximos a cero indican una mala calidad en la reconstrucción. La integración de
las dos métricas en una única que mida la calidad de reconstrucción global contemplando
tanto fidelidad como suavizado de una forma conjunta, la podemos obtener aplicando una
media geométrica de los ı́ndices FI y SI :
√
GRI = F I · SI (3.40)
donde GRI es la métrica que indica la calidad global de restauración (Global Restauration
Index), que sigue teniendo un rango de valores posibles entre 0 y 1. Técnicas de restauración
con buenas calidades de suavizado, pero mala preservación de bordes presenta un FI
cercano a cero y un SI cercano a 1. Un simple promedio entre FI y SI darı́a un valor
de 0.5 indicando que el método de restauración es intermedio. Sin embargo, utilizando la
integración multiplicativa de la ecuación 3.40, si una de las dos métricas genera valores
próximos a cero la penalización en la métrica global GRI va a ser significativa. Esto
concuerda con el propósito marcado inicialmente, es decir, la métrica va a premiar aquellas
técnicas que realizan reconstrucciones fieles, y a la vez, generan superficies suaves. Si alguno
de estos factores no se cumple la calidad de la reconstrucción disminuirá considerablemente.
Una vez definida la métrica GRI estamos en condiciones de comparar diferentes tipos de
técnicas de restauración. Para ello hemos generado un perfil sintético que contiene una
muestra variada de diferentes tipos de superficies y discontinuidades (fig. 3.6a). Sobre este
perfil hemos añadido ruido gausiano con una desviación estándar de 1 mm (fig. 3.6b).
Varias técnicas de restauración no iterativas fueron aplicadas, y la calidad de restauración
utilizando la métrica GRI fue calculada. Para evitar posibles variaciones de la métrica ante
determinadas configuraciones del ruido sobre el perfil, se realizó el promediado de GRI para
100 muestras diferentes de perfiles contaminados con ruido gausiano. En la tabla 3.1 se
presentan los diferentes métodos de restauración ordenados según el ı́ndice de calidad GRI
que obtuvimos al analizar los perfiles restaurados por cada técnica, mostrándose también
las componentes de calidad parciales FI y SI.
Podemos observar en la tabla 3.1 que los mejores métodos según la métrica GRI son
la media truncada con doble ventana DW-MTM, la técnica de suavizado adaptativo
multiresolución MAS, y el filtro de mı́nimo error cuadrático medio MMSE, con ı́ndices
de 0.69, 0.68 y 0.66 respectivamente. En las figuras 3.6h,g,f se puede apreciar uno de
los cien perfiles restaurados por las técnicas DW-MTM, MAS y MMSE respectivamente.
Observando los perfiles y sus ı́ndices parciales FI y SI, podemos ver que hay una buena
preservación de bordes y una apreciable mejorı́a en el suavizado de las tres restauraciones.
3.2 Evaluación de la calidad de restauración 129
Cuadro 3.1: Clasificación de métodos clásicos de restauración según métrica GRI (ruido
gausiano).
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Sigma (0.65: 0.61, 0.70)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido normal σ=1 f) MMSE (0.66: 0.59, 0.74)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
c) Gaussiano (0.48: 0.30, 0.77) g) MAS (0.68: 0.61, 0.76)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
d) Wavelet (0.60: 0.54, 0.67) h) DW-MTM (0.69: 0.62, 0.76)
Figura 3.6: Reconstrucción de un perfil contaminado con ruido gausiano mediante algunas
de las técnicas de restauración clásicas. Entre paréntesis se indica las métricas GRI, FI y
SI respectivamente.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 131
En esta sección pretendemos definir un filtro adaptativo que sea capaz de restaurar
imágenes eliminando la mayor parte del ruido degradante, y a la vez, conservando las
discontinuidades presentes. Es decir, queremos eliminar la información que no nos interesa
(ruido) y conservar aquella información que nos permita captar la forma de los objetos
en una imagen (superficies homogéneas y discontinuidades significativas). Para terminar
de definir el problema vamos a especificar lo que entendemos por superficies homogéneas,
discontinuidades y ruido:
Las superficies homogéneas de que consta una imagen asumimos que se caracterizan
por ser suaves, es decir, no presentan rugosidad, pudiendo ser planas o curvas y
quedando limitadas por discontinuidades.
Una vez presentados los objetivos y las asunciones que definen la imagen a procesar,
estamos en condiciones de presentar nuestra técnica de restauración.
(
V erdadero Si ∀(x, y) ∈ vij |g(x, y) − (ax + by + c)| ≤ 3σ
f idelidad − 3σ = (3.41)
F also En caso contrario
siendo σ la desviación estándar del ruido aditivo esperado sobre la imagen, y a, b y c los
parámetros del plano ajustado. Es decir, después de realizar un ajuste de unos datos a un
plano diremos que se realizó un ajuste con fidelidad-3σ si “todos los puntos en la ventana
están a una distancia de los respectivos puntos del plano ajustado, menor o igual que 3σ”.
Mediante este criterio de ajuste podremos determinar que existe una discontinuidad
cuando no sea posible realizar un ajuste de fidelidad-3σ sobre una ventana de tamaño
3.3 Nuevo método de restauración adaptativa 3σ-MPF 133
Ajuste fiel
Punto del perfil captado
3 × 3 (fig. 3.7). Por el contrario si la región es homogénea, aunque esté contaminada por
ruido gausiano, siempre existirá una alta probabilidad de que una región se pueda ajustar
de una forma fiel a un plano, incluso aunque la superficie tenga una cierta curvatura. Por
otro lado, el criterio de fidelidad-3σ también lo utilizaremos para elegir el tamaño de la
ventana de procesamiento, la cual será variable y se podrá ir adaptando a las caracterı́sticas
de la imagen.
Teniendo presentes las consideraciones anteriores, el algoritmo 3σ-MPF (3σ-
Multiresolution Plane Fitting) que proponemos se basa en un ajuste multiresolución de
planos sobre regiones homogéneas, que evoluciona hacia un método de preservación de
bordes en las regiones con discontinuidades. La idea consiste en suavizar tanto como sea
posible en las regiones homogéneas donde son factibles los ajustes sobre grandes regiones.
Si el ajuste no es satisfactorio, probablemente debido a regiones con curvatura o a la
proximidad de bordes, se reducirá la región de aplicación hasta conseguir un ajuste fiel.
Finalmente, si después de reducir las regiones de aplicación no se consigue un ajuste
con fidelidad-3σ, significará que estamos sobre una discontinuidad y se deberá aplicar un
método de preservación de bordes.
En la figura 3.8 se muestra el pseudocódigo del algoritmo 3σ-MPF, donde se puede apreciar
que para realizar el ajuste multiresolución utilizamos secuencialmente tres ventanas de
tamaños: 7 × 7, 5 × 5 y 3 × 3. Comenzando por la ventana de mayor tamaño, ajustamos
un plano a los puntos de la imagen contenidos dentro de dicho ventana y evaluamos el
criterio fidelidad-3σ. Si hay algún punto que no cumple este criterio, se repite el proceso
con la siguiente ventana de menor tamaño. Finalmente, cuando se obtenga un ajuste con
fidelidad-3σ, el valor de la imagen a filtrar correspondiente al centro de la ventana es
sustituido por la media de los puntos contenidos en esa ventana.
En el caso de que la mı́nima ventana de 3 × 3 no genere ajustes fieles, aplicamos la técnica
M T M (Modified Trimmed Mean) que combina el algoritmo de los filtros de orden con
promedio truncado (trimmed mean) y la selección de candidatos a promediar que se usa en
el filtro sigma. Mediante el valor central y sus 4 vecinos de conectividad 4, estimamos un
valor inicial calculando la mediana de estos 5 valores. Este valor estimado es utilizado para
134 Capı́tulo 3: Restauración del mapa de distancias
σ=estimación_ruido(g,(i,j));
tamaño_ventana=7x7;
REPEAT
a,b,c=ajuste_plano_minimos_cuadrados(g,(i,j),tamaño_ventana);
test_fidelidad_3σ=fidelidad_3σ(g,(i,j),tamaño_ventana,(a,b,c),σ);
IF test_fidelidad_3σ==FALSE
tamaño_ventana=tamaño_ventana-2x2;
UNTIL (test_fidelidad_3σ==TRUE OR tamaño_ventana<3x3);
IF test_fidelidad_3σ==TRUE // región continua encontrada
f(i,j)=c;
ELSE // discontinuidad o impulso detectado
ref=Mediana(g,(i,j),3x3,conectividad_4);
f(i,j)=media_rango_3σ(g,(i,j),3x3,conectividad_8,|g(x,y)-ref|<3σ)
END
realizar un promediado con aquellos puntos que se encuentren dentro del intervalo ±3 · σ
en una ventana 3×3 de conectividad 8. De esta forma se consigue preservar bordes, reducir
ruido gausiano al realizar un promediado y a la vez eliminar ruido de tipo impulsional.
La desviación estándar σ del ruido aditivo esperado sobre la imagen, no necesita ser
estimada calculando la varianza en una ventana, cuya fidelidad de estimación se degrada
a medida que la ventana se hace más pequeña. Para obtener esta estimación utilizamos el
modelo de repetitividad σD deducido en el capı́tulo 2 (ec. 2.28 ó 3.42), que permite obtener
una buena aproximación del ruido aditivo presente utilizando la imagen de reflectancia <.
Por comodidad lo repetimos a continuación:
s
µ ¶2
8,37 · 10−3 Dmax
σD = + +1 (3.42)
T · 10</80,9 9 · 107 T
Debido a que el método de filtrado presentado no pretende ser exclusivo para ser
aplicado sobre parejas de imágenes Distancia-Reflectancia, en el caso de no disponer
de una imagen de reflectancia < para estimar el ruido, la técnica utilizada por Meer
[140] parece más adecuada que una simple estimación local de varianzas. El método que
propone Meer calcula la varianza media de toda la imagen mediante la detección del pico
del histograma de varianzas que es normalmente unimodal, obteniéndose resultados de
estimación bastante robustos.
El filtro que hemos presentado, 3σ-MPF, está inspirado en las mejores cualidades de
los filtros MAS y DW-MTM. Las debilidades manifestadas en ambos diseños han sido
superadas añadiendo la estrategia de fidelidad-3σ que se basa en un test sobre los residuos
de un ajuste por mı́nimos cuadrados de un plano. De esta forma es de esperar que el
comportamiento de este nuevo filtro sea superior a los ya reconocidos filtros MAS y DW-
MTM.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 135
Una de las novedades del filtro 3σ-MPF reside en que no se necesita establecer ningún
umbral de forma arbitraria para determinar la presencia de discontinuidades. La definición
de ajuste con fidelidad-3σ, es el criterio utilizado para determinar si está presente una
discontinuidad, no necesitándose realizar ninguna sintonı́a de parámetros. Además, no
es necesario la estimación de ninguna estadı́stica sobre ventanas locales, como suele ser
habitual en otras técnicas para determinar la varianza local de una región, siendo esta
aproximación poco precisa al estimarse estadı́sticas sobre un reducido conjunto de datos.
El problema de la selección del tamaño de la máscara de filtrado queda también resuelto
en el filtro 3σ-MPF mediante la aproximación multiresolución al ser aplicada junto con
el criterio de ajuste con fidelidad-3σ, el cual fuerza a reducir el tamaño de la ventana si
no se cumple dicho criterio. De esta forma somos capaces de suavizar utilizando ventanas
grandes donde es posible y al mismo tiempo determinar de una forma fiable la presencia
de un borde.
Cuadro 3.2: El filtro 3σ-MPF evaluado según la métrica GRI, y comparado con otras
técnicas para eliminar ruido gausiano.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 137
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Sigma (0.65: 0.61, 0.70)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido normal σ=1 f) MMSE (0.66: 0.59, 0.74)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
c) Gaussiano (0.48: 0.30, 0.77) g) MAS (0.68: 0.61, 0.76)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
d) Wavelet (0.60: 0.54, 0.67) h) DW-MTM (0.69: 0.62, 0.76)
40
30
20
10
0
0 50 100 150 200
i) 3σ-MPF (0.75: 0.64, 0.87)
Figura 3.9: Perfiles contaminados con ruido gausiano y restaurados mediante 3σ-
MPF y otras técnicas clásicas. Entre paréntesis se indica las métricas GRI, FI y SI
respectivamente.
138 Capı́tulo 3: Restauración del mapa de distancias
Cuadro 3.3: El filtro 3σ-MPF evaluado según la métrica GRI, y comparado con otras
técnicas para eliminar ruido impulsional.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 139
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Media Truncada (0.59: 0.39, 0.89)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido impulsional f) DW-MTM (0.88:0.83, 0.93)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
c) Gaussiano (0.22: 0.07, 0.74) g) Mediana (0.91:0.88, 0.94)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
d) SNA (0.51: 0.33, 0.77) h) CDOR (0.97:0.96, 0.99)
40
30
20
10
0
0 50 100 150 200
i) 3σ-MPF (0.84: 0.75, 0.94)
Figura 3.10: Perfiles contaminados con ruido impulsional y restaurados mediante 3σ-
MPF y otras técnicas clásicas. Entre paréntesis se indica las métricas GRI, FI y SI
respectivamente.
140 Capı́tulo 3: Restauración del mapa de distancias
Cuadro 3.4: El filtro 3σ-MPF evaluado según la métrica GRI, y comparado con otras
técnicas para eliminar ruido gausiano e impulsional.
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Mediana (0.57:0.51, 0.64)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido normal e impulsivo f) DW-MTM (0.65: 0.56, 0.75)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
c) CDOR (0.44: 0.46, 0.42) g) CDOR+MAS (0.67:0.59, 0.77)
40 40
30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
d) Media Truncada (0.46: 0.29, 0.75) h) Mediana+DW-MTM (0.68: 0.55, 0.83)
40
30
20
10
0
0 50 100 150 200
i) 3σ-MPF (0.69: 0.58, 0.82)
Figura 3.12: Superficies sintéticas contaminadas con ruido gausiano, impulsional y una
combinación de ambos (izquierda). Restauración aplicando el filtro 3σ-MPF (derecha).
3.4 Conclusiones 143
3.4. Conclusiones
Los aspectos más destacables tratados a lo largo del presente capı́tulo han sido estos:
2760 2760
2740 2740
2720 2720
2700 2700
2680 2680
2660 2660
2640 2640
2620 2620
2600 2600
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Figura 3.13: Restauración aplicando el filtro 3σ-MPF de una imagen de distancias captada
con nuestro sensor láser (columna izquierda imagen degradada, columna derecha imagen
restaurada).
3.4 Conclusiones 145
7x7 5x5
3x3 MTM
Figura 3.14: Máscaras representando las zonas de actividad del filtro 3σ-MPF sobre la
imagen considerada en la figura 3.13. De izquierda a derecha y de arriba abajo: ajustes de
planos en ventanas 7x7, 5x5, 3x3 y activación de la media truncada modificada.
146 Capı́tulo 3: Restauración del mapa de distancias
Capı́tulo 4
Método de reconocimiento de
objetos esféricos: Estrategia
modular de acumulación de
indicios mediante múltiples
primitivas
147
148 Capı́tulo 4: Método de reconocimiento de objetos esféricos
En el capı́tulo anterior vimos que mediante una técnica de restauración éramos capaces de
obtener imágenes de mejor calidad que las directamente proporcionadas por el sensor láser.
Por tanto ahora estamos en condiciones de poder aplicar estrategias de reconocimiento
sobre la imagen de una forma más fiable que sin dicho preprocesamiento. Este hecho se
podrá comprobar en el próximo capı́tulo, donde se realiza una evaluación de los métodos
de reconocimiento presentados a lo largo del presente capı́tulo.
La presente tesis está orientada hacia la resolución de un tipo de problemas que contemplan
la detección, localización-3D y caracterización de frutos en un árbol; por ello la estrategia
de reconocimiento que se presentará se centrará en la satisfacción de este objetivo. Como
se manifestó en el capı́tulo 2, la propiedad fundamental a utilizar para el reconocimiento
será la forma de los objetos, siendo dicha información deducible tanto a partir del mapa
de distancias como de reflectancias. Otro aspecto discriminante utilizado estará ligado a
las propiedades ópticas superficiales del objeto, en concreto la reflectividad. Finalmente,
la posición tridimensional de los objetos se utilizará para restringir las detecciones válidas
a aquellas que están dentro del volumen de trabajo y para comprobar que se cumplen una
serie de reglas de tipo heurı́stico.
Refiriéndonos a la forma, frutos tales como naranjas, manzanas o melocotones pueden ser
aproximadamente modelados como esferas. De esta manera el problema de reconocimiento
de frutos por formas lo vamos a plantear como un problema más general de reconocimiento
de objetos esféricos en condiciones de oclusión y en entornos de baja estructuración. Ası́,
el sistema de reconocimiento no se limitará solamente a aplicaciones de recolección de
frutos en el campo, sino que su rango de aplicación se amplı́a a cualquier problema que
considere el reconocimiento, localización y caracterización de objetos esféricos, donde el
resto de objetos no son de interés y por tanto pueden ser ignorados.
Antes de presentar la estrategia de reconocimiento propuesta, analizaremos brevemente
las principales técnicas de análisis de imágenes existentes, las cuales nos servirán de base
para plantear nuestro método de reconocimiento.
Independientemente del tipo de sensor utilizado, una vez obtenida una imagen o matriz
de datos ligada a una determinada propiedad fı́sica ([Link]. intensidad, distancia, absorción,
etc.), se nos plantea el problema de analizarla e interpretarla. Una imagen suele estar
compuesta por una serie de objetos de interés y de un fondo formado por el resto de
elementos superfluos. El objetivo de un sistema de análisis de imágenes, en general, es la
identificación o reconocimiento de los objetos y la determinación de sus posiciones. Para
poder realizar este reconocimiento es necesario aislar el área de la imagen que corresponde
a cada objeto. Estas regiones se conocen en el área del procesamiento de imágenes
como segmentos, y al proceso de subdividir una imagen en regiones correspondiendo a
los objetos presentes, se conoce con el nombre de segmentación. Una vez segmentada
la imagen, se debe realizar una descripción de cada segmento, y finalmente, basándose
en la descripción previa, se realiza la clasificación de cada objeto. Estas tres etapas:
4.1 Técnicas principales de análisis de imágenes 149
4.1.1. Segmentación
La segmentación es una etapa crucial en los sistemas de visión artificial por las dificultades
que conlleva y por la importancia de sus resultados. Se han propuesto muchas técnicas
de segmentación, sin embargo, todavı́a no se ha encontrado una solución general a este
problema [83, 51]. En la mayorı́a de los casos, los algoritmos de segmentación operan
basándose solamente en la información presente en la imagen. Esta aproximación no
se parece a la estrategia utilizada en los seres vivos, donde la información captada
directamente por los elementos de visión, es una parte pequeña si la comparamos con el
conocimiento adicional utilizado para poder ver objetos e interpretar escenas. Por tanto,
no es de extrañar que los resultados obtenidos por las aproximaciones no basadas en el
conocimiento, no sean plenamente satisfactorias en algunos casos. Sin embargo, debido al
conocimiento limitado de los procesos de almacenamiento y recuperación de la información
en los seres vivos, y a las limitaciones de tiempo de proceso de los sistemas de visión
experimentales que han intentado aproximarse a su emulación, actualmente no es viable
dotar a un sistema de visión de una estrategia para la incorporación de conocimiento
semejante a como lo hacen los seres vivos. Esta es un área actual de investigación y
los sistemas existentes que incorporan conocimiento están basados en estrategias muy
simplificadas.
Existen dos principios básicos para realizar la segmentación, uno está basado en la
detección de discontinuidades y el otro en la detección de similitudes. En el primer caso,
se plantea la hipótesis de que dos objetos diferentes deben tener propiedades distintas y
por tanto debe existir una frontera entre ellos caracterizada por un cambio pronunciado
en algún aspecto [104, 220, 212, 143]. Estas zonas de cambio se conocen como bordes
y se pueden detectar analizando un vecindario próximo de cada punto de la imagen.
Una vez que los bordes son detectados deben ser marcados y agregados, de forma que
se obtengan contornos cerrados que definan los segmentos de la imagen. La estrategia
de segmentación mediante similitudes, considera que los puntos que pertenecen al mismo
segmento deben tener propiedades semejantes, y por lo tanto, realiza la agrupación de
puntos siguiendo un cierto criterio de similitud [105, 82]. Este criterio suele considerar
la proximidad espacial y la semejanza de intensidades para realizar la agrupación.
Teóricamente, tanto siguiendo el principio basado en discontinuidades como el basado
en similitudes, los resultados obtenidos deben ser los mismos. Si se obtienen los bordes y
estos son cerrados, mediante un algoritmo de llenado se pueden obtener las regiones, y si
obtenemos las regiones podemos calcular los bordes mediante un algoritmo de seguimiento
de fronteras. Desafortunadamente, en la práctica esto es muy raro que se obtenga debido
al cumplimiento solo parcial de las hipótesis de segmentación presentadas anteriormente.
150 Capı́tulo 4: Método de reconocimiento de objetos esféricos
Dado el alto número de elementos que intervienen en una imagen es muy importante
el tiempo de cálculo; por ello se han utilizado muchas aproximaciones para calcular las
derivadas parciales
q en las direcciones x e y. Además es habitual aproximar la magnitud del
gradiente G = G2x + G2y , con fines de eficiencia computacional mediante G = |Gx |+|Gy | o
G = M ax(|Gx |, |Gy |). Según el tipo de aproximación empleada para las derivadas parciales,
podemos encontrar los siguientes filtros [51]:
Roberts. Uno de los primeros operadores utilizados fue introducido por Roberts
(1965). El operador cruzado de Roberts utiliza dos ventanas 2 × 2 para aproximar
las dos componentes del gradiente (fig. 4.1). Mediante estas ventanas, se calcula la
diferencia de los puntos de la diagonal de las ventanas como muestran las ecuaciones
4.2 y 4.3.
Gx = ∂f (x, y)/∂x = f (x, y + 1) − f (x − 1, y) (4.2)
-1 1 1 1 1
-1 -1
-1 1
1 1
-1 1 -1 -1 -1
Figura 4.1: Ventanas utilizadas por el operador de Roberts (izquierda) y Prewitt (derecha).
-3 -3 5 -3 5 5 5 5 5 5 5 -3
-3 5 -3 5 -3 -3 5 -3
-3 -3 5 -3 -3 -3 -3 -3 -3 -3 -3 -3
5 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3
5 -3 5 -3 -3 -3 -3 5
5 -3 -3 5 5 -3 5 5 5 -3 5 5
√
A = 2. La aproximación de Frei-Chei (1977) utiliza A = 2.
1
1 -4 1
1
Los filtros basados en la Laplaciana, se pueden aproximar como se indica en las ecuaciones
4.7 y 4.8, y por tanto se puede utilizar una máscara 3 × 3 como la mostrada en la figura
4.3.
La alta sensibilidad al ruido de la Laplaciana crea problemas y por ello se suele utilizar
la Laplaciana junto con una etapa previa de reducción de ruido. En este sentido
Marr y Hildreth proponen un filtro Gausiano para promediar la imagen, dicho filtro
se caracteriza por conservar espacialmente las propiedades en la imagen. El método
consiste en convolucionar la imagen con una máscara gausiana y posteriormente aplicar la
Laplaciana. Debido a las propiedades conmutativa y asociativa de la convolución, aplicar
el método anterior es lo mismo que convolucionar directamente la imagen con la función
LOG o Laplaciana del Gausiano (ec. 4.9).
Los resultados obtenidos utilizando los métodos vistos en la sección anterior, generan
normalmente bordes fraccionados que no delimitan regiones. Debido a esto, los algoritmos
de detección de bordes son seguidos de métodos de unión de puntos (agregación) o por
algoritmos de detección de contornos. De esta forma es posible cerrar los contornos, o
bien, obtener una caracterización del contorno fragmentado. A continuación vamos a ver
algunos de los métodos utilizados para realizar estas tareas.
Técnicas de agregación mediante análisis local. Una de las formas más directas
de realizar la unión de bordes, es analizar las caracterı́sticas de los puntos en torno a un
pequeño vecindario, utilizando técnicas de relajación. Un punto de la imagen, inicialmente
no considerado como borde, puede llegar a serlo si cumple una serie de restricciones. Dos
posibles restricciones son que la diferencia de gradientes y la diferencia de direcciones del
gradiente, entre dos puntos, deben ser inferiores a un cierto umbral. Por tanto, un punto
(a, b) de un vecindario de (x, y) se une al grupo de puntos al que pertenece (x, y), si se
cumplen los criterios de agrupamiento. Una forma sencilla de marcar los grupos de puntos
154 Capı́tulo 4: Método de reconocimiento de objetos esféricos
y
recta de ecuación:
ρ = x cos θ + y sin θ
θ
x
Figura 4.4: Parámetros ρ y θ que definen una recta utilizados en la transformada lineal de
Hough.
que definen los diferentes contornos, es asignar un nivel de gris diferente a cada grupo.
El método es aplicado moviendo una ventana (3 × 3 o 5 × 5) a través de toda la imagen,
aunque existen otros algoritmos conocidos como seguidores de bordes, que comienzan a
trabajar desde un punto con alta magnitud en el gradiente. En este caso, a partir del
punto inicial se va siguiendo el contorno y se va aplicando el criterio de agrupamiento
hasta cerrar los bordes [190].
Transformada de Hough. La transformada de Hough es un método para el
reconocimiento de lı́neas rectas y curvas [47, 120, 90, 152, 159]. La estrategia consiste
en expresar la lı́nea a reconocer mediante una expresión del tipo: g(~x, ~c) = 0. Donde
~x = (x, y) representa las coordenadas de la imagen, y ~c son las coordenadas en el espacio
de la transformación o espacio de parámetros. En el caso de una recta la transformación
se define mediante
(x − cx )2 + (y − cy )2 = R2 (4.11)
En este apartado vamos a ver técnicas de segmentación que obtienen las regiones de una
forma directa. Existen tres aproximaciones fundamentales: agrupamiento en espacio de
caracterı́sticas, crecimiento de regiones y división y unión.
Agrupamiento en espacio caracterı́sticas. Mediante este procedimiento, por cada
punto de la imagen se extrae una serie de caracterı́sticas, como su posición (i, j),
su intensidad f (i, j), el gradiente y su dirección, formando un patrón o vector
de caracterı́sticas. A continuación se realiza un agrupamiento sobre el espacio de
caracterı́sticas buscando los grupos naturales, aplicando alguna de las múltiples técnicas
de agrupamiento que existen [54]. Cada grupo detectado se corresponderá a un segmento,
que normalmente deberá ser mejorado aplicando técnicas de relleno, crecimiento o división
de segmentos [97].
Crecimiento de regiones. Es un procedimiento mediante el cual se agrupan puntos
o subregiones para formar nuevas regiones mayores. La versión más sencilla consiste en
utilizar varios puntos semilla, a partir de los cuales se van agregando otros puntos para
formar regiones. Para agregar un punto en una región, se debe cumplir un cierto criterio
de similitud. Por ejemplo, un criterio posible consistirı́a en incluir un punto en una región
si la diferencia de intensidad, entre el punto y la “semilla” correspondiente a esa región,
no supera un cierto umbral. Este proceso se repite hasta que no haya más puntos que
satisfagan el criterio de similitud.
Dos aspectos crı́ticos en esta técnica son, la selección inicial de las semillas y del criterio
para incluir puntos. Una forma de selección de las semillas puede consistir en calcular
medidas de similitud sobre todos los puntos de una imagen y ver si aparecen agrupaciones
naturales. Los centroides de estos grupos se pueden utilizar como las “semillas” iniciales.
En cuanto al criterio utilizado, este debe caracterizar la región, para ello se pueden utilizar
158 Capı́tulo 4: Método de reconocimiento de objetos esféricos
descriptores de regiones como los citados en la sección [Link] que se verá posteriormente
(momentos de área, texturas, intensidades medias, coeficientes de un ajuste [8] ó curvaturas
[203]). Besl [14], ajusta superficies de orden variable a regiones para caracterizarlas,
definiendo de esta forma un criterio para realizar el crecimiento de regiones. Las semillas
se obtienen después de un proceso de etiquetado donde, usando la curvatura, se distinguen
entre ocho diferentes tipos de superficies. Najman [153], investiga técnicas de segmentación
basadas en la representación de la imagen como una superficie topográfica y utilizando
un vertido de agua sobre ella, determina los mı́nimos más significativos allı́ donde haya
mayor acumulación de agua. Otros trabajos utilizan “culebras” (snakes), que son curvas
continuas que desde un estado inicial ajustan dinámicamente su posición y forma hasta
que se establece un estado de equilibrio con los datos subyacentes en la imagen [171].
División y unión. En esta aproximación, se parte de una única región correspondiente a
la totalidad de la imagen. Se utiliza un criterio de similitud P para saber si una región es
homogénea, y por tanto, saber si no debe ser dividida. Aplicando el criterio de similitud
a una región R, si no se cumple dicho criterio, es decir P (R) = F also, entonces debemos
dividir la región de una forma arbitraria. Posteriormente, se realiza la unión de las regiones
que cumplen el criterio, es decir, si P (Ri ) ∪ P (Rj ) = V erdadero. El proceso anterior se
repite iterativamente, hasta que el algoritmo se detiene cuando no es posible realizar más
uniones o divisiones.
El proceso de división de una región a varias es problemático, puesto que hay que definir
como realizarla. Evidentemente, existen infinitas formas de dividir una región en varias.
Una posibilidad consiste en dividir la región de una manera regular, por ejemplo, partiendo
la región en cuatro secciones cuadradas. En la figura 4.5 se puede ver un ejemplo del proceso
de división y unión, utilizando divisiones uniformes mediante cuadrados.
(
1 si f (x, y, ti ) − f (x, y, tj ) > U mbral
di,j (x, y) = (4.16)
0 en otro caso
Otro método consiste en generar una imagen de diferencias acumulativas. Basta capturar
una secuencia de imágenes y restarlas respecto a una imagen referencia ([Link]. la primera de
la secuencia), acumulando las diferencias resultantes. En el momento que el objeto móvil
sale del área ocupada inicialmente, se obtiene una segmentación perfecta del objeto móvil.
4.1 Técnicas principales de análisis de imágenes 159
a) b)
c) d)
Figura 4.5: Segmentación mediante división y unión: a) partición inicial, b) y c) las regiones
que cumplen la propiedad de homogeneidad P se marcan con blanco o gris oscuro. Si no
se cumple se realizan mas subdivisiones, d) imagen final segmentada.
.
0
2 0
1 3
2 2 2 2 3
Figura 4.6: Generación del código cadena mediante la subdivisión del contorno en
segmentos.
abajo con un 3. Para generar un código cadena (fig. 4.6), se recorre el contorno hasta que
nos desplazamos una determinada longitud. Se conecta, mediante un segmento recto, el
punto final alcanzado con el de partida y se extrae su código cadena al elegir aquel con
la dirección más próxima a la del segmento obtenido. Este proceso se repite hasta que se
alcanza de nuevo el punto de partida, con lo cual se completa la descripción del contorno
cerrado.
El código cadena que se obtiene no depende de la posición del objeto en la imagen, pero
depende del punto de comienzo de la descripción, de la orientación del objeto y de su
tamaño. Para normalizar la descripción en cuanto al punto de inicio, se suele redefinir
este punto de tal forma que el número entero que representa el código cadena tenga una
magnitud mı́nima. El código cadena también es sensible a rotaciones, por ello, en vez de
utilizar el código en sı́, se puede utilizar la diferencia entre los códigos. Esta diferencia
se calcula contando ([Link]. en dirección horaria) el número de direcciones que separan
dos códigos adyacentes. La normalización del tamaño puede ser obtenida subdividiendo el
contorno de todos los objetos en un número constante de segmentos y por tanto obteniendo
siempre códigos cadena de la misma longitud.
Integrando estos criterios de normalización, el número forma se define como la primera
diferencia, obtenida a partir de una descripción con códigos cadena, con menor magnitud.
Su orden n indica el número de dı́gitos empleados para su representación.
Descripción de contornos mediante firmas. Una firma es una representación de un
contorno mediante una función unidimensional. Una de las firmas más sencillas se obtiene
al calcular el centro de un contorno, y tomando este punto como referencia, representar
la distancia r entre el centroide y un punto del contorno en función del ángulo de barrido
θ. La firma obtenida es la función unidimensional r(θ) que depende del punto de partida
y del tamaño del contorno. La invarianza respecto al tamaño se consigue, por ejemplo,
normalizando la función para que tenga un valor máximo determinado. La invarianza ante
el punto de partida, se consigue aplicando una estrategia similar a la utilizada para el
código cadena.
La representación del ángulo, φ, existente entre la tangente a la curva en un punto y
4.1 Técnicas principales de análisis de imágenes 161
b.1) b.2)
b.3) b.4)
a) b)
Área. El área de una región se define como el número de puntos que contiene.
Utilizando la definición de momento de área, tenemos que área = m00 .
Excentricidad. Es la relación entre las longitudes de los ejes mayor y menor del área.
N
X
µn = (i − m)n h(i) (4.19)
i=0
P
Momento de diferencia inverso: ( i,j Cij )/(i − j)n
P
Entropia: − i,j Cij log Cij
P 2
Uniformidad: i,j Cij
Por otro lado las propuestas estructurales, consideran que una simple primitiva de textura,
puede ser utilizada para formar patrones más complejos, mediante la aplicación de una
serie de reglas de generación de patrones. Mediante técnicas de reconocimiento estructural
de patrones, se pueden detectar las primitivas y en función de la estructura en la que
estén dispuestas, se puede determinar la clase de patrón al que pertenece una región de la
imagen.
Descripción de regiones mediante esqueletos. Una manera de representar la forma
estructural de una región, es mediante esqueletos, que se obtienen aplicando algoritmos
de adelgazamiento a dicha región. El algoritmo propuesto por Blum, se conoce como
transformación de eje medio (MAT-Medial Axis Transformation). Consiste en representar
la estructura básica de la región mediante ejes. Para obtener los ejes se recorren todos los
puntos de la región, y por cada uno de ellos se comprueba si existen dos puntos del contorno
de la región que están a la misma distancia del punto que actualmente se está visitando.
Si la condición anterior se cumple, entonces ese punto visitado pertenece al eje medio. Sin
embargo, este algoritmo es prohibitivo desde un punto de vista de eficacia computacional.
Existen algoritmos más eficaces, como el propuesto por Naccache en 1984. Utiliza un
conjunto de 4 máscaras de tamaño 3 × 3, con las cuales determina si un punto interior a
una región no tiene caracterı́sticas de esqueleto, con lo cual debe ser marcado. Una vez
aplicado el algoritmo iterativamente por todos los puntos de la imagen, los marcados se
eliminan y los restantes constituyen el esqueleto de la región bajo análisis.
Descripción de regiones por momentos invariantes. Existen unos descriptores que
son invariantes a cambios en el tamaño, orientación y translación de la región segmentada
en la imagen, a estos momentos se les conoce como momentos invariantes. Para obtener
su expresión de una forma abreviada, se suelen definir en función de otros momentos no
invariantes como el momento central µpq (ec. 4.20) y momento central normalizado ηpq
(ec. 4.21).
XX
µpq = (x − x̄)p (y − ȳ)q f (x, y) (4.20)
x y
(p+q)/2+1
ηpq = µpq /µ00 (4.21)
De esta forma, se definen los siguientes momentos invariantes:
φ1 = η20 + η02 (4.22)
φ2 = (η20 − η02 )2 + 4η11
2
(4.23)
φ3 = (η30 − 3η12 )2 + (3η21 − η03 )2 (4.24)
φ4 = (η30 + η12 )2 + (η21 + η03 )2 (4.25)
4.1 Técnicas principales de análisis de imágenes 165
xu
xv dx
∂x
xu =
∂u
∂x
x ( u, v ) xv =
∂v
x (u + du, v + dv ) ( u, v )
(u + du, v + dv )
Figura 4.8: Representación de los componentes que definen la normal a una superficie.
−d~xd~n
knormal = (4.27)
k d~x k2
Reducción de
dimensionalidad
Vector de
Entorno Objeto Descripción características Reconocimiento Clase
Segmentación (extracción de (clasificación)
características) Espacio de Espacio de
características clasificación
o patrones (Dim. N) (Dim. K)
Debe haber una pequeña varianza dentro de cada clase Sk y la separación entre
clases diferentes debe ser lo mayor posible. Es decir, los vectores de la misma clase
deben ser muy parecidos y los que corresponden a clases diferentes deben ser lo más
distintos que se pueda.
Las caracterı́sticas utilizadas para formar el espacio de patrones, deben ser insensibles
a cambios en el tamaño, la orientación o la posición del objeto a clasificar en la
imagen. Si esto no es ası́, las clases ocuparán un mayor volumen en el espacio
de patrones y la posibilidad de solapamiento entre clases crecerá, con lo cual el
desempeño del sistema se verá notablemente afectado.
4.1 Técnicas principales de análisis de imágenes 169
La dimensionalidad N del espacio de caracterı́sticas debe ser tan pequeña como sea
posible.
Una vez que el espacio de caracterı́sticas es el adecuado, y por tanto, las clases son
visiblemente discernibles, llega el momento de elegir las funciones de decisión adecuadas.
Existen muchos tipos de funciones discriminantes, pero todas ellas tratan de medir el
grado de similitud entre un vector ~x, que representa a un objeto desconocido, y una
clase de pertenencia Sk . La clase Sk suele constar de un conjunto de Mk muestras de
(k)
vectores ~ym , que corresponden a objetos conocidos (ya que se sabe que pertenecen a Sk )
utilizados para crear un modelo de la clase de pertenencia. La definición de las funciones
de decisión dependen del tipo de modelo utilizado para representar las clases. Existen
versiones deterministas, que asignan un vector como modelo representativo de una clase,
y versiones estadı́sticas, que trabajan con la probabilidad de que un vector pertenezca a
una clase determinada. Dentro de los modelos estadı́sticos, se suele hablar de clasificación
paramétrica (asume una determinada función de densidad de probabilidad y se estiman
sus parámetros) y no paramétrica (la función de densidad no es conocida). Sin embargo,
esta distinción puede llegar a ser un tanto engañosa puesto que tanto en los modelos
deterministas como en las dos versiones probabilı́sticas, se trabaja con parámetros.
Tanto en un caso determinista como en el probabilı́stico, la forma de obtener estos modelos
se puede hacer manualmente o mediante aprendizaje. En ambos casos, se habla de métodos
supervisados, puesto que debe haber un experto supervisando el proceso de formación del
modelo. Existen métodos de generación de modelos no supervisados, donde a priori, ni el
propio diseñador sabe cuantas clases existen y es el propio sistema de aprendizaje, el que
deduce las clases predominantes mediante técnicas de agrupamiento (clustering). Algunas
de las funciones de decisión más utilizadas en la literatura son las siguientes:
Los n vecinos más cercanos. Dada una observación ~x, decimos que pertenece a la
clase Sk , si los n vecinos más cercanos pertenecen en su mayorı́a a la clase Sk .
Para determinar el concepto de cercanı́a se puede utilizar la distancia euclı́dea. La
(k)
distancia entre un vector ~x y la muestra m de la clase Sk , se representa por d(~x, ~ym )
y se define ası́: v
uN
uX (k)
(k)
d(~x, ~ym ) = t (xi − ymi )2 (4.28)
i=1
~ k )Φ−1
gk (~x) = log(|Φk |) + (~x − µ k (~
x−µ
~ k) (4.29)
170 Capı́tulo 4: Método de reconocimiento de objetos esféricos
C4
0.5 C3
X1
0 0.5 1
Distancia media ponderada. Cada clase viene representada por un vector promedio
µ
~ k , que es utilizado para calcular la distancia con el vector del objeto desconocido ~x.
Sin embargo esta distancia está ponderada al tener en cuenta la desviación estándar
(k)
σi en cada componente del espacio de la clase. Esta distancia ponderada se expresa
en la ecuación 4.30. ( )
XN (k)
|xi − E(yi )|
d(~x, Sk ) = (k)
(4.30)
i=1 σi
Expansion Template Matching (EXM) [172]. Esta técnica está basada en aplicar
un filtro que optimiza una medida de similitud conocida como relación señal ruido
driscriminante (DSNR-Discriminant Signal to Noise Ratio). DSNR se define como
el cociente entre la respuesta a la plantilla centrada y la respuesta a cualquier
otra situación incluyendo un emparejamiento no centrado con la plantilla. De esta
forma la respuesta ideal buscada es un impulso en el centro de la plantilla, lo cual
diferencia esta técnica de la tradicional correlación que generaba máximos suavizados
172 Capı́tulo 4: Método de reconocimiento de objetos esféricos
Es de destacar que esta técnica de reconocimiento trabaja directamente sobre los datos
presentes en la imagen, y no requiere la habitual fase de descripción. A diferencia, existen
técnicas de comparación, que se verán en la sección de métodos estructurales, que trabajan
con conceptos y primitivas creados en la fase de descripción.
Las técnicas de comparación de plantillas utilizadas para averiguar la clase de un objeto
desconocido, que debe pertenece a un modelo dentro de una gran base de modelos, son
un caso más complejo debido a su alta explosión combinatoria. Sin embargo, constituyen
un método más flexible ya que, en teorı́a, posibilita almacenar un amplio rango de objetos
en su base de conocimiento, permitiendo realizar interpretaciones del entorno completas
y no restringiéndose a aplicaciones donde el número de objetos es muy limitado. Un
ejemplo significativo es el sistema de reconocimiento MULTI-HASH [115] donde se plantea
un proceso de generación de varias hipótesis y mediante una verificación posterior se
selecciona el candidato más probable. Para extraer las hipótesis iniciales se utiliza una
representación incompleta pero con un cómputo de comparación muy eficiente. Esto es
posible ya que se utiliza un conjunto de caracterı́sticas locales unidas mediante relaciones
y un almacenamiento en tablas HASH. En la fase de verificación, al trabajar con un
conjunto de hipótesis reducido, se aplica una comparación más completa mediante una
esfera de Gauss mejorada.
Clasificación mediante redes neuronales artificiales. Las redes neuronales artificiales
están inspiradas en la versión natural que la naturaleza ha proporcionado al cerebro de
los animales y del ser humano. Una red neuronal consta de un conjunto de unidades de
procesamiento muy sencillas, llamadas neuronas, que se conectan entre sı́. Se caracterizan
por el poder de cálculo masivamente paralelo, la capacidad de aprendizaje, la habilidad
de generalización y adaptabilidad, la tolerancia a fallos y la posibilidad de cómputo y
almacenamiento de los conocimientos de forma distribuida.
Una neurona se suele modelar constituida por varias entradas, un bloque de procesamiento
sencillo y de una salida. El modelo matemático de una neurona es muy sencillo (ec. 4.35
y fig. 4.11), realiza básicamente una suma ponderada de sus entradas y luego aplica una
función de activación g, que suele dar un valor binario que depende del resultado de la
4.1 Técnicas principales de análisis de imágenes 173
x1 Sumatorio
w1 Función de activación
x2 n 1
w2 Sigmoide
Pesos
Patrón
y
i=1 0
wn
u
xn
-1
suma. Las funciones de activación más usadas son la escalón, la lineal, la sigmoide y la
Gausiana.
N
X
y = g( wj xj − u) (4.35)
j=1
Las redes neuronales son agregados de neuronas que se suelen distribuir formando una
capa de entrada, otra de salida y opcionalmente otras capas intermedias. Dependiendo de
la manera en que se interconecten las neuronas entre las diferentes capas, se distinguen dos
tipos de arquitecturas: lazo abierto (no hay lazos y las conexiones van de las capas de la
entrada hacia las de salida), y recurrentes (existen realimentaciones). La caracterı́stica más
importante de las redes neuronales radica en la capacidad de aprendizaje. El aprendizaje
se puede ver como el mecanismo mediante el cual los pesos wj de cada neurona se
van actualizando, hasta que finalmente la red es capaz de realizar la tarea para la cual
estaba diseñada. Entre los algoritmos de aprendizaje más comunes están los siguientes:
perceptrón, propagación hacia atrás, Boltzman, regla de Hebb y métodos competitivos
como LVQ y Kohonen.
Las redes neuronales se pueden aplicar al reconocimiento o clasificación de patrones, de
una forma similar a como trabajaban las funciones discriminantes vistas anteriormente.
Si suministramos como entrada de una red neuronal un vector de caracterı́sticas
representando un objeto, y esta red consta de tantas neuronas en la última capa como
clases posibles, estas redes se suelen entrenar para que una única neurona de la última
capa se active, indicando la clase a la que corresponde el patrón desconocido. Por tanto,
una red neuronal puede trabajar como un clasificador tradicional, y análogamente, trabaja
dividiendo el espacio de caracterı́sticas en subvolúmenes disjuntos, asociando a cada uno
de ellos una clase.
Las redes neuronales se aplican como clasificadores en muchos campos [107]. Debido a
la propiedad de autoaprendizaje o aprendizaje no supervisado, también se aplican en
problemas de agrupamiento (clustering). Otras áreas donde son de utilidad incluyen la
aproximación de funciones, la predicción de variables, la optimización, el filtrado, el diseño
de memorias direccionables por contenido y la teorı́a de control.
174 Capı́tulo 4: Método de reconocimiento de objetos esféricos
Análisis sintáctico. Cuando los objetos a describir son complejos, no es adecuado realizar
una correspondencia directa entre las descripciones simbólicas como vimos anteriormente,
pues pequeñas diferencias entre objetos de la misma clase, generarán medidas de similitud
muy bajas y el reconocimiento será fallido. En este caso, el proceso de análisis adecuado
es el jerárquico, mediante el cual subpatrones de primitivas se agrupan en primitivas de
mayor nivel de abstracción, y estas a su vez se agrupan en otras de mayor nivel. Finalmente,
se representa el objeto mediante una sola primitiva de alto nivel que es la etiqueta o el
nombre del objeto reconocido. Este análisis jerárquico se realiza mediante los conocidos
métodos sintácticos.
La estructura de un sistema de reconocimiento de patrones sintáctico se puede ver en la
figura 4.12. Se pueden observar dos fases diferenciadas: diseño y reconocimiento. En la
fase de diseño se seleccionan las primitivas que se van a utilizar y el conjunto de reglas
que definen los objetos válidos. En la fase de reconocimiento, se comienza identificando
las primitivas que describen al objeto, las cuales son suficientemente simples como para
poderse reconocer mediante algoritmos sencillos. Posteriormente se realiza un análisis
sintáctico del patrón de primitivas, determinándose si es sintácticamente correcto con
respecto a una serie de gramáticas, y por tanto reconociendo el objeto. Como consecuencia
4.1 Técnicas principales de análisis de imágenes 175
Diseño
Objetos en mente
para reconocer Selección de
Inferencia
las
Gramatical
primitivas
del análisis, se genera una descripción estructural del objeto, normalmente, en forma de
árbol, mediante el cual se aprecia el proceso de razonamiento seguido para deducir la clase
a la que pertenece el objeto.
En la figura 4.13 se puede ver una imagen compuesta por dos objetos (un cuadrado
y un rectángulo). Después de un reconocimiento de primitivas, se asignan los sı́mbolos
“a” y “b” en las apariciones de segmentos rectos y curvos respectivamente. De toda la
imagen, obtenemos un vector de sı́mbolos (hojas del árbol), a partir del cual y mediante
abstracciones sucesivas se realiza el reconocimiento de los objetos en la imagen. Las reglas
aplicadas y presentes en la gramática indican que un rectángulo se compone de una esquina
(“b”) seguida de un lado, repetido cuatro veces, y además los lados opuestos deben tener
igual longitud. Un lado consta de un segmento recto (“a”) o de varios encadenados. Y un
cuadrado es un rectángulo con todos los lados iguales.
Cada gramática, mediante un conjunto de reglas, expresa una clase de objetos válidos
o reconocibles, y también el proceso lógico mediante el cual se pasa de las primitivas
elementales a la etiqueta final. Para aplicar este análisis en el problema de reconocimiento,
se deben utilizar tantas gramáticas como objetos válidos consideremos. Cada gramática
representa el conjunto posible de patrones simbólicos aceptables que serán interpretados
como un objeto determinado.
Formalmente las gramáticas se definen como una 4-tupla G = (Vn , Vt , P, S), donde Vn
son elementos no terminales (denotados por A, B, . . . ), Vt son las primitivas o elementos
terminales (denotados por a, b, . . .), P son las reglas y S es el sı́mbolo final o etiqueta
del objeto a reconocer. En función de el tipo de las reglas permitidas se distingue entre
diferentes gramáticas:
Gramáticas regulares o de estados finitos. Las reglas siempre son de estas dos posibles
formas: A → aB y A → b. Tienen la ventaja de que el algoritmo de análisis de
176 Capı́tulo 4: Método de reconocimiento de objetos esféricos
b a b b a a b
a Cuadrado a a Rectangulo a
b a b b a a b
Imagen
Cuadrado Rectangulo
esq lado(1) esq lado(1) esq lado(1) esq lado(1) esq lado(1) esq lado(2) esq lado(1) esq lado(2)
b a b a b a b a b a b a a b a b a a
los patrones puede ser realizado mediante un sencillo autómata de estados finitos,
aunque la expresividad del lenguaje es limitada.
Hemos revisado en los apartados anteriores los fundamentos y las técnicas de análisis
más extendidas en la visión artificial. El proceso tradicional se divide en las etapas de
segmentación, descripción de cada uno de los segmentos, y finalmente, en base a esos
descriptores, se realiza una clasificación o reconocimiento asignando una etiqueta y unos
parámetros a los objetos detectados. Estas estrategias funcionan bastante bien cuando
las imágenes y los objetos a reconocer son bastante ideales. Sin embargo, en un caso real
como es el que pretende resolver esta tesis, es frecuente encontrarse con situaciones en las
que la captación tiene un alto contenido de ruido, la escena no está apenas estructurada
y aparecen problemas de oclusiones parciales de los objetos. Bajo estas condiciones la
primera etapa del proceso de reconocimiento, que busca obtener segmentaciones ideales,
se hace muy compleja ya que tiende a aparecer una segmentación excesiva caracterizada
porque un objeto no viene representado por un segmento, sino que aparecen múltiples,
con lo cual se requiere aplicar otras estrategias que agrupando diversos segmentos y
almacenando las relaciones entre ellos, traten de determinar la presencia del objeto u
objetos buscados. Existen soluciones parciales a esta problemática, pero en ningún caso
de tipo general, y a consta de incrementar enormemente la complejidad de los algoritmos.
Otro método más directo que es especialmente interesante cuando el universo de objetos a
buscar es reducido, es el emparejamiento de plantillas. En nuestro caso, donde se pretende
realizar un sistema de reconocimiento de objetos cuasi-esféricos para reconocer, entre
otras aplicaciones, objetos tales como fruta, basta crear un modelo de objeto esférico
4.2 Estrategia de reconocimiento propuesta 177
0.4
0.2
−0.2
−0.4
−0.6
50
40 50
30 40
20 30
20
10 10
0 0
Figura 4.14: Fitro diseñado para detectar esferas aplicando la técnica EXM.
e irlo desplazando por la imagen hasta que se detecte un alto grado de correlación. En
un caso general, la búsqueda del emparejamiento con el modelo habrı́a que hacerlo para
diferentes tamaños y diferentes orientaciones de este. Sin embargo, en nuestro caso al haber
simetrı́a esférica, no se requiere realizar la búsqueda realizando cambios en la orientación,
y solo se necesita variar el radio del modelo. Esto hace que el método de reconocimiento
por emparejamiento con una esfera sea muy directo e incluso eficiente. A pesar de estos
aspectos positivos, también existen otros factores que degradan los resultados obtenibles
idealmente, como son la oclusión de los objetos buscados y la presencia de objetos diferentes
al buscado pero con un conjunto de caracterı́sticas que generan respuestas ante una
correlación similares a las del objeto buscado. Llamaremos a estos objetos seudosimilares,
ya que dan una respuesta similar al aplicar un reconocimiento basado en emparejamiento
de plantillas, a pesar de diferir del objeto buscado. Como consecuencia una detección
de picos en los mapas de correlación puede generar muchos errores de interpretación al
detectarse tanto los objetos buscados como los seudosimilares.
Para ilustrar lo que acabamos de exponer vamos a realizar unos ensayos de correlación
de un conjunto de imágenes de prueba conteniendo esferas y objetos seudosimilares a
estas ([Link] discos u hojas). Aplicaremos dos de las técnicas de emparejamiento vistas
anteriormente en este capı́tulo: correlación y filtrado EXM. A partir de un modelo de
objeto esférico hemos creado una plantilla esférica de 21/2 dimensiones para realizar la
correlación, y esta misma plantilla la hemos utilizado para diseñar el filtro mostrado en la
figura 4.14 para realizar el filtrado EXM.
Las imágenes de prueba utilizadas se muestran en la columna de la izquierda de la figura
4.15 y son: 1) una esfera aislada, 2) la misma esfera semiocluı́da por una plancha, 3) la
imagen anterior con la adición de un objeto seudosimilar a una esfera, y 4) una escena de
un naranjo conteniendo un fondo de hojas y dos naranjas, una de ellas muy visible y la
otra parcialmente ocluida. Según los resultados de aplicar la correlación y el filtrado EXM
sobre las imágenes (columna central y derecha de la figura 4.15 respectivamente) podemos
obtener las siguientes conclusiones:
La respuesta del filtro EXM ante el patrón buscado es mucho más impulsiva que en
el caso de la correlación, como la teorı́a predice [172].
178 Capı́tulo 4: Método de reconocimiento de objetos esféricos
Objetos como una hoja o un disco plano con un contorno de curvatura similar a
la del objeto buscado son fuertemente seudosimilares a una esfera, tanto para una
correlación como para el filtrado EXM, lo cual se puede ver claramente en la tercera
imagen de prueba.
Las zonas discriminantes de una esfera son los contornos o los bordes, y es
precisamente aquı́ donde el filtro EXM centra su atención como puede verse en
la forma del propio filtro (fig. 4.14). En el centro el valor del filtro es próximo a cero,
por tanto solamente se realiza una convolución efectiva en busca del emparejamiento
correcto justo en los contornos de la esfera. Este aspecto permite definir cuales son los
objetos seudosimilares de una esfera aplicando EXM: “cualquier objeto con contorno
curvo de igual radio que la esfera y separado del fondo”. Se puede dar el caso de
que estos objetos den más respuesta que la propia esfera si la separación del objeto
pseudosimilar del fondo es mayor que la separación de la esfera con dicho fondo.
Cuando una persona observa una imagen donde aparecen objetos que son conocidos y no
existen dificultades provocadas por escasez de iluminación o oclusiones, el reconocimiento
de estos objetos se hace de una forma inmediata. No somos conscientes de haber realizando
ningún esfuerzo explı́cito para percibir una escena de este tipo. El análisis se realiza
mediante un procesamiento y transmisión de señales electro-quı́micas a un nivel neuronal
y finalmente cerebral. Sin embargo, cuando las escenas observadas son más complejas no es
posible realizar una interpretación automática y el ser humano recurre a otras estrategias.
Este análisis requiere un periodo temporal perceptible, durante el cual la persona es
consciente de estar realizando un análisis mental para determinar el tipo de objeto que tiene
ante sı́. Este estudio es un proceso de análisis de caracterı́sticas, generación de hipótesis,
180 Capı́tulo 4: Método de reconocimiento de objetos esféricos
1. Generación de primitivas.
Contorno p&I1
Reflectividad p&I4
El nombre que reciben explican por un lado la extensión espacial de estas, denominando
primitivas puntuales a aquellos puntos de la imagen que de forma individual tienen
unas ciertas propiedades que las hacen discriminantes; por primitivas regionales nos
referimos a aquellos grupos de puntos conexos que de forma conjunta cumplen otra serie de
propiedades discriminantes. Por otro lado las denominaciones de contorno, corona, convexo
y reflectividad indican la propiedad fundamental que deben cumplir los puntos o regiones
para ser considerados como primitivas aceptables. Las primitivas puntuales contorno y
corona son puntos que pertenecen a arcos circulares sobre el contorno y corona de una
esfera, respectivamente. Las primitivas regionales convexas y reflectividad son regiones o
4.3 Definición y generación de primitivas 183
grupos de puntos que tienen curvatura de tipo convexa y reflectividades medias propias
de la superficie del objeto buscado, respectivamente.
El hecho de elegir este tipo de primitivas se justifica por los problemas de oclusión parcial
que existe en los ambientes poco estructurados como los agrı́colas. En una escena tı́pica de
un árbol frutal existen múltiples tipos de oclusión que afectan a la visibilidad de la fruta (p.
ej. la creada por las hojas, por otros frutos o por ramas), todas ellas causando la reducción
de la superficie visible de la fruta o la partición en varios segmentos de esta. Debido a que
estas regiones visibles pueden corresponder tanto a zonas periféricas como interiores del
fruto, las primitivas a definir van a tratar de captar propiedades discriminantes del objeto
en diferentes puntos de su superficie, con el objetivo de que la oclusión parcial afecte lo
mı́nimo posible. Por ello las primitivas contorno, que captan solo los bordes o el perfil
de la esfera, serán apropiadas cuando la superficie central de la esfera este oculta pero
no lo esté una sección de su contorno. Igualmente, pero en un anillo más interior que las
primitivas contorno, las primitivas corona generarán indicios de esfericidad cuando no sea
visible ni el borde ni el centro de la esfera, pero sı́ lo sea una corona sobre su superficie. En el
caso de las primitivas regionales se centrará la atención en las áreas interiores de la esfera,
captando la curvatura propia de una esfera mediante las primitivas convexidad o bien
captando propiedades ópticas propias del objeto buscado lo cual se hace con las primitivas
reflectividad. En definitiva se han contemplado estas cuatro primitivas por considerarse
suficientemente significativas y complementarias entre sı́ como para permitir la detección
de objetos esféricos ante diferentes configuraciones de visibilidad.
A modo ilustrativo, y para presentar gráficamente lo que entendemos por cada tipo de
primitiva, en la figura 4.17 adelantamos los resultados de la extracción de los cuatro tipos
de primitivas. Hemos elegido una escena (fig. 4.17a) que contiene dos naranjas y un fondo
de hojas y ramas. Las correspondientes imágenes de distancia y reflectancia se muestran
en las figuras 4.17b y 4.17c. En la figura 4.17d vemos las primitivas puntuales contorno
que están agrupadas delimitando los bordes de los dos objetos esféricos. En la figura 4.17e
vemos las correspondientes primitivas corona que se agrupan formando semiarcos de radio
siempre menor que los formados por las primitivas contorno. Las figuras 4.17f y 4.17g
muestran las primitivas regionales convexas y reflectividad que han sido derivadas por ser
regiones con adecuada convexidad y adecuada reflectividad, respectivamente. En el caso
de la escena captada, las imágenes de distancia y reflectancia obtenidas son lo bastante
ideales como para que se generen indicios claros en cada una de las primitivas, con lo
cual el proceso de detección será redundante, siendo esto importante para dar robustez al
sistema.
El proceso de reconocimiento que presentamos es esencialmente una estrategia modular ya
que permite la utilización del número de primitivas que se estimen oportunas. Esto quiere
decir que incluso utilizando solamente una de ellas, se podrı́a seguir generando indicios
suficientes para conseguir la detección de los objetos. Sin embargo, en este caso, en el
momento de que por algún motivo no seamos capaces de captar dichas primitivas sobre el
objeto, el reconocimiento no será posible al no generarse ningún indicio. Es por ello que
se hace necesario la utilización de diferentes primitivas que sean complementarias entre
184 Capı́tulo 4: Método de reconocimiento de objetos esféricos
a) b) c)
d) e) f) g)
Figura 4.17: Ejemplo de extracción de primitivas: (a) escena fotografiada, (b) mapa de
distancias, (c) mapa de reflectancia, (d) primitivas puntuales contorno, (e) primitivas
corona, (f) primitivas regionales convexas, y (g) primitivas reflectividad.
sı́, para permitir seguir generando indicios incluso en el caso de que alguna de las otras
primitivas no se pongan de manifiesto.
En el caso que queramos reconocer objetos diferentes a una esfera, la estrategia general de
reconocimiento propuesta seguirı́a siendo aplicable. Sin embargo, las primitivas utilizadas
no tendrı́an por qué ser las mismas, tanto en su concepto o semántica como en el aspecto
cuantitativo.
En los siguientes apartados pasamos a describir en detalle todos los aspectos contemplados
en el planteamiento y diseño de cada una de las cuatro primitivas empleadas.
El contorno de una esfera es un anillo del mismo radio que esta. En el caso que
dicha esfera esté parcialmente oculta, el resultado de la extracción de su contorno es
un semiarco circular. La obtención de este tipo de semiarcos es, sin duda, un claro
indicio, que convenientemente tratado genera una clara evidencia de presencia de objetos
esféricos. Cada uno de los puntos de estos semiarcos, son unidades básicas que generan la
información local que permite detectar las esferas que los originan. Estas unidades básicas
son las primitivas que pretendemos extraer y que hemos denominado primitivas puntuales
contorno.
Hay que destacar que estas primitivas no son simplemente los puntos activos tras una etapa
de extracción de contornos tradicional ([Link]. Sobel o Canny). Lo que pretendemos realizar
al extraer esta primitiva es obtener un subconjunto de los puntos contorno extraı́dos
aplicando los métodos tradicionales. Este subconjunto de puntos incluye aquellos generados
4.3 Definición y generación de primitivas 185
por objetos esféricos (o discontinuidades que a uno de sus lados pertenecen a una región
convexa), pero excluye el resto de contornos que generan otro tipo de objetos.
La clara ventaja al trabajar con las primitivas contorno, en lugar de imágenes obtenidas
tras aplicar una extracción de bordes clásica, radica en que la imagen de primitivas
contorno es mucho más limpia al no contener los bordes correspondientes a otro tipo
de objetos. Por tanto los arcos circulares se pueden apreciar de una forma mucho más
clara y consecuentemente su detección se simplifica notablemente.
La ventaja de la extracción de las primitivas contorno se pone aún más claramente de
manifiesto al considerar las escenas naturales agrı́colas conteniendo frutos y hojas como
fondo. Bajo estas circunstancias, una técnica de detección de bordes tradicional extrae
una gran cantidad de arcos semicirculares, unos que corresponden a los frutos (arcos
deseables) y otros generados por las hojas, que también tienen contornos circulares (arcos
indeseables). Una posterior etapa de detección de arcos circulares, provocarı́a la generación
de falsas evidencias allı́ donde se detecten arcos generados por presencia de hojas. Esto
significa que bajo estas condiciones se hace absolutamente imprescindible una técnica de
extracción de contornos selectiva como la que vamos a presentar ahora.
Para ilustrar el fenómeno de como una técnica clásica de extracción de bordes no discrimina
entre los diferentes tipos de contornos, y sin embargo las primitivas contorno captan el
subconjunto de los bordes que corresponden a “discontinuidades esféricas”, obsérvese la
figura 4.18 donde se muestra ambos procesamientos aplicados a imágenes sintéticas. En
la columna de la izquierda de la figura 4.18, aparece en la parte superior una imagen de
distancias donde se ha incluido una esfera y un disco plano. Ambos objetos se encuentran
parcialmente ocluidos por una plancha que los cubre, pudiéndose visualizar el 50 % de
ellos. La esfera viene a representar un fruto parcialmente oculto y el disco plano podrı́a
representar una posible hoja de un árbol. Adicionalmente, la imagen sintética contiene
una zona escalonada y una marca cuadrada que no es posible apreciar en la imagen de
distancias pero sı́ en la de reflectancias, que se muestra debajo de la correspondiente imagen
de distancias. Al aplicar un filtro de Sobel sobre cada una de las imágenes, obtenemos los
bordes que se muestran en la columna central. Es posible apreciar que no hay ninguna
discriminación en su extracción y los semiarcos correspondientes a los bordes de la esfera
y del disco generan indicios de circularidad del mismo orden. Sin embargo, aplicando la
técnica de extracción de primitivas contorno que describiremos en breve, obtenemos una
discriminación entre los diferentes tipos de bordes existentes y por tanto sólo mantenemos
los puntos del contorno que provienen de “discontinuidades esféricas” (columna derecha).
Para obtener nuestro objetivo debemos realizar un sistema de clasificación de bordes. En la
literatura se pueden encontrar diversos trabajos que contemplan la clasificación de bordes
en clases como: salto, cresta y rampa. Los primeros tipos pueden ser detectados aplicando
operadores generales de detección de bordes o métodos basados en los residuos entre la
imagen original y su versión suavizada [2] ó ajustada mediante un polinomio [118]. Otros
clasificadores utilizan operadores morfológicos aunque solamente sirven para detectar una,
o a lo sumo, dos clases de bordes. Las técnicas basadas en la covarianza permiten obtener
descriptores de forma invariantes a movimientos y permiten detectar bordes salto y cresta
186 Capı́tulo 4: Método de reconocimiento de objetos esféricos
[12, 81], al igual que utilizando técnicas basadas en momentos de Zernike [63]. Aplicando
la técnica conocida por aproximación de lı́nea de barrido (Scan Line Aproximation) se
ha podido clasificar entre saltos y bordes cresta [104] aunque los resultados son bastante
sensibles al ruido.
En trabajos de Nadabar [150] y Zhang-Wallace [220] se presenta una clasificación de
bordes utilizando la integración de imágenes en distancia e intensidad. Este último
plantea clasificar siete tipos de bordes incluyendo bordes esféricos (equivalentes a nuestras
primitivas contorno), pero finalmente solo se clasifican: saltos, crestas, marcas y no bordes.
Se renuncia a clasificar los bordes esféricos (que ellos llaman Extremal ) por ser muy
similares a los bordes salto. El procedimiento utilizado consta de dos etapas:
Otros trabajos que utilizan imágenes de distancia para clasificar bordes son los de Wani
[212] y Mintz [141]; sin embargo en ambos casos la clasificación se reduce a dos tipos de
bordes, saltos y crestas. Lo mismo ocurre con el trabajo de Gil [64] donde se combinan los
bordes del mapa de distancia e intensidades utilizando operaciones “Y” lógicas locales y
globales.
Como vemos en ninguno de los trabajos revisados se clasifican bordes de tipo esférico, que
4.3 Definición y generación de primitivas 187
Borde
Esférico -- SI SI --
(primitiva
contorno)
Borde SI --
NO --
Cresta
Borde
NO NO -- SI
Marca
Otros
bordes -- SI NO --
Punto
Suave NO NO -- NO
de otros bordes incluimos el resto de posibles tipos de bordes presentes en una escena.
Son por tanto los puntos que presentan discontinuidad en el mapa de distancias pero
que no encajan en ninguna de las categorı́as anteriores. Finalmente, los puntos suaves
corresponden a regiones con continuidad o suavidad en la imagen de distancias y que
además no presentan marcas, no apareciendo por tanto discontinuidades en el mapa de
reflectancia.
Analizando las propiedades que acabamos de utilizar para describir los diferentes tipos
de puntos, hemos propuesto un conjunto de cuatro parámetros que nos va a permitir
discriminar entre ellos, y por tanto, clasificar cada punto de la imagen de una forma
muy directa al aplicar funciones discriminantes lineales y cuadráticas sobre un espacio de
caracterı́sticas de cuatro dimensiones. Este conjunto de parámetros contiene la pendiente
en el mapa de distancias mD, la curvatura media en distancias Km , la pendiente en
reflectancias m< y el diferencial de pendientes en reflectancias dm<.
[Link]. Caracterı́sticas
donde
2Di,j+1 + Di−1,j+1 + Di+1,j+1 − (2Di,j−1 + Di−1,j−1 + Di+1,j−1 )
mDx =
8·s
2Di+1,j + Di+1,j−1 + Di+1,j+1 − (2Di−1,j + Di−1,j−1 + Di−1,j+1 )
mDy =
8·s
2<i,j+1 + <i−1,j+1 + <i+1,j+1 − (2<i,j−1 + <i−1,j−1 + <i+1,j−1 )
m<x =
8·s
2<i+1,j + <i+1,j−1 + <i+1,j+1 − (2<i−1,j + <i−1,j−1 + <i−1,j+1 )
m<y = (4.37)
8·s
Hay que resaltar que en el cómputo de estas pendientes se considera la resolución espacial
s de la imagen capturada, indicando los milı́metros de separación entre cada pareja de
puntos contiguos. Este factor, por tanto, contribuye a que los parámetros aquı́ definidos
sean invariantes a posibles cambios en la resolución de la imagen, y a hacer que la pendiente
calculada sea adimensional.
Para ver las variaciones locales en el mapa de reflectancia dm< nos apoyamos en la
información que nos da el mapa de distancia para detectar las direcciones de los gradientes.
4.3 Definición y generación de primitivas 189
dm< = gradl3 l2
seccion − gradseccion (4.40)
bastantes sofisticadas de lo que se entiende por curvatura [15], sin embargo, una buena
definición de este concepto se puede obtener utilizando el concepto de curvatura K(p, q)
para una pareja (p, q) de puntos [82]. Dados los vectores unitarios, n~p y n~q , normales a
una superficie en los puntos p y q, definimos la curvatura K(p, q) como la razón entre las
distancias de sus cabezas y sus orı́genes. La siguiente ecuación expresa este concepto de
una manera formal:
kn~p − n~q k
K(p, q) = · s(p, q) (4.41)
k~p − ~qk
( k(~
p+n~ )−(~
q +n~ k
p q
1 k~
p−~
qk >1
s(p, q) = (4.42)
−1 caso contrario
Pn
i=1 K(p, q(i))
Km (p) = (4.43)
n
√
Si una circunferencia de radio R obedece al modelo y = R2 − x2 , tenemos que la
pendiente en cada punto de una esfera viene dada por:
p
mD|esf era = dy/dx|esf era = x/ R2 − x2 (4.44)
h = x/R (4.45)
siendo x la distancia entre el centro de la esfera y la proyección sobre el eje de abcisas del
punto bajo estudio situado sobre la esfera.
De esta forma podemos definir mD|esf era en términos de h de la siguiente manera
p
mD|esf era (h) = h/ 1 − h2 (4.46)
Ası́, el valor de h que corresponde a un punto con proyección x que difiere de R en una
distancia igual al paso entre puntos viene dado por
x R−1·s
hu mD = = (4.47)
R R
y por tanto el umbral correspondiente u mD, que se utilizará para realizar la clasificación
de puntos, viene dado por
hu mD
u mD = mD|esf era (hu mD ) =q (4.48)
1 − h2u mD
En relación al cálculo del umbral u dm<, si consideramos el modelo de una esfera, podemos
deducir que el ángulo θ que formarı́a un supuesto haz láser con respecto a la normal de la
superficie esférica sobre la que incide, viene dado por
192 Capı́tulo 4: Método de reconocimiento de objetos esféricos
−x
θ = arctan(dy/dx) = arctan( √ ) (4.50)
R2 − x2
d<
m<|esf era (x) = |esf era =
dx ³ ´
2x 2x3
80,9 −0,5 R2 −x2
+ (R2 −x2 )2
³ √ ´ ³ ´1,5 = ...
ln(10) · cos tan−1 (x/ R2 − x2 ) 1+ x2
R2 −x2
80,9 x
(4.52)
ln(10) x − R2
2
−80,9 h
m<|esf era (h) = (4.53)
ln(10) R · (1 − h2 )
x R−2·s
hu dm< = = (4.54)
R R
a) D
R x=R-1*s
Concavidad o
b) valle de
reflectancia
x=R-2*s
Figura 4.20: Puntos crı́ticos sobre una esfera para el cálculo de los umbrales u mD y
u dm<: a) perfil en distancia, b) perfil de reflectancia.
Una vez definidos los tipos de puntos a clasificar, las caracterı́sticas discriminantes y las
funciones de decisión, estamos en condiciones de aplicar el método de clasificación de
puntos a imágenes sintéticas y reales. Hay que destacar que este método de clasificación
realiza una integración de imágenes de reflectancia y distancia, y por tanto, el método
está restringido a aplicaciones donde se dispone de ambos tipos de información. La
selección de los umbrales de las fronteras de decisión depende del tipo de sensor láser
utilizado, sin embargo, en el caso de utilizar otro sensor basta obtener su modelo y a
partir de él se pueden derivar los nuevos umbrales siguiendo un procedimiento idéntico al
presentado en la subsección anterior.
En la figura 4.21 se puede ver el resultado de clasificar la pareja de imágenes sintéticas
de la columna de la izquierda. En la fig.4.21c vemos los puntos clasificados como bordes
esféricos, los cuales se corresponden con las primitivas puntuales contorno que utilizaremos
para generar indicios de esfericidad. En la figuras 4.21d,e,f se muestran los bordes marca,
otros bordes y los puntos suaves, respectivamente. En este caso no existe ningún borde
de tipo cresta. Para tener una idea de la distribución de los vectores de caracterı́sticas
asociados a cada pixel de la imagen, presentamos una muestra aleatoria de 30 puntos
de cada clase al proyectarlos sobre dos planos de caracterı́sticas: mD − dm< (fig.4.22) y
mD − m< (fig.4.23). Podemos apreciar que las agrupaciones no son siempre unimodales
y que tampoco siguen distribuciones gausianas. Se podrı́an haber aplicado otras técnicas
de clasificación, pero en este caso la detallada descripción geométrica de cada tipo de
pixel, permite obtener de una forma directa unos umbrales que son discriminantes, como
se mostró en la sección anterior. Además la carga computacional requerida para asignar
una etiqueta a cada punto, una vez extraı́das sus caracterı́sticas, es muy baja.
En la figura 4.24a,b,c podemos ver una escena de un árbol artificial con cuatro frutos y sus
4.3 Definición y generación de primitivas 195
a) c) e)
b) d) f)
Figura 4.21: Clasificación de puntos mediante el método propuesto: (a) y (b) imágenes
sintéticas en distancia y reflectancia, (c) bordes esféricos (primitivas puntuales contorno),
(d) bordes marca, (e) otros bordes y (f) puntos suaves.
10
5 u_dm
dm
-5
-10
0 2 4 6 8 10 12
u_mD mD
6
m
2
u_m
1
0
0 2 4 6 8 10 12
u_mD
mD
Figura 4.23: Proyección sobre el plano mD−m< de una muestra de puntos correspondiente
a la clasificación de la figura 4.21. Podemos observar como los umbrales deducidos permiten
discriminar entre los puntos suaves y los puntos marca.
Las primitivas puntuales corona, al igual que las primitivas contorno presentadas
anteriormente, son otra forma de extraer indicios de esfericidad mediante la obtención
de arcos circulares. Con el hecho de utilizar más primitivas para detectar de nuevo arcos
esféricos se pretende complementar los indicios obtenidos anteriormente mediante las
primitivas contorno, es decir, estamos utilizando una técnica de detección basada en otros
principios de tal forma que las diversas circunstancias que puedan alejar nuestras imágenes
de los modelos ideales planteados afecten lo menos posible al proceso de reconocimiento.
Un fenómeno no contemplado hasta ahora y que puede afectar a la detección de las
primitivas contorno se puede dar si los objetos esféricos no son buenos difusores de la
luz, y cerca de sus contornos existen superficies orientadas de tal forma que cuando el haz
láser incide sobre el borde de una esfera estas superficies devuelven al sensor la energı́a
4.3 Definición y generación de primitivas 197
a) b) c)
d) e) f)
g) h)
Telémetro
láser
Distancia Reflectancia
Objeto
Esférico Real
Ideal
Figura 4.25: Situación anómala que provoca un alejamiento entre el modelo ideal y los
datos reales en la imagen de reflectancia y distancia.
reflejada especularmente sobre ellas (fig. 4.25). Este fenómeno hace que la amplitud de la
señal en los contornos de algunas esferas no sea tan débil como el modelo de reflectancia
indica. Esta circunstancia es un ejemplo de fenómenos que se pueden dar y que afectan a
la fiabilidad en la detección de primitivas, es por ello necesario complementar la extracción
de primitivas mediante otras estrategias que permitan generar más indicios de esfericidad
para obtener detecciones suficientemente robustas.
Una forma de obtener arcos circulares centrados sobre objetos esféricos se consigue al
marcar aquellos puntos que tienen igual pendiente en un mapa de distancias. El resultado
obtenido es una corona circular con un radio que es función de la pendiente seleccionada.
Esta corona circular, que podrı́a no ser cerrada si existen problemas de oclusión sobre las
esferas, permite generar indicios de esfericidad y por tanto se ha elegido como fundamento
para la obtención de las primitivas denominadas primitivas puntuales corona.
Para definir las primitivas corona primeramente necesitamos elegir la pendiente
correspondiente a la corona con mejor carácter discriminante. La corona más discriminante
será aquella con un alto número de puntos y que a la vez contenga un mı́nimo
número de puntos que correspondan a objetos no esféricos. Pero, ¿cómo determinar la
pendiente óptima para obtener las coronas más discriminantes?. En principio las siguientes
consideraciones se pueden aplicar:
No pendientes máximas. Por el contrario, las coronas de máximo radio que son
aquellas que se corresponden con altas pendientes y por tanto captan bordes, no son
deseables precisamente por captar todos los bordes de forma indiscriminada, tal y
como lo hace un filtro de Sobel o Canny. La detección de forma discriminante de
los bordes que corresponden a esferas se trató en el apartado anterior al definir las
primitivas contorno.
Una pendiente intermedia. Por tanto la solución ideal se encuentra en una posición
intermedia entre las dos soluciones anteriores.
4.3 Definición y generación de primitivas 199
Eje Z
θ
R
x
dx
x R
Figura 4.26: Esquema que muestra una corona sobre una esfera correspondiente a los
puntos con una pendiente tal que su normal forma un ángulo θ con el eje Z.
Para determinar esta pendiente óptima podemos aplicar una técnica de decisión estadı́stica
y elegir aquella pendiente que presente un máximo en la probabilidad de pertenecer a una
esfera. Por definición la función de densidad de probabilidad se corresponde con el cociente
entre el diferencial de la función de distribución de probabilidad dF y el diferencial de la
variable aleatoria considerada. Por tanto podemos plantear la función de densidad de
probabilidad condicional f (θ|esf era) tal y como la ecuación 4.59 indica. Suponiendo el
modelo de una esfera y un muestreo espacial uniforme sobre un plano, podemos desarrollar
dF a partir de F (x) y F (x+dx), donde las distribuciones de probabilidad F (x) y F (x+dx)
se obtienen al dividir el área de un cı́rculo de radio x y x + dx, respectivamente, entre el
área de uno de radio R (fig. 4.26 y ec. 4.60). De esta forma f (θ|esf era) queda definido
por la ecuación 4.61.
dF
f (θ|esf era) = (4.59)
dθ
Como puede verse en la figura 4.27a, la función densidad de probabilidad f (θ|esf era)
presenta un máximo en 0.78 radianes y se hace cero en 0 y π/2 radianes. Esto concuerda
200 Capı́tulo 4: Método de reconocimiento de objetos esféricos
1 1 1
0.9 0.9 0.9
0.8 0.8 0.8
P(plano|θ)=1-P(esfera|θ)
f(θ|esfera)
Probabilidad
f(θ|plano)
0.7 0.7 0.7
0.6 0.6 0.6
0.5 0.5 0.5
0.4
0.3
0.4
0.3
0.4
0.3
P(esfera|θ)
0.2 0.2 0.2
0.1 0.1 0.1
0 0 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
Figura 4.27: Función densidad de probabilidad condicional para: (a) una esfera y (b) un
plano. (c) Probabilidad de que un punto con normal θ pertenezca a un plano o una esfera.
con lo esperado ya que la probabilidad debe aumentar de una forma monótona al hacerlo
el radio puesto que el perı́metro de las coronas aumenta, sin embargo y debido a los efectos
del muestreo realizado en ejes paralelos al eje z, la zona visible para valores próximos a π/2
se reduce según el coseno de θ con lo cual la probabilidad de captar puntos con pendiente
π/2 se hace cero.
Supongamos que los objetos esféricos de interés se encuentran sobre un fondo de objetos
planos orientados aleatoriamente, si esta orientación es totalmente aleatoria se puede
demostrar que las normales a los planos presentan una distribución de probabilidad
idéntica al caso de una esfera (fig. 4.27b). Aplicando el teorema de Bayes (ec. 4.62) podemos
ver que la probabilidad de pertenecer a una esfera, de un punto cuya normal forma un
ángulo θ con el eje Z, es constante para cualquier valor de θ (fig. 4.27c). Es por ello que
no existe ningún valor concreto de θ que maximice dicha probabilidad y por tanto no hay
una pendiente óptima en el mapa de distancias que nos permita seleccionar la corona más
discriminante.
Sin embargo, en un caso real, el modelo de distribución de objetos con caras planas de
forma totalmente aleatoria siguiendo la función de densidad f (θ|plano) = 2 sin(θ) cos(θ),
no se llega a cumplir. Esto se debe a que en un caso no ideal existen ligaduras que restringen
la orientación aleatoria y uniforme de las normales sobre un casquete esférico, y como
4.3 Definición y generación de primitivas 201
1200 3000
0.9
1000 2500 P(hojas)=0.8
f(θ|naranjas)
0.8
0.7
f(θ|hojas)
800
P(hojas|θ)
2000
0.6
600 1500 0.5
400 1000
0.4
P(naranjas|θ)
0.3
0.2
P(naranjas)=0.2
200 500
0.1
0 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.5 1 1.5
θ(rad) θ(rad) θ(rad) θop=1.08 (hop=0.88)
a) b) c)
Figura 4.28: Función densidad de probabilidad condicional para: (a) naranjas y (b) hojas.
(c) Probabilidad de que un punto con normal θ pertenezca a una naranja o al fondo de
hojas.
con este valor óptimo de θop = 1,08 vamos a ser capaces de marcar una serie de puntos
en la imagen de los cuales una minorı́a de ellos pertenecerán a naranjas P (naranja|θop )
y la mayorı́a corresponderán a hojas P (hojas|θop ). Sin embargo, el cociente entre ambas
será máximo en ese punto óptimo, con lo cual la relación señal ruido también lo será.
A partir del valor óptimo de θ (θop = 1,08) podemos deducir la fracción h del radio de
una esfera en la que la superficie tiene una normal con una inclinación de θop radianes,
esta fracción resulta ser hop = 0,88. Si aceptamos que una corona debe tener una anchura
de al menos un punto para detectar una esfera, entonces aplicando un margen doble
de seguridad para que los factores de discretización se atenúen, las primitivas corona se
obtienen marcando aquellos puntos que estén en el intervalo [hop − Rs , hop + Rs ]; donde s
es la resolución espacial y R el radio de la esfera.
Expresando el rango de interés en función de la pendiente mD en el mapa de distancias,
h
que se relaciona con h mediante la relación mD = √1−h 2
, obtenemos la siguiente condición
a satisfacer por las primitivas corona:
s s
hop − R hop + R
q ≤ mD ≤ q (4.64)
s 2 s 2
1 − (hop − R) 1 − (hop + R)
Para mejorar la relación señal ruido, es necesario reducir el número de puntos marcados
como primitivas corona que realmente no pertenecen a superficies esféricas. Para ello
utilizaremos, a parte de las pendientes en los mapas de distancia mD, la información de
reflectancia disponible. Asumiendo superficies con reflectividad uniforme tenemos que los
objetos esféricos al tener una curvatura convexa, presentan una pendiente caracterı́stica en
−80,9 h
el mapa de reflectancia que viene definida por la expresión m<|esf era = ln(10) R(1−h2 )
. La
integración de la condición en el mapa de distancias (ec. 4.64) con la siguiente condición
para las pendientes en el mapa de reflectancia
¯ ¯
¯ ¯
¯arctan( ∇Dy ) − arctan( ∇<y )¯ ≤ π/6 (4.66)
¯ ∇D ∇< ¯
x x
donde el rango angular permisible de π/6 no es crı́tico y fué seleccionado por ajuste
empı́rico.
Finalmente, en la figura 4.29 mostramos un ejemplo de una pareja de imágenes
distancia/reflectancia (a y b) de las cuales se han extraı́do las primitivas corona (c)
aplicando las tres condiciones que acabamos de exponer.
4.3 Definición y generación de primitivas 203
a) b) c)
Figura 4.29: Ejemplo de extracción de primitivas corona: (a) y (b) imágenes de distancia
y reflectancia, y (c) primitivas puntuales corona; apréciese los semiarcos que dan una clara
impresión visual de la ubicación de los cuatro frutos.
Las primitivas puntuales vistas con anterioridad (contorno y corona) centran su atención
sobre la periferia de los objetos esféricos. Al ser puntuales soportan altos grados de oclusión
del objeto, sin embargo cuando la periferia queda ocluida las regiones internas visibles no
generan ningún indicio referente a la presencia del objeto. El objetivo de las primitivas
regionales es la captura de indicios a partir de las regiones internas de la superficie de una
esfera. Una de las caracterı́sticas que nos da indicios de esfericidad es la existencia de una
superficie con curvatura negativa lo cual da evidencia de su convexidad. Este principio de
convexidad es el que va a ser utilizado para definir las primitivas denominadas primitivas
regionales convexas.
En primer lugar es necesario obtener las regiones sobre las cuales se ha de realizar
la caracterización. Los puntos suaves obtenidos en la etapa de clasificación de puntos
propuesta en la sección 4.3.1, serán la base para obtener cada uno de los segmentos
regionales. Estas son las etapas de procesamiento necesarias para obtener dichos segmentos
a partir de los puntos clasificados como suaves:
umbral (tı́picamente el 15 % del área de una esfera de radio R), son rechazadas por
no presentar un tamaño suficiente como para generar a partir de ellas estimaciones
paramétricas estables.
Una vez que tenemos las regiones perfectamente identificadas estimamos la curvatura
media K̂ y la desviación estándar de cada una de ellas σˆK . En el cómputo de la curvatura
se aplica el método definido en las ecuaciones 4.41 a 4.43 para cada punto de la región, y a
partir de estos, se estima el valor de curvatura medio y la varianza en la región. El cálculo
de los vectores unitarios normales a las superficies en el mapa de distancias (necesarios
para derivar la curvatura) lo hacemos a partir de las siguientes expresiones:
1 ∂f ∂f
~n = ~xu × ~xv = r (− , − , 1) (4.67)
∂f 2 ∂f 2 ∂x ∂y
1+ ∂x + ∂y
1
~n = √ (−a, −b, 1) (4.68)
1 + a2 + b2
donde a y b son los parámetros de un plano ajustado a una región de tamaño 3 × 3 que se
define mediante la ecuación f (x, y) = ax + by + c.
Aquellas regiones que tengan una convexidad próxima a la esperada y dicha convexidad
provenga de la integración de curvaturas puntuales con una dispersión acotada, pasarán
a la categorı́a de primitivas regionales convexas. La curvatura esperada K será igual al
inverso del radio medio esperado de las esferas a detectar, es decir, K = 1/R. Para evitar
considerar regiones casi planas o con alta convexidad, solamente aceptaremos regiones con
convexidad acotada entre −2K y −0,5K, con lo cual estamos permitiendo una variabilidad
del tamaño de las esferas de un 100 % en ambos sentidos. La restricción de baja dispersión
se consigue al exigir que debe haber una probabilidad casi nula de que haya puntos en la
región con caracterı́sticas de concavidad, lo cual se consigue exigiendo que σˆK ≤ |0,5K̂/3|.
Por tanto estas son las condiciones a satisfacer simultáneamente:
³ ´
(−2K ≤ K̂ ≤ −0,5K) Y σˆK ≤ |0,5K̂/3| (4.69)
Estas primitivas tratan de aportar indicios sin basarse en las formas, como se hacı́a en los
casos anteriores, sino basándose en propiedades ópticas superficiales como la reflectividad.
Si los objetos que queremos reconocer tienen unas propiedades ópticas que son separables
frente a la de los objetos del fondo, un análisis como el de reflectividad permitirá realizar
la clasificación de una forma muy directa.
Supongamos que conocemos un valor umbral de reflectividad ρu que nos permite separar
los objetos deseables del resto del fondo. Bastarı́a calcular la reflectividad ρ de cada una
de las regiones y evaluar a qué lado del umbral de reflectividad nos encontramos, con lo
4.3 Definición y generación de primitivas 205
xv z
dD0
xu ds0
ds1 n
dD1
D θ x
da0
da1 z'
a1 a0
y x'
y'
cual determinarı́amos si una región pertenece al fondo o a una esfera. Para determinar
la reflectividad de una región realizamos el promedio de las reflectividades puntuales
correspondientes a cada punto de la región. Para ello aplicamos el modelo del láser deducido
en el capı́tulo 2, de donde despejando la reflectividad tenemos:
10</80,9 D2
ρ= (4.70)
cos θ α(D) AπFi
~ = (0, 0, D)
D (4.71)
~ =D
|D| (4.72)
206 Capı́tulo 4: Método de reconocimiento de objetos esféricos
∂D ∂D ∂D ∂D
~n = ~xu × ~xv = (1, 0, ) × (0, 1, ) = (− ,− , 1) (4.73)
∂s0 ∂s1 ∂s0 ∂s1
s
µ ¶2 µ ¶2
∂D ∂D
|~n| = + +1 (4.74)
∂s0 ∂s1
~
~n · D D 1 1
cos θ = = = =q ' (4.75)
~
|~n||D| |~n|D |~n| ∂D 2
( ∂s ) + ( ∂D 2
) + 1
0 ∂s1
1
'q (4.76)
(mDx )2 + (mDy )2 + 1
Por tanto θ se calcula, a partir de las pendientes mDx y mDy en las direcciones x e y del
mapa de distancias, de esta forma:
1
θ ' arc cos q (4.77)
(mDx )2 + (mDy )2 + 1
Para el cálculo del valor umbral de reflectancia, ρu , que nos permite separar el fondo
de los objetos, utilizamos un proceso de aprendizaje automático que consiste en captar
dos imágenes diferentes, una conteniendo una muestra de los objetos de interés y otra
presentando una configuración tı́pica de fondo. Por cada una de estas imágenes se calcula
la reflectividad de cada punto y se parametriza una campana de Gauss mediante su valor
medio y su desviación estándar, obteniendo por tanto dos gaussianas cada una de ellas
representando la función de densidad de probabilidad para los objetos de interés y el fondo.
Dichas campanas se solaparán, y para algún valor de ρ se cumplirá la condición de igual
probabilidad de pertenecer a ambas clases. El cálculo del valor ρu que marca la frontera de
decisión de este clasificador bayesiano se obtiene igualando las funciones de probabilidad:
P (1) ρ−µ
−1/2( σ 1 )2
pdf1 (ρ) = √ ·e 1 (4.78)
2πσ1
P (2) ρ−µ
−1/2( σ 2 )2
pdf2 (ρ) = √ ·e 2 (4.79)
2πσ2
P (1) 1 ρu − µ1 2 P (2) 1 ρu − µ2 2
ln( √ )− ( ) = ln( √ )− ( ) (4.81)
2πσ1 2 σ 1 2πσ2 2 σ2
Estimación de parámetros e indicios 207
P (1)σ2
(σ12 − σ22 ) ρ2u + 2(µ1 σ22 − µ2 σ12 ) ρu + µ22 σ12 − µ21 σ22 + σ22 σ12 2ln( )=0 (4.82)
| {z } | {z } P (2)σ1
A B | {z }
C
√
−B± B 2 −4AC si σ1 6= σ2
2A
ρu = µ1 +µ2 σ 2 ln(P (1)/P (2)) (4.83)
+ si σ1 = σ2
2 µ1 −µ2
Una vez obtenidas las diversas primitivas que captan indicios de esfericidad (en los tres
primeros tipos de primitivas) e indicios basados en propiedades ópticas (en las primitivas
reflectividad), el siguiente paso consiste en el cálculo de los parámetros que definen cada
esfera, es decir, el radio, su posición espacial y la reflectividad de su superficie. Este último
parámetro podrı́a ser interesante como información adicional para posteriores etapas
de clasificación atendiendo a propiedades ópticas, o incluso, para realizar recolecciones
selectivas de los frutos. El proceso de extracción de parámetros se hará de una forma
individual por cada tipo de primitivas puesto que cada una de ellas requiere un tratamiento
especial.
Una vez que se tenga la lista de los parámetros de las presuntas esferas, será también
necesario dar un grado de confianza a cada una de estas estimaciones indicando la certeza
que tenemos sobre esa estimación. Es decir, no se tendrá la misma confianza sobre los
parámetros estimados a partir de un número reducido de primitivas puntuales, que si estas
son muy numerosas y por tanto generan un alto número de indicios; en este último caso los
parámetros estimados serán mucho más fiables y el hecho de que esos datos provengan de
objetos realmente esféricos también será mayor. Por tanto, junto a los parámetros también
208 Capı́tulo 4: Método de reconocimiento de objetos esféricos
a)
ρu
Fruta Hojas
Figura 4.31: Selección del umbral de reflectividad ρu para objetos artificiales: (a) cálculo
de la reflectividad media y varianza de una muestra de naranjas, (b) el mismo cálculo
para una muestra de hojas, (c) funciones de densidad de probabilidad y el valor óptimo
de reflectividad que separa ambas clases.
Estimación de parámetros e indicios 209
generaremos los indicios acumulados, los cuales serán fundamentales en futuras etapas de
integración de las hipótesis parciales generadas a partir de cada tipo de primitiva.
Debido al carácter diferenciado de las primitivas puntuales (contorno y corona) frente a
las regionales (convexas y reflectividad), en la estimación de parámetros vamos a utilizar
dos procesos claramente diferenciados. En el primer caso se aplicará un proceso que utiliza
la transformada circular de Hough, y en el segundo, utilizaremos una técnica basada en
un ajuste por mı́nimos cuadrados. A continuación describimos ambos procesos.
Las primitivas puntuales presentadas captan arcos esféricos que delimitan el contorno de
una esfera. De una forma visual hemos visto en la sección anterior que efectivamente
cuando no hay alta oclusión este tipo de primitivas generan a un observador humano una
clara información para determinar la presencia de una esfera. Sin embargo, el volumen de
información susceptible de ser analizado ha disminuido drásticamente, ya que las primitivas
puntuales se corresponden simplemente con los “unos” de una imagen binaria y el fondo,
que es mayoritario y viene representado por “ceros”, no debe ser analizado. Por tanto,
mediante la utilización de primitivas puntuales el proceso se ha simplificado, pasando de
una detección de esferas tridimensionales en entornos altamente no estructurados, a la
detección de arcos esféricos en imágenes binarias con una relación señal ruido altamente
mejorada.
El método más evidente para detectar los arcos semiesféricos que generan las imágenes de
primitivas, es el del emparejamiento de plantillas (template matching) [172]. En este caso
bastarı́a realizar una correlación de un modelo de arco con diferentes radios e ir explorando
toda la imagen moviendo el modelo punto a punto por ella; los puntos de alta correlación
se corresponderı́an con presuntas esferas y sus parámetros serı́an los del modelo utilizado.
Sin embargo esta técnica no es muy eficiente ya que exige explorar todos los puntos de
la imagen. Plá [164], presenta un método de detección de contornos circulares ocluidos
utilizando una técnica de agrupamiento de puntos contiguos para formar segmentos de arco
que tienen una curvatura uniforme. Posteriormente agrupa estos segmentos por proximidad
y estima los parámetros mediante un ajuste por mı́nimos cuadrados. La debilidad de
esta técnica radica en que los puntos del contorno requeridos a la entrada del algoritmo
deben ser contiguos o estar formando contornos cerrados. Sin embargo, esta condición
no es siempre posible que se cumpla como sucede con nuestras primitivas puntuales.
Análogamente, Jacobs [94] también presenta resultados similares detectando grupos de
segmentos lineales convexos.
La técnica conocida como transformada de Hough [47, 120, 219, 91, 90, 92, 3] es un método
más eficiente de “template matching” ya que no recorre toda la imagen sino solo los puntos
activos de ella; en nuestro caso solo utilizarı́a las primitivas puntuales y el fondo no serı́a
explorado. Además es robusta en el sentido de que soporta ruido impulsional y no requiere
que los puntos que definen un contorno estén agregados y formen arcos continuos. Por ello
es una técnica muy adecuada a nuestro propósito.
210 Capı́tulo 4: Método de reconocimiento de objetos esféricos
r
cy
cy
r
cx cx
d d
dcorregido
e
rcorregido
h1 h2 h1 h2
a) b)
que se calculan promediando los parámetros de cada uno de los componentes agregados y
sumando el número de votos.
Debido a la posición de las primitivas sobre la esfera, existen correcciones que hacer a dos
de los cuatro parámetros obtenidos mediante la transformada circular de Hough:
votos grupo
Indicios = · exp−|rcorregido −R|/R (4.86)
π( Rs )2 (h2 − h1 )2
donde h2 y h1 son las fracciones de radio utilizadas para calcular las primitivas corona o
contorno, y s es la resolución espacial.
Estimación de parámetros e indicios 213
Ind: 0.67
Ind: 0.19
a) b) c) d)
Una primitiva regional es un conjunto de puntos que pertenecen a una misma superficie
y que se formaron por generar indicios de esfericidad por su curvatura o indicios de
corresponder a la superficie del objeto buscado por tener una reflectividad tı́pica. Los
parámetros de la esfera se obtienen a partir de las primitivas regionales y la imagen de
distancias, ajustando la ecuación de una esfera sobre la región en el mapa de distancias
definida por cada una de las primitivas regionales. A continuación desarrollamos el proceso
de ajuste aplicado, en el cual xi , yi y zi son los datos o coordenadas de cada punto en la
región, y xc , yc , zc , r son los parámetros a determinar.
x2i + yi2 + zi2 − 2xi xc − 2yi yc − 2zi zc + x2c + yc2 + zc2 − r2 = 0 (4.88)
| {z }
w
2x1 2y1 2z1 −1 x21 + y12 + z12
2x2
2y2 2z2 −1
xc
x22 + y22 + z22
y
: c :
· =
(4.90)
2xi −1 x2i + yi2 + zi2
2yi 2zi zc
: w :
| {z }
2xn 2yn 2zn −1 p xn + yn2 + zn2
2
| {z } | {z }
A b
A·p=b (4.91)
Para realizar un ajuste por mı́nimos cuadrados la función de error e(p) a minimizar, que
depende del vector de parámetros a estimar p, es
cada región, marcará igualmente el grado de confianza que podemos obtener a partir de
esta propiedad discriminante. Por tanto para las primitivas reflectividad utilizamos esta
expresión
|ρ−ρesf era |
n −0,5( σρ
)2
Indicios = R 2
exp esf era (4.96)
π( s − 1)
En la etapa anterior por cada tipo de primitiva éramos capaces de obtener unas
hipótesis parciales. Estas hipótesis consistı́an en el conjunto de parámetros definiendo
la posición, radio y reflectividad del objeto buscado. Cada hipótesis parcial se generaban
basándose solamente en el análisis de cada clase de primitivas. En esta última etapa
pretendemos integrar las cuatro fuentes de indicios en una única hipótesis global que sea
el resultado de la contribución de todas las fuentes de indicios. De esta forma aquellas
hipótesis parciales demasiado débiles, o con pocos indicios para ser consideradas hipótesis
globales consistentes, mediante la contribución de otros indicios provenientes de otras
primitivas, pueden convertirse en candidatos válidos. De esta forma, estamos realizando
una integración o fusión en la cual los cuatro métodos de análisis contribuyen en la
detección de los objetos, aportando cada uno la información necesaria para poder derivar
una decisión final.
La integración de las hipótesis parciales en las definitivas hipótesis globales, se realiza
agrupando aquellas que se encuentran suficientemente próximas, en términos de la
distancia euclı́dea, en el espacio que define su posición tridimensional. En concreto
integramos aquellas hipótesis locales cuya distancia entre centros sea inferior a 3 veces
la desviación estándar en la estimación de las coordenadas tridimensionales, que como
se verá en el siguiente capı́tulo es inferior a 3 mm. En este caso, es decir, cuando hay
integración entre dos o más hipótesis locales, los parámetros globales se obtienen haciendo
un promedio ponderado, donde los pesos son los cocientes entre los indicios parciales y
la suma total de indicios. Los indicios que acompañaran a la hipótesis global generada,
se obtiene sencillamente sumando las indicios correspondientes a las hipótesis parciales.
Finalmente, debe ser aplicado un umbral para eliminar aquellas hipótesis globales con
indicios insuficientes y por tanto con alta probabilidad de que puedan ser debidos a ruido
y ser causantes de que aparezcan detecciones falsas.
El umbral aplicado deberá ser seleccionado en función del nivel de ruido presente.
Normalmente interesará conseguir el máximo número de detecciones correctas y evitar
todas la detecciones falsas. En ese caso, y considerando imágenes de árboles frutales como
se verá en el siguiente capı́tulo, un umbral de indicios en torno a 0.15 es el más adecuado.
Nótese que en el caso de que las cuatro fuentes contribuyan de una forma total, al captar
todas las primitivas de una forma plena, los indicios máximos alcanzables son 4.0, por
216 Capı́tulo 4: Método de reconocimiento de objetos esféricos
tanto el umbral de 0.15 se corresponde a decir que con captar un 3.75 % de los máximos
indicios posibles se tiene evidencia o certeza sobre la existencia de una esfera.
Debido a que estamos especialmente interesados en eliminar al máximo las detecciones
indeseables, además de la umbralización basada en indicios también aplicamos una etapa
de verificación que elimina aquellas poco probables hipótesis finales que con suficientes
indicios no deben aceptarse, o bien por que no nos interesa su detección ([Link]. por ser
esferas con parámetros alejados de los deseados) o bien por que admitir su existencia
conduce a un resultado absurdo. Para eliminar esta circunstancia aplicamos una etapa
basada en reglas que aplica y comprueba que se cumplan las siguientes condiciones:
Distancia absoluta. Rechazamos cualquier hipótesis cuya posición espacial esté fuera
del alcance del robot manipulador y del sistema de captación. Es decir
4.6. Conclusiones
A lo largo de este capı́tulo los aspectos más destacables son los que a continuación se citan:
Hemos presentado una breve pero completa revisión de las técnicas más habituales en
la interpretación de imágenes, que tienen una relación directa con el reconocimiento
de patrones y que se fundamentan en la extracción de caracterı́sticas de cada patrón y
4.6 Conclusiones 217
219
220 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
“Hay muchos parámetros que ajustar en los algoritmos”. Es cierto, por tanto la
evaluación crece exponencialmente con el número de parámetros. Este problema
se puede reducir eligiendo solo aquellos parámetros que tienen un significado muy
definido y un interés claro.
donde la relación, representada por f , puede venir dada mediante una tabla, una ecuación
o una gráfica.
La caracterización de los datos de entrada se puede hacer simplemente mostrando las
imágenes procesadas, especificando el proceso de generación de estas imágenes, ó en el
caso más habitual y útil, parametrizando las caracterı́sticas propias de la imagen. En este
último caso, se puede dar la magnitud del ruido que afecta a los datos, la distribución de
este ruido, la frecuencia de muestreo, etc.
Los parámetros de control de los algoritmos, evidentemente también afectan a los
resultados obtenidos. Estos parámetros, que normalmente tienen forma de umbrales
ajustables, deben representar una función claramente comprensible, de tal forma, que
sea fácil la interpretación de los resultados de la evaluación.
En cuanto a las medidas para caracterizar los resultados del algoritmo, estas deben ser
también simples e intuitivas. Cuando la salida del algoritmo es discreta ([Link] en un proceso
de clasificación) las medidas tı́picas pueden ser la probabilidad de detección correcta, de
no detección ó de detección falsa. En el caso de salidas continuas ([Link] propiedades de un
objeto como posición o tamaño), lo más conveniente es utilizar medidas estadı́sticas como
222 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
la media, varianza, errores medios, etc. Estas métricas tienen la propiedad de ser fácilmente
interpretables, pueden aplicarse en todo tipo de algoritmos, y por tanto, permiten una
comparación entre aquellos que hayan sido evaluados de esta misma manera. Otro tipo de
métricas de calidad más particulares, como la medida de fragmentación de segmentos
u otras métricas tan especı́ficas como esta, no son recomendables por ser demasiado
particulares y limitar el ámbito de la evaluación [181].
Bajo este concepto de evaluación, existen fundamentalmente tres tipos de estudios, que
se diferencian en la forma de generar la relación de dependencia entre la calidad de los
resultados, los datos de entrada y los parámetros de control del algoritmo:
abordable de forma inmediata. Por tanto nos vamos a restringir a realizar la evaluación
mediante datos simulados y empı́ricos. En la siguiente sección presentamos la evaluación
simulada, y en la sección 5.3 mostraremos la evaluación empı́rica con imágenes captadas
con el sensor láser presentado en el capı́tulo 2.
En esta sección vamos a presentar tres tipos de evaluación utilizando imágenes simuladas.
Por un lado deduciremos la complejidad de los algoritmos, o dicho de otro modo el orden
de variación del tiempo de procesamiento en función del volumen de datos de entrada. En
segundo lugar, analizaremos la sensibilidad de los algoritmos a degradaciones en los datos
de entrada que podrı́an corresponder a perturbaciones reales, afectando de esta forma a
la calidad de las imágenes, y por tanto, a la capacidad de reconocimiento y localización
de los algoritmos. Finalmente, estudiaremos la influencia que tiene la fase de restauración
de imágenes presentada en el capı́tulo 3, sobre los resultados generados por el conjunto de
los algoritmos. Estos tres tipos de análisis se presentan en las siguientes subsecciones.
120
100
60
40
20
0
0 0.5 1 1.5 2 2.5 3 3.5
Número de puntos en imagen 4
x 10
Figura 5.1: Dependencia del tiempo de ejecución con el tamaño de las imágenes.
se vé una clara relación lineal entre el tiempo de ejecución experimental y el número de
puntos en la imagen.
Hay que destacar que los tiempos absolutos obtenidos, se refieren a la ejecución de los
algoritmos sobre un computador Pentium 150 MHz, sin utilizar ningún tipo especial
de placa para procesamiento de imágenes y por tanto utilizando solamente el propio
microprocesador de la placa madre. Tiempos de 60 segundos para imágenes de 20.000
puntos no son excesivos teniendo en cuenta que los algoritmos no están optimizados
para velocidad, y como se ha comentado, no se utiliza ningún tipo de soporte fı́sico de
procesamiento especial. Cabe esperar mejoras entre un orden y dos órdenes de magnitud
en los tiempos absolutos de ejecución, cuando se realice una labor de ingenierı́a con el
objeto de alcanzar ciclos de trabajo en tiempo real.
Distancia Reflectancia
Figura 5.2: Pareja de imágenes sintéticas distancia-reflectancia generadas como base para
la evaluación simulada.
evaluación junto con los indicios de esfericidad serán los siete criterios de evaluación que
utilizaremos para analizar la calidad del resultado de los algoritmos.
En cuanto al tipo de entrada utilizada, vamos a usar una imagen sintética de una esfera
de radio 40 mm y con una reflectividad de 0.2, situada en el centro de una imagen con
un fondo uniforme. La figura 5.2 muestra la pareja de imágenes distancia-reflectancia
generadas sintéticamente y que serán la base a partir de la cual se generarán otras versiones
degradadas de éstas, que permitirán estudiar los resultados ante diferentes configuraciones
en la entrada del algoritmo. Los tipos de degradación introducidos a los datos son los
siguientes:
esfera perfecta es 1 puesto que los valores de los ejes mayor y menor coinciden, se
irá incrementando hasta conseguir elipsoides representando un modelo degradado
de una esfera. De esta forma se podrá estudiar la sensibilidad del algoritmo ante
discrepancias entre un objeto elipsoidal y el modelo perfecto de esfera que asumen
los algoritmos. En un caso tı́pico de fruta como la naranja, el grado de excentricidad
de la fruta no suele ser superior a 1.1, lo cual indica que la longitud del eje mayor
no suele superar en más de 10-14 mm la longitud del eje menor.
Resolución: 3 mm/punto
3.5
3 Indicios totales
(suma indicios parciales)
2.5
Indicios parciales
Indicios
2 Corona
Contorno
Convexidad
Reflectancia
1.5
0.5
0 1 2 3 4 5 6
Ruido gausiano (mm)
a)
1 3
Posición (mm)
Posición (mm)
2
0.5
1
0 0
0 2 4 6 0 2 4 6
Ruido gausiano (mm) Ruido gausiano (mm)
2
Repetitividad de:
0.5
Radio (mm)
Radio (mm)
Precisión de:
1.5
0 0.5
0 -3 2 4 6 0 -3 2 4 6
x 10 Ruido gausiano (mm) x 10 Ruido gausiano (mm)
3 6
Reflectividad
Reflectividad
2 4
1 2
0 0
0 2 4 6 0 2 4 6
b) Ruido gausiano (mm) Ruido gausiano (mm)
Figura 5.3: Influencia del nivel de ruido gausiano, en una imagen de distancias, sobre:
a) el conjunto de indicios de esfericidad captados por los algoritmos propuestos; b) la
repetitividad y precisión en la estimación de la posición tridimensional, el radio y la
reflectividad media de la esfera detectada.
228 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
alcanza 3.3. Este fenómeno se debe fundamentalmente al muestro espacial limitado que
en este caso es de 3 mm y que como veremos posteriormente en el análisis de resolución,
va mejorando paulatinamente al incrementar la resolución.
Las figuras 5.4a y 5.4b muestran respectivamente la influencia del ruido impulsivo, en
imágenes con 3 mm de resolución espacial, sobre los indicios de esfericidad captados y
sobre la precisión en la estimación de los parámetros de la esfera. En este caso podemos
ver que existe un nivel de ruido a partir del cual los indicios de esfericidad se hacen
nulos con lo cual no es posible detectar la esfera, y por tanto no se muestran los valores
de error para un ruido del 50 % puesto que en este caso no hay hipótesis generadas. El
comportamiento altamente robusto de los algoritmos ante este tipo de ruido, proviene
del filtrado 3σ-MPF que como vimos en el capı́tulo 3, trabajaba correctamente ante
niveles significativos de ruido impulsional. La tendencia general al aumentar el ruido es una
disminución progresiva del grado de evidencia y un aumento del mismo orden en los errores
de estimación de parámetros. Podrı́a parecer que existe una significativa sensibilidad a este
tipo de degradación, sin embargo el análisis realizado ha sido muy exigente y en la mayorı́a
de los casos este tipo de ruido no suele superar un 5 % o 10 %, con lo cual la influencia es
casi despreciable.
En las figuras 5.5a y 5.5b, podemos ver los resultados de la evaluación cuando el porcentaje
de oclusión varı́a, utilizando una imagen contaminada con ruido gausiano de desviación
estándar 1 mm y resolución espacial de 3 mm. Como era de esperar, a medida que el área
visible de la esfera disminuye, los indicios también lo hacen, alcanzándose un punto crı́tico
correspondiente a una oclusión del 75 % (25 % visible) en el cual los indicios de esfericidad
se hacen casi nulos y por tanto también su capacidad para detectar esferas. En cuanto a
los errores, la tendencia general es la de aumentar al incrementar la oclusión. Los errores
de posición están acotados en un rango de 4 mm y las discrepancias en la estimación del
radio son menores que 1 mm, aunque para oclusiones próximas al 75 % se pueden apreciar
repetitividades próximas a 3 mm. En el caso de la estimación de la reflectividad, los errores
son menores del 2.5 % salvo en el caso de la oclusión lı́mite, donde no se generan evidencias
a partir de primitivas regionales y por tanto no se genera ningún valor de reflectividad
para la esfera detectada, con lo cual el error es 0.2 (reflectividad de la esfera sintética
creada).
Como puede apreciarse en las figuras 5.6a y 5.6b, la influencia que tiene la variación del
grado de esfericidad respecto a un modelo ideal es significativa, aunque bastante limitada
en un rango de 1 a 1.2. Los errores absolutos de posición quedan acotados por 4 mm,
con repetitividades menores de 1 mm. Estos errores absolutos de posición que suponen
desviación relativamente alta al compararla con sus repetitividades, se deben a errores
acumulados en la coordenada de distancia de la posición tridimensional en coordenadas
esféricas. Los algoritmos al asumir esferas ideales y encontrarse con elipsoides con diferentes
radios de curvatura sobre su superficie, detectan el centro como una integración conjunta
de evidencias sobre todo el elipsoide, cuando en realidad solo deberı́an utilizar los puntos
del elipsoide con curvatura igual a la definida por el eje menor del elipsoide orientado
según el eje de medida del sensor. En cuanto a los errores absolutos en el radio y la
5.2 Evaluación mediante simulación 229
Resolución: 3 mm/punto
3.5
Indicios totales
3 (suma indicios parciales)
2.5
2
Indicios
0.5
a)
1.5 3
Posición (mm)
Posición (mm)
1 2
0.5 1
0 0
0 20 40 60 0 20 40 60
1 Ruido impulsivo (%) 3 Ruido impulsivo (%)
Repetitividad de:
Radio (mm)
Radio (mm)
Precisión de:
2
0.5
1
0 0
0 -3 20 40 60 0 -3 20 40 60
x 10 Ruido impulsivo (%) x 10 Ruido impulsivo (%)
3 1.5
Reflectividad
Reflectividad
2 1
1 0.5
0 0
0 20 40 60 0 20 40 60
b) Ruido impulsivo (%) Ruido impulsivo (%)
Figura 5.4: Influencia del nivel de ruido impulsional, en una imagen de distancias, sobre:
(a) el conjunto de indicios de esfericidad captados por los algoritmos propuestos, (b)
la repetitividad y precisión en la estimación de la posición tridimensional, el radio y la
reflectividad media de la esfera detectada.
230 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
Resolución: 3 mm/punto
3.5
3 Indicios totales
(suma indicios parciales)
Indicios parciales
2.5
Corona
Contorno
Convexidad
Indicios
2 Reflectancia
1.5
0.5
Oclusión (%)
0
0 10 20 30 40 50 60 70 80
a)
4 3
Posición(mm)
Posición(mm)
2
2
1
0 0
0 20 40 60 80 0 20 40 60 80
Oclusión (%) Oclusión (%)
4
Repetitividad de:
Radio (mm)
Radio (mm)
Precisiónde:
2
2
1
0
0 -3 20 40 60 80 0 20 40 60 80
x 10 Oclusión (%) Oclusión (%)
1.5 0.2
Reflectividad
Reflectividad
1
0.1
0.5
0 0
0 20 40 60 80 0 20 40 60 80
b) Oclusión (%) Oclusión (%)
Figura 5.5: Influencia del grado de oclusión de una esfera sobre: (a) el conjunto de indicios
de esfericidad captados por los algoritmos propuestos, (b) la repetitividad y precisión en
la estimación de la posición tridimensional, el radio y la reflectividad media de la esfera
detectada.
5.2 Evaluación mediante simulación 231
reflectividad, vemos que están limitados por 3 mm y un 4 % del valor real de reflectividad,
con repetitividades menores de 1 mm y del 10 %, respectivamente.
La influencia que la resolución o el grado de muestreo de la imagen tiene sobre los
resultados del algoritmo, puede apreciarse en las figuras 5.7a y 5.7b. Podemos ver, como
indicamos antes, que un aumento en la resolución (muestreo mayor) hace que la esfera
tienda a ser realmente perfecta y por tanto los indicios totales de esfericidad tienden
a 4, que es el máximo número de indicios alcanzable con los algoritmos propuestos. Las
primitivas de tipo regional no se ven afectadas por una menor resolución alcanzando valores
de indicios parciales próximos a 1. Sin embargo y como es lógico las más sensibles son las
hipótesis generadas a partir de primitivas puntuales, puesto que en estos casos el carácter
local y puntual implı́cito deja de presentarse al trabajar con puntos de tamaño creciente,
y por tanto los cálculos quedan muy influenciados por los puntos del vecindario que ya no
se encuentran realmente próximos. Los errores absolutos en posición, radio y reflectividad
son siempre menores de 2 mm, 1.5 mm y 1 %; con lo cual vemos que la precisión es siempre
menor que el tamaño del punto. Igualmente, las repetitividades son menores que 1 mm,
0.5 mm y un 1 %, para posiciones, radios y reflectividades.
Finalmente, la sensibilidad del algoritmo a la búsqueda de esferas de radio diferente al
dado como referencia, se aprecia en las figuras 5.8a y 5.8b, las cuales contienen imágenes
degradadas con ruido gausiano de σ = 1 mm y una resolución de 3 mm por punto. Como se
vio en el capı́tulo anterior, los algoritmos fueron diseñados para penalizar aquellas esferas
detectadas con radios diferentes que la referencia buscada. Este hecho, que es adecuado
para restringir el ámbito de objetos a buscar, y por tanto para aumentar la eficiencia
de los algoritmos y reducir la probabilidad de encontrar detecciones falsas, hace que los
indicios de esfericidad captados se vean afectados, con lo cual disminuye paulatinamente
la capacidad de detectar esferas a medida que estas aumentan o disminuyen de tamaño
respecto al valor referencia. Vemos que la reducción de evidencia es menor del 50 % para
una diferencia relativa de radios de 0.3, lo cual posibilita la detección de esferas con una
variabilidad en radio mayor del ±30 %, siendo esto suficientemente flexible para un amplio
número de aplicaciones, entre las cuales también se encuentra la detección de frutos cuasi-
esféricos cuya variabilidad en radio para una misma especie no suele ser mayor que la
indicada [112].
En cuanto a los errores en la estimación de parámetros, estos son mı́nimos y no varı́an
apreciablemente al diferir los radios de referencia y real. Es decir, el grado de evidencia de
esfericidad disminuye pero no lo hace la fiabilidad de los parámetros estimados lo cual es
muy interesante. Los errores absolutos son menores de 2 mm en posición, 2 mm en radio
y 0.5 % en reflectividad, con unas repetitividades menores de 1 mm, 0.5 mm y 0.5 %.
La evaluación simulada que acabamos de hacer, nos da una idea clara de los lı́mites
que presenta el algoritmo al modificarse las caracterı́sticas de las imágenes de entrada
y al variar el radio de referencia pasado como parámetro al algoritmo. Hemos podido
ver que los errores en la estimación de los parámetros de la esfera están casi siempre
limitados por el muestreo de la imagen, posibilitando la utilización de estas estimaciones en
aplicaciones donde no se requieran altas precisiones y por el contrario sea más importante
232 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
Resolución: 3 mm/punto
3.5
Indicios totales
(suma indicios parciales)
3
2.5
Indicios
2
Indicios parciales
Corona
1.5 Contorno
Convexidad
Reflectancia
1
0.5
Esfericidad
0
1 1.05 1.1 1.15 1.2
a)
1 4
Posición(mm)
Posición(mm)
0.5 2
0 0
1 1.05 1.1 1.15 1.2 1 1.05 1.1 1.15 1.2
Esfericidad Esfericidad
1 3
Repetitividad de:
Radio (mm)
Precisiónde:
2
Radio (mm)
0.5
1
0 0
1 1.05 1.1 1.15 1.2 1 1.05 1.1 1.15 1.2
Esfericidad Esfericidad
0.04 0.01
Reflectividad
Reflectividad
0.02 0.005
0 0
1 1.05 1.1 1.15 1.2 1 1.05 1.1 1.15 1.2
b) Esfericidad Esfericidad
Figura 5.6: Influencia de la excentricidad de una esfera sobre: (a) el conjunto de indicios
de esfericidad captados por los algoritmos propuestos, (b) la repetitividad y precisión en
la estimación de la posición tridimensional, el radio y la reflectividad media de la esfera
detectada.
5.2 Evaluación mediante simulación 233
3.5
3 Indicios totales
(suma indicios parciales)
2.5
Indicios parciales
Indicios
2 Corona
Contorno
Convexidad
1.5 Reflectancia
0.5
Resolucion (mm)
0
1 2 3 4 5 6
a)
1 2
Posición (mm)
Posición (mm)
0.5 1
0 0
0 2 4 6 0 2 4 6
Resolucion (mm) Resolucion (mm)
1.5
Repetitividad de:
0.5
Radio (mm)
Precisión de:
Radio (mm)
0.5
0 0
0 -3 2 4 6 0 -3 2 4 6
x 10 Resolucion (mm) x 10 Resolucion (mm)
1.5 1.5
Reflectividad
Reflectividad
1 1
0.5 0.5
0 0
0 2 4 6 0 2 4 6
b) Resolucion (mm) Resolucion (mm)
Resolución: 3 mm/punto
3.5
Indicios totales
3 (suma indicios parciales)
2.5
2 Indicios parciales
Indicios
Corona
Contorno
1.5 Convexidad
Reflectancia
0.5
Posición (mm)
1 1.5
0.5 1
0 0.5
0 0.1 0.2 0.3 0 0.1 0.2 0.3
Diferencia relativa radios Diferencia relativa radios
4
0.5
Repetitividad de:
Radio (mm)
Radio (mm)
Precisión de:
0 0
0 -4 0.1 0.2 0.3 0 -4 0.1 0.2 0.3
x 10 Diferencia relativa radios x 10 Diferencia relativa radios
7.5 8
Reflectividad
Reflectividad
7
7
6
6.5 5
0 0.1 0.2 0.3 0 0.1 0.2 0.3
b) Diferencia relativa radios Diferencia relativa radios
Figura 5.8: Influencia de la diferencia relativa entre el radio real de una esfera y el
radio referencia introducido al algoritmo, sobre: (a) el conjunto de indicios de esfericidad
captados por los algoritmos propuestos (b) la repetitividad y precisión en la estimación
de la posición tridimensional, el radio y la reflectividad media de la esfera detectada.
5.2 Evaluación mediante simulación 235
filtrado. En la figura 5.9 podemos ver cómo los máximos indicios se alcanzan utilizando
nuestro filtro, seguido muy de cerca por el filtro de Wiener y por el filtro de la mediana,
este último a más de 0.3 indicios de distancia para un ruido de 3 mm. En el caso de no
utilizar ningún filtro, se aprecia que a partir de pequeños niveles de ruido la degradación es
tal que la capacidad de detección de esferas se degrada fuertemente, con lo cual se justifica
claramente la necesidad de utilizar una etapa de restauración.
Debe hacerse notar, que los resultados obtenidos con los filtros MAS y DW-MTM, que
presentaban altos ı́ndices GRI en el estudio del capı́tulo 3, no se han presentado por
obtenerse resultados sensiblemente peores que en el caso del filtro de Wiener, con lo
cual este último fue elegido como representante de la familia de los mejores métodos de
filtrado, incluyéndose el filtro de la mediana como representante de los filtros con resultados
intermedios.
El hecho de que un filtro óptimo como el de Wiener ó MMSE, se vea superado por un filtro
no óptimo como es el nuestro, no debe resultar extraño. El filtro de Wiener es considerado
óptimo al filtrar una señal contaminada con ruido gausiano, ya que minimiza el error
cuadrático medio, pero solamente es óptimo en este sentido. Sin embargo, alcanzar este
mı́nimo no significa que la señal reconstruida vaya a ser más adecuada que otra para
obtener un determinado fin. En mucho casos, como en el nuestro, una señal con error
cuadrático mı́nimo no es la única condición recomendable para obtener buenos resultados.
Cualquier algoritmo que necesite realizar derivadas primeras y segundas, va a apreciar
también la ausencia de rugosidades sobre las superficies que en el caso ideal corresponderı́an
a áreas continuas y suavizadas. El filtro 3σ-MPF sin ser óptimo, ni minimizando errores
cuadráticos ni consiguiendo la máxima suavidad, sı́ obtiene soluciones muy próximas a las
óptimas en ambos aspectos, y esto es lo que provoca que se obtengan mejores soluciones
que en el caso óptimo del filtro de Wiener. Además la capacidad multiresolución del filtro
3σ-MPF favorece que en muchos casos se obtengan errores cuadráticos incluso menores
que en el caso de Wiener ya que este trabaja con ventanas fijas y el anterior utiliza ventanas
mayores en regiones continuas con lo cual puede llegar a generar errores absolutos menores
que en el diseño óptimo, como se pudo comprobar analizando la componente FI del ı́ndice
GRI (tabla 3.2).
Analizando los resultados obtenidos referentes a los errores cometidos en la estimación de
los parámetros: posición tridimensional, radio y reflectividad media (fig. 5.10), podemos
observar que también se obtiene una mejorı́a clara en los errores absolutos frente a las
estimaciones obtenidas utilizando los otros métodos de restauración. Los errores máximos
de posición son de 2 mm utilizando nuestro filtro, mientras que para el filtro Wiener y
mediana los errores máximos son próximos a 5 mm. En la estimación del radio, con el
filtro 3σ-MPF estamos siempre por debajo de los 2 mm de error mientras que en los otros
casos los errores máximos se aproximan a 3 mm. En la estimación de la reflectividad, las
diferencias son aún mas acusadas con errores del 2 % con nuestro filtro y errores máximos
superiores al 10 % en los otros casos. En el apartado de repetitividades no hay apenas
diferencias entre los tres tipos de filtrado y la única desviación negativa se debe al caso en
el que no se aplica filtrado.
5.2 Evaluación mediante simulación 237
Resolución: 3 mm/punto
3.5
2.5
2
Indicios
1.5
1
Filtrado 3σ-MPF
Filtrado MMSE (Wiener)
0.5 Filtrado Mediana
Sin restauración
0
0 1 2 3 4 5 6
Ruido gaus iano (mm)
Figura 5.9: Indicios generados al variar el ruido gausiano y utilizando diferentes tipos de
restauración.
Filtrado 3σ-MPF
Filtrado MMSE (Wiener)
Filtrado Mediana
Sin restauración
1.5 10
Posición (mm)
Posición (mm)
1
5
0.5
0 0
0 2 4 6 0 2 4 6
Ruidogausiano (mm) Ruidogausiano (mm)
1 3
Repetitividad de:
Precisión de:
Radio (mm)
Radio (mm)
2
0.5
1
0 0
0 2 4 6 0 2 4 6
Ruidogausiano (mm) Ruidogausiano (mm)
0.01 0.06
Reflectividad
Reflectividad
0.04
0.005
0.02
0 0
0 2 4 6 0 2 4 6
Ruidogausiano (mm) Ruidogausiano (mm)
Figura 5.11: Entorno de trabajo donde se muestra el árbol artificial utilizado y el sistema
de deflexión láser situado a unos 2-3 metros de este. Las imágenes obtenidas se utilizaron
para realizar la evaluación empı́rica de laboratorio.
en la figura 5.12. Las hipótesis finales generadas por los algoritmos, se indican marcando
los objetos esféricos detectados mediante un anillo circular centrado sobre la ubicación
estimada de los frutos. Los indicios generados correspondientes a las primitivas corona,
contorno, convexa y reflectividad, se incluyen en este orden en cada detección presentada
quedando etiquetadas como I1, I2, I3 e I4 respectivamente.
El parámetro configurable del algoritmo será el umbral de indicios. Sobre su cuantificación
no se ha dado ningún criterio de selección automática, y por tanto este estudio
permitirá analizar el valor óptimo. El umbral apropiado será aquel con el que se consigan
las máximas tasas de detección correctas y al mismo tiempo las detecciones falsas se
mantengan mı́nimas o nulas.
Los resultados obtenidos en esta evaluación experimental, utilizando resoluciones de 2, 3
y 4 milı́metros por punto, con umbrales de evidencia entre 0.05 y 0.2, pueden verse en
las gráficas 5.13, 5.14 y 5.15. La primera conclusión deducible es que la probabilidad de
240 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
I1: 0.033
I2: 0
I3: 0.15
I4: 0
I1: 0.44
I2: 0.67
I3: 0.29
I4: 0.28
I1: 0.055
I2: 0.14 I1: 0.13
I3: 0 I2: 0.18
I4: 0.13 I3: 0.11
I4: 0.25
b c d
obtener detecciones falsas crece al disminuir el umbral de evidencia, como es lógico esperar,
y también aumenta al utilizar resoluciones menores. En este último caso las regiones
superficiales captadas son muy pequeñas y por tanto la estabilidad en las medidas decrece.
Por tanto, si lo que nos interesa es trabajar con cierta seguridad de no encontrar detecciones
falsas un umbral de 0.15 es el más recomendable, como se puede inferir de esta evaluación.
Con este umbral (0.15) las detecciones falsas son improbables y la tasa de detecciones
correctas ronda el 85 %, 80 % y 72.5 % para el conjunto de imágenes con resolución de 2, 3
y 4 milı́metros por pixel, respectivamente. Evidentemente, la tasa de detecciones correctas
también depende del umbral elegido y aumenta al disminuir este, pudiéndose alcanzar
detecciones próximas al 90 % utilizando un umbral de 0.05. Sin embargo, esto se consigue
a consta de correr el riesgo de aumentar el número de detecciones falsas.
Igualmente en las gráficas 5.13, 5.14 y 5.15 podemos apreciar, a través de las lı́neas
punteadas, el porcentaje de detecciones correctas que se obtendrı́an en el caso de utilizar
solamente uno de los métodos de reconocimiento, es decir, el basado en primitivas contorno,
corona, convexas o reflectividad. Podemos ver que no existe ningún método que predomine
sobre los demás, con lo que podrı́a dejar de tener sentido aplicar el resto de los métodos.
Vemos que los cuatro métodos por aislado contribuyen de una forma moderada a la
generación final de hipótesis correctas, rondando entre un 70 % y 40 %. Sin embargo la
integración de las hipótesis generadas por todos, permite obtener una clara mejorı́a en
las detecciones de fruta. Por tanto, se deduce que existe una clara complementariedad y
5.3 Evaluación empı́rica 241
Resolución:2 mm/punto
100
90 Detecciones correctas
Porcentaje detecciones corectas/falsas (%)
80
70
60
50
Detecciones correctas parciales
40
Corona
Contorno
30 Convexidad
Reflectancia
20
10
Detecciones falsas
0
0.05 0.1 0.15 0.2
Umbral de indicios
Figura 5.13: Tasa de detecciones correctas y falsas en los ensayos de laboratorio para
imágenes con una resolución de 2 mm/punto.
Resolución:3 mm/punto
100
90
Detecciones correctas
Porcentaje detecciones corectas/falsas (%)
80
70
60
50
Detecciones correctas parciales
40
Corona
Contorno
30 Convexidad
Reflectancia
20
10
Detecciones falsas
0
0.05 0.1 0.15 0.2
Umbral de indicios
Figura 5.14: Tasa de detecciones correctas y falsas en los ensayos de laboratorio para
imágenes con una resolución de 3 mm/punto.
242 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
Resolución:4 mm/punto
100
90
Detecciones correctas
Porcentaje detecciones corectas/falsas (%)
80
70
60
50
40
Detecciones correctas parciales
30
Corona
Contorno
20 Convexidad
Reflectancia
10
Detecciones falsas
0
0.05 0.1 0.15 0.2
Umbral de indicios
Figura 5.15: Tasa de detecciones correctas y falsas en los ensayos de laboratorio para
imágenes con una resolución de 4 mm/punto.
I1: 0.26
I1: 0.59
I2: 0
I2: 0.68
I3: 0
I1: 0.21 I3: 0.03
I4: 0
I2: 0.22 I4: 0.43
I3: 0.21
I1: 0.35
I4: 0.52
I2: 0.69
I3: 0.41
I4: 0.52
a
I1: 0.68
I2: 0.93
I3: 0.33
I4: 0.64
I1: 0.17
I2: 0.16
I3: 0
b I4: 0
I1: 0
I2: 0
I3: 0.13
I4: 0
I1: 0.14
I2: 0.12
I3: 0.14
I4: 0
I1: 0.38
I2: 0.75
I3: 0.38
I4: 0.36
I1: 0
I2: 0
I3: 0
I4: 0.28
Figura 5.16: Ejemplos donde se ve que ninguno de los cuatro métodos de detección es
prescindible.(a) la naranja de la izquierda es detectada por indicios corona, (b) la naranja
del centro a la derecha solo se detecta por indicios contorno, (c) la hipótesis superior se
genera a partir de indicios de convexidad, (d) la detección inferior se consigue por indicios
de reflectividad.
244 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
a b
Coro:0.48
Cont:0.21
Coro:0.15 Covx:0
Cont:0.36 Refl:0
Covx:0
Refl:0
Figura 5.17: Ejemplo de detección de esferas en una escena conteniendo objetos estándar.
(a) y (b) imagen de distancia y reflectancia respectivamente, (c) objetos esféricos
encontrados.
adecuados.
Considerando el modo de percepción mixto propuesto en el capı́tulo 2, los resultados
mostrados ponen de manifiesto que seleccionando un modo de trabajo con captura de
imágenes de 3 mm de resolución y un umbral de indicios de 0.15, el porcentaje de
detecciones en el modo automático serı́a del 80 % de la fruta visible, con lo cual solo
un 20 % de los frutos visibles quedarı́an en el árbol, pudiendo ser recogidos mediante el
modo de señalización asistida, lo que permitirı́a disminuir la actividad del operador en
cuatro quintas partes.
En cuanto a la generalidad de las soluciones propuestas, queremos subrayar que la
metodologı́a presentada en esta tesis, aunque está enfocada a solucionar un problema
particular como la detección y localización de fruta, ha sido planteada de una forma
genérica con lo cual puede aplicarse en la detección de objetos cuasi-esféricos en cualquier
tipo de entornos. Como ejemplo ilustrativo mostramos en las figuras 5.17 y 5.18 dos
imágenes tı́picas utilizadas en visión artificial compuestas de cubos, esferas, cilindros y
fondos planos. Como puede verse, los objetos esféricos son detectados perfectamente a
pesar de que existen oclusiones importantes.
Este segundo estudio con datos empı́ricos, a diferencia del anterior, utiliza imágenes
captadas en entornos naturales. Se pretende detectar posibles factores degradantes
importantes no modelados correctamente en el entorno artificial de laboratorio que se
5.3 Evaluación empı́rica 245
a b
Coro:0.31 Coro:0.097
Cont:0 Cont:0.11
Covx:0.18 Covx:0.38
Refl:0
Refl:0
Figura 5.18: Ejemplo de detección de esferas en una escena conteniendo objetos estándar.
(a) y (b) imagen de distancia y reflectancia respectivamente, (c) objetos esféricos
encontrados.
a b
I1: 0.17
I2: 0.14
I3: 0.17
I1: 0.43 I1:I4:
0.30.29
I2: 0.17 I2: 0.59
I3: 0.47 I3: 0.28
I4: 0.57 I4: 0.6
b c d
a b
Hojas
Umbral de reflectividad
Fruta
Figura 5.21: (a) y (b) Imágenes de distancia y reflectancia de una escena natural para el
cálculo de reflectividades de fondo y fruta. (c) Imagen de reflectividad (λ = 780) calculada
a partir de las dos anteriores. (d) Funciones de densidad de probabilidad de la fruta y las
hojas.
fondo utilizando información de reflectividad. Este estudio se realizó en ambos casos con
el montaje artificial y por tanto utilizando fruta de plástico y hojas de tela. Veı́amos que
la reflectividad de las hojas era mayor que la de la fruta (0.407 frente a 0.254), y que esta
última tenı́a una cierta componente difusa de tipo especular que se podı́an apreciar como
picos de reflectancia en el centro de cada fruto.
La cuestión que nos planteamos ahora es ver si la capacidad de discriminación por
reflectividad se sigue conservando en los entornos naturales. En la figura 5.21c presentamos
una imagen de reflectividad que se calculó a partir de las imágenes de distancia y
reflectancia (figs.5.21a y 5.21b). Debido a que una mayor reflectividad se representa con
un nivel de gris más claro, podemos apreciar visualmente en esta figura que las regiones
correspondientes a las cinco naranjas tienen una reflectividad ligeramente mayor que la de
las regiones donde hay hojas. Cuantitativamente el valor medio de reflectividad de la fruta
es de 0.325 y el de las hojas es de 0.255, existiendo unas desviaciones estándar reducidas
de 0.02 y 0.03 respectivamente.
En comparación con el estudio realizado con la fruta y el árbol artificial, podemos
concluir que en el caso natural la fruta sigue siendo distinguible del fondo basándose en
reflectividad. Es cierto que el margen de separación entre los valores medios de reflectividad
es más reducido y por tanto podrı́a resultar más difı́cil discriminar entre ambas clases, sin
embargo la varianza en el caso natural también ha disminuido con lo cual las funciones
gausianas, que definen la densidad de probabilidad, no se solapan fuertemente. El valor
248 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
utilizado como umbral discriminante entre ambas clases, como se ve en la figura 5.21d, es
0.303.
Como también se comprobó en el estudio realizado en el CEMAGREF [170] (figs. 1.5 y
1.6), las manzanas son distinguibles de las hojas de los manzanos, trabajando a longitudes
de onda entre 700 y 900 nm. Sin embargo las frutas pertenecientes a distintas variedades
de manzana no son distinguibles entre sı́ trabajando en esa banda espectral infrarroja,
incluso aunque las frutas tengan colores diferentes. En nuestro caso, debido a que el sensor
infrarrojo es insensible a los colores, es de esperar igual comportamiento. Por tanto, las
naranjas de diferentes variedades o en diferentes estados de madurez son difı́cilmente
distinguibles trabajando con 780 nm. Esto conlleva a que si se desea realizar una recolección
selectiva basada en la reflectividad de la fruta, sea necesario utilizar una o varias lı́neas
espectrales en el visible. En concreto, para apreciar el cambio en el estado de madurez,
que normalmente pasa por un estado inicial con tonos verdes y finaliza en muchos casos
con colores amarillos, naranjas o rojos, se recomienda utilizar lı́neas espectrales entre 600
y 640 nm (rojo).
a b
Figura 5.22: Influencia de la iluminación Solar sobre la distancia y reflectancia captada por
el sensor. (a) y (b) imágenes de distancia y reflectancia de una escena natural. La parte
izquierda de la escena fue captada con el Sol ocluido por una nube (iluminación tenue) y
la parte derecha con el Sol sin ocluir (iluminación muy intensa).
cambios de iluminación sobre el nivel de señal válida que recibe el sensor, la presencia
de luz solar directa provoca que las reflectividades calculadas para una determinada
región sea inferior a la real. Este hecho puede hacer que las primitivas regionales
reflectividad dejen de ser discriminantes. La solución a este efecto podrı́a consistir
en utilizar un detector de iluminación ambiental y compensar adecuadamente los
valores de reflectividad ρ.
El viento quizás pueda ser considerado como uno de los aspectos más degradantes
encontrados en los entornos naturales. Este factor crea oscilaciones tanto verticales como
horizontales de la fruta, con unas amplitudes que dependen de la fuerza del viento, de
la longitud del pedúnculo, de la posición y del tamaño del fruto. Las amplitudes tı́picas
encontradas en estos desplazamientos oscilantes están en torno a 10 y 30 mm para el viento
relativamente fuerte que pudimos experimentar (' 30 Km/h).
250 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
Con el sistema de adquisición por deflexión de haz actual, debido a que el tiempo de
adquisición es alto ('20 s para imágenes de 500 × 500 mm y 3 mm/punto de resolución),
el movimiento de la fruta en el árbol va a provocar una fuerte deformación en las imágenes,
con lo cual es de esperar también un pérdida sustancial en la capacidad de detección. En
la figura 5.23 se muestran tres tomas de una misma escena con diferentes intensidades del
viento, y por tanto diferentes grados de deformación. En esta figura, de arriba a abajo la
amplitud de viento se incrementa, y como se puede apreciar, las detecciones encontradas
disminuyen de 7 frutos correctamente detectados, para el caso con viento débil (fig. 5.23b),
a 5 y 3 frutos detectados cuando la intensidad del viento crece paulatinamente (figs. 5.23c
y 5.23d).
Observando las imágenes degradadas hemos podido determinar que la frecuencia de
oscilación de la fruta en el plano vertical está en torno a 1 Hz. En la figura 5.24 podemos
ver tres claros ejemplos donde se aprecian cuatro periodos de deformación completos, por
oscilaciones verticales en las naranjas de la esquina superior-derecha de la figura 5.24a y
5.24b, y la naranja de la esquina inferior-derecha de 5.24b. Como el tiempo necesario para
barrer una franja vertical con un ancho igual al de una naranja es de 20 ∗ 80/500 = 3,2
segundos, tenemos que la frecuencia de oscilación es de 1.25 Hz. Para eliminar este efecto
degradador, será necesario explorar esta franja de 80 mm de ancho a una velocidad superior
para que se produzca un efecto de “congelación”. Si consideramos que explorar esta franja
en π/4 del periodo de la oscilación es suficiente para que la degradación del viento solo
se manifieste como un ligero incremento en la excentricidad de la fruta, tenemos que la
franja debe se barrida completamente en 0.1 segundos y por tanto la imagen completa en
0,1 ∗ 500/80 = 0,625 segundos o a casi 2 Hz.
Debido a que el viento afecta a la capacidad de detección al deformar las imágenes con
la velocidad de barrido actual (tadquis ' 20 s; imagen 500 × 500 mm, 3 mm/punto);
tanto para permitir una operación en tiempo real (tadquis < 5 s) como para que se pueda
“congelar” la imagen (tadquis < 0,6 s), se deberı́a trabajar en un futuro con un sistema
mejorado de adquisición para captar una imagen de 500 × 500 mm en 0.6 segundos (' 2
Hz). Esta pretensión no debe afectar a otros parámetros caracterı́sticos esenciales del
sistema de medida como la potencia de emisión láser, el rango de medida, la precisión y
la repetitividad en distancia. Hoy en dı́a esto parece que puede estar fuera del alcance
de la tecnologı́a actual ya que no nos consta que exista ningún sistema telemétrico que
cumpla con los requisitos planteados en el capı́tulo 2 y a la vez capte imágenes con la
cadencia que acabamos de indicar (2 imágenes por segundo o 45.000 puntos por segundo).
Sin embargo, cada vez se está más próximo a estas especificaciones y es de esperar que en
breve tiempo sea posible disponer de sistemas telemétricos barriendo regiones grandes (5
metros), con precisiones y repetitividades elevadas (< 0,5 mm), con grandes velocidades
de medida (> 200,000 puntos/s) y con potencias de emisión contenidas (clase 3a, clase 3b
de menos de 10 mW o ligeramente mayores trabajando con longitudes de onda de más de
1500 nm).
5.3 Evaluación empı́rica 251
I1: 0.15
I2: 0
I1: 0.68 I3: 0
I2: 0.38 I1:00.31
I4:
I3: 0.33 I2: 0.37
I4: 0.31 I3: 0.16
I4: 0.35
I1: 0.13
I2: 0
I3: 0.056
I4: 0.11
I1: 0.43
I2: 0.5
I3: 0.41
I4: 0.41
I1: 0.43
I2: 0.23
I3: 0.2 I1: 0.16
I4: 0.38 I2: 0
b I3: 0.16
I4: 0.16
I1: 0.7
I2: 0.44 I1: 0.43
I3: 0.18 I2: 0.16
I4: 0 I3: 0.38
I4: 0
I1: 0.33
I2: 0.13
I3: 0.2
I4: 0
I1: 0.089
I2: 0
I3: 0.058 I1: 0
I4: 0 I2: 0
c I3: 0
I4: 0.27
I1: 0.49
I2: 0.17
I3: 0.15
I4: 0
I1: 0.033
I2: 0.32
I3: 0
I4: 0.41
I1: 0
I2: 0
d
I3: 0
I4: 0.24
Figura 5.23: a) Fotografı́a en B/N de una escena de un árbol natural que contiene 9
frutos visibles; En las filas b), c) y d) se muestran de izquierda a derecha, el mapa de
distancia, reflectancia y las detecciones encontradas, para diferentes tomas de la escena
con intensidad del viento creciente.
252 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
Figura 5.24: a) y b): Dos escenas diferentes captadas para apreciar la frecuencia de
oscilación de los frutos con el viento. En cada fila se muestra de izquierda a derecha,
una fotografı́a en B/N y las correspondientes imágenes de distancia y reflectancia.
5.4. Conclusiones
En este capı́tulo hemos evaluado los algoritmos presentados en la tesis de una forma
conjunta analizando la calidad de los resultados en función de diversos parámetros
degradantes. Las conclusiones más destacables son las siguientes:
Los algoritmos elaborados se caracterizan por una alta robustez. Esta propiedad
surge del método redundante utilizado en el cual se trabaja con múltiples primitivas
para conseguir que el fallo de alguna de ellas afecte en la mı́nima medida al resto
del sistema. Es cierto también que los algoritmos son sensibles a las diferentes
degradaciones introducidas, pero los indicios de esfericidad disminuyen de una
forma controlada permitiendo generar hipótesis válidas en un amplio rango de
degradaciones; de ahı́ su robustez.
Hemos comprobado que el filtro 3σ-MPF contribuye de una forma positiva y ayuda
tanto a las tareas de reconocimiento como a la estimación de los parámetros de las
esferas. Al haber presentado resultados sustituyendo nuestro filtro por otras etapas
de restauración, se han obtenido siempre resultados inferiores a los generados con el
filtro 3σ-MPF.
Finalmente, y desde un punto de vista global, es necesario comparar los resultados que
hemos obtenido con los presentados en trabajos anteriores donde se pretendı́a automatizar
la detección de fruta. En el capı́tulo 1 se presentó de forma detallada las caracterı́sticas,
logros y problemas que se obtuvieron en cada una de las estrategias propuestas por otros
autores, las cuales se basaban en el uso de cámaras CCD en B/N o en color. Recordamos
que los mayores problemas utilizando cámaras eran las oclusiones, las sombras, la ausencia
de información de profundidad y las regiones confusas visibles a través del árbol que
generaban detecciones falsas. En la mayorı́a de los casos los métodos se limitan a distinguir
la fruta del fondo por color, con lo cual los algoritmos solo funcionan cuando la fruta
está madura. Cuando la fruta es distinguible del fondo por color, circunstancia que no
siempre se manifiesta pues en muchos casos la fruta se recoge antes de que madure del
254 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales
Conclusiones finales
255
256 Conclusiones, aportaciones y trabajos futuros
Una de las principales limitaciones que presenta el sistema planteado, al igual que en
las técnicas tradicionales, son los problemas de detección ante la existencia de oclusiones
parciales del fruto por parte de las hojas, y que por supuesto utilizando sensores que
trabajen con radiación que no se transmite a través de las hojas no es posible solventar.
Sin embargo, el sistema planteado permite detectar correctamente esferas visibles en más
de un 20-25 %, con lo cual y dependiendo del tipo de árbol explorado, se obtienen casi
siempre detecciones superiores al 80 % de la fruta visible.
La limitación principal son los tiempos de captura y de procesamiento del prototipo de
sistema de detección presentado. En el proceso de adquisición de imágenes los tiempos
tı́picos requeridos para completar la exploración están en torno a los 20 segundos para
una imagen de 500 × 500 mm con una resolución de 3 mm/punto. Debido al ciclo de
trabajo requerido para la recolección de la fruta, y fundamentalmente al viento que
ocasiona deformaciones en las imágenes, se estima que deberı́a realizarse la adquisición
de este tipo de imágenes en 0.5 segundos (2 Hz). Conseguir esto es una tarea compleja,
ya que simplemente aumentar la velocidad de barrido utilizando espejos con múltiples
caras girando a velocidad constante, no es una solución posible si el propio sensor no es
capaz de medir con la cadencia requerida para conseguir el muestreo espacial deseado y
con la suficiente calidad de medida en la distancia. Este es un aspecto problemático que
probablemente el desarrollo tecnológico resolverá en un futuro muy próximo. En cuanto a
los tiempos de cálculo que se requieren para procesar y analizar una imagen, que son de
60-80 segundos utilizando un computador del tipo Pentium 150 MHz sin ningún soporte
fı́sico adicional para mejorar su rendimiento, tampoco son apropiados para una aplicación
en tiempo real. Para garantizar un ciclo de recolección de 1 fruto cada 1.5 segundos, y
debido a que en cada imagen hay una media de 10 frutos visibles, los tiempos de cálculo
estimados por cada imagen deben ser inferiores a una decena de segundos. Esto significa
que la mejora a realizar debe estar entre uno y dos órdenes de magnitud, lo cual se puede
hacer simplificando los algoritmos o añadiendo más unidades de procesamiento.
En cualquier caso, a parte de estas limitaciones de carácter fundamentalmente tecnológicas,
queremos resaltar la validez de los planteamientos algorı́tmicos presentados que permiten
dotar al sistema elaborado de una gran capacidad para realizar detecciones correctas
de objetos cuasi-esféricos, posibilitando la aplicación de la metodologı́a tanto en el caso
agrı́cola planteado como en otros campos en los que se contemplen labores de inspección,
detección o clasificación.
Aportaciones presentadas
A lo largo de los cinco capı́tulos de los que consta la tesis, en el apartado final de
conclusiones de cada uno de ellos se han citado los aspectos destacables presentados y las
aportaciones más relevantes. Fundamentalmente, podemos considerar que las aportaciones
principales de esta tesis son las siguientes:
Hemos definido cuatro tipos de primitivas, dos de carácter puntual y dos de tipo
regional. Tres de ellas captan caracterı́sticas discriminantes en la forma de un objeto
esférico. La otra capta regiones con propiedades ópticas iguales a las del objeto
buscado. La utilización de las cuatro primitivas hace que el método de reconocimiento
258 Conclusiones, aportaciones y trabajos futuros
Trabajos futuros
En este apéndice presentamos los datos técnicos de los componentes utilizados en el sistema
de deflexión telemétrico que se presentó en el capı́tulo 2. Estos elementos son los motores,
tarjetas de control y etapas de potencia para dotar al sistema de los movimientos angulares
en acimut y elevación necesarios para realizar la exploración; los espejos deflexores y
monturas de alineamiento; el diodo láser apuntador y el propio telémetro láser junto con
su tarjeta de adquisición de alta velocidad. A continuación (figs. A.1-A.10) podemos ver
los detalles técnicos que los fabricantes proporcionan.
261
262 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración
Figura A.3: Tarjeta de alta velocidad para comunicación con el telémetro láser.
265
Figura A.7: Caracterı́sticas de reflexión del “espejo caliente” utilizado para integrar el haz
visible (633 nm) con el invisible (780 nm).
269
Figura A.8: Monturas de ajuste fino utilizadas para soportar el diodo láser y el “espejo
caliente”.
270 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración
Figura A.10: Esquema electrónico de la etapa de potencia utilizada para amplificar la señal
que comanda los motores.
272 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración
Apéndice B
AFi ρ cos θ
< = cte1 log(cte2 ) (B.1)
π D2
Este modelo nos dá la relación general de dependencia que existe entre los parámetros
que intervienen en un proceso de medida utilizando telémetros operando mediante
principios equivalentes al nuestro. Para completar el modelo es aún necesario determinar
las constantes cte1 y cte2 que son desconocidas. Con este propósito se realizó un ajuste por
mı́nimos cuadrados con datos experimentales, que nos permitió derivar estas constantes y
a la vez comprobar que el modelo planteado es correcto. En este apéndice mostramos
el proceso de recogida de datos (fig. B.1), el cual consiste en una toma repetida de
valores de reflectancia, <, mientras se cambian los parámetros de medida. Los parámetros
considerados son D y θ, y han sido variados en un rango de 1 a 4 metros a pasos de 200
mm, para el caso de la distancia, y en un rango de 0 a 80 grados en pasos de 10 grados
en el caso de θ. Los datos obtenidos mediante este procedimiento se muestran en la tabla
B.1.
Igualmente, en este apéndice mostramos los datos experimentales obtenidos tomando
valores de repetitividad en distancia a diferentes valores de reflectancia, <, siendo obtenidos
estos últimos, variando de forma aleatoria el tipo de superficie, la distancia y el ángulo de
incidencia, hasta conseguir una muestra representativa en un amplio rango de <. La tabla
B.2 contiene los datos recogidos de esta forma. Gracias a estos datos y a los planteamientos
presentados en el capı́tulo 2, se pudo deducir que existı́a una clara relación entre < y la
repetitividad en distancia σD , que venı́a dada por la expresión:
273
274 Apéndice B: Medidas experimentales para modelar el telémetro láser
Normal a la
gía θ superficie
ener e
ó l i d o de uperfici
s
n g ulo s a por la sensor
Á rsad or el Soporte giratorio
dispe turada p itid
o
de la superficie
y c a p
á s e r em difusora
l
Haz m
as ta 4
r mh
láse D =1
etro ia D
ém
Tel nc
ista mm)
nd 0
i das e de 20
e d sos
e m (pa
g od
Ran
(Reflectancia)
D (Distancia)
Figura B.1: Montaje experimental para la recogida de los datos que se muestran en la
tabla B.1
s
k Dmax 2
σD = +( ) (B.2)
T 10</80,9 9 × 107 T
Cuadro B.2: Datos experimentales para captar la relación existente entre la reflectancia
captada por el sensor, <, y la desviación estándar en distancia, intentando de esta forma
parametrizar la repetitividad en la medida como función de <.
Apéndice C
Muestra de imágenes de
laboratorio distancia-reflectancia
utilizadas en la evaluación
empı́rica
279
280 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
I1: 0.033
I2: 0
I3: 0.15
I4: 0
I1: 0.44
I2: 0.67
I3: 0.29
I4: 0.28
I1: 0.055
I2: 0.14 I1: 0.13
I3: 0 I2: 0.18
I4: 0.13 I3: 0.11
I4: 0.25
I1: 0.088
I2: 0.35
I3: 0.25
I4: 0
I1: 0.093
I2: 0.92
I3: 0.43
I4: 0.2
I1: 0.1
I2: 0.15 I1: 0.14
I3: 0 I2: 0
I4: 0 I3: 0
I4: 0.19
I1: 0
I2: 0.14
I3: 0.28
I4: 0
I1: 0.2
I2: 0.66
I3: 0.55
I4: 0.19
I1: 0.059
I2: 0.015
I3: 0
I4: 0.13
Figura C.1: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
281
a
I1: 0
I2: 0.61
I3: 0
I4: 0
I1: 0.32
I2: 0.81
I1: 0.1
I3: 0.41
I2: 0
I4: 0.48
I3: 0.019
I1: 0.2 I4: 0.18
I2: 0.61
I3: 0.22
I4: 0.34
b
I1: 0
I2: 0.45
I3: 0
I4: 0
I1: 0.31
I1: 0.078
I2: 0.57
I3: 0.47 I2: 0
I4: 0.48 I3: 0.099
I1: 0.14 I4: 0.08
I2: 0.51
I3: 0.18
I4: 0.31
c
I1: 0
I2: 0.36
I3: 0
I4: 0
I1: 0.32
I2: 0.44
I3: 0.49
I4: 0.42
I1: 0.24
I2: 0.44
I3: 0.078
I4: 0.29
Figura C.2: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
282 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
I1: 0.14
I2: 0.22
I3: 0
I4: 0.19
I1: 0.26
I2: 0.37
I3: 0.37 I1: 0.15 I1: 0.3
I4: 0.52 I2: 0.5 I2: 0.52
I3: 0.25 I3: 0.35
I4: 0.28 I4: 0.41
b
I1: 0.19
I2: 0.25
I3: 0
I4: 0.2
I1: 0.27
I2: 0.46
I1: 0.2 I1: 0.32
I3: 0
I2: 0.35 I2: 0.43
I4: 0
I3: 0.3
I3: 0.25
I4: 0.41
I4: 0.17
I1: 0
I2: 0.31
I3: 0
I4: 0.16
I1: 0.41
I2: 0.38
I3: 0 I1: 0.11 I1: 0.21
I4: 0 I2: 0.44 I2: 0.44
I3: 0.16 I3: 0.34
I4: 0.1 I4: 0.32
Figura C.3: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
283
I1: 0.26
I1: 0.59
I2: 0
I2: 0.68
I3: 0
I1: 0.21 I3: 0.03
I4: 0
I2: 0.22 I4: 0.43
I3: 0.21
I1: 0.35
I4: 0.52
I2: 0.69
I3: 0.41
I4: 0.52
I1: 0.37
I2: 0.52
I1: 0.17 I3: 0.02
I2: 0.012 I4: 0.34
I3: 0.33
I1: 0.36
I4: 0.39
I2: 0.63
I3: 0.46
I4: 0.42
I1: 0.23
I2: 0 I1: 0.48
I2: 0.76
I3: 0
I1: 0.097 I3: 0
I4: 0
I2: 0 I4: 0
Figura C.4: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
284 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
a
I1: 0.68
I2: 0.93
I3: 0.33
I4: 0.64
I1: 0.17
I2: 0.16
I3: 0
b I4: 0
I1: 0.54
I2: 1
I3: 0.47
I4: 0.57
I1: 0.23
I2: 0.19
I3: 0
c I4: 0
I1: 0.54
I2: 1
I3: 0.58
I4: 0.54
I1: 0.18
I2: 0.16
I3: 0
d I4: 0
Figura C.5: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
285
a
I1: 0.31
I2: 0.47
I3: 0.37
I4: 0.43 I1: 0.24
I2: 0.54
I3: 0.2
I4: 0.23
I1: 0.45
I2: 0.68
I3: 0.34
I4: 0.34
I1: 0.15
I2: 0.58
I3: 0
I4: 0
b
I1: 0.21
I2: 0.45
I3: 0.45
I4: 0.37 I1: 0.22
I2: 0.49
I3: 0.13
I4: 0.16
I1: 0.4
I2: 0.8
I3: 0
I4: 0
I1: 0.08
I2: 0.53
I3: 0
I4: 0
c
I1: 0.2
I2: 0.35
I3: 0.47
I4: 0.3 I1: 0.28
I2: 0.59
I3: 0
I4: 0.13
I1: 0.33
I2: 0.85
I3: 0.12
I4: 0.38
I1: 0
I2: 0.45
I3: 0
I4: 0
Figura C.6: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
286 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
I1: 0.035
I2: 0.24
I3: 0
I4: 0 I1: 0.13
I2: 0.51
I3: 0
I4: 0
b
I1: 0.18
I2: 0.22
I3: 0
I4: 0
I1: 0
I2: 0.21
I3: 0
I4: 0 I1: 0.15
I2: 0.61
I3: 0.17
I4: 0
c
I1: 0.21
I2: 0.16
I3: 0
I4: 0
I1: 0.011
I2: 0.14
I3: 0
I4: 0 I1: 0.11
I2: 0.5
I3: 0
I4: 0
Figura C.7: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
287
I1: 0.34
I1: 0.25
I2: 0.48
I3: 0.24
I3: 0
I4: 0.7
I4: 0
I1: 0.35
I2: 0.48
I3: 0.35
I3: 0
I4: 0.76
I4: 0
Figura C.8: a) Fotografı́a en B/N de árbol artificial con tres frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
288 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
I1: 0.38
I2: 0.75
I3: 0.38
I4: 0.36
I1: 0
I2: 0
I3: 0
I4: 0.28
I1: 0.33
I2: 0.8
I3: 0.4
I4: 0.35
I1: 0.3
I2: 0.68
I3: 0.19
I4: 0.18
Figura C.9: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
289
I1: 0.18
I2: 0.37
I3: 0
I4: 0.16
I1: 0
I2: 0
I3: 0
I4: 0.16
I1: 0.13
I2: 0.35
I3: 0
I4: 0
I1: 0.048
I2: 0.28
I3: 0
I4: 0
I1: 0
I2: 0
I3: 0
I4: 0.21
Figura C.10: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
290 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
a
I1: 0.66
I2: 1
I3: 0.51
I4: 0.39
I1: 0.3
I2: 0.35
I3: 0.18
I4: 0.38
b
I1: 0.67
I2: 1
I3: 0.61
I4: 0.41
I1: 0.19
I2: 0.5
I3: 0.15
I4: 0.22
c
I1: 0.6
I2: 1
I3: 0.68
I4: 0.29
I1: 0.36
I2: 0.27
I3: 0
I4: 0.13
Figura C.11: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
291
I1: 0.45
I2: 0.45
I3: 0.48
I1: 0.24
I4: 0.65
I2: 0.5
I3: 0.27
I4: 0.35
I1: 0.57
I2: 0.45
I3: 0.57
I1: 0.2
I4: 0.62
I2: 0.46
I3: 0.31
I4: 0.38
I1: 0.47
I2: 0.49
I3: 0.53
I1:I4:
0.17
0.56
I2: 0.39
I3: 0.27
I4: 0.32
Figura C.12: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
292 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
Bibliografı́a
[2] E. Al-Hujazi and A. Sood. Range image segmentation with applications to robot
bin-picking using vacuum gripper. IEEE Trans on Pattern Analysis and Machine
Intelligence, 20(6):1313–1324, 1990.
[3] I. Amir. Algorithm for finding the center of circular fiducials. Computer Vision,
Graphics and Image Processing, 49:398–406, 1990.
[4] M.C. Ayuso, F.J. Bravo, M. Ruiz-Altisent, and P. Barreiro. Sensing colour stability
and mixtures of powder paprika using optical reflectance and image analysis.
AgENG96-Paper 96F-049, 1996.
[5] R. Bajcsy. Active perception versus passive perception. Proceedings Third IEEE
Workshop on Vision, pages 55–59, 1985.
[6] D.H. Ballard. Generalizing the hough transform to detect arbitrary shapes. Pattern
Recognition, 13(2):111–122, 1991.
[10] M. Benady and G.E. Miles. Locating melons for robotic harvesting using structured
light. Paper ASAE No.:92-7021, 1992.
[11] J.V. Benlloch, T. Heisel, S. Christensen, and A. Rodas. Image processing techniques
for determination of weeds in cereal. Bio-Robotics-97. International Workshop on
robotics and automated machinery for bio-productions, pages 195–200, 1997.
293
294 Bibliografı́a
[12] J. Berkmann and [Link]. Computation of surface geometry and segmentation using
covariance techniques. IEEE Trans. Pattern Analysis and Machine Intelligence,
16(11):1114–1116, 1994.
[13] P.J. Besl. Active optical range imagining sensors. Machine Vision and Applications,
1, See also: Advances in Machine Vision: Architectures and Applications, ([Link],
Ed.),Springer-Verlag, New York, pages 127–153, 1988.
[14] P.J. Besl. Surfaces in range image understanding. Springer New York (N.V.), 1988.
[15] P.J. Besl. and R.C. Jain. Segmentation through variable-order surface fitting. IEEE
Transactions Pattern Analysis Machine Intelligence, 10(2), 1988.
[17] G. Blandini. First approaches to robot utilisation for automatic citrus harvesting.
Land and Water Use, Dodd Grace (eds.). Balkema, Rotterdam, 1989.
[19] A. Bourely. Rosal, a grafting robot for woody plants. pages 145–152, 1995.
[20] J.R. Brandon, S.W. Searcy, and R.J. Babowicz. Distributed control for vision based
tractor guidance. International Summer Meeting of the ASAE, 89-7517, 1989.
[21] P.N. Brett and R.S. Stone. A tactile sensing technique for automatic gripping of
compact shaped non-rigid materials. IEE Colloquium on Intelligent automation for
processing non-rigid products, pages 1–5, 1994.
[22] J.R. Brodie, A.C. Hansen, and J.F. Reid. Size assesment of stacked logs via the
hough transform. Transactions of the ASAE, 37(1):303–310, 1994.
[23] F. Buemi, G.M. Calvini, M. Massa, and G. Sandini. Quality control of agro-food
products using colour and shape parameters. pages 23–35, 1995.
[24] F. Buemi, M. Massa, and G. Sandini. Agrobot: a robotic system for greenhouse
operations. 4th Workshop on robotics in Agriculture, IARP, Tolouse, pages 172–
184, 1995.
[27] M. Cardenas, A. Hetzroni, and G.E. Miles. Machine vision to locate melons and
guide robotic harvesting. Paper ASAE No. 91-7006, 1991.
295
[28] M.A. Castillo and A. Martı́nez. Foliage shaker to harvest valencia oranges in cuba.
AgENG96-Paper 96A-077, 1996.
[30] R. Ceres, J.L. Pons, A.R. Jiménez, J.M. Martı́n, and L. Calderón. Agribot: A robot
for aided fruit harvesting. AgENG96-Paper 96A-107, 1996.
[32] K. Choi, G. Lee, Y.J. Han, and J.M. Bunn. Tomato maturity evaluation using color
image analysis. Transactions of the ASAE, 38(1):171–176, 1995.
[33] H.I. Christensen and S.W. Frstner. Performance characteristics of vision algorithms.
Machine vision and applications, 9:215–218, 1997.
[34] P.M. Clarkson and G.A. Williamson. Order statistics and adaptive filtering. Signal
processing methods for audio, images and telecomunication, pages 109–141, 1995.
[36] R.L. Cook and K.E. Torrance. A reflectance model for computer graphics. ACM
Transactions on Graphics, 1(1):7–24, 1982.
[37] G.E. Coppock, D.B. Churchill, and S.L. Hedden. Shaker stroke affects selective
removal of valencia oranges. Transactions of the ASAE, 28:1094–1096, 1985.
[39] K.C. Cox, G.C. Roman, W.E. Ball, and A.F. Laine. Rapid search for spherical
objects in aereal photographs. IEEE Computer society on Computer Vision and
Pattern Recognition, pages 905–909, 1988.
[40] R.L. Cromwell. Sensors and processors enable robots to see and understand. Laser
focus world, pages 67–78, 1993.
[41] T.G. Crowe and M.J. Delwiche. Real-time defect detection in fruit- part i: Design
concepts and development of prototype hardware. Transactions of the ASAE,
39(6):2299–2308, 1996.
[42] T.G. Crowe and M.J. Delwiche. A system for fruit defect detection in real-time.
AgENG96-Paper 96G-023, 1996.
296 Bibliografı́a
[43] P. Dario, M. Bergamasco, and A. Fiorillo. Force and tactile sensing for robots.
NATO ASI Series, Vol F43. Sensors and Sensory Systems for Advanced Robots,
pages 153–185, 1988.
[45] A.G. D’Esnon, G. Rabatel, and R. Pellenc. Magali: A self-propeled robot to pick
apples. ASAE paper 87-1037, ASAE, St Joseph, MI 49085-9659, 1987.
[46] Y. Dobrousin and Y. Edan. Real-time image processing for robotic melon harvesting.
Paper ASAE No.:92-3515, 1992.
[47] R.O. Duda and P.E. Hart. Use of the hough transformation to detect lines and
curves in pictures. Comunications of the ACM, 15(1):11–15, 1972.
[48] R.O. Duda, D.Ñitzan, and [Link]. Use of range and reflectance data to find planar
surface regions. IEEE Pattern analysis and Machine intelligence, 1(3):259–271, 1979.
[49] C.S. Dyson, N. Yauilla, and E.S. Kolesar. Object imaging with a piezoelectric robotic
tactile sensor. Proc. of NAECON, 1:41–47, 1993.
[50] H.R. Everett. Sensors for mobile robots. Theory and applications. A.K. Peters, Ltd.
Wellesley, Massachusetts, 1995.
[52] S. Felici, J. Pelegri, G. Sánchez, and J. Pelechano. Virtual centralized control system
for intelligent irrigation in distributed agrarian exploitations. Bio-Robotics-97.
International Workshop on robotics and automated machinery for bio-productions,
pages 213–216, 1997.
[55] T. Fujiura, J. Yamashita, and N. Kondo. Agricultural robots: Vision sensing system.
Paper N0. 92 3517, pages 1–7, 1992.
[56] J.J. Gaffney. Reflectance properties of citrus fruit. Transactions of the ASAE,
16(2):310–314, 1969.
[57] M. Galindo, J.A. López, L.A. Contreras, and L.M. Tomás. Defects modeling through
artificial vision techniques, applied to satsuma and tangerine slices quality control.
Bio-Robotics-97. International Workshop on robotics and automated machinery for
bio-productions, pages 89–94, 1997.
297
[59] M.C. Garcı́a-Alegre and D. Guinea. Building an architecture for a farming robot.
Bio-Robotics-97. International Workshop on robotics and automated machinery for
bio-productions, pages 255–260, 1997.
[60] G. Gering. Linking image-space and acumulator-space: A new approach for object
recognition. 1st IEEE Int. Conf. On Computer Vision, London, pages 112–117,
1987.
[63] S. Ghosal and R. Mehrotra. Range image segmentation using zernike moment-
based generlized edge detector. IEEE international conference on Robotics and
Automation. Nice, France, pages 1584–1589, 1992.
[64] B. Gil, A. Mitiche, and J.K. Aggarwal. Experiments in combining intensity and
range edge maps. Computer Vision Graphics and Image Processing, 21(3), 1983.
[65] J. Gómez, F.J. Dı́az, and J. López. An approach for determining bidirectional
reflectance parameters from range and brightness data. Proc. of the IEEE Int.
Conf. On Image Processing. Lausanne (Switzerland), 1:41–44, 1996.
[66] J. Gómez, F.J. Dı́az, and J. López. Obtención conjunta de las informaciones
tridimensional y cromática. primera aproximación a la caracterización óptica de
superficies. Informática y Automática, 30(3):19–33, 1997.
[67] F.E. Goodwin. Coherent laser radar 3-d vision sensor. SME. Society of
Manufacturing Engineers. MS85-1005, page 15, 1985.
[68] A.R. Grahn and L. Astle. Robotic ultrasonic force sensor arrays. Robot sensors:
Tactile and non-vision, 2:297–315, 1986.
[69] D. Greenhill and E.R. Davies. Relative effectiveness of neural networks for image
noise suppression. Pattern recognition in Practice, 4:367–378, 1994.
[71] T. Hague and N.D. Tillet. Navigation and control of an autonomous horticultural
robot. Mechatronics, 6(2):165–180, 1996.
298 Bibliografı́a
[72] R.M. Haralick. Computer vision theory: the lack thereof. Computer Vision:
Representation and Control, pages 113–121, 1985.
[73] R.M. Haralick and L.G. Shapiro. Computer and robot vision, volume 1. Addison
Wesley, 1992.
[74] R.M. Haralick and L. Watson. A facet model for image data. Computer Graphics
Image Proccesing, 15:113–129, 1981.
[75] R.C. Harrell. Economic analysis of robotic citrus harvesting in florida. Transactions
of the ASAE, pages 298–304, 1987.
[76] R.C. Harrell, D.C. Slaughter, and P.D. Adsit. A fruit-tracking system for robotic
harvesting. Machine Vision and Aplications, 2:69–80, 1989.
[77] R. Harries. Sensing down on the farm. Sensor review, Abril, pages 102–104, 1983.
[80] F.V. Hatzivasiliou and S.G. Tzafestas. Analysis and design of anew piezoresistive
tactile sensor system for robotic applications. Jounal of Intelligent and Robotic
Systems, 10:243–256, 1994.
[81] F. Heijden. Edge and line feature extraction based on covariance models. IEEE
Trans. Pattern Analysis and Machine Intelligence, 17(1):16–33, 1995.
[82] R. Hoffman and A.K. Jain. Segmentation and classification of range images. IEEE
Transactions on pattern analysis and machine intelligence, 9(5):608–620, 1987.
[84] B.K.P. Horn. Understanding image intensities. IEEE Computer Society Press.
Computer Vision: Principles, pages 10–35, 1991.
[85] R.D. Howe. Tactile sensing and control of robotic manipulation. Advanced Robotics,
8(3):245–261, 1994.
[86] J.N. Huddleston and J. Ben-aire. Grouping edgels into structural entities
using circular symmetry, the distributed hough transform, and probabilistic non-
accidentalness. CVGIP: Image Understanding, 57-2:227–242, 1993.
[87] H. Hwang, S.C. Kim, J.H. Chang, and K.D. Ko. Development of automatic grafting
system for fruit vegetables. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 13–19, 1997.
299
[88] H. Hwang, S.C. Kim, C.H. Lee, and C.K. An. Real-time on-line implementation
of automatic grading and sorting of dried oak mushrooms- 2nd prototype. Bio-
Robotics-97. International Workshop on robotics and automated machinery for bio-
productions, pages 223–228, 1997.
[90] J. Illingworth and [Link]. A survey of the hough transform. Computer Vision,
Graphics and Image Processing, 44:87–116, 1988.
[91] J. Illingworth and J. Kittler. The adaptive hough transform. IEEE Trans on Pattern
Analysis and Machine Intelligence, 9(5):690–697, 1987.
[92] J. Illingworth, J. Kittler, and J. Princen. Shape detection using the adaptive hough
transform. NATO ASI Series, Sensors devices and Systems for Robotics, 42:119–142,
1988.
[94] D.W. Jacobs. Robust and efficient detection of salient convex groups. IEEE Trans.
Pattern Analysis and Machine Intelligence, 18(1):23–37, 1996.
[96] A.K. Jain and P. Flynn. Three-dimensional Object Recognition Systems. Elsevier,
1993.
[97] A.K. Jain and P.J. Flynn. Image segmentation using clustering. IEEE Image
understanding, pages 65–83, 1996.
[98] A.K. Jain, T.Ñewman, and M. Goulish. Range-intensity histogram for segmenting
ladar images. Pattern Recognition Letters, 13:41–56, 1992.
[99] R.C. Jain and T.O. Bindford. Ignorance, myopia, and naivete in computer vision
systems. CVGIP: Image Understanding, 53:112–117, 1991.
[100] R.C. Jain and A.K. Jain. Analysis and interpretation of range images. Springer New
York (N.V.), 1990.
[101] R.A. Jarvis. A laser time-of-flight range scanner for robotic vision. IEEE Trans.
Pattern Analysis and Machine Intelligence, 5(5):505–512, 1983.
300 Bibliografı́a
[102] R.A. Jarvis. A perspective on range finding techniques for computer vision. Trans.
IEEE Pattern Analysis and Machine inteligence, 5(2):122–139, 1983.
[103] B.V. Jayawant, M.A. Onori, and J.D. Watson. Robot tactile sensing: a new array
sensor. Robot sensors: Tactile and non-vision, 2:199–205, 1986.
[104] X. Jiang and H. Bunke. Robust edge detection in range images based on scan line
approximation. Proc. 4th Asian Conference on Computer Vision, 1997.
[105] X.Y. Jiang, U. Meier, and H. Bunke. Fast range image segmentation using high-level
segmentation primitives. Proc. 3rd IEEE Workshop on Applications of Computer
Vision. WACV. Sarasota, Florida, pages 83–88, 1996.
[106] F.J. Jimeno and J.J. López. An artificial vision system for quality control and
sorting in citric industry. Bio-Robotics-97. International Workshop on robotics and
automated machinery for bio-productions, pages 95–100, 1997.
[107] A.R. Jiménez, R. Ceres, and J.L. Pons. Featureless classification of tactile contacts
in a gripper using neural networks. Sensors and Actuators, A, 62:488–491, 1997.
[108] A.R. Jiménez, R. Ceres, and J.L. Pons. Shape-based methods for fruit recognition
and localization using a laser range-finder. Bio-Robotics-97. International Workshop
on robotics and automated machinery for bio-productions, 1997.
[109] A.R. Jiménez, R. Ceres, and J.L. Pons. A new adaptive filter and a quality evaluation
index for image restoration. Informe interno 001-SAM. IAI-CSIC (submitted to
Computer Vision and Image Understanding), 1:1–30, 1998.
[110] G. Johnson. Development of a practical scanninig laser radar sensor for robotic
bin-picking, autonomous guiadance, and other difficult image analysis tasks. 22nd
International Symposium on Industrial Robots. Detroit, Michigan, USA, pages
21/55–21/71, 1991.
[112] F. Juste, I. Fornes, F. Plá, E. Molto, and F. Blay. Primeros resultados en campo de
un prototipo de brazo robotizado para la recolección de cı́tricos. CIMA91, 23 Conf.
Int. Maquinaria Agrı́cola, Zaragoza, pages 433–440, 1991.
[113] F. Juste, [Link], and F. Plá. An approach to robotic harvesting of citrus in spain.
VII Int. Citrus Congress, Acineale, Italia, 1992.
[114] F. Juste and F. Sevila. Citrus: A european project to study the robotic harvesting of
oranges. Proccedings of the 3rd International Symposium on Fruit, Nut and Vegetable
Harvesting Mechanization. Denmark-Sweden-Norway, 1991.
[115] A.C. Kak and J.L. Edwards. Experimental state of the art in 3d object recognition
and localization using range data. Proc. Workshop on Vision for Robots in IROS’95
Conference, Pittsburgh, 1995.
301
[117] L. Kassay. Hungarian robotic apple harvester. Paper ASAE No. 92-7042 St. Joseph,
MI 49085, pages 1–14, 1992.
[120] C. Kimme, D.H. Ballard, and J. Sklansky. Finding circles by an array of accumulator.
Comunications of the ACM, 18(2):120–122, 1975.
[121] N. Kondo, M. Monta, and K.C. Ting. Harvesting robot for inverted single truss
tomato production systems. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 149–154, 1997.
[122] E. Krotkov and R. Hoffman. Terrain mapping for a walking planetary rover. IEEE
Transactions on Robotics and Automation, 10(6):728–740, 1994.
[123] P.J. Kyberd and P.H. Chappell. A force sensor for automatic manipulation based
the hall effect. Meas. Sci. Technol., 4:281–287, 1993.
[124] W.C.Y. Lam and S.Y. Yuen. Efficient technique for circle detection using hypothesis
filtering and hough transform. IEE Proc. Vis. Image Signal Process., 143-5:292–300,
1996.
[125] C. Lee, R. Haralick, and K. Deguchi. Estimation of curvature from sampled noisy
data. CVPR’93. New York City, June 15-17, pages 536–541, 1993.
[126] J.S. Lee. Digital image enhacement and noise filtering by use local statistics. IEEE
Trans. on Pattern Recognition and Machine Intelligence, 2:165–168, 1980.
[127] J.S. Lee. Refined filtering of image noise using local statistics. Computer graphics
and image processing, 15:380–389, 1981.
[128] J.S. Lee. Digital image smoothing and the sigma filter. Computer Vision, Graphics
and Image proceesing, 24:255–269, 1983.
[130] P. Levi, R. Falla, and R. Pappalardo. Image controled robotics applied to citrus
fruit harvesting. Procedures ROVISEC-VII, Zurich, 1988.
302 Bibliografı́a
[131] Y. Li and W.C.K. Wong. An efficient and robust method to detect object centre.
Pattern Recognition, 30-5:659–671, 1997.
[132] F.R. Livingstone, L. King, J-A. Beraldin, and M. Rioux. Development of a real-time
laser scanning for object recognition, inspection, and robot control. SPIE Vol. 2057,
pages 254–461, 1993.
[133] L.C. Lynnworth. Ultrasonic measurements for process control. Theory, techniques
and Applications. Academic Press, Inc. Harcourt Brace Jovanovich, 1989.
[134] A. Mandow, J. Gomez, A. Ollero, and J.l. Martinez. Geenhouse operation with the
aurora mobile robot. pages 185–191, 1995.
[136] J.A. Marchant, T. Hague, N. Tillet, and J.M. Sanchiz. Research on an autonomous
vehicle for precise plant treatments. Bio-Robotics-97. International Workshop on
robotics and automated machinery for bio-productions, pages 237–242, 1997.
[137] J.A. Marchant, C.M. Onyango, and M.J. Street. Computer vision for potato
inspection without singulation. Computers and electronics in Agriculture, 4:235–
244, 1990.
[138] B. Marx. Laser and electro-optic based sensors. Sensor review, 16(3):12–15, 1996.
[139] J. Matas, Z. Shao, and J. Kittler. Estimation of curvature and tangent direction by
median filtered differencing. 8th int. Conf. On Image Analysis and Processing, San
Remo 13-15 Sept., 1995.
[140] P. Meer, R. Park, and K. Cho. Multiresolution adaptive image smoothing. CVGIP:
Graphical Models and Image processing, 56(2):140–148, 1994.
[141] D. Mintz. Robust consensus based edge detection. CVGIP: Image Understanding,
9(2):137–153, 1994.
[142] A. Misiti. Neural Network Toolbox User Guide. The Math Works, 1996.
[143] A. Mitiche and Aggarwal J.K. Detection of edges using range information. Trans.
IEEE Pattern Analysis and Machine Intelligence, 5(2):174–178, 1983.
[144] E. Moltó, N. Aleixos, L.A. Ruiz, J. Vazquez, and F. Juste. An artificial vision system
for fruit quality assessment. AgENG96-Paper 96F-078, 1996.
[145] E. Moltó, S. Castillo, and J. Juste. Estudios sobre sistemas para la recolección
automática de cı́tricos. Fruticultura Profesional, 24:35–41, 1987.
[147] J. Monfort, F. Plá, J. Calpe, and D. Gallego. Reliable low-cost vision system for
fruit grading. pages 39–45, 1995.
[149] H.R. Myler and A.R. Weeks. The pocket handbook of image processing algorithms
in C. Prentice Hall, 1993.
[150] S.G. Nadabar and A.K. Jain. Edge detection and labeling by fusion of intensity and
range images. SPIE Proc. On Applications of artificial Intelligence Machine Vision
and Robotics. Orlando, 1992.
[152] T.Ñagata and H.B. Zha. Determining orientation, location and size of primitive
surfaces by a modified hough transform technique. Pattern Recognition, 21:481–491,
1988.
[153] L.Ñajman and M. Schmitt. Geodesic saliency of watershed contours and hierarchical
segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence,
18(12):1163–1173, 1996.
[154] S.K. Nayar, M. Watanabe, and M.Ñoguchi. Real-time focus range sensor. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 18(12):1186–1197, 1996.
[155] D.Ñitzan, A.E. Brain, and R.O. Duda. The measurement and use of registered
reflectance and range data in scene analysis. Proc. IEEE, 65:206–220, 1977.
[156] N.Ñoguchi, K. Ishii, and H. Terao. Development of agricultural mobile robot using
geomagnetic direction sensor and image sensors. AgENG96-Paper 96G-040, 1996.
[157] A. Ollero, J.L. Martı́nez, and A. Simón. The autonomous robot for spraying: Aurora.
Fourth Workshop on Robotics in Agriculture and the Food Industry, IARP, Toulouse,
pages 193–198, 1995.
[158] C.F. Olson. Decomposition of the hough transform: Curve detection with
efficient error propagation. Computer Vision ECCV’96. Proceedings 4th European
Conference on Computer Vision. Cambridge, U.K., 1:263–272, 1996.
[159] D.C. Pao, H.F. Li, and R. Jayakumar. Shapes recognition using the straight line
hough transform: Theory and generalization. IEEE Trans. Pattern Analysis and
Machine Intelligence. Vol. 14.n11, pages 1076–1089, 1992.
[160] E. Parrish and A.K. Goksel. Pictorial pattern recognition applied to fruit harvesting.
Transactions of the ASAE, 20:822–827, 1977.
304 Bibliografı́a
[161] K. Peleg. Sorting fruits and vegetables by firmness and maturity. Bio-Robotics-97.
International Workshop on robotics and automated machinery for bio-productions,
pages 57–64, 1997.
[162] P. Perona and J. Malik. Scale space and edge detection using anisotropic diffusion.
IEEE Trans. Int. Conf. PAMI, 12:629–639, 1990.
[163] D.L. Peterson and G.K. Brown. Mechanical harvester for fresh market quality
blueberries. Transactions of the ASAE, 39(3):823–827, 1996.
[164] F. Plá. Recognition of partial circular shapes from segmented contours. CVGIP:
Computer Vision and Image Understanding, 63(2):334–343, 1996.
[165] F. Plá, F. Juste, and F. Ferri. Feature extraction of spherical objects in image
analisys: an application to robotic citrus harvesting. Computers and Electronics in
Agriculture, 8:57–72, 1993.
[167] J.L. Pons. Metodologı́as y estrategias de compensación activa para la mejora del
comportamiento cinemático y dinámico de robots especı́ficos. Aplicación al recolector
Agribot. Tesis doctoral. Departamento de Fı́sica Aplicada III. F.C.C. Fı́sicas.
Universidad Complutense de Madrid, 1996.
[168] J.L. Pons, R. Ceres, and A.R. Jiménez. Mechanical design of a fruit picking
manipulator: Improvement of dinamic behavior. IEEE international conference on
Robotics and Automation, pages 969–974, 1996.
[170] G. Rabatel. A vision sistem for magali, the fruit picking robot. Paper 88293,
AGENG88, Int. Conf. Agricultural Engineering, Paris, 1988.
[172] K.R. Rao and J. Ben-Aire. Non-orthogonal expansion for template matching and
edge detection. Signal Processing Method for audio, images and telecommunications.
A.P. Edt. Clarkson & H. Stark, pages 299–331, 1995.
[173] J. Rebman and K.A. Morris. A tactile sensor with electrooptical transduction. Robot
sensors: Tactile and non-vision, 2:145–155, 1986.
[174] B.E. Roberston and A.J. Walkden. Tactile sensor system for robotics. Robot Sensors:
Tactile and non-vision, 2:89–97, 1986.
305
[175] J.M. Roger, E. Moltó, G. Rabatel, and J. Blasco. Design of a robotized, non-chemical
weed controller. Bio-Robotics-97. International Workshop on robotics and automated
machinery for bio-productions, pages 229–236, 1997.
[176] L.A. Ruiz, E. Moltó, F. Juste, [Link]́, and R. Valiente. Location and characterization
of the stem-calyx area on oranges by computer vision. Journal Agricultural
Engineering Research, 64:165–172, 1996.
[177] R.A. Russell. Robot tactile sensing. Depart. of Elec. Eng., Monash Univ., Australia.
Prentice Hall, 1990.
[179] P. Saint-Marc, J.L. Jezonin, and Medioni. A versatile pc-based range finding system.
IEEE Transactions on Robotics and Automation, 7(2), 1991.
[180] C.A. Salinas. Control digital de tres ejes y módulos de potencia de motores de
corriente continua. Máster en tecnologı́as de la información. Universidad Politécnica
de Madrid, 1994.
[181] M. Salotti, F.B. Garbay, and C. Garbay. Evaluation of edge detectors: Critics and
proposal. Workshop on Performance Characteristics of Vision Algorithms. Robin
College, Cambridge, April 19, 1996.
[184] C.E. Schertz and G.K. Brown. Basic considerations in mechanizing citrus harvest.
Transactions of the ASAE, pages 343–346, 1968.
[185] P. Seitz. The robust recognition of object primitives using local axes of symmetry.
Signal Processing, pages 89–108, 1989.
[186] Y. Shirai. Application of laser range finder to robot vision. NATO ASI Series, Vol
F52. Sensors devices and Systems for Robotics, pages 313–322, 1989.
[187] A. Sites and M.J. Delwiche. Computer vision to locate fruit on a tree. ASAE paper
85-3039, ASAE, St Joseph, MI 49085, 1988.
[188] D. Slaughter and R.C. Harrel. Color vision in robotic fruit harvesting. Transactions
of the ASAE, 30(4):1144–1148, 1987.
[189] D. Slaughter and R.C. Harrel. Discriminating fruit for robotic harvest using color
in natural outdoor scenes. Transactions of the ASAE, 32(2):757–763, 1989.
306 Bibliografı́a
[191] V. Stepanov. Mobile and manipulation robots for agriculture. pages 137–143, 1995.
[192] T. W. Sze and Y. H. Yang. A simple contour matching algorithm. IEEE Trans.
Pattern Analysis and Machine Intelligence, 3(6):676–678, 1981.
[193] H.D. Tagare and R.J.P. DeFigueiredo. A framework for the construction of
reflectance maps for machine vision. CVGIP: Computer Vision and Image
Understanding, 57(3):265–282, 1993.
[195] Y. Tao, P.H. Heinemann, and Z. Varghese. Machine vision for color inspection of
potatoes and apples. Transactions of the ASAE, 38(5):1555–1561, 1995.
[196] Y. Tao, C.T. Morrow, P.H. Heinemann, and H.J. Sommer. Fourier-based separation
technique for shape grading of potatoes using machine vision. Transactions of the
ASAE, 38(3):949–957, 1995.
[197] K. Tate and Z. Li. Depth map construction from range-guided multiresolution stereo
matching. IEEE Transactions on Systems, Man and Cybernetics., vol.24, no. 1,
pages 134–144, 1994.
[198] C. Thorpe, M.H. Hebert, T. Kanade, and S.A. Shafer. Vision and navigation for
the carnegie-mellon navlab. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 10(3):362–373, 1988.
[199] R.D. Tillett. Image analysis for agricultural processes: A review of potential
opportunities. Journal Agricultural Engineering Research, 50:247–258, 1991.
[200] T. Torii, T. Kanuma, T. Okamoto, and O. Kinati. Image analysis of crop row for
agricultural mobile robot. AgENG96-Paper 96G-038, 1996.
[201] K.E. Torrance and E.M. Sparrow. Theory for off-specular reflection from roughened
surfaces. Journal Optical Society, 57:1105–1114, 1967.
[204] M. Umasuthan and A.M. Wallace. Outlier removal and discontinuity preserving
smoothing of range data. IEE Proceeding Vis. Image Signal Process., 143(3):191–
200, 1996.
307
[206] J. Valente and C. Couto. intelligent soil moisture employing thermal and capacitive
methods for irrigation control. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 177–182, 1997.
[208] Z. Varghese, C.T. Morrow, and P.H. Heinemann. Automated inspection of golden
delicious apples using color computer vision. ASAE paper 91-7002, ASAE, St Joseph,
MI, 1991.
[210] J. Varona and J.J. Villanueva. Neural networks as spatial filters for image processing:
Neurofilters. CVC Tech. Report no. 007, pages 1–11, 1996.
[211] G. Vosselman and R.M. Haralick. Performance analysis of line and circle fitting
in digital images. Workshop on Performance Characteristics of Vision Algorithms.
Robin College, Cambridge, April 19, 1996.
[213] Whittaker, Miles, Mitchell, and Gaultney. Fruit location in a partially ocluded
image. Transactions of the ASAE, 30, pages 591–597, 1987.
[214] P.M. Will and K.S. Pennington. Grid coding: A preprocessing technique for robot
and machine vision. Proc. 2nd Int. Joint Conf. Pattern recognition, pages 66–68,
1971.
[215] A.P. Witkin. Scale-space filtering. IEEE Computer Society Press. Computer Vision:
Principles, pages 108–111, 1991.
[216] M. Worring and A.W.M. Smeulders. Digital curvature estimation. CVGIP: Image
understanding, 58:366–382, 1993.
[217] Q. Yang. Finding stalk and calyx of apples using structured lighting. Computers
and electronics in Agriculture, 8:31–42, 1993.
[218] X. Yu, D. Bui, and A. Krzyzak. Robust estimation for range image segmentation and
reconstruction. IEEE Trans. Pattern Analysis and Machine Intelligence, 16(5):530–
537, 1994.
View publication stats
308 Bibliografı́a
[219] P.C. Yuen and G.C. Feng. A novel method for parameter estimation of digital arc.
Pattern Recognition Letters, 17:929–938, 1996.
[220] G. Zhang and A. Wallace. Physical modeling and combination of range and intensity
edge data. CVGIP: Image Understanding, 58(2):191–220, 1993.