0% encontró este documento útil (0 votos)

107 vistas327 páginas

Detección de Frutos con Láser para Agribot

Este documento presenta una tesis doctoral sobre el desarrollo de un sistema de detección y localización de frutos mediante telemetría láser para su aplicación en un robot agrícola llamado AGRIBOT. El sistema captura imágenes de distancia y reflectancia de los objetos en el entorno agrícola utilizando un telémetro láser. El documento analiza diferentes técnicas de percepción y los sistemas propuestos por otros investigadores, y caracteriza el telémetro láser seleccionado para el sistema desarrollado.

Cargado por

CORAL ALONSO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

107 vistas327 páginas

Detección de Frutos con Láser para Agribot

Cargado por

CORAL ALONSO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

See discussions, stats, and author profiles for this publication at: [Link]

net/publication/39157425

Sistema de reconocimiento y localización de objetos cuasi-esféricos por

telemetría láser : aplicación a la detección automática de frutos para el robot
Agribot

Article
Source: OAI

CITATIONS READS

7 644

1 author:

Antonio Ramón Jiménez

Spanish National Research Council
121 PUBLICATIONS 3,748 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

High-accuracy acoustic positioning system View project

Physical properties of acoustic waveguides View project

All content following this page was uploaded by Antonio Ramón Jiménez on 05 June 2014.

The user has requested enhancement of the downloaded file.

UNIVERSIDAD COMPLUTENSE DE MADRID
FACULTAD DE CIENCIAS FÍSICAS
Departamento de Arquitectura de Computadores y
Automática

Sistema de reconocimiento y localización de

objetos cuasi-esféricos por telemetrı́a láser.
Aplicación a la detección automática de frutos
para el robot Agribot

TESIS DOCTORAL
1998

Antonio Ramón Jiménez Ruiz

Instituto de Automática Industrial (IAI)

Consejo Superior de Investigaciones Cientı́ficas (CSIC)
UNIVERSIDAD COMPLUTENSE DE MADRID
FACULTAD DE CIENCIAS FÍSICAS
Departamento de Arquitectura de Computadores y
Automática

Sistema de reconocimiento y localización de

objetos cuasi-esféricos por telemetrı́a láser.
Aplicación a la detección automática de frutos
para el robot Agribot

Memoria presentada por

D. Antonio Ramón Jiménez Ruiz
bajo la dirección del
Dr. D. Ramón Ceres Ruiz
para optar al grado de Doctor en Ciencias Fı́sicas

Instituto de Automática Industrial (IAI)

Consejo Superior de Investigaciones Cientı́ficas (CSIC)
A mis padres

A Ma Ángeles
Índice general

Agradecimientos VII

Resumen de la tesis IX

1. Automatización agrı́cola: La detección de frutos. El robot asistido

AGRIBOT 1
1.1. La automatización agrı́cola . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Factores socioeconómicos y tecnológicos en la automatización agrı́cola 3
1.1.2. Automatización en el sector agroalimentario . . . . . . . . . . . . . . 4
1.1.3. Automatización en la recolección de frutas delicadas . . . . . . . . . 8
1.2. Percepción automática en los procesos de recolección . . . . . . . . . . . . . 11
1.2.1. Variabilidad del entorno agrı́cola . . . . . . . . . . . . . . . . . . . . 11
1.2.2. Revisión de los principales métodos de detección de frutos
propuestos para tareas de recolección agrı́colas . . . . . . . . . . . . 12
[Link]. Propuesta de Schertz y Brown . . . . . . . . . . . . . . . . 12
[Link]. Universidad de Virginia: Parrish y Goksel . . . . . . . . . . 13
[Link]. El proyecto MAGALI: D’Esnon y Rabatel . . . . . . . . . . 14
[Link]. Universidad de Florida y centro USDA: Harrell y Slaughter 15
[Link]. Universidad de Purdue: Whittaker . . . . . . . . . . . . . . 17
[Link]. A.I.D: Levi, Falla y Pappalardo . . . . . . . . . . . . . . . 18
[Link]. Centro Sunkist y Universidad de California: Sites y Delwiche 19
[Link]. El proyecto AUFO: Kassay . . . . . . . . . . . . . . . . . . 20
[Link]. El proyecto CITRUS: Juste, Sevila, Plá, Moltó . . . . . . . 21
[Link]. Univ. de Purdue y C. Volcani: Cardenas, Dobrousin,
Benady, Miles . . . . . . . . . . . . . . . . . . . . . . . . . 23
[Link]. CIRAA: Buemi . . . . . . . . . . . . . . . . . . . . . . . . . 26

i
1.2.3. Análisis de las soluciones propuestas: Limitaciones . . . . . . . . . . 26
[Link]. Captación de la imagen . . . . . . . . . . . . . . . . . . . . 27
[Link]. Métodos de análisis aplicados . . . . . . . . . . . . . . . . . 29
[Link]. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3. La estrategia de recolección asistida: El robot AGRIBOT . . . . . . . . . . 30
1.3.1. Principio de operación asistido . . . . . . . . . . . . . . . . . . . . . 31
1.3.2. Descripción del robot AGRIBOT . . . . . . . . . . . . . . . . . . . . 31
1.3.3. Resultados y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2. Estrategia de detección mixta. Estudio, configuración y caracterización

de un sensor de distancia y reflectancia 39
2.1. Estrategia de detección mixta: Detección/localización automática y asistida 40
2.1.1. Principio de operación mixto . . . . . . . . . . . . . . . . . . . . . . 40
2.1.2. Captación de distancia y reflectancia: Análisis de formas,
propiedades ópticas y distribución espacial. . . . . . . . . . . . . . . 41
2.1.3. Especificaciones de las imágenes de distancia y reflectancia . . . . . 42
2.2. Técnicas para captar distancia y reflectancia . . . . . . . . . . . . . . . . . 44
2.2.1. Técnicas basadas en cámaras ópticas . . . . . . . . . . . . . . . . . . 45
[Link]. Estéreo visión . . . . . . . . . . . . . . . . . . . . . . . . . 49
[Link]. Visión dinámica . . . . . . . . . . . . . . . . . . . . . . . . 50
[Link]. Enfoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
[Link]. Gradiente de textura . . . . . . . . . . . . . . . . . . . . . 52
[Link]. Gradientes de iluminación . . . . . . . . . . . . . . . . . . . 53
[Link]. Luz estructurada . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.2. Técnicas ultrasónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2.3. Palpación táctil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.4. Técnicas basadas en telemetrı́a láser . . . . . . . . . . . . . . . . . . 61
[Link]. Telemetrı́a láser mediante triangulación . . . . . . . . . . . 63
[Link]. Telemetrı́a láser por diferencia de fases . . . . . . . . . . . 65
[Link]. Telemetrı́a láser por tiempo de vuelo . . . . . . . . . . . . 67
[Link]. Telemetrı́a láser por frecuencia modulada . . . . . . . . . . 68
2.3. Análisis, selección y configuración del sistema de medida . . . . . . . . . . . 68
2.3.1. Principio de medida: Telemetrı́a láser por diferencia de fases. . . . . 68

ii
2.3.2. Telémetro láser: Selección y análisis tecnológico . . . . . . . . . . . . 70
[Link]. Selección: Acuity Range 4000-LIR . . . . . . . . . . . . . . 70
[Link]. Análisis tecnológico: Índice de eficiencia tecnológica . . . . 73
2.3.3. Configuración fı́sica del sistema de exploración . . . . . . . . . . . . 76
[Link]. Componentes del sistema de deflexión . . . . . . . . . . . . 77
[Link]. Aspectos de seguridad ante la radiación láser . . . . . . . . 79
[Link]. Adquisición de las imágenes . . . . . . . . . . . . . . . . . 83
[Link]. Limitaciones encontradas . . . . . . . . . . . . . . . . . . . 84
2.4. Caracterización del telémetro láser . . . . . . . . . . . . . . . . . . . . . . . 86
2.4.1. Modelado de los factores que afectan a la reflectancia registrada . . 86
[Link]. Planteamiento inicial del modelo . . . . . . . . . . . . . . . 87
[Link]. Modelo general: Superficies no ideales . . . . . . . . . . . . 90
[Link]. Modelo aproximado: Superficies difusoras perfectas . . . . 93
[Link]. Reflectividad y fracción difusa: Propiedades caracterı́sticas
de una superficie . . . . . . . . . . . . . . . . . . . . . . . 95
2.4.2. Modelado de la repetitividad de la distancia . . . . . . . . . . . . . . 96
[Link]. Repetitividad en régimen estático . . . . . . . . . . . . . . 97
[Link]. Repetitividad en situaciones dinámicas . . . . . . . . . . . 100
2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

3. Restauración del mapa de distancias: Filtrado adaptativo y calidad de

restauración 107
3.1. Técnicas de preprocesamiento de imágenes . . . . . . . . . . . . . . . . . . . 108
3.1.1. Métodos de realce . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
[Link]. Transformaciones del histograma . . . . . . . . . . . . . . . 109
[Link]. Acentuado de bordes . . . . . . . . . . . . . . . . . . . . . 110
[Link]. Coloreado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.1.2. Métodos de restauración . . . . . . . . . . . . . . . . . . . . . . . . . 112
[Link]. Filtros lineales . . . . . . . . . . . . . . . . . . . . . . . . . 112
[Link]. Filtros no lineales . . . . . . . . . . . . . . . . . . . . . . . 114
[Link]. Suavizado adaptativo . . . . . . . . . . . . . . . . . . . . . 118
[Link]. Suavizado adaptativo iterativo . . . . . . . . . . . . . . . . 122
3.2. Evaluación de la calidad de restauración . . . . . . . . . . . . . . . . . . . . 124

iii
3.2.1. Definición de una nueva métrica de calidad de restauración: GRI . . 126
3.2.2. Evaluación de técnicas de restauración mediante la métrica GRI . . 128
3.3. Nuevo método de restauración adaptativa por ajustes de planos
multiresolución con fidelidad-3σ . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3.1. Definición de la técnica de restauración 3σ-MPF . . . . . . . . . . . 132
3.3.2. Evaluación comparativa de la técnica de restauración 3σ-MPF por
la métrica GRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

4. Método de reconocimiento de objetos esféricos: Estrategia modular de

acumulación de indicios mediante múltiples primitivas 147
4.1. Técnicas principales de análisis de imágenes . . . . . . . . . . . . . . . . . . 148
4.1.1. Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
[Link]. Técnicas para la detección de bordes . . . . . . . . . . . . . 150
[Link]. Segmentación por agregación y detección de contornos . . . 153
[Link]. Segmentación por umbral . . . . . . . . . . . . . . . . . . . 156
[Link]. Segmentación basada en caracterı́sticas de regiones . . . . . 157
[Link]. Segmentación por movimiento . . . . . . . . . . . . . . . . 158
4.1.2. Descripción o extracción de caracterı́sticas . . . . . . . . . . . . . . . 159
[Link]. Descriptores de contorno . . . . . . . . . . . . . . . . . . . 159
[Link]. Descriptores de regiones. . . . . . . . . . . . . . . . . . . . 162
[Link]. Descripción de estructuras tridimensionales . . . . . . . . . 165
4.1.3. Reconocimiento o clasificación . . . . . . . . . . . . . . . . . . . . . 167
[Link]. Teorı́a de decisiones . . . . . . . . . . . . . . . . . . . . . . 167
[Link]. Métodos estructurales . . . . . . . . . . . . . . . . . . . . . 174
4.2. Estrategia de reconocimiento propuesta . . . . . . . . . . . . . . . . . . . . 176
4.2.1. Consideraciones iniciales sobre métodos de reconocimiento . . . . . . 176
4.2.2. Estrategia de reconocimiento basada en la extracción de primitivas
y en la acumulación de indicios . . . . . . . . . . . . . . . . . . . . . 179
4.3. Definición y generación de primitivas . . . . . . . . . . . . . . . . . . . . . . 181
4.3.1. Primitivas puntuales contorno . . . . . . . . . . . . . . . . . . . . . . 184
[Link]. Caracterı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . 188
[Link]. Funciones discriminantes . . . . . . . . . . . . . . . . . . . 190

iv
[Link]. Clasificación de los puntos imagen . . . . . . . . . . . . . . 194
4.3.2. Primitivas puntuales corona . . . . . . . . . . . . . . . . . . . . . . . 196
4.3.3. Primitivas regionales convexas . . . . . . . . . . . . . . . . . . . . . 203
4.3.4. Primitivas regionales reflectividad . . . . . . . . . . . . . . . . . . . 204
4.4. Estimación de parámetros e indicios . . . . . . . . . . . . . . . . . . . . . . 207
4.4.1. Estimación con primitivas puntuales . . . . . . . . . . . . . . . . . . 209
4.4.2. Estimación con primitivas regionales . . . . . . . . . . . . . . . . . . 213
4.5. Generación de hipótesis finales y verificación . . . . . . . . . . . . . . . . . . 215
4.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

5. Evaluación conjunta del sistema y los algoritmos propuestos en

condiciones simuladas y reales 219
5.1. Introducción a la evaluación de algoritmos . . . . . . . . . . . . . . . . . . . 220
5.1.1. Consideraciones iniciales en la evaluación . . . . . . . . . . . . . . . 220
5.1.2. Conceptos fundamentales en la evaluación de algoritmos . . . . . . . 221
5.2. Evaluación de los algoritmos propuestos mediante simulación . . . . . . . . 223
5.2.1. Complejidad algorı́tmica . . . . . . . . . . . . . . . . . . . . . . . . . 223
5.2.2. Sensibilidad ante degradaciones . . . . . . . . . . . . . . . . . . . . . 224
5.2.3. Influencia de la restauración sobre los resultados . . . . . . . . . . . 235
5.3. Evaluación de los algoritmos propuestos utilizando datos empı́ricos . . . . . 238
5.3.1. Evaluación de la capacidad de detección con imágenes de laboratorio 238
5.3.2. Pruebas de detección en una plantación natural . . . . . . . . . . . . 244
[Link]. Discriminación por reflectividad . . . . . . . . . . . . . . . 245
[Link]. Influencia del Sol . . . . . . . . . . . . . . . . . . . . . . . . 248
[Link]. Influencia del viento . . . . . . . . . . . . . . . . . . . . . . 249
5.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252

Conclusiones, aportaciones y trabajos futuros 255

A. Caracterı́sticas técnicas de los componentes del sistema telemétrico de

exploración 261

B. Medidas experimentales para modelar el telémetro láser 273

C. Muestra de imágenes de laboratorio distancia-reflectancia utilizadas en

v
vi

la evaluación empı́rica 279

Agradecimientos

En primer lugar quisiera agradecer a mi director de tesis, el Dr. D. Ramón Ceres Ruiz, la
oportunidad brindada para realizar el trabajo de investigación ligado al proyecto Agribot
que ahora culmina con la finalización de esta tesis. Destacando la gran ayuda prestada con
sus consejos, su manera de enfocar los problemas y los esfuerzos en perfeccionar el trabajo
realizado. Junto con Leopoldo y José Miguel el trabajo se hizo más fácil y se creó un
entorno de trabajo agradable, se proporcionaron todos los recursos materiales necesarios
siendo esto muy importante para trabajar con eficacia.
Gracias también a mi hermana Marı́a Antonia, que asumiendo muy bien el papel de mayor
de los hermanos, ha estado siempre pendiente de mı́, preocupándose de mis problemas y
tratando de guiarme por el mejor camino. Quiero ası́ mismo recordar a Teo, Eduardo,
Vicente y José Manuel que estuvieron trabajando junto a mı́ al principio, y de los cuales
aprendı́ las primeras cosas de ultrasonidos. Cómo no, agradecer a mis compañeros de tesis
José Luis y Enrique, al primero por los consejos y ánimos dados para seguir adelante, y
al segundo por los “rollos” filosófico-técnicos que me concedió, con los que yo me distraı́a
al cambiar de tema, y él se desahogaba contando sus logros e incertidumbres. También
recordar al resto de compañeros del departamento, unos aún aquı́ y otros que ya se fueron,
sin los cuales las cosas no hubiesen sido iguales.
Quiero expresar mi agradecimiento a todo el personal del IAI, que bajo la dirección del
Dr. D. Antonio Cordero, han hecho posible que las diferentes tareas que implicaba el
trabajo realizado se hayan desarrollado de una forma distribuida. En especial me gustarı́a
agradecer a Angel Rebollo la cantidad de “cables” que me ha echado (en todos los
sentidos), y a Román Cordero por su capacidad para distribuir la tarea entre los talleres
de mecanizado, electrónica y delineación, agilizando el trabajo hasta donde era posible.
Finalmente, agradecer al MEC-CICYT la beca de posgraduado concedida y las
oportunidades en forma de salidas de perfeccionamiento al extranjero, las cuales han
resultado ser muy positivas tanto para mi formación académica como personal. En primer
lugar, agradecer al Prof. H. Van Brussel, Dr. D. Reynaerts y al Dr. Adhi S. Soembajijo las
facilidades prestadas en todo momento para realizar los primeros trabajos con imágenes en
la Universidad de Lovaina. Igualmente, la estancia en la Universidad Estatal de Michigan
con el profesor A.K. Jain y S. Shirai fueron de indudable valor, ası́ como el trabajo
desarrollado en la Universidad de Surrey bajo la supervisión de J. Illingworth y J. Kittler
donde aprendı́ más aspectos del procesamiento y análisis de imágenes.

vii
viii Agradecimientos
Resumen de la tesis

Objetivos

El trabajo expuesto en la presente memoria se ha desarrollado en el Instituto

de Automática Industrial del CSIC, dentro de los proyectos denominados Robot
Ligero Orientado a la Recolección Asistida de Frutos (AGRIBOT), y su continuación,
Optimización de la Estructura y Sistemas Localizador y Prensor para el Robot Recolector
de Frutos, AGRIBOT II. Ambos han sido financiados por la Comisión Interministerial
de Ciencia y Tecnologı́a en el área de Tecnologı́as Avanzadas de la Producción (CICYT-
TAP93-0583 y TAP96-0398 ).
El objetivo de estos dos proyectos se centra en la investigación de nuevas estrategias para
tratar de automatizar en un cierto grado las tareas de recolección de frutos delicados en
árbol. Este planteamiento ha requerido principalmente el estudio y la construcción de tres
sistemas complementarios como son el brazo robótico, el dispositivo de prensión del fruto
y el sistema de localización de frutos. Sobre este último aspecto, trata nuestro trabajo de
tesis.
El objetivo de la presente tesis consiste en el estudio y realización de un sistema automático
de detección y localización de frutos en árboles mediante telemetrı́a láser. Con este trabajo
se pretende profundizar en una metodologı́a alternativa a las estudiadas por la mayorı́a de
los investigadores anteriores basadas principalmente en visión artificial mediante cámaras.
El problema esencial que se trata de resolver es detectar el mayor número posible de frutas
con la asignación de sus correspondientes coordenadas espaciales y con la mı́nima tasa
de falsas detecciones; todo ello teniendo en consideración la complejidad de los entornos
agrı́colas.
En este sentido, la tesis se centra en el estudio de nuevas técnicas de captación,
procesamiento y análisis de imágenes, utilizando la información dual de distancia y
reflectancia captada con un sistema sensorial basado en telemetrı́a láser, con el fin de
facilitar la obtención de información discriminante y simplificar la complejidad de los
algoritmos. Estas técnicas deberán ser aplicadas en la elaboración de un prototipo de
sistema de reconocimiento automático de frutos, que será planteado con mayor generalidad
como un dispositivo de reconocimiento, localización y caracterización de objetos esféricos
en entornos no estructurados.

ix
x Resumen de la tesis

Metodologı́a del trabajo y estructura de la memoria

La metodologı́a seguida para llevar a cabo el presente trabajo de investigación se

corresponde con las etapas y aspectos que se presentan a continuación.
En el capı́tulo 1, comenzamos presentando las diversas técnicas de automatización, ya
incorporadas o en fase de investigación, para procesos agroalimentarios. En especial,
revisamos las diferentes investigaciones dedicadas a la automatización de la recolección
de fruta delicada en árboles leñosos, y en particular los procesos de percepción artificial
desarrollados para dotar a los robots de la capacidad de detectar y localizar los frutos a
ser recolectados. Posteriormente, presentamos una descripción del proyecto AGRIBOT,
y de su estrategia asistida o semi-automática con la que primeramente se concibe el
proyecto. Esta estrategia supone la intervención de un operario para realizar las tareas
de guiado del robot, reconocimiento y señalización del fruto. Se realiza un análisis crı́tico
de los resultados obtenidos en esta primera fase de desarrollo del proyecto, y se plantea la
necesidad de incorporar un sistema automático de detección y localización que apoye al
método asistido.
En el capı́tulo 2, proponemos una estrategia de detección mixta que integra el método
automático con el asistido ya existente en el robot Agribot. Para incorporar el modo
automático de detección de fruta, en vista de las limitaciones de los métodos desarrollados
por otros autores, basados en cámaras CCD, se propone fundamentar el reconocimiento en
el análisis de formas, propiedades ópticas y distribuciones espaciales de los objetos. Para
ello se requiere utilizar dispositivos de medida que suministren información de distancia
y reflectancia, con lo cual se revisan diferentes técnicas candidatas, encontrándose que la
telemetrı́a láser es la más adecuada para cumplir las especificaciones marcadas. Basándonos
en un tipo de telémetro que opera según el principio de diferencia de fases, configuramos
un sistema de deflexión de haz que mediante barridos sucesivos permite obtener parejas de
imágenes distancia-reflectancia. Finalmente, se realiza una caracterización del telémetro
láser, presentando un modelo matemático que relaciona la información de reflectancia
generada por el sensor, con otros factores que intervienen en el proceso de medida. Este
modelo va a ser la base para realizar la integración de la información presente en las
imágenes de distancia y reflectancia, permitiendo obtener propiedades más discriminantes
como se verá en el capı́tulo 4 que trata del análisis de imágenes. Ası́ mismo, se presenta
otro modelo que relaciona la desviación estándar que caracteriza la repetitividad de la
medida en distancias, con el nivel de señal o reflectancia captada por el sensor, lo cual es
útil a la hora de estimar el ruido presente en la imagen de distancias. Dicha estimación se
utilizará en la restauración de las imágenes que se presentará en el capı́tulo 3.
Efectivamente, las imágenes de distancia están contaminadas fundamentalmente de
ruido con distribución gausiana y este factor es sin duda perjudicial a la hora de
intentar extraer información de ellas. En el capı́tulo 3 estudiamos cómo minimizar
este problema, comenzando con una revisión de las técnicas más habituales para la
restauración y filtrado de imágenes. Ante la dificultad que existe a la hora de determinar
qué técnica de restauración es la más adecuada, definimos una nueva métrica, GRI, que
xi

mide la calidad de una restauración. Dicha métrica considera tanto la fidelidad en la

preservación de bordes como el grado de suavidad proporcionado, y permite de esta
forma disponer de un criterio objetivo de clasificación de técnicas de restauración. Se
hace una comparación de las técnicas tradicionales de filtrado no iterativas, encontrándose
que no son totalmente satisfactorias para nuestros objetivos. Por este motivo elaboramos
una nueva técnica adaptativa de filtrado, denominada 3σ-MPF, que permite superar en
calidad de restauración a las técnicas anteriores de acuerdo con las evaluaciones realizadas
mediante la métrica GRI.
Una vez que las imágenes distancia-reflectancia están adecuadamente restauradas, estamos
en condiciones de aplicar métodos de análisis sobre ellas con el propósito de detectar
la presencia de frutos, localizarlos y caracterizarlos. En el capı́tulo 4, inicialmente
mostramos una revisión de las principales técnicas de análisis utilizadas en el campo de
la visión por computador. A continuación presentamos la estrategia de análisis propuesta,
la cual se divide en tres etapas. La primera consiste en una fase de extracción de cuatro
tipos de primitivas, de las cuales tres (contorno, corona y convexidad) se caracterizan por
tener una alta probabilidad de pertenecer a un objeto esférico y la restante (reflectividad)
identifica regiones con propiedades ópticas iguales a las del objeto buscado. La segunda fase
consiste en una estimación de los parámetros de la esfera a partir de los indicios generados
por cada una de las primitivas. Finalmente, en la última fase se generan las hipótesis
definitivas después de agrupar hipótesis parciales compatibles y de aplicar una etapa de
eliminación de casos incoherentes. La principal novedad del método está en la extracción
de primitivas, las cuales fueron especialmente definidas para captar indicios o pistas que
den evidencia de la presencia de objetos esféricos. Este sistema es modular en el sentido
de que se puede utilizar el número y los tipos de primitivas que se estimen adecuadas,
siempre y cuando, mediante ellas se continúe captando la información discriminante que
permita realizar el reconocimiento. Ası́ mismo, el modelo del telémetro láser desarrollado
en el capı́tulo 2, es utilizado durante el proceso de análisis para integrar la información
proveniente de las imágenes de distancia y reflectancia. Los algoritmos de reconocimiento
y localización que presentamos son capaces de generar como salida las coordenadas
tridimensionales donde se encuentra cada objeto detectado, ası́ como el radio de la esfera
y un valor medio de reflectividad correspondiente a la superficie visible de ese objeto.
En el capı́tulo 5 se presenta una evaluación conjunta de los algoritmos propuestos en los
dos capı́tulos anteriores y ciertos aspectos que afectan al sistema al operar en condiciones
naturales. Se realizan dos tipos de evaluaciones, una simulada y otra experimental. En el
primer caso los criterios elegidos para medir la calidad de los resultados generados por
los algoritmos son los errores en la estimación de los parámetros de la esfera y el número
de indicios generados que indican la capacidad de detección de esferas. El estudio se hace
variando tanto parámetros internos del algoritmo como las caracterı́sticas de las imágenes
a analizar. En la evaluación experimental se utilizan imágenes correspondientes a escenas
de árboles frutales tanto artificiales como naturales, y lo que se evalúa es la tasa obtenida
de detecciones correctas y falsas. En el estudio con diferentes escenas de laboratorio se
muestra que en torno a un 80 % de la fruta visible es detectada y la probabilidad de que se
den detecciones falsas es prácticamente nula. Las pruebas de campo realizadas indican que
xii Resumen de la tesis

los frutos son discernibles del fondo por reflectividad e introducen dos factores degradantes
que influyen en la calidad de las imágenes captadas; estos son el viento y la iluminación
solar.
Finalmente, se presentan las conclusiones, las aportaciones realizadas y las posibles lı́neas
futuras de investigación en este campo.
Capı́tulo 1

Automatización agrı́cola: La
detección de frutos. El robot
asistido AGRIBOT

Resumen. En este capı́tulo presentamos las principales tendencias de automatización

en labores agrı́colas. En especial estudiamos los trabajos de automatización en tareas
de recolección de frutas y hortalizas, presentando las mayores dificultades encontradas:
guiado, detección y captura. Se profundiza en los trabajos para la detección y localización de
frutos, dando una amplia revisión de los desarrollos previos más significativos y haciendo
un análisis crı́tico de las estrategias aplicadas tanto en la captación como en el análisis de
la información.
Finalmente presentamos la estrategia de recolección asistida contemplada en un primer
enfoque del proyecto Agribot (I.A.I.), la cual pretende hacer viable la recolección
semiautomática, dividiendo las tareas entre el hombre y el robot. Los resultados obtenidos
en este trabajo son presentados y discutidos, planteando finalmente la necesidad de
incorporar un sistema adicional de apoyo en la detección y localización automática de
la fruta.

1
2 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

En la prehistoria los hombres vivı́an de la caza, la pesca y de la recolección de algunos

productos. Se alimentaban con plantas y frutos comestibles que encontraban en los
bosques. No vivı́an en lugares fijos, sino que recorrı́an el paı́s en busca de alimentos. Cuando
se instalaron en un lugar fijo, comenzaron a trabajar la tierra que les rodeaba y a cultivar en
ella plantas comestibles. Al principio, estos cultivos les bastaban para satisfacer sus propias
necesidades y constituı́an un suplemento a la alimentación que obtenı́an mediante la caza o
la pesca. Más tarde comenzaron a repartirse las diferentes tareas, correspondiendo a unos
la caza o la pesca y a otros el cultivo de las plantas que deberı́an servir de alimento a toda
la comunidad. Al descubrir que algunos animales salvajes se podı́an criar en cautividad,
comenzó la ganaderı́a. Poco a poco, los asentamientos fueron aumentando de tamaño y
organizándose en la misma medida los trabajos.
Posteriormente, las explotaciones agrı́colas se hicieron a mayor escala. Se fabricaron
herramientas sencillas, como la azada, para escardar y el arado para labrar la tierra. Al
principio estas herramientas eran de piedra y de madera, pero, posteriormente, se hicieron
de metal. Inicialmente, eran los propios hombres quienes tiraban de los arados, más tarde
se dieron cuenta de que este trabajo podı́an realizarlo ciertos animales. La introducción
de esta rudimentaria mecanización permitió el labrado de mayores parcelas de terreno
y la obtención de más copiosas cosechas. En el transcurso de los siglos, mejoraron los
métodos de cultivo, se comenzó a utilizar insecticidas y abonos quı́micos, y se inventó toda
una serie de maquinaria agrı́cola de naturaleza fundamentalmente mecánica (tractores,
cosechadoras, trilladoras, . . . ), que facilitó y aumentó en muy alto grado el rendimiento
de las tareas agrı́colas.
En la actualidad, las exigencias crecientes de calidad y de variedad de oferta a precios
cada vez más reducidos, están exigiendo el empleo de diversas tecnologı́as para mejorar la
producción. La automatización está siendo uno de los principales caminos emprendidos y
está permitiendo la realización de labores complejas que anteriormente eran propias del
hombre, pudiéndose atribuir muchos de estos logros a la utilización de computadoras y
sensores que permiten realizar sistemas automáticos suficientemente versátiles como para
adaptarse a los cambios en el medio.

1.1. La automatización agrı́cola

Por automatización entendemos “la acción de sustituir en un proceso el operador humano

por dispositivos mecánicos o electrónicos” (Real Academia Española de la Lengua). De
esta forma labores que eran peligrosas, tediosas o que estaban limitadas por la capacidad
humana, mediante la automatización pueden ser elaboradas incluso más eficientemente,
sin causar riesgos al operario y permitiendo dedicar sus capacidades a otras labores de
menor aporte energético y mayor contribución intelectual, en las que su intervención es
actualmente imprescindible. Los procesos automatizados están evolucionando actualmente
desde la realización de operaciones secuenciales y repetitivas en ambientes normalmente
estructurados, a tareas cada vez más complejas y cambiantes en las que es preciso tomar
decisiones y adaptar dinámicamente los planes de actuación en función de las condiciones
1.1 La automatización agrı́cola 3

del entorno.
Fundamentalmente el sector industrial es el que ha experimentado un mayor auge en la
incorporación de nuevas tecnologı́as que permiten automatizar un gran número de procesos
anteriormente realizados por el hombre. En el sector agrario, sin embargo, la incorporación
de sistemas automáticos ha sido más limitada. A pesar de ello, aunque quizás a un ritmo
lento, cada vez son más las tareas agropecuarias que se ven beneficiadas por estas nuevas
tecnologı́as.

1.1.1. Factores socioeconómicos y tecnológicos en la automatización

agrı́cola

Actualmente, en todos los sectores y en especial en el sector agroalimentario, las exigencias

cada vez más rigurosas en cuanto a producción, calidad y presentación de los productos,
está haciendo que se requiera la incorporación de tecnologı́as avanzadas para mejorar la
producción. Este hecho unido al factor de que la mano de obra en el sector primario
ha sufrido un desplazamiento hacia la industria y al sector servicios [29], hace que dicha
mano de obra sea cada vez más escasa, siendo además poco atractiva para los trabajadores
debido al carácter temporal y a la dureza de este tipo de labores. Por estos motivos, la
incorporación de máquinas con mayor o menor grado de automatización permite aumentar
la producción, diversidad y calidad de los productos, y logra reducir costes debido a la
menor mano de obra necesaria.
A pesar de los factores ventajosos que proporciona la automatización, como ya se ha dicho,
el desarrollo producido en el sector agrı́cola ha sido escaso. Las razones fundamentales que
lo justifican son, por un lado, aspectos problemáticos de tipo socioeconómico, y por otro,
motivos técnicos.
Los motivos socioeconómicos están directamente relacionados con la atomización de la
explotaciones, el carácter estacional de los cultivos, el bajo valor unitario del producto, la
tradicional escasez de inversión y la falta de preparación de la mano de obra actual para
aceptar nuevas alternativas de ayuda a la producción. La atomización de las explotaciones
hace que cualquier incorporación de nueva tecnologı́a suponga una relativa fuerte inversión
que no es capaz de costear el propietario. Este hecho unido al carácter estacional de la
mayorı́a de los productos, que implica que una sembradora, fumigadora o sistema de
recolección solo va a ser utilizado durante unos dı́as u horas a lo largo del año, hace que
no se estimule la inversión y se sigan utilizando métodos tradicionales.
Los motivos técnicos relacionados con la escasa implantación de tecnologı́a en sectores
agroalimentarios son, la falta de uniformidad de los productos y de los propios entornos
naturales de producción, en los cuales se requiere una operación a la intemperie sufriendo
unas condiciones orográficas y meteorológicas muy variables y en algunos casos adversas.
Esta falta de estructuración del entorno o ausencia de uniformidad, hace que los sistemas
automáticos deban estar dotados de una cierta “inteligencia” de tal forma que puedan
adaptarse y operar con diferentes comportamientos al percibir estos cambios. Esta
adaptabilidad requerida de los sistemas automáticos, supone un desafı́o tecnológico lo
4 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

que precisamente constituye un área de gran actividad en la investigación actual; por este
motivo, las automatizaciones en este sector ya implantadas han sido aquellas que suponen
una menor incertidumbre y que se caracterizan por presentar una mayor uniformidad y
ambientes más controlados.

1.1.2. Automatización en el sector agroalimentario

A pesar de las dificultades para la incorporación de sistemas automáticos en la

industria agroalimentaria, existen suficientes procesos automatizados, o bien en vı́as de
automatización, como para que merezcan una breve descripción. Vamos, por tanto, a
presentar una relación de los aspectos relacionados con la automatización en labores
agrı́colas, comenzando con las operaciones iniciales de preparación del terreno y sembrado,
y finalizando con el empaquetado previo al consumo final [29].

Preparación de terrenos. En este apartado se incluyen todas las labores previas al

cultivo incluyendo la eliminación de hierbas, el preabonado y el nivelado de terrenos.
Todas estas tareas se realizan utilizando tractores comerciales a los que se les agregan
dispositivos de accionamiento y sensores especı́ficos para realizar las diversas labores
(fig. 1.1). Los principales trabajos de automatización en esta etapa están relacionados
con el autoguiado de los tractores [93, 151, 71, 16, 200]. Uno de los primeros
trabajos en este sentido fue el prototipo del NIAE (National Institute of Agricultural
Engineering - Reino Unido) donde se incorpora un sistema de posicionamiento global
de hiperfrecuencias que toma la posición a partir de reflexiones en balizas pasivas
fijas. Para el guiado local utiliza sensores ultrasónicos que detectan y siguen los
surcos en las plantaciones. El nivelado de terrenos es otro aspecto importante en
aquellas plantaciones donde se requiere un riego en manta intentando conseguir
una capa uniforme de agua. En este sentido se utiliza un emisor láser acoplado al
tractor emitiendo haces nivelados. El desplazamiento vertical medido sobre unas
balizas fijas, permite determinar el desnivel, posibilitando la acción correctora de
unas palas niveladoras. Entre los trabajos para la detección y eliminación de hierbas,
recientemente se ha presentado un sistema que detecta las hierbas por visión artificial
y posteriormente las elimina aplicándolas descargas de alta tensión mediante un
brazo robotizado [175]. Otras estrategias para la eliminación de malas hierbas con un
ahorro importante en herbicidas, consiste en la detección precisa de estas mediante
visión para, posteriormente, realizar un tratamiento localizado [11].

Cultivo. Las máquinas de sembrado de grano son los dispositivos más desarrollados,
constando de un tractor al que se acopla un remolque con el grano y el mecanismo de
distribución de éste. La técnica más común es la que utiliza un sistema de dispersión
centrı́fugo que distribuye el grano uniformemente a medida que el tractor avanza.
Las primeras soluciones presentadas se basan en técnicas mecánicas, sin embargo la
reciente incorporación de la electrónica ha permitido realizar sistemas de distribución
de grano con diferentes configuraciones, como la distribución en rombo que presenta
algunas ventajas en cierto tipo de cultivos. Durante el proceso de crecimiento de las
1.1 La automatización agrı́cola 5

Figura 1.1: Uno de los primeros tractores a vapor que entró en servicio en 1860, que
requerı́a la intervención de tres personas para su manejo.

plantas la tendencia actual consiste en configurar las plantaciones de tal forma que se
faciliten las posteriores tareas automáticas de recolección al aumentar la visibilidad
de los frutos. Este cambio de fisonomı́a de las plantaciones se produce en algunos
casos aplicando diversas técnicas de poda [112] y en otros mediante el guiado fibrilar
de las plantas [207, 121]. Para dotar a las plantas leñosas de nuevas propiedades
se recurre a diversos tipos de injertos, los cuales se empiezan a realizar de forma
automática siendo el robot ROSAL [19] y los trabajos de Hwang [87] destacados
ejemplos representativos.

Fertirrigación. Los primeros sistemas automáticos de riego realizados eran en

lazo abierto suministrando una cantidad de agua fija previamente programada.
Posteriormente mediante la utilización de sensores (termómetros, pluviómetros,
anemómetros, . . . ) es posible realizar un control del grado de humedad del terreno y
realizar un riego mucho más flexible adaptándose a las condiciones meteorológicas.
El abonado automático se realiza disolviendo mediante bombas volumétricas sales
minerales en el agua utilizada para el riego. Se utilizan sondas para medir el estado
del suelo (acidez, humedad, salinidad, . . . ) de tal forma que se puede evaluar de
una forma precisa las necesidades en agua y sales minerales requeridas por la tierra
[206, 52]. El tratamiento local sobre la plantación utilizando robot móviles, permite
aplicar de forma precisa las sustancias requeridas y a la vez conseguir ahorros del
producto cercanos al 90 % [136].

Recolección. En este proceso cabe diferenciar entre dos grupos de cultivos que hacen
que el proceso de recolección sea diferente: los granos (cereales, maı́z, zahı́na,. . . )
y las frutas/hortalizas. En el primer caso se corta y se recoge toda la planta,
dejándose para una etapa posterior la separación del grano y la paja. La recolección
de este tipo de productos está resuelta de forma satisfactoria mediante el uso
de cosechadoras las cuales podrán ser completamente automatizadas mediante
técnicas de autoguiado basadas en GPS (Global Positioning System) o análisis
6 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

Figura 1.2: Método y equipo actual para la recolección de naranjas.

visual automático de la zona de operación mediante cámaras. En el caso de frutas y

hortalizas, solamente se recolecta el fruto, y la planta se conserva para posteriores
cosechas. Si la planta es de tipo leñoso y el fruto no es delicado (almendras, aceitunas,
. . . ) es posible aplicar vibradores de tronco o de rama desprendiendo el fruto del
árbol y dejándolo caer sobre una red. Sin embargo, en el caso de fruta delicada
(manzanas, naranjas, tomates, . . . ) esta técnica no se puede utilizar y se requiere
una recolección individualizada que actualmente se realiza de forma manual (fig.
1.2). Existen diversos trabajos de investigación en este campo en los cuales se
contempla la utilización de robots manipuladores, los cuales deben realizar tareas
de navegación, detección, localización, agarre, corte y depositado de cada una de las
frutas [148, 207, 121, 160, 45, 189, 213, 130, 187, 117, 112, 10, 24, 75].
En la siguiente sección veremos con mayor detalle aspectos relacionados con la
recolección de fruta delicada de forma individualizada, puesto que este tema
está directamente relacionado con el objetivo del presente trabajo; y en los siguientes
capı́tulos nos centraremos en las etapas de reconocimiento y localización de los frutos
en modo automático que es el objetivo final de la presente tesis.

Inspección y clasificación. En esta etapa lo que se pretende es analizar por unidades la

calidad de la producción, y en base a ella realizar una clasificación de los productos en
diferentes grupos con semejantes parámetros de calidad, entre los cuales se encuentra
también el grupo con unidades defectuosas. Para evaluar la calidad de un producto es
necesario medir diferentes parámetros entre los cuales están: el color, tamaño, forma,
firmeza, textura, peso, sabor, aroma y presencia de defectos tanto superficiales como
internos. Para determinar estos parámetros existen un amplio rango de métodos no
destructivos los cuales miden propiedades fı́sicas como el peso, la densidad, rigidez
1.1 La automatización agrı́cola 7

y respuesta acústica, y propiedades electro-ópticas mediante visión artificial, rayos

X e impedancias eléctricas.
El proceso de inspección y clasificación tiene un grado de automatización alto
existiendo por tanto bastantes sistemas autónomos ilustrativos [199]. Entre ellos
podemos citar el proyecto SHIVA el cual contempla la realización de un sistema
robotizado para la inspección, manipulación y empaquetado de frutas y hortalizas.
El aspecto innovativo en el proyecto está en la utilización de nuevos sensores que
permiten obtener información de propiedades tanto internas como externas del
producto. Otros trabajos incluyen la automatización en la determinación de la
firmeza y madurez de frutas mediante técnicas mecánicas [161, 18], la detección de
defectos superficiales [106, 57, 58, 144, 129, 42, 41, 205], la clasificación según formas
y tamaños utilizando sensores tridimensionales láser de alta resolución [78, 79, 95, 61]
o utilizando técnicas de visión [144, 22, 208, 196, 23, 137], la estimación del grado de
madurez utilizando el color superficial de la fruta [144, 32], la clasificación basada
simplemente en el color [147, 195, 4] y la detección de la presencia de pedúnculos
como criterio de calidad o con el fin de cortarlos [176, 144, 217].

Maduración y conservación. Un aspecto de gran importancia, especialmente en el

caso de frutas y verduras, es el suministro del producto para el consumo en la
mejor etapa de madurez, y a la vez la conservación de dichos productos durante
largos periodos de tiempo a pesar de que sean productos estacionales y tienden
a degradarse rápidamente. A parte de las soluciones tradicionales de conservación
(mantenimiento en medios salinos, azucarados o en aceite), desde hace unos años es
norma habitual la conservación al frı́o, los encerados para evitar deshidrataciones y
los envasados al vacı́o de los productos previamente esterilizados [111]. Como mejora
de las cámaras frigorı́ficas, se han introducido las cámaras de atmósfera controlada
donde diversos parámetros que afectan al proceso de conservación de las frutas
son ajustados, como por ejemplo la temperatura, humedad, luz, etileno, anhı́drido
carbónico y el oxı́geno. La utilización de carretillas autoguiadas en grandes cámaras
frigorı́ficas para el almacenamiento de los productos mediante sistemas paletizados,
es una incorporación que también es ya una realidad. En este caso, no solo se evita
el trabajo de personas en estas condiciones adversas, sino que se mejora la gestión
de los productos al estar todo supervisado por un procesador central que controla
existencias, ubicación y tiempos de almacenamiento de los productos.

Empaquetado y paletizado. Esta etapa final suele consistir de varios subprocesos

como son la dosificación, el envasado, etiquetado y paletizado. En el primer caso, las
grandes piezas de fruta, hortalizas o carnes son cortadas en pequeños trozos para su
posterior envasado. Una vez que estos productos sólidos están troceados se suelen
cargar manualmente en bandejas, siendo dichas bandejas posteriormente pesadas y
etiquetadas de forma automática. Es cada vez más común realizar posteriormente
una inspección de la calidad del envasado detectando etiquetas erróneas, envases no
correctamente cerrados o presencia de objetos extraños. Finalmente, la tendencia
actual es la de colocar los envases conteniendo los productos en palets de tal forma
8 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

que se agilice su almacenamiento, transporte y distribución.

Como hemos podido ver existe ya un cierto grado de automatización en los procesos
agroalimentarios, sin embargo existen unas etapas que están más desarrolladas que otras.
Con un alto nivel de automatización están los procesos de dosificación y envasado de
lı́quidos, y la conservación y maduración en ambientes artificiales. A un nivel en proceso
acelerado de implantación están los procesos de inspección y clasificación, de fertirrigación,
el empaquetado y la paletización. Sin embargo existen otros procesos con un bajo nivel
de automatización; nos estamos refiriendo a ciertas tareas de recolección en campo,
especialmente en la recogida de productos delicados donde se han desarrollado varios
trabajos de investigación, pero que no han llegado a implantarse debido a los problemas
técnicos encontrados al intentar dotar al robot de comportamientos totalmente autónomos.

1.1.3. Automatización en la recolección de frutas delicadas

La automatización de la recolección de frutos en plantas leñosas, es una labor compleja,

habiéndose podido automatizar, y solo de una forma parcial, la recolección de frutos
poco delicados como aceitunas, nueces y almendras utilizando métodos masivos e
indiscriminados como vibradores de tronco o rama, peines, succionadores de aire o
productos quı́micos para atacar el cáliz y facilitar el desprendimiento de la fruta [37].
Sin embargo la fruta delicada no puede ser recogida por estos métodos tan agresivos,
especialmente si el consumo al que está destinada es fruta de mesa. Al caer la fruta
del árbol se producen roces con la ramas y finalmente sufren daños al impactar con el
suelo, esto hace que la calidad externa e interna del fruto se deteriore, impidiendo su
comercialización. Adicionalmente, en algunas variedades la recolección se realiza cuando el
fruto de la siguiente temporada está germinando, esto hace que en el proceso de recolección
indiscriminado no solamente se desprendan los frutos sino también la flor, provocando
reducciones de la producción de hasta el 25 % [37]. Solamente es aceptable utilizar métodos
agresivos en variedades delicadas en los casos en que el destino final vaya a ser la producción
de zumos, concentrados, mermeladas o confituras [28]. Por tanto, la recolección manual
actual de productos delicados para un consumo fresco, solamente puede ser sustituida por
otro tipo de recolección individualizada: la recolección robotizada.
La utilización de robots en la recolección individualizada de productos delicados como el
tomate, naranja, limón, melocotón y manzana, por citar las más representativas, trata
de emular el trabajo realizado por una persona recolectora. Esto supone que el robot
a diseñar debe ser capaz de realizar diversas tareas: desplazamiento y guiado por la
plantación, detección y localización de la fruta, aproximación de un órgano de captura,
agarre del fruto, desprendimiento del árbol y finalmente su depositado en un recipiente.
Para dotar a un robot de estas habilidades es necesario utilizar tecnologı́a ligada a
sensores de localización y navegación, manipuladores y pinzas para el agarre utilizando
accionamientos neumáticos o eléctricos, y sistemas de procesamiento para análisis de la
información, control y toma de decisiones. Además, existen plantaciones en las que la
producción no siempre madura al mismo tiempo, con lo cual la recolección, a parte de
1.1 La automatización agrı́cola 9

tenerse que hacer de forma individualizada, se debe realizar de forma selectiva recolectando
solo aquellos frutos que están en estado idóneo para su consumo. Este hecho provoca que
los sistemas sensoriales del robot deban ser numerosos y altamente especializados para
captar las diferentes caracterı́sticas según las cuales se debe guiar para realizar la toma de
decisiones.
En la literatura podemos encontrar diversos robots o sistemas experimentales desarrollados
con el objetivo de automatizar la recolección. Cabe citar los trabajos desarrollados en las
universidades de Virginia [160], Florida [188, 189, 76], California [187] y en el centro
italiano A.I.D. [130, 17] con diferentes investigaciones y desarrollos para la recolección de
manzanas, naranjas, tomates y melocotones. Otro tipo de recolecciones como la de melones
[213, 27, 46, 10], sandı́as, uvas, calabazas, repollo, bayas, pepinos o champiñones también
han sido investigadas [163, 191, 207, 148, 88]. El proyecto Magali [45, 170] se dedicó a la
realización de un robot para la recolección de manzanas, que consta de un manipulador
esférico accionado hidráulicamente y de un vehı́culo autopropulsado que permite el
guiado automático en el campo utilizando cuatro sensores ultrasónicos. Igualmente, para
la recolección de manzanas fue diseñado el robot Aufo [117] que utilizaba seis brazos
con solo dos ejes horizontales cada uno, pudiendo realizar movimientos limitados a un
plano vertical. Mediante desplazamientos angulares se barre todo el árbol y la fruta
se detecta por triangulación utilizando visión esteroscópica. El proyecto hispano-francés
Citrus [112, 165, 113] está dedicado a la recolección de naranjas, incluyendo un estudio
agronómico, el desarrollo de un sistema de localización automático del fruto, y el diseño
y control de un brazo que inicialmente utilizaba un sistema de coordenadas cilı́ndricas y
que en la versión final se sustituyó por un sistema esférico similar al utilizado en el robot
Magali.
Las principales dificultades encontradas en las soluciones presentadas para recolección
automática están en el guiado del robot en campo, la detección automática de los frutos
y el agarre/desprendimiento de cada fruta.

Guiado. Las técnicas de autoguiado en labores agrı́colas utilizan elementos

sensoriales para dotar, normalmente a un tractor, de la capacidad de navegación
autónoma. La información requerida para realizar esta tarea es la posición absoluta
de la plataforma móvil, aunque en otros basta utilizar información local siguiendo
algún surco o navegando a lo largo de los pasillos marcados por las hileras de los
productos [71, 151, 16, 200, 59]. Las dificultades mayores se encuentran en las labores
en campo, por la falta de uniformidad y por la dificultad que entraña el dotar de la
suficiente flexibilidad al sistema para adaptarse a posibles situaciones imprevistas.
En este sentido los trabajos de autoguiado en invernaderos son más sencillos
ya que la estructuración es mucho mayor, las plantaciones son más homogéneas
y las condiciones de iluminación son más fácilmente controlables. La colocación
de las balizas es más simple debido a que el campo de actuación del vehı́culo
está perfectamente definido. Además existe un especial interés en el autoguiado
en invernaderos ya que las labores de fumigación y pulverización son más nocivas
para una persona en este tipo de entornos cerrados [157, 24, 134]. En cuanto a las
10 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

Luz Cubierta
estroboscópica Lábios cortadores

Sensor de proximidad
óptico

Ventosa
de vacío

Cámara CCD a color

Figura 1.3: Pinza diseñada para el robot de recolección de naranjas CPR de la Universidad
de Florida [188, 189, 76, 182].

técnicas de autoguiado en campo, se suelen utilizar técnicas para el posicionamiento

grosero del tractor (balizas fijas con emisor abordo [77], cámaras fijas y tractor
posicionado por triangulación [156], GPS), y para el desplazamiento preciso se utiliza
otro tipo de sensores que detecten el modo de navegación local como la orientación
o la proximidad a la zona de operación (seguidores de surco ópticos y ultrasónicos
[77], giróscopos, sensores de dirección geomagnéticos y detección por visión artificial
de las hileras de la plantación [20, 200]).

Agarre y desprendimiento. En este caso los sistemas utilizados para el corte de la

fruta se pueden agrupar en dos clases: 1) los basados en la torsión del pedúnculo y
2) los que realizan un corte en la base del pedúnculo mediante cuchillas o sierras
(fig. 1.3). De nuevo nos encontramos con el problema de evitar cualquier tipo de
daño al fruto, para lo cual las pinzas deben ser lo menos invasivas posibles y el corte
producido se debe hacer próximo al cáliz, puesto que si queda muy largo se pueden
producir daños entre las frutas en el almacenamiento, y a la vez hay que evitar la
caı́da del cáliz para evitar posibles infecciones [145]. Los principales motivos que
dificultan la recogida son la interferencia de hojas y ramas, y el diámetro variable
del fruto que a veces es excesivamente grande o pequeño para el diseño particular
de pinza. La efectividad en la recogida o relación de frutos útiles frente a los que
se intentaron recoger está entre el 48 % y el 64 % para las pruebas realizadas en la
captura de naranjas del proyecto Citrus, con un porcentaje de 10-15 % de frutos
caı́dos.

Detección. La detección del fruto es otro aspecto muy crı́tico. Básicamente la

mayorı́a de los sistemas ensayados para realizar la discriminación emplean la
diferencia de color entre el fruto y fondo [160, 45, 170, 188, 189, 76, 187, 117, 112, 27,
46, 24], o en otros casos analizan la forma convexa en las imágenes de intensidades
obtenidas utilizando cámaras CCD en color o en blanco y negro [213, 130, 165, 10].
Las mayores dificultades encontradas están relacionadas con la iluminación y las
sombras en la escena, el hecho de que el color no sea siempre un factor discriminante,
la oclusión de la fruta por parte de las hojas, ramas u otras frutas, y la presencia de
1.2 Percepción automática en los procesos de recolección 11

objetos o fuentes luminosas visibles a través de los árboles. En cuanto a la oclusión

de frutos, existe un estudio para el caso de naranjos que indica que únicamente el
40-50 % de la fruta es visible desde el exterior y se recomienda la poda mecánica en
formas cónicas para conseguir aumentar la fructificación exterior, pudiéndose facilitar
de esta forma la detección automática de frutos al conseguirse visibilidades del orden
del 75 %. Igualmente la visibilidad puede ser aumentada mediante una dirección de
recolección descendente proporcionando aumentos en visibilidad en torno al 7-8 %
frente a la dirección ascendente [111].
Debido a que la detección de frutos en ambientes no estructurados como los agrı́colas
es el tema central del presente trabajo de tesis, vamos a dedicar la siguiente sección
a analizar este problema más detenidamente realizando una amplia revisión de los
trabajos que ya han sido propuestos en este campo.

1.2. Percepción automática en los procesos de recolección

1.2.1. Variabilidad del entorno agrı́cola

El entorno agrı́cola se caracteriza por una considerable variabilidad de sus productos, y

en relación con el medio, de las condiciones meteorológicas y orográficas. Los productos
agrı́colas son cambiantes en forma, tamaño, color, textura y dureza, incluso perteneciendo
al mismo tipo y a la misma variedad de plantación. En este sentido podemos encontrarnos
árboles de diferentes tamaños y formas que contienen frutos en distintas etapas de
maduración y por tanto en diferentes estados. Las caracterı́sticas de los frutos también
varı́an en función de las condiciones del terreno, de la densidad de árboles en la
plantación, etc.. La densidad y distribución de frutos en el árbol depende de su orientación,
obteniéndose mayor densidad de frutos en las caras del árbol orientadas al Sol [113]. A la
variabilidad de los productos agrı́colas se unen los problemas derivados de las condiciones
meteorológicas adversas. La temperatura exterior puede variar en función del lugar de
operación, de la época del año, de la hora y de la presencia o ausencia de nubes. Junto a
la temperatura aparecen otras variables muy importantes como son la lluvia, la niebla, la
humedad, el viento y el polvo.
Esta variabilidad del entorno afecta de una forma directa a las condiciones de visibilidad de
los frutos en el árbol, que es el factor fundamental para un sistema de visión automático. La
iluminación del árbol es un factor muy cambiante y que depende de condiciones externas
difı́cilmente controlables, no siendo un problema perfectamente resuelto incluso utilizando
luz artificial. La oclusión de los frutos por parte de otros frutos u hojas del árbol es, junto
al problema de la iluminación, uno de los factores más problemáticos para la detección
automática de objetos en entornos agrı́colas. El factor de oclusión es tal que existe un cierto
porcentaje de frutas que no son visibles ni parcialmente (50-60 % [111]). La naturaleza no
cerrada del árbol hace que se puedan ver objetos a través de las hojas del árbol lo cual
añade más dificultades para la interpretación de las imágenes. El hecho de que los objetos
puedan variar de tamaño y forma redunda en la necesidad de realizar sistemas de detección
12 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

que sean suficientemente robustos como para adaptarse a estos cambios. Debido a que los
frutos se pueden presentar con diferentes tonalidades de color, los métodos de detección
no se deberı́an basar fundamentalmente en el color para realizar las clasificaciones.
Otros entornos más estructurados (p. ej. pruebas en laboratorio, lı́neas industriales de
inspección y clasificación) reducen y simplifican el problema de reconocimiento al tener
un mayor conocimiento acerca del proceso. Las fuentes de iluminación son controladas, el
universo de objetos está más definido y se conocen incluso las zonas posibles de localización
y orientación de los objetos. En el entorno agrı́cola existe un menor conocimiento de las
condiciones en las que se puede presentar un objeto, y en consecuencia una dificultad en
su modelado. Debido a que el reconocimiento consiste en comparar algo con un modelo,
si no somos capaces de generar este modelo adecuadamente los resultados serán pobres.
Por tanto, el proceso de reconocimiento en entornos no estructurados es más complejo y
se necesita un diseño especial con el fin de dotar al sistema de una aceptable robustez.

1.2.2. Revisión de los principales métodos de detección de frutos

propuestos para tareas de recolección agrı́colas

Algunas de las tareas imprescindibles en el desarrollo de sistemas de recolección selectiva de

frutos es el reconocimiento, localización y la determinación del tamaño y madurez de cada
fruta de forma individualizada. Esta información es necesaria para poder guiar un brazo
recolector hacia aquellos frutos considerados en condiciones óptimas de ser recolectados.
En los siguientes apartados se hace una revisión de las diferentes soluciones aportadas
para tratar de solucionar el problema planteado. Esta revisión se presenta organizada por
grupos de trabajo y además está ordenada cronológicamente de tal forma que se pueda ver
la evolución de la labor investigadora en este área. Aunque no se pretende ser exhaustivos,
el estudio es suficientemente amplio como para proporcionar una visión bastante completa
de las principales técnicas y sistemas desarrollados para la detección y localización de
frutos en entornos agrı́colas.

[Link]. Propuesta de Schertz y Brown

La primera referencia que aparece en la literatura, que considera la detección y localización

de frutos mediante técnicas automáticas, data del año 1968. En este trabajo Schertz
y Brown sugirieron que la detección de frutas podrı́a ser realizada mediante el uso de
información fotométrica [184]. La técnica sugerida se basa en el uso de la diferencia de
reflectividad luminosa entre las hojas del árbol y la superficie de los frutos, tanto en la
zona visible del espectro electromagnético como en el infrarrojo cercano.
La sugerencia de Schertz y Brown es aplicada en la inspección agrı́cola utilizando la luz
reflejada en una banda espectral centrada en 660 nm, pudiéndose distinguir entre diferentes
tipos de naranjas de tipo Valencia [56]. El objetivo de la clasificación era distinguir entre
frutos de color naranja, naranja claro o de color verdoso, quedando dicho objetivo satisfecho
en lı́neas de inspección bajo condiciones de iluminación estructurada.
1.2 Percepción automática en los procesos de recolección 13

Cálculo de los ángulos Fruta

de avance del brazo

Movimiento del brazo

según eje de visión

Eje óptico
Cámara

Figura 1.4: Principio básico de localización tridimensional del fruto: Primero se obtiene
las coordenadas angulares en base a la posición bidimensional del fruto en la imagen, y
finalmente, se mueve el brazo a lo largo del eje de visión del fruto, hasta que se produce
un contacto.

[Link]. Universidad de Virginia: Parrish y Goksel

El primer sistema de visión artificial para la detección y localización de manzanas en

entornos agrı́colas se desarrolla en la Universidad de Virginia [160]. Este sistema de
visión no forma parte de un robot agrı́cola sino que es el componente principal de
un trabajo de experimentación en laboratorio para analizar los principales problemas
en la recolección automática agrı́cola. El modo de actuación del sistema de detección
y localización está basado en el principio propuesto por Schertz y Brown [184] donde
primeramente se detecta el fruto en base a una imagen de intensidades y posteriormente
se guı́a al mecanismo de captura del fruto a lo largo del eje de visualización hasta que se
produce un contacto, obteniéndose de esta forma la localización del fruto (fig. 1.4). En
estos experimentos se utilizó un árbol artificial al cual se acoplaron frutos artificiales en
diferentes posiciones para garantizar una distribución lo más próxima a la de un caso real.
No se utilizó ningún sistema de captura del fruto por considerarse fuera del objetivo de la
investigación. El sensor utilizado es una cámara blanco y negro que está posicionada de
manera solidaria respecto a un brazo rudimentario de tres grados de libertad y coordenadas
cilı́ndricas. La cámara tiene acoplada un filtro óptico de color rojo para resaltar los colores
rojizos frente a los verdosos que corresponden a las hojas del árbol. De esta forma se
obtiene una imagen de intensidades o niveles de gris la cual es procesada y analizada en
tres etapas diferenciadas:

1. En la primera etapa se realiza una segmentación aplicando un umbral y se obtiene

una imagen binaria donde los niveles de gris de la imagen superiores al umbral se
representan por un “1” lógico e indican las zonas correspondientes a superficies de
frutos. Los puntos en la imagen por debajo del umbral se representan por un “0”
lógico indicando que pertenecen al fondo de la imagen, no teniendo interés y por
14 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

tanto siendo ignorados.

2. Se realiza un suavizado de la imagen binaria aplicando operadores morfológicos sobre

ella y de esta forma eliminando segmentos pequeños y aislados debidos a ruidos.

3. Finalmente, por cada uno de los segmentos, se calcula la diferencia de posición en

el eje horizontal entre el punto más a la izquierda y el situado más a la derecha.
Igualmente se calcula la diferencia entre los extremos verticales. La relación entre
estos valores extremos en el eje vertical y horizontal dan una idea del tamaño y
del grado de redondez del segmento. Esta relación debe superar un cierto umbral
para que el segmento pueda ser considerado un candidato a posible fruto. De cada
candidato a fruto se calcula la densidad de puntos con “1” lógico en una ventana
circular de tamaño y posición indicados por los valores extremos. Si esta densidad
supera un determinado umbral finalmente el segmento es clasificado como una
manzana.

[Link]. El proyecto MAGALI: D’Esnon y Rabatel

El proyecto francés MAGALI se propone la realización de un robot de recolección de

manzanas [45]. La filosofı́a general de funcionamiento del proceso de localización y captura
es la misma que sugirió Schertz y la que desarrolló Parrish, es decir, realizar el movimiento
de aproximación al fruto siguiendo la lı́nea recta marcada por el eje de visualización del
fruto. El movimiento de aproximación finaliza al detectarse la presencia del fruto mediante
un sensor de contacto. Existen dos fases de desarrollo diferenciadas dentro de este proyecto,
tanto en el aspecto mecánico como en el desarrollo del sistema de visión artificial.
En la primera versión del sistema de visión se utiliza una cámara de color mediante la
cual se captura una imagen parcial de la escena. La imagen en color obtenida es procesada
mediante un sistema de procesamiento analógico de señal que selecciona los puntos que
tienen un determinado color, obteniendo de esta forma una imagen segmentada. Un
posterior procesamiento de la imagen binaria determina el centro de los segmentos bajo
consideración. Pero esta solución aportada es poco robusta y necesita el uso de una cortina
opaca colocada detrás de la escena para conseguir un fondo oscuro y de esta forma no
cometer tantas detecciones erróneas.
En la segunda versión [170, 45] se utilizan tres cámaras de color y tres filtros ópticos
centrados en las siguientes longitudes de onda: 950 nm (infrarrojo), 650 nm (rojo) y 550
(verde). La selección de las longitudes de onda de estos filtros se realizó en base a un
estudio fotométrico del espectro en la banda de los 500 nm a los 1500 nm, aunque no
se consideraron longitudes de onda superiores a 1100 nm debido a que caen fuera del
ancho de banda de la cámara CCD. Se utilizaron tres tipos de manzanas cada una de ellas
con diferente color: Golden (amarillo/verde), Starky (roja) y Granny Smith (verde). Se
observó que en torno a 950 nm la reflectividad de las tres variedades de frutas estudiadas
y la de las hojas era muy parecida (fig. 1.5 y 1.6). De esta forma se eligió la imagen filtrada
a 950 nm como referencia para que el proceso de reconocimiento fuese lo más insensible
posible a las variaciones de luminosidad. La banda infrarroja que va desde los 750 nm a
1.2 Percepción automática en los procesos de recolección 15

50
Reflectividad (%)

20 Golden (amarillo-verde)
Starky (roja)
Granny Smith (verde)
10

0
500 600 700 800 900 1000 1100 1200 1300 1400 1500
Longitud de onda (nm)

Figura 1.5: Reflectividad de varios tipos de manzanas (datos del CEMAGREF [170]).

los 900 nm se caracterizaba por permitir distinguir fácilmente cualquier tipo de fruta de
las hojas debido a que la reflectividad de la fruta es mayor que la de las hojas en esta zona
espectral. En la banda visible de 500 a 700 nm la fruta tiene una reflectividad mayor en
promedio, sin embargo algunos tipos de fruta se confunden con algunas hojas. Los autores
eligieron las frecuencias de los filtros interferenciales en la zona visible (650 y 550 nm),
aspecto que parece poco comprensible debido a la existencia de la banda de 750 a 900
que permitirı́a distinguir fácilmente entre las dos clases (fruta y hoja). Posteriormente se
calculaba el coeficiente de relación entre las imágenes de 650 y 550 nm respecto a la de 950
nm. Este cómputo se realizaba mediante un sistema electrónico analógico obteniéndose una
imagen segmentada binaria. Un análisis posterior calcula la posición del centro geométrico
de los segmentos en la imagen binaria. Utilizando una técnica similar a esta segunda
versión del MAGALI, Kawamura también se ha estudiado la detección y recolección de
tomates [119].
El sistema de visión desarrollado para el MAGALI es capaz de reconocer incluso manzanas
de color verde, pero la tasa de aciertos es baja (aprox. 50 %) y además los autores reconocen
que se producen bastantes detecciones falsas, aunque no lo cuantifican, y que es sensible a
las variaciones de iluminación. Ası́ mismo el sistema no es flexible puesto que si se quiere
utilizar para recolectar otro tipo de frutos se necesitarı́a realizar otro estudio espectral
para poder extraer de nuevo las frecuencias óptimas de los filtros ópticos interferenciales.

[Link]. Universidad de Florida y centro USDA: Harrell y Slaughter

Con el fin de dotar al robot recolector de naranjas CPR (Citrus Picking Robot) de
la capacidad de reconocimiento automático de frutos se realizan varias labores de
investigación mediante una colaboración entre la Universidad de Florida (Harrell) y
16 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

60 1

50
Reflectividad (%)

40 2

30 3

1. Manzana Golden (dada como referencia)

20 4 2. Hoja amarilla (envés)
3. Hoja amarilla (frontal)
5 4. Hoja verde (envés)
10
5. Hoja verde (frontal)

0
500 600 700 800 900 1000 1100 1200 1300 1400 1500
Longitud de onda (nm)

Figura 1.6: Reflectividad de las hojas de un manzano y de una variedad de manzana (datos
del CEMAGREF [170]).

el centro de investigación biológica USDA (Slaughter). Este robot tiene tres grados
de libertad utilizando un sistema de coordenadas cilı́ndrico y por tanto realizando la
aproximación al fruto de forma horizontal. La cámara de visión utilizada, ası́ como otros
dispositivos y sensores, van incorporados en el interior del brazo en las proximidades
del órgano de captura (fig. 1.3), de esta forma la localización se hace centrando el fruto
detectado respecto a la cámara y realizando un movimiento de aproximación horizontal a
este, que finaliza cuando se detecta su presencia mediante un sensor ultrasónico.
Existen dos enfoques para la solución del problema de reconocimiento, aunque ambos
están basados en el uso de una cámara de color. En el primer enfoque [188], se emplea una
cámara de color con control de apertura e iluminación artificial pero sin ayuda de ningún
filtro óptico. Las componentes de saturación y tono de color (hue) de cada uno de los
puntos de la imagen se utilizan para realizar la segmentación mediante una clasificación
en un espacio bidimensional de caracterı́sticas. La clasificación se realiza mediante el
uso de un clasificador lineal que actúa aislando una región rectangular en el espacio de
caracterı́sticas mediante el uso de un valor umbral máximo y mı́nimo para cada una de estas
caracterı́sticas. Mediante esta aproximación se consigue clasificar correctamente un 75 %
de los puntos, siendo el sistema muy sensible a las condiciones de iluminación y no siendo
capaz de reconocer naranjas que no estén maduras. Se sugiere la ejecución del algoritmo
de clasificación mediante una etapa electrónica analógica que aplique automáticamente
los umbrales mediante el uso de comparadores; de esta forma se podrı́a reducir el tiempo
de procesamiento de 2.5 segundos por imagen (para un procesador Motorola 68020 a 12.5
MHz e imágenes de 384*485 puntos) a una cifra más reducida.
En el segundo trabajo presentado se utiliza básicamente la misma configuración anterior
aunque ya no se utiliza luz artificial [189]. En este caso se trabaja con las componentes RGB
1.2 Percepción automática en los procesos de recolección 17

a b

Figura 1.7: (a) fotografı́a de un naranjo donde aparecen tres naranjas maduras, y de fondo,
hojas y cielo. (b) segmentación basada en color de la imagen anterior [189].

(Rojo, Verde y Azul) de cada punto de la imagen obteniéndose un espacio tridimensional

de caracterı́sticas. De esta forma cada punto es clasificado como perteneciente a una fruta
o al fondo mediante un clasificador bayesiano, para lo cual necesita de un proceso previo de
aprendizaje sobre un conjunto de muestras de frutas. Los resultados presentados muestran
que un 75 % de los puntos pertenecientes a naranjas son clasificados correctamente
(fig. 1.7). Este método sigue siendo solamente válido para naranjas maduras pues es la
única forma de que el clasificador tenga capacidad de discriminación. Finalmente, como
complemento al sistema activo de localización, se elaboraron algoritmos para la estimación
del centro de los segmentos detectados, ası́ como de los diámetros horizontales y verticales
[76]. Este algoritmo consta de dos pasos, estando orientado el primero a la búsqueda de
la región a analizar mediante un rastreo iterativo por la imagen en forma de espiral en
saltos de 25 en 25 puntos. Una vez detectado el segmento, entra en acción la etapa de
cómputo del centro del segmento y de los diámetros horizontales y verticales que se basa
en un proceso iterativo de trazo de lı́neas horizontales y verticales interiores al segmento
hasta que el cruce entre ambas lı́neas se estabiliza convergiendo el algoritmo. El criterio
utilizado para posicionar cada una de las lı́neas se basa en la posición del centro de la lı́nea
previamente trazada.

[Link]. Universidad de Purdue: Whittaker

Whittaker presenta un sistema para reconocer y localizar tomates insensible al grado de

madurez del fruto, y por tanto, independiente del color del tomate [213]. Para poder
llevar a cabo sus objetivos considera que los sistemas de visión que analizan la imagen
de forma local utilizando solo los niveles de intensidad sin tener en cuenta la distribución
de los puntos en la imagen, no son adecuados para realizar un método de reconocimiento
de objetos que sea independiente del color. Por tanto propone utilizar la forma de los
contornos presentes en una imagen de intensidades para obtener indicios de posibles
objetos esféricos.
Se utiliza una cámara blanco/negro que genera 256 niveles de gris. La imagen de grises
obtenida es procesada aplicando un filtro de Sobel con lo cual se obtiene el vector gradiente
18 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

a b

Figura 1.8: (a) imagen en B/N de una plantación de tomates. (b) bordes y direcciones del
gradiente correspondientes a la imagen anterior [213].

correspondiente a cada punto de la imagen. Posteriormente se binariza la imagen teniendo

en cuenta que la magnitud del vector debe superar un cierto umbral, siendo la elección de
este umbral muy influyente en la calidad de la imagen resultante. La imagen obtenida
contiene información sobre la localización de los contornos o bordes presentes en la
imagen y también la dirección de dichos contornos (fig. 1.8). De esta forma se aplica la
transformada circular de Hough en su versión optimizada en el número de votaciones
al utilizar la dirección de los bordes. Para realizar la umbralización en la matriz de
acumuladores se utiliza la distribución del histograma de esta matriz. Se consideró que la
forma del histograma obtenido se ajustaba con precisión a una distribución exponencial con
lo cual se presenta un método de selección del umbral basado en el porcentaje de área bajo
la curva de la distribución exponencial y no se basa directamente en la selección aleatoria de
una cantidad de votos como valor umbral. A pesar de la utilización de este método sigue
haciendo falta una elección manual del umbral pero ahora en términos de porcentajes.
Los valores de umbral ensayados son 97.5 %, 99 % y 99.9 %, pero los mejores resultados
observados se obtienen usando un valor del 99 % el cual conduce a unos resultados de un
68 % de detecciones correctas y un 42 % en detecciones falsas.
El contorno semiesférico de las hojas (fig. 1.8b), las sombras, las zonas brillantes e incluso
la curvatura de los rabos de los tomates son los mayores problemas que hacen que el
sistema produzca muchas detecciones falsas. Ası́ mismo los autores manifiestan que el
algoritmo es costoso computacionalmente y no se podı́a aplicar en tiempo real en un
procesador secuencial de los existentes en aquella época (8086 o equivalente). En cuanto a
la localización de los tomates, esta no es total puesto que la dimensión de profundidad no
es calculada y por tanto es necesario realizar un movimiento de aproximación del brazo a
lo largo del eje de visión del fruto.

[Link]. A.I.D: Levi, Falla y Pappalardo

En el centro italiano A.I.D. se realizó un investigación para comprobar la viabilidad de

la recolección automática de naranjas [130]. En este sentido se desarrollo un robot muy
sencillo de coordenadas cilı́ndricas con tres grados de libertad y con un dispositivo de
1.2 Percepción automática en los procesos de recolección 19

captura de fruta. El sistema de visión utilizado emplea una cámara de color y se ayuda de
iluminación artificial. El reconocimiento de los frutos se realiza analizando la distribución
de los gradientes en la imagen, aspecto que caracteriza a este sistema (junto al trabajo
anterior de Whittaker) en ser pionero en basar el reconocimiento de frutas en el análisis
de la forma. Como en los anteriores trabajos, el sistema de visión determina la coordenada
de profundidad por medio del movimiento del órgano terminal del brazo a lo largo del eje
de visión al fruto. El algoritmo de procesamiento de la imagen en color se puede dividir
en tres etapas claramente diferenciadas:

1. Preprocesamiento. Un filtro electrónico analógico es utilizado para realizar un

aumento de contraste de la imagen. Posteriormente se digitaliza la imagen obteniendo
una imagen de 512 × 512 × 6 bits, donde los 6 bits de cada punto de la imagen
codifican la proximidad en términos del tono de color (hue) a un valor de referencia
predeterminado que está próximo al color naranja. De esta manera obtenemos una
imagen en tonos de grises donde se resaltan las zonas de interés.

2. Extracción de caracterı́sticas mediante el cálculo del gradiente. Se aplica un filtro de

Sobel obteniendo un vector indicando el gradiente correspondiente a cada punto de
la imagen.

3. Reconocimiento. El reconocimiento se realiza mediante el uso de un modelo de un

objeto esférico previamente almacenado. Para formar el modelo se crea un cı́rculo
sintético y a partir de él se calcula el gradiente obteniéndose un mapa de vectores.
Para realizar el reconocimiento se mueve el modelo por toda la imagen paso a paso
hasta obtener una coincidencia con una zona de la imagen.

Los resultados obtenidos son aceptables cuando se utiliza una luz artificial de 3200 K
de temperatura de color, de esta forma, en torno a un 70 % de las naranjas visibles son
reconocidas aunque los resultados se degradan cuando los frutos tienden a estar verdes.
Cuando se trabaja de noche con luz artificial los resultados son algo mejores debido a que
es más fácil obtener la iluminación deseada.
Cabe reseñar que un método muy parecido al utilizado por Levi, pero realizando la
segmentación por crecimiento de regiones y búsqueda de esferas, fue utilizado por Cox
y otros para buscar objetos esféricos en fotografı́as aéreas [39].

[Link]. Centro Sunkist y Universidad de California: Sites y Delwiche

Una investigación sobre la aplicación de la visión artificial en la detección de manzanas y

melocotones en estado de madurez se llevó a cabo mediante la colaboración entre el centro
canadiense SRC (Sunkist Research Center) y el Departamento de Ingenierı́a Agrı́cola de
la Universidad de California [187]. En este caso el método está basado en los niveles de
intensidad que se obtienen con una cámara B/N, un filtro óptico (630 a 670 nm) para
incrementar el contraste entre las frutas y el fondo, y una iluminación artificial para
20 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

trabajar tanto de noche como de dı́a. El método de procesamiento se divide en cinco

etapas:

1. Binarización. Basándose en la distribución del histograma de la imagen encontrada

se determina elegir como valor umbral aquel que asigna un “0” lógico al 37 % de los
puntos y un “1” lógico al resto.

2. Mejora. Utilizando un filtro morfológico, que actúa sobre los ocho vecinos de cada
punto, se realiza una erosión de la imagen.

3. Segmentación. Se realiza un etiquetado de cada uno de los puntos de la imagen

basándose en criterios de conectividad ocho.

4. Extracción de caracterı́sticas. Las caracterı́sticas utilizadas y calculadas en cada uno

de los segmentos obtenidos en la etapa anterior son: área, perı́metro, compacidad,
alargamiento y momentos invariantes.

5. Clasificación. Se utiliza un clasificador lineal.

Se realizaron una serie de pruebas y los resultados en cuanto a detecciones correctas fueron
del 89 % trabajando de noche para evitar problemas con el cielo y el Sol. En las pruebas
realizadas trabajando de dı́a, los resultados son del 84 % y 20 % en detecciones correctas
y falsas, respectivamente. El sistema fue diseñado para detectar fruta madura, pero aún
bajo esta restricción aparecen muchos problemas al trabajar de dı́a debido al cielo, a las
nubes cambiantes, a la luz solar frontal incidiendo sobre la cámara y a que las hojas
directamente iluminadas por el Sol pueden aparecer más luminosas que una fruta con
iluminación solar difusa a pesar de estar utilizando siempre la luz directa del sistema de
iluminación artificial. Esto hace que de dı́a se produzcan bastantes detecciones erróneas y
se sugiera el uso de cubiertas para eliminar los fondos en la imagen con regiones de cielo
o de Sol.

[Link]. El proyecto AUFO: Kassay

Entre los años 1980 y 1989 se desarrolló, en el “Central Enterprise for the Organization
of Agriculture and Food Industry” de Budapest, el robot AUFO-06 para la recolección
de manzanas [117]. El robot está diseñado para operar con seis brazos, de dos grados de
libertad cada uno, permitiendo un movimiento de trabajo en un plano vertical. El prototipo
utilizado para realizar pruebas experimentales en 1991 constaba de un único brazo, una
plataforma motorizada, el sistema hidráulico de movimiento, el órgano terminal de captura,
la electrónica de control y el sistema de visión para el reconocimiento y localización de los
frutos.
El sistema de visión consta de dos cámaras de color situadas a una cierta distancia
y colocadas entre sı́ de tal forma que exista una cierta convergencia entre ellas para
poder capturar imágenes de la misma escena y poder obtener la posición de los frutos
mediante una técnica sencilla de estereo-visión. Primeramente se realiza una segmentación
1.2 Percepción automática en los procesos de recolección 21

por umbralización en cada una de las dos imágenes de color, obteniéndose las imágenes
binarias que contienen las regiones que corresponden a la superficie de las manzanas. Se
calcula el centro geométrico de estos segmentos en ambas imágenes y a continuación por
cada una de las parejas de segmentos se calcula la posición tridimensional. El método de
cálculo de la posición 3-D se basa en el principio de triangulación, calculándose en primer
lugar la posición de la posible fruta en las coordenadas X e Y mediante la proyección de
los ejes de visión sobre el plano horizontal que contiene el eje óptico de ambas cámaras.
A continuación se calculan las coordenadas z1 y z2 , o alturas del fruto respecto a cada
cámara. Para ello aplica un criterio de coincidencia calculando el ángulo en el plano vertical
formado entre el eje de visión y el plano horizontal. Si ambas alturas difieren en menos de
40 mm entonces el fruto es considerado válido.
El método descrito presenta varios problemas, el primero de ellos aparece al considerar
todas las posibles combinaciones de parejas entre segmentos de ambas imágenes, lo cual
supone una búsqueda exhaustiva y además puede llevar a situaciones en las cuales aparecen
posiciones virtuales de frutos que en realidad no existen. Este problema es compensado en
parte por la comprobación descrita anteriormente entre las dos alturas obtenidas a partir
de cada cámara, pero esta comprobación no sirve para solucionar todos las situaciones
erróneas posibles. El hecho de trabajar con el método de estéreo visión en entornos donde
hay tantas oclusiones y contrastes de iluminación, hace que no se encuentren siempre las
correctas parejas y por tanto no se produzca la detección. Como consecuencia el porcentaje
de frutos detectados frente a los visibles por un operador humano es de solo un 41 %. Los
algoritmos de visión y de control de los movimientos de el brazo se ejecutaron sobre un
Intel 8085, obteniéndose tiempos medios de procesamiento para el sistema de detección y
de localización ligeramente superiores a 1 segundo, lo cual es aceptable teniendo en cuenta
que el ciclo de trabajo del robot es de 14 segundos.

[Link]. El proyecto CITRUS: Juste, Sevila, Plá, Moltó

El proyecto europeo CITRUS se centró en la realización de un estudio profundo de los

diferentes aspectos que entran en juego en las tareas de recolección de cı́tricos y por
tanto incluye un estudio agronómico encaminado al análisis del entorno de trabajo, de las
variedades de fruta y de su manipulación [114]. Ası́ mismo, también consideró el desarrollo
de un sistema de visión, el diseño y control de un robot manipulador junto con los elementos
de captura del fruto, y finalmente, las pruebas de campo de los prototipos realizados. En
este proyecto Eureka participa el IVIA (Instituto Valenciano de Investigaciones Agrarias)
y el CEMAGREF en Francia. En cuanto al sistema de visión desarrollado existen varias
metodologı́as o soluciones aportadas, en los siguientes párrafos se describe cada una de
ellas.
En el primer método se presenta un sistema que trabaja con una cámara en blanco y
negro, utiliza un filtro rojo (630 nm) y dos focos de iluminación con el objetivo de obtener
una iluminación uniforme y lo más independiente posible de las condiciones ambientales
[112]. Se utiliza un algoritmo que aplica un umbral obteniéndose un 80 % de aciertos en la
detección de la fruta visible y a su vez un número muy alto de detecciones falsas.
22 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

70
12-Dic
60
30-Nov
50
Reflectividad (%)

10-Nov
30
30-Oct

20 20-Oct

Hojas
10

0
400 440 480 520 560 600 640 680
Longitud de onda (nm)

Figura 1.9: Variación de la reflectividad de las naranjas en función de la longitud de onda

y de la etapa de desarrollo de la fruta (estudio realizado por Juste y Sevila [112]).

El segundo método surge para mejorar los problemas presentados anteriormente. En

este caso se utiliza una segunda cámara en blanco/negro con un filtro verde (560 nm)
[112]. A partir de las dos imágenes obtenidas se calcula el coeficiente entre ellas para
generar una imagen en niveles de gris que es independiente de los niveles de iluminación.
Con esta imagen el algoritmo de binarización actúa de una forma más robusta y los
resultados obtenidos son de aproximadamente un 80 % de detecciones correctas y un 10 %
de detecciones falsas.
En la tercera aproximación se utiliza una cámara en color sin utilización de iluminación
artificial [112]. De cada punto se consideran las componentes RGB y se realiza una
clasificación mediante una función de decisión bayesiana en un método similar al usado
por Slaughter y Harrell para el robot CPR de Florida [189, 76]. En este caso los resultados
son del 90 % y del 5 % en detecciones correctas y falsas respectivamente.
Los tres métodos presentados anteriormente no aportan soluciones totalmente
satisfactorias puesto que no son capaces de trabajar con fruta no madura y por tanto
requieren frutos de color rojizo o naranja para poder realizar una discriminación correcta
(fig. 1.9). En este sentido existe un trabajo posterior de Plá que trata de solventar los
problemas indicados [165]. Se utiliza una cámara en blanco y negro e iluminación artificial
para obtener una imagen de intensidades (fig. 1.10) que será analizada en una primera
etapa en busca de superficies convexas mediante la convolución de la imagen con la
Laplaciana del Gausiano. De esta forma obtenemos otra imagen que da una idea del
grado de convexidad presente en un vecindario de cada punto de la imagen. Esta imagen
es umbralizada haciendo una segmentación y quedándonos solo con segmentos que se
caracterizan por ser convexos. La segunda etapa consiste en realizar un ajuste por mı́nimos
cuadrados de una elipse sobre los puntos que superaron el umbral. Se usa una elipse y no
1.2 Percepción automática en los procesos de recolección 23

Figura 1.10: Imagen B/N de un naranjo y su representación tridimensional. Las frutas y

las áreas de cielo se presentan mediante superficies convexas [165].

una esfera debido al modelo de iluminación utilizado, y este ajuste solo se realiza en las
direcciones horizontal y vertical de la imagen. El objetivo final de esta segunda etapa
consiste en obtener un mayor nivel de certeza sobre la presencia de un objeto esférico. En
función de si el ajuste fue satisfactorio o no, se reactualiza la imagen umbralizada de grados
de convexidad sumando o no un cierto peso predefinido. Esta imagen de convexidades,
finalmente, determina qué regiones corresponden a las frutas. Los resultados obtenidos
mediante esta técnica son de un 75 % en cuanto a detecciones correctas y un 8 % en
detecciones falsas. El método funciona tanto para naranjas maduras como verdes, pero
sigue presentando falsas detecciones debidas a las zonas de cielo y de suelo presentes en
la imagen (fig. 1.10). Utilizando un PC-386 el tiempo medio de procesamiento por cada
fruta era de 20 segundos y el procesamiento por cada imagen de 512*512 puntos es de 3
a 4 minutos.

[Link]. Univ. de Purdue y C. Volcani: Cardenas, Dobrousin, Benady, Miles

Un sistema de visión para la recolección de melones ha sido investigado bajo una estrecha
colaboración entre la universidad de Purdue, EEUU, y el centro israelı́ Volcani. El caso de
la detección de melones es muy similar a la detección de otro tipo de frutas que nacen en los
árboles como son las naranjas, manzanas, etc.. Pero existen unas caracterı́sticas peculiares
que hacen de este tipo de recolección una tarea sensiblemente menos complicada que las
anteriores. El hecho de que todas las frutas yazcan sobre el suelo hace que se restrinja
significativamente el espacio de búsqueda y en cierta medida se estructura el entorno; de
esta forma es posible aplicar ciertas heurı́sticas referentes a la ubicación espacial del melón
cuando se dispone de información de distancia. Ası́ mismo, debido al peso del melón y a
que este está apoyado sobre el suelo, se pueden aplicar técnicas para mover las hojas que
ocultan los frutos sin mover estos. De esta forma se puede reducir el factor de oclusión
presente en este tipo de plantaciones.
En una primera aproximación a la resolución del problema de detección [27], se utiliza
una cámara en blanco y negro para obtener una imagen de intensidades de la plantación
de melones. La técnica de detección comprende dos etapas. La primera etapa identifica
24 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

al melón, su posición bidimensional y su tamaño. Para hacer esto se realiza una mejora
de la imagen, se aplica un umbral para segmentar la imagen, seguido de una extracción
de caracterı́sticas, una generación de hipótesis de posibles localizaciones de melón y la
posterior verificación de esas hipótesis analizando la forma y la textura en determinados
vecindarios entorno a la posición bajo hipótesis. De esta forma se obtienen finalmente los
candidatos definitivos. La segunda etapa realiza una evaluación basada en el conocimiento
del entorno, en el tamaño de los melones y en las restricciones que se deben cumplir
entre los candidatos para que no haya múltiples ocurrencias y detecciones falsas. Estas
reglas asignan los candidatos de la primera etapa a una de las siguientes clases: melón,
ruido o redundante. Cuando no se usa esta segunda etapa un 89 % de los melones son
detectados pero se produce una enorme cantidad de falsas detecciones. Usando ambas
etapas los resultados en cuanto a detecciones correcta y falsas son de un 84 % y un 10 %
respectivamente, con lo cual se eliminan muchas falsas detecciones a costa de perder alguna
localización correcta.
Otro sistema de visión para la recolección de melones es presentado por Dobrousin (fig.
1.11) y se caracteriza porque se divide en dos subsistemas: subsistema de visión lejana y
de visión cercana [46]. El subsistema de visión lejana usa una cámara en blanco y negro
para localizar las coordenadas X-Y del melón. Varias imágenes de la misma escena son
capturadas pero con diferentes configuraciones en la posición de las hojas que cubren
los melones. Esto se consigue mediante el uso de un ventilador de aire que mueve las
hojas de la plantación, siendo su objetivo la eliminación de la oclusión de los melones
por parte de las hojas. Todas las imágenes son filtradas, segmentadas aplicando umbrales
elegidos analizando sus histogramas y finalmente se aplica un operador morfológico de
erosión. Las imágenes binarias obtenidas son integradas realizando una operación lógica
“O”. Posteriormente, sobre la única imagen binaria resultante, se realiza una extracción
de caracterı́sticas incluyendo forma, área y tamaño. Finalmente una clasificación basada
en reglas es utilizada para obtener las frutas válidas, aproximadamente un 80 % de los
melones son detectados. Estas rutinas fueron integradas en un sistema de procesamiento
en cascada (pipeline) en tiempo real. Los principales problemas encontrados se deben a
la sensibilidad en la selección del umbral de segmentación, a la iluminación variable, a
las sombras y a las hojas presentes. Los autores proponen el uso de imágenes infrarrojas
para detectar la diferencia de temperatura que deberı́a existir entre las hojas, el suelo
y los melones, presentando unos resultados en los que se muestra que por la tarde la
temperatura de los melones es inferior a la de la tierra visible a través de las hojas (fig.
1.12).
El subsistema de visión cercano es presentado en otra publicación por Benady y Miles.
Pretende obtener la altura Z a la que se encuentra el centro del melón, que es el único
parámetro que no calculó el subsistema lejano, y refinar las posiciones en el plano X,Y
[10]. En este sistema se usa una proyección lineal de luz láser para iluminar la escena.
Este plano de luz cuando interactua con la superficie del melón es visualizado como una
lı́nea curva al ser registrado por una cámara que forma un determinado ángulo con el
plano de luz láser. La deformación de la lı́nea recta inicial indica la altura del objeto
usando una técnica de triangulación. Estos perfiles lineales deformados son capturados a
1.2 Percepción automática en los procesos de recolección 25

Ordenador
Pinza Monitor

Depósito

Cámara lejana

Cámara cercana Flujo de aire

Láser

Figura 1.11: Esquema del remolque de tractor utilizado para la recolección de melones.
Se puede apreciar el sistema de visión lejano, el cercano, la ubicación de la pinza y del
sistema de soplado para mover las hojas de la plantación.

60
1 1. Tierra
2. Melón verde
50 2 3. Melón Amarillo

3
Temperatura (ºC)

12:00 24:00 12:00 24:00 12:00

Tiempo (horas)

Figura 1.12: Variación de la temperatura en una plantación de melones en función de las

horas del dı́a [46].
26 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

intervalos espaciales regulares a medida que avanza el sistema y son analizados utilizando
la transformada circular de Hough para obtener la matriz de votos indicando los candidatos
a ser el centro de un melón. Para obtener los candidatos más probables, la distribución
de votos alrededor de cada punto es utilizada en vez de un valor absoluto de votos. Para
incrementar la eficiencia del algoritmo se utilizan algunas reglas especı́ficas del dominio.
El conocimiento incluido en el sistema utiliza el tamaño, la forma del fruto y la posición
esperada del suelo. Estas son las reglas utilizadas:

Altura absoluta. Sabiendo donde está el suelo y el radio de los melones, podemos
saber de antemano si un punto de la imagen pertenece al suelo o a las hojas en
función de su altura absoluta.

Pertenencia. Los puntos que emitieron voto a un fruto, mediante la transformada

de Hough, pertenecen a la superficie del fruto.

Convexidad. El centro del melón siempre está debajo de la superficie visible.

Apoyo. El melón debe estar siempre apoyado sobre el terreno.

Solapamiento. Dos frutos no pueden ocupar el mismo volumen simultáneamente.

Interioridad. No deben existir puntos dentro del volumen de un melón.

Mediante este sistema todas las frutas que eran visualmente discernibles fueron detectadas
correctamente y no se produjeron detecciones falsas.

[Link]. CIRAA: Buemi

El robot italiano Agrobot se desarrolló en el CIRAA (Centro Interuniversitario de Robótica

Agrı́cola y Ambiental). Está diseñado para realizar operaciones en invernadero, siendo la
recolección una de las tareas para la que está diseñado [24]. El sistema de visión usado en
este proyecto está basado en una cámara de color la cual suministra las componentes HSI
de cada punto en la imagen. El tono de color y la saturación son utilizados para segmentar
la imagen mediante umbrales. La información tridimensional es obtenida mediante visión
esteroscópica al usar dos vistas de la misma imagen. Alrededor del 90 % de los tomates
maduros fueron detectados y los errores más frecuentes fueron debidos a oclusiones.

1.2.3. Análisis de las soluciones propuestas: Limitaciones

Los sistemas de detección automáticos analizados anteriormente comprenden normalmente

tres fases. Una primera fase de captación de la imagen del entorno a reconocer, una
segunda para la mejora de la imagen, y finalmente una tercera fase dedicada al análisis
de la información para realizar el reconocimiento y obtener información de alto nivel. Las
soluciones aportadas para el reconocimiento y localización de frutos presentadas en la
sección anterior se centran en la primera y tercera fase, dejando la etapa de restauración
1.2 Percepción automática en los procesos de recolección 27

en un apartado secundario. En la tabla 1.1 se resumen las diferentes soluciones que se

han presentado. En ella se indican los sensores utilizados para la captación, el método de
análisis empleado, la capacidad para la detección de fruta no madura, y los porcentajes
de clasificación correcta y errónea.
Podemos ver que las metodologı́as de captación, se centran en la adquisición de la
intensidad y del color de la escena. Solamente en un trabajo [10] se adquiere otro tipo de
magnitud: la distancia. En cuanto a las técnicas de reconocimiento utilizadas, la mayorı́a
utiliza estrategias basadas en propiedades locales a cada punto de la imagen (niveles de gris
o color) y en el resto de los casos se utilizan propiedades correspondientes a vecindarios o
pequeñas regiones de la imagen, caracterizando dichas regiones fundamentalmente por
su forma. Los resultados obtenidos los valoramos en términos de los porcentajes de
acierto/error y de la capacidad de detectar fruta en diferentes estados de madurez. En
la mayorı́a de los casos solo es posible trabajar con fruta madura, los porcentajes de
clasificación correcta no superan el 90 % y es una regla general la aparición de detecciones
falsas.

[Link]. Captación de la imagen

En los trabajos revisados, el proceso de captación genera tres tipos de imágenes, cada una
de las cuales representa diferentes propiedades del entorno: intensidad de luz reflejada,
respuesta espectral y distancia. La captación de la intensidad, se realiza utilizando
cámaras B/N con o sin iluminación artificial. La captación de caracterı́sticas espectrales
en determinadas bandas del espectro, se obtienen empleando cámaras en color que
suministran las componentes RGB o HSI, y también, utilizando cámaras en B/N con
filtros ópticos centrados en determinadas frecuencias espectrales. Ambos tipos de imágenes
se caracterizan por:

Oclusión. La oclusión de los frutos por parte de las hojas y otros frutos.

Sombras. Las sombras que surgen por la iluminación solar y el alto contraste presente
no se ven completamente solucionados mediante el uso de iluminación artificial. La
fruta al Sol es diez veces más brillante que las hojas a la sombra y las hojas al Sol
son cuatro veces más brillantes que una fruta a la sombra [184] y este problema no
se soluciona completamente con iluminación artificial [187].

No-profundidad. La información de profundidades no es conocida, lo cual es

necesario para poder realizar la localización del fruto. La falta de esta información
hace necesaria la utilización de la técnica de aproximación del órgano de captura a lo
largo de la lı́nea de visión del fruto. También se han utilizado técnicas estereoscópicas
siempre muy comprometidas en este tipo de entornos.

Regiones confusas. La presencia de regiones como áreas visibles de suelo, la aparición

de cielo en la imagen o del Sol a través de las hojas y otros posibles objetos
presentes en el entorno, pueden generar áreas confusas en la imagen. Por ello se
28 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

Tipo de fruta1

(tipo imagen)
investigación

Detecciones
Referencias

fruta verde
accesorios2

Método de
Sensores y

correctas-
erróneas4
análisis3

Detecta
Grupo

U. [160] Manz B/N+F (Espectral) Puntual No N.D.

Virginia (Umbr+ExtC+ClaR)
MAGALI [45] Manz Color (Espectral) Puntual (Umbr) No N.D.
[45, Manz 3 Color+ 3 F Puntual Sı́ 50 %-
170] (Espectral) (Razón+Umbr) alto %
U. Florida [188] Narj Color+ L Puntual No 75 %-
(Espectral) (Hue&Sat+ClaL) N.D.
y USDA [189, Narj Color (Espectral) Puntual (RGB+ ClaB) No 75 %-
76] N.D.
U. Purdue [213] Toma B/N (Intensidad) Forma Sı́ 68 %-42 %
(Contorno+CHT)
A.I.D. [130] Narj Color+ F+ L Forma No 70 %-
(Espectral) (Gradiente+Compar.) N.D.
Sunkist y [187] Manz B/N+ F+ L Puntual No 84 %-20 %
U. Calif. y Melc (Espectral) (Umbr+ExtC+ClaL)
AUFO [117] Manz 2 Color (Espectral) Puntual No 41 %-
(Umbr+Estereo) N.D.
CITRUS [112] Narj B/N+ F+ 2L Puntual (Umbr) No 80 %-
(Espectral) alto %
[112] Narj 2 B/N+ 2F+ 2L
Puntual No 80 %-10 %
(Espectral)
(Razón+Umbr)
[112] Narj Color (Espectral)
Puntual (RGB+ ClaB) No 90 %-5 %
[165] Narj B/N+Forma L
(Convx+ Sı́ 75 %-8 %
(Intensidad)
Umbr&Ajuste)
U. Purdue [27] Meln B/N (Intensidad)
Puntual (Umbr+ No 84 %-10 %
ExtC+ ClaR)
y Volcani [46] Meln B/N+ Aire Puntual (Umbr+ No 80 %-
(Intensidad) ExtC+ ClaR) N.D.
[10] Meln Laser&B/N+ Aire Forma (Perfil+ CHT+ Sı́ 100 %-0 %
(Distancia) ClaR)
CIRAA [24] Toma Color (Espectral) Puntual (Hue&Sat+ No 90 %-N.D
Umbr+ Estéreo)
1 Manz=Manzanas, Narj=Naranjas, Toma=Tomates, Meln=Melones, Melc=Melocotones.
2 B/N= cámara blanco y negro, Color= Cámara en color, F=Filtro óptico, L=Luz artificial,

Aire=Sopladores de Aire para mover las hojas.

3 Umbr=Segmentación aplicando
Umbrales, ExtC=Extracción de Caracterı́sticas, Compar=Comparación de plantillas (Template
Matching), ClaL=Clasificador Lineal, ClaB= Clasificador Bayesiano, ClaR=Clasificador basado
en reglas, RGB=Espacio de caracterı́sticas Red-Green-Blue, Hue&Sat=Espacio de caracterı́sticas
Tono-Saturación (Hue-Saturation), CHT=Transformada Circular de Hough, Gradiente=Imagen de
Gradientes locales, Convx=Imagen de Convexidades, Perfil=Imagen de perfiles.
4 N.D.=No Declarado.

Cuadro 1.1: Resumen de los sistemas de visión más importantes para la detección y
localización de productos agrı́colas para labores de recolección.
1.2 Percepción automática en los procesos de recolección 29

suele recomendar trabajar de noche o con cubiertas opacas detrás del árbol para
evitar estos problemas y obtener mejores resultados.

La captación de información espectral, hace que en determinadas aplicaciones se facilite

mucho la segmentación de los frutos con respecto al fondo de hojas. Sin embargo los
problemas anteriores siguen presentes y la utilización del color hace que la técnica no sea
válida para fruta con color similar a las hojas.
La captación de la distancia en la imagen hace que la mayorı́a de los problemas que
acabamos de presentar desaparezcan. Principalmente los relativos a las sombras y a la
presencia de regiones confusas por visualización del cielo o del Sol a través de las hojas.
Además se obtienen de una forma directa las coordenadas de localización del fruto.
Sin embargo este tipo de imágenes no resuelve el problema del ocultamiento. La única
referencia que utiliza una captación de la distancia se aplica en el sistema de visión cercano
para la recolección de melones [10]. En este caso, los problemas de oclusión se resuelven
aplicando una turbina de aire, con lo que se obtiene unos resultados muy buenos.

[Link]. Métodos de análisis aplicados

En cuanto al proceso de reconocimiento, las técnicas revisadas en la sección anterior

muestran dos tipos de aproximaciones fundamentales: las basadas en propiedades puntuales
y las que se basan en la forma superficial.
Las técnicas basadas en propiedades puntuales utilizan el valor o los valores asociados a
cada punto de la imagen para decidir si dicho punto pertenece a un fruto o al fondo. Estos
valores suelen ser el nivel de intensidad o nivel de gris y las componentes de color de estos
puntos (RGB, HSI o alguna componente espectral aislada) [160, 45, 170, 188, 189, 76, 187,
117, 112, 27, 46, 24]. Estos métodos de reconocimiento suelen ser sencillos y rápidos en
términos de cómputo con lo cual son muy atractivos para ser ejecutados en aplicaciones que
trabajen en tiempo real. Sin embargo, se caracterizan por ser poco flexibles ya que una vez
desarrollados para una determinada aplicación no sirven para otras, debiéndose reajustar
los parámetros internos del sistema de reconocimiento. También suelen ser poco robustos
puesto que son muy sensibles a las variaciones de iluminación necesitándose reajustes de
los valores del umbral. Estos ajustes son muy crı́ticos y se suelen hacer basándose en la
experiencia o mediante métodos automáticos que no siempre son adecuados [45].
Los sistemas de reconocimiento basados en la forma tienen en cuenta el grado de
convexidad de las superficies o analizan el grado de circularidad de los contornos y
perfiles de los objetos [213, 130, 165, 10]. Estos métodos son más generales al poderse
aplicar para detectar frutos independientemente de su color. Sin embargo, la utilización
de estas técnicas sobre imágenes de intensidad o sobre imágenes espectrales no es lo mas
correcto. Se puede hacer una interpretación errónea de determinadas áreas de la imagen por
presentar caracterı́sticas de esfericidad que en realidad corresponden a otros fenómenos.
Por ejemplo, en la figura 1.8b los contornos de las hojas presentan caracterı́sticas de
esfericidad y esto provoca interpretaciones erróneas cuando se analiza la imagen por
30 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

métodos de reconocimiento de formas [213]. Análogamente, en la figura 1.10 vemos como

las áreas correspondientes al cielo tienen formas convexas ocasionando conflictos con las
regiones igualmente convexas de los frutos. Los trabajos que utilizan técnicas de análisis
de formas sobre imágenes de intensidad o espectrales [213, 130, 165], se caracterizan todos
ellos por obtener tasas de detección errónea apreciables.

[Link]. Resultados

Hemos visto en los métodos utilizados tres variantes de captación de imágenes: intensidad,
caracterı́sticas espectrales y distancia. Las técnicas de análisis a su vez se basan en
propiedades puntuales ([Link]. color, intensidad) o en la forma. Los diferentes trabajos son
el resultado de combinar estos enfoques, obteniéndose, según la pareja captación/análisis
utilizada, las siguientes categorı́as :

Intensidad/puntual [27, 46].

Intensidad/forma [213, 165].

Espectro/puntual [160, 45, 188, 189, 187, 117, 112, 24].

Espectro/forma [130].

Distancia/forma [10].

Salvo en el caso especial de la recolección de melones presentado por Benady y Miles [10],
los resultados obtenidos se pueden resumir ası́: porcentajes de reconocimiento correctos
limitados, que están en torno al 80-85 %, detección únicamente de fruta madura (salvo en
los casos de análisis por forma), tasas de detección erróneas superiores al 5-10 %. Estos
resultados no son malos teniendo en cuenta los porcentajes de detecciones correctas, sin
embargo el hecho de que existan frecuentes detecciones falsas provocarı́a la activación
de ciclos de recolección con resultados no productivos, ocasionando una disminución del
rendimiento del robot recolector. Además si consideramos el grado de adaptabilidad a
otras condiciones o variedades de fruta, los métodos se caracterizan por no ser flexibles ni
generalizables. En definitiva son aún poco eficientes y sobre todo poco robustos.

1.3. La estrategia de recolección asistida: El robot

AGRIBOT

La tendencia actual que han seguido los trabajos de automatización en la recolección, ha

sido la de realizar una automatización total. Este objetivo ha supuesto que se presenten
diversos problemas prácticos que no permiten que estos sistemas sean lo suficientemente
operativos como para que puedan ser industrializados y utilizados en la recolección. A
diferencia de esta tendencia el proyecto español AGRIBOT que se desarrolla en el Instituto
de Automática Industrial, IAI, del Consejo Superior de Investigaciones Cientı́ficas, bajo
1.3 La estrategia de recolección asistida: El robot AGRIBOT 31

la financiación de la Comisión Interministerial de Ciencia y Tecnologı́a (CICYT-TAP93-

0583), plantea en su primera configuración el estudio y la realización de un robot recolector
de frutos frescos en árbol mediante una estrategia asistida [30].

1.3.1. Principio de operación asistido

La estrategia asistida supone un cambio de concepción frente a las soluciones previas y

pretende introducir un modo de operación semi-automático donde el hombre y la máquina
cooperen de una forma armónica distribuyéndose las tareas en función de las mejores
cualidades de cada uno. De esta forma las tareas, con un alto componente intelectual,
como el guiado por el campo y la detección de los frutos le corresponderı́a al operador,
ya que estas tareas son sencillas de realizar y casi no suponen ningún esfuerzo fı́sico a
una persona. Por el contrario las tareas de localización, aproximación al árbol, corte y
almacenamiento de la fruta son encomendadas al robot debido a que para este son tareas
muy sencillas de realizar (como ocurre en el caso de la localización una vez que el operario
ha señalado la fruta), o bien, debido a que son labores que requieren un esfuerzo fı́sico y
sin embargo al robot no le supone ningún problema (como en el caso de la aproximación,
corte y almacenamiento). Cabe destacar que existe otra tarea que es la de aprehensión
o agarre de la fruta que supone un esfuerzo para el operario y para el robot no es una
tarea sencilla. En este caso la tarea ha sido encomendada al robot puesto que en caso
contrario no tendrı́a sentido la presencia de un manipulador y evolucionarı́amos a una
solución totalmente manual.
La estrategia asistida supone un planteamiento realista, por la que se intenta eliminar las
principales dificultades encontradas, utilizando la cooperación humana en tareas triviales
para este. De esta forma se pretende hacer viable la recolección individualizada de frutos,
aunque la estrategia semiautomática suponga siempre la presencia de un operario. A pesar
de no conseguir una automatización total, el enfoque es igualmente interesante puesto
que puede suponer una mejora en la producción, en la calidad de los productos y una
disminución de costes al reducir significativamente la mano de obra.

1.3.2. Descripción del robot AGRIBOT

La estructura del robot recolector propuesta en el proyecto Agribot se presenta en la figura

1.13. Puede verse que el robot consta de una plataforma móvil que se mueve a lo largo de
los pasillos formados por cada dos hileras de árboles. Sobre la plataforma, en una cabina de
mando, va situado un operador y a ambos lados se disponen dos brazos recolectores. Sobre
la cabina del operario está colocado un sistema de localización basado en un telémetro
láser que será utilizado para que el operador, desde su puesto de control, mediante un
joystick apunte individualmente a cada fruto y de esta forma podamos calcular la posición
tridimensional de cada fruto. Mientras se van adquiriendo estas coordenadas el sistema de
procesamiento controlando los brazos recolectores va distribuyendo la carga de trabajo de
tal forma que se optimicen las trayectorias recorridas y por tanto el tiempo empleado en
los ciclos de recogida.
32 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

Volumen
de trabajo

Brazos Recolectores

Vehículo
Tractor

Cabina de
Mando

Sistema Localizador
-Telémetro Laser-

Figura 1.13: Estructura general del robot Agribot [167].

La utilización de dos brazos recolectores pretende disminuir el tiempo medio de recogida

de la fruta, el cual para ser competitivo debe estar en torno a los dos segundos por fruta.
Un estudio de productividad en la recogida de naranjas de tipo Valencia [167] indica
que la producción de un recolector humano en una hora es de 15 arrobas/hombre · hora,
incluyendo los tiempos de transporte hasta la estación de pesado, lo cual supone un ciclo de
4 segundos/pieza considerando que una arroba contiene entre 60 y 65 piezas. Esto quiere
decir que si obtenemos una velocidad de recogida por cada brazo de 3 segundos/pieza,
tenemos un ciclo de 1.5 segundos/pieza entre los dos brazos y por consiguiente un
incremento en la recogida equivalente al trabajo de 2.6 hombres.
En el esquema de la figura 1.14 se muestran todos los componentes fı́sicos de los que consta
el robot Agribot necesarios para realizar el proceso de control y actuación para el cual
fue diseñado. Ası́ mismo podemos apreciar el flujo de la información y los comandos que
se transmiten a lo largo de las lı́neas de conexión existentes entre dichos componentes,
siendo el operario el agente que desencadena las acciones de recolección al ir señalando
secuencialmente cada uno de los frutos. A continuación vamos a presentar una breve
descripción de cada uno de los elementos fı́sicos de que consta el robot Agribot:

Manipulador. Tras un estudio geométrico, cinemático y dinámico, analizando

diferentes tipos de manipuladores se diseño y construyó un brazo con
estructura angular de paralelogramo [168, 167] (fig. 1.15). Esta elección se hizo
ası́ fundamentalmente porque esta solución presentaba una mejor distribución de
masas y una atenuación de los efectos no lineales que aparecen en su control. El
manipulador fue construido con cuatro grados de libertad, cada uno de los cuales se
1.3 La estrategia de recolección asistida: El robot AGRIBOT 33

Señales de control de motores Distancia, atenuación,

del brazo y sist. localización; y coord. en acimut y
Ordenes de usuario elevación

Unidad de control Sistema de localización

y procesamiento

Módulo interfaz de
alimentación y amplificación

Comandos: acimut, elevación, Motores, frenos, codifi-

captura coordenada 3D, ... cadores ópticos, finales
Informes sobre estado recogida,... carrera, sensores ...
Consola de operación Brazo recolector
(Manipulador y pinza)

Figura 1.14: Componentes, interconexionado y flujo de información del robot Agribot.

corresponde al equivalente humano para la cintura, hombro, codo y muñeca. Cada

uno de estos ejes está accionado por motores de corriente continua de 80, 2x250 y 90
w respectivamente, con codificadores ópticos y reducciones adecuadas para conseguir
las precisiones de posicionamiento deseadas. Los cuerpos principales del brazo son
dos perfiles estándar de aluminio, lo cual permite que este tenga un peso muy ligero
(16.8 Kg), con unas longitudes de 90 y 110 cm lo que supone una envergadura total
de más de dos metros.

Pinza. El primer prototipo de pinza diseñado y construido en el IAI [209], es un

dispositivo mecánico que utiliza sensores y actuadores electro-ópticos y neumáticos.
Las tareas que debe realizar la pinza son variadas; por un lado debe actuar en la
aproximación final al fruto para situarse en disposición de capturar la fruta, para
ello, mediante el movimiento controlado del manipulador y utilizando un dispositivo
pasivo de autocentrado en forma de V se consigue posicionar el pedúnculo del
fruto en el vértice de la V donde se encuentran dos sensores de infrarrojos que
indican la presencia del pedúnculo de la fruta (fig. 1.16a). Una vez detectada esta
situación, se acciona una ventosa junto con un venturi y un sistema de compresión
para realizar una aspiración sobre la superficie de la fruta para conseguir fijarla. La
correcta captura de la fruta es detectada utilizando un sensor de presión que permite
discernir cuando se produce una disminución de la presión atmosférica en el interior
del conducto de aspiración. Una vez confirmada esta situación se activa una sierra
circular para cortar el rabo de la fruta. Después del corte, mediante gravedad, un
balancı́n que soporta la ventosa pasa de la posición horizontal inicial a un vertical
donde la fruta queda enfrentada a la boca de una manga flexible que está acoplada
a la estructura del brazo (fig. 1.16b). Cuando la aspiración cesa la fruta entra en
34 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

Árbol artificial utilizado

en los primeros ensayos

Brazo manipulador
del robot AGRIBOT

Figura 1.15: Manipulador del robot Agribot.

la manga y cae por gravedad al depósito de almacenamiento situado en el propio

vehı́culo.

Sistema de localización.
El componente principal de este sistema es un telémetro láser para la medida
de distancias (modelo DME-2000 de la firma Sick), presentando como principales
caracterı́sticas, un rango neto de medida de 2 metros, precisión de 10 mm, frecuencia
de medida 30 Hz, potencia 3.4 mW, longitud de onda 670 nm y clase II. Este
telémetro va montado sobre una torreta, desarrollada igualmente en el IAI [166],
que permite moverlo con dos grados de libertad: acimut y elevación, mediante
dos motores DC de 15 W, pudiéndose conocer la posición actual de cada eje en
cada momento mediante el uso de codificadores ópticos (fig. 1.17). De esta forma
disponemos de un sistema de medida en coordenadas esféricas, que es utilizado para
obtener la posición espacial del fruto cuando el haz láser visible incide sobre la
superficie de este.

Unidad de control y procesamiento. El componente central de esta unidad es

un ordenador personal industrial con microprocesador Intel Pentium 150 MHz,
en cuyas ranuras de expansión incorpora tarjetas de adquisición de señales tanto
analógicas como digitales para la lectura de señales generadas por diversos sensores
(interruptores, pulsadores, sensores de vacı́o y fotoeléctricos, potenciómetros de
joystick, lecturas analógicas del telémetro, etc . . . ), para la activación de diversos
1.3 La estrategia de recolección asistida: El robot AGRIBOT 35

Sensores infarrojos
de proximidad Pedúnculo

Dispositivo de centrado pasivo Ventosa de succión acoplada

a muelle de adaptación

b) Sierra de corte

Adaptación pasiva al tamaño de la fruta

Figura 1.16: Primer prototipo de pinza del robot Agribot: (a) proceso de aproximación de
la pinza y detección del pedúnculo, (b) operaciones de agarre y corte.

Telémetro láser Sick DME-2000

Eje óptico de medida
de distancias Eje de giro en acimut
Torreta de
orientación
del láser
Eje de
giro en
elevación

Figura 1.17: Sistema para la localización asistida de frutos del robot Agribot.
36 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT

dispositivos (sierra, electroválvulas de succión, frenos de motores, . . . ), y unidades

controladoras de motores de corriente continua para el control descentralizado de
seis motores. Apoyándose en este soporte fı́sico, los algoritmos desarrollados sobre
un entorno de programación multitarea (RTKernel) gestionan en tiempo real la
generación de trayectorias para el desplazamiento de los brazos, el proceso de
aproximación, agarre, corte y depositado de la pinza, a la vez que atiende las acciones
del operador de señalización de los frutos por medio de una palanca de mando o
joystick.

Consola de operación. Esta consola es la interfase de comunicación hombre-

máquina en la cual el componente principal es la palanca de mando con su
correspondiente pulsador para señalar el instante en que las coordenadas esféricas
actuales corresponden a la posición espacial de un fruto. Adicionalmente esta consola
incluye diversos pulsadores, selectores y visualizadores para marcar los inicios y
paradas del proceso de recolección, definir orı́genes de coordenadas, cambiar modos
de trabajo y tener una información del estado actual de operación.

Alimentaciones y etapas de potencia. En estas se generan las diferentes tensiones

continuas (48,24,+/-15,5 voltios) necesarias para alimentar los motores y los
dispositivos electrónicos. Además se incluyen etapas de potencia necesarias para
convertir las señales de control de baja potencia generadas en las tarjetas
controladoras de motores del PC, en señales con la potencia necesaria para mover
cada uno de los motores.

1.3.3. Resultados y discusión

De los dos brazos manipuladores previstos en el diseño inicial se ha construido uno, que
permite obtener una velocidad lineal máxima del extremo del brazo de 2.8 m/s en el caso
de una extensión del brazo completa, consiguiéndose un alcance de 2,2 metros desde el
eje de la cintura del brazo. El tiempo medio alcanzado para un movimiento tı́pico de
aproximación al árbol es de 1.7 segundos, mientras que el tiempo empleado en el proceso
de agarre, corte y depositado ronda los 3 segundos, lo cual, unido al tiempo de señalización,
permite realizar ciclos de captura a una cadencia de una fruta cada 6 segundos, que es
significativamente superior al tiempo de 3 segundos marcado como objetivo en cada brazo.
El sistema de localización presenta un buen comportamiento alcanzando precisiones de
5 mm para objetos con buena reflectividad, degradándose la precisión paulatinamente a
medida que aquella disminuye, y alcanzándose 11 mm de precisión para reflectividades
del 20-30 %. En cuanto a la señalización del fruto utilizando el haz luminoso del telémetro
láser Sick-DME-2000, la detección del punto luminoso de color rojo por parte del operario,
es factible en ambientes internos con iluminaciones tenues, pero resulta casi imposible su
visualización en ambientes con fuerte iluminación solar. Este hecho hace que sea necesario
aumentar la potencia de emisión del haz señalizador y a su vez disminuir la longitud de
onda del láser utilizado para trabajar en una banda donde el ojo humano sea más sensible
(555 nm).
1.3 La estrategia de recolección asistida: El robot AGRIBOT 37

La tarea de señalización manual de cada uno de los frutos supone un alto esfuerzo de
concentración del operario que en muchas ocasiones no puede seguir señalando porque el
brazo robótico interfiere la lı́nea de visualización o porque el proceso de captura provoca
un cierto movimiento en las ramas y frutos a los que se pretende señalar. Teniendo además
en cuenta que el ciclo pretendido es de 1.5 frutas por segundo, esto implica que el operario
debe realizar el proceso de señalización y pulsación a esta misma cadencia, lo cual supone
un gran estrés y crea la necesidad de realizar descansos o cambios de turno de trabajo
frecuentemente. Es por ello que serı́a conveniente facilitar de algún modo el proceso de
apuntamiento de la fruta para hacer que la intervención del operario no sea tan intensa,
para lo cual un sistema de reconocimiento automático que captase los frutos más evidentes
serı́a lo más aconsejable.
38 Capı́tulo 1: Automatización agrı́cola: La detección de frutos . . . AGRIBOT
Capı́tulo 2

Estrategia de detección mixta.

Estudio, configuración y
caracterización de un sensor de
distancia y reflectancia

Resumen. En este capı́tulo proponemos una nueva estrategia para la detección y

localización de frutos: “Estrategia de detección mixta”, que integra un método automático
con el modo asistido ya existente en la primera configuración del robot Agribot. Para
dotar al robot de un modo automático suficientemente robusto, se propone basar el
reconocimiento en el análisis de formas, propiedades ópticas y distribución espacial de los
objetos, para lo cual se requiere la generación de imágenes de distancia y reflectancia.
Se fijan las especificaciones requeridas de éstas imágenes y se realiza una revisión
de las diferentes técnicas que permiten captar ambos parámetros. La telemetrı́a láser
operando según el principio de diferencia de fases es considerada la técnica más adecuada.
Seleccionamos el tipo de telémetro láser que mejor se ajusta a nuestras especificaciones y
realizamos un análisis tecnológico donde se plasma la problemática actual para conseguir
telémetros que satisfagan nuestros requisitos. Presentamos la configuración fı́sica de
un sistema de barrido por deflexión de haz, que utilizando el telémetro láser puntual
previamente seleccionado, nos permite obtener imágenes muestreadas de distancia o
profundidad y reflectancia.
Finalmente, realizamos la caracterización del telémetro láser, presentando un modelo
matemático que relaciona la información de reflectancia suministrada por el sensor con
diversos factores que intervienen en el proceso de medida (distancia, reflectividad, ángulo
de incidencia, etc. . . ). Análogamente, modelamos la repetitividad de la medida de distancia
la cual depende fundamentalmente de la reflectancia y del periodo de muestreo. Como se
verá en posteriores capı́tulos, estos dos modelos constituyen las bases para: 1) integrar la
doble información distancia/reflectancia, 2) deducir la reflectividad de una superficie, y
3) estimar el ruido del mapa de distancia para su posterior restauración.

39
40 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

En el capı́tulo anterior hemos visto que la estrategia de recolección asistida que se presenta
en el proyecto AGRIBOT, permite reducir la complejidad de las tareas asignadas al robot
recolector mediante la cooperación del operario con la máquina en las etapas de guiado y
detección de las frutas. Para la localización de la fruta, el operario utiliza un sistema de
señalización láser movido por una palanca de mando mediante el cual comunica al sistema
de control del robot las coordenadas de las frutas que ha reconocido. Teniendo en cuenta
que la velocidad de ciclo pretendida para el robot Agribot es de 1.5 segundos/fruto [167],
nos encontramos con que el proceso de señalización es una tarea intensa y el operario
difı́cilmente va a ser capaz de realizar la señalización con esta cadencia, especialmente si
se pretende que este trabaje de forma continuada durante una jornada laboral. Por estos
motivos nos planteamos la forma de dotar al robot de un sistema automático adicional
de detección y localización de frutos que permita al operario reducir el tiempo dedicado a
la señalización manual de las frutas. Esta solución que proponemos la hemos denominado
estrategia de detección y localización mixta.

2.1. Estrategia de detección mixta: Detección/localización

automática y asistida

2.1.1. Principio de operación mixto

Este principio de operación pretende integrar la estrategia de detección y localización

asistida, planteada en el capı́tulo anterior para el robot Agribot (sección 1.3), con una
estrategia automática. En el caso asistido, el operador detecta la fruta reconociéndola
visualmente y posteriormente el robot determina la localización de la fruta por las
coordenadas esféricas del sistema de localización, el cual fue previamente posicionado
por el operario moviendo una palanca de mando. En un sistema totalmente automático de
reconocimiento, tanto la detección como la localización se realiza sin ninguna intervención
del usuario. Por separado, tanto la estrategia asistida como la automática, tienen su propio
sentido. Nosotros queremos utilizar ambos principios e integrarlos, de tal forma que se
complementen mútuamente para paliar las desventajas intrı́nsecas de cada método.
La principal desventaja de un método automático es que no reconoce una cierta proporción
de las frutas, especialmente cuando el porcentaje de oclusión del fruto es elevado (> 70 %).
La desventaja del proceso asistido es la labor requerida en la señalización de cada una de las
frutas que resulta muy laboriosa e impide obtener las velocidades de señalización deseadas.
Si integramos ambos métodos realizando primeramente un reconocimiento automático,
con lo cual detectarı́amos y localizarı́amos la mayor parte de las frutas, y posteriormente
aplicásemos el método asistido sobre las frutas que no ha sido capaz de detectar el sistema
automático, tenemos por un lado, que las frutas no detectadas por el sistema automático
son escasas y por tanto hay que realizar pocas señalizaciones manuales en modo asistido,
con lo cual la desventaja del modo asistido desaparece; por otro lado, las frutas más
complicadas de reconocer que no fueron detectadas por el sistema automático, finalmente
son detectadas al aplicar el modo asistido, con lo cual la desventaja del proceso automático
2.1 Estrategia de percepción mixta 41

también desaparece.
Para llevar a la práctica la estrategia mixta de percepción disponemos en la actualidad del
modo de localización asistido, sin embargo no tenemos ningún sistema de reconocimiento
automático, y los revisados en el primer capı́tulo (sección 1.2) no son suficientemente
robustos y suelen presentar detecciones falsas. Por ello tenemos la necesidad de integrar
al modo asistido un sistema automático de reconocimiento y localización que detecte
el mayor porcentaje de frutos, y especialmente que no genere detecciones falsas. Como
ya adelantamos en el apartado inicial “Objetivos y metodologı́a del trabajo”, este es
precisamente el objetivo central de la tesis.

2.1.2. Captación de distancia y reflectancia: Análisis de formas,

propiedades ópticas y distribución espacial.

Con el objetivo de desarrollar el sistema automático de detección de frutos correspondiente

a la estrategia de percepción mixta propuesta para el Agribot, primeramente vamos a
analizar cual debe ser la técnica de captación más apropiada para el problema planteado.
Para ello hemos analizado los resultados obtenidos en los trabajos previos de detección
de fruta y en otros procesos afines de reconocimiento, si bien antes vamos a formalizar
algunos conceptos con los que vamos a trabajar en esta tesis.
En la mayorı́a de estos trabajos, los sensores utilizados son cámaras CCD en color o en
blanco y negro, con lo cual obtienen imágenes denominadas de “intensidad”. Este término
es una simplificación de la magnitud fı́sica que en realidad se capta que es la intensidad
radiante ó potencia radiante por estereoradian [w/sr]. En otros trabajos también se puede
oı́r hablar de términos como reflectancia, reflectancia registrada o reflectancia aparente,
todos ellos refiriéndose al mismo concepto de una imagen de intensidades que se caracteriza
por ser muy similar a aquellas captadas con nuestros ojos. Existe otro concepto que
está ligado a las propiedades intrı́nsecas de una superficie, que relaciona el flujo radiante
que incide sobre ella y el flujo total que refleja, este parámetro se conoce como coeficiente
de reflexión, reflectividad o reflectancia, siendo todos ellos sinónimos, y se representa por
la letra griega ρ. Como se puede ver, entre el primer concepto y el segundo existe una
coincidencia de términos al hablar de reflectancia. A partir de este momento y para que
no haya confusión nos referiremos a estos dos conceptos mediante estos términos:

Reflectancia (<). Utilizado para designar la intensidad radiante o la reflectancia

registrada mediante un sensor al medir una región de un entorno iluminado.

Reflectividad (ρ). Utilizado para designar la propiedad de una superficie que

relaciona el flujo reflejado con el flujo incidente y que depende de la longitud de
onda de la luz utilizada.

Una vez definido lo que entendemos por reflectancia, podemos decir que alguna de las
limitaciones de este tipo de imágenes, tal como se vio en el capı́tulo 1 (sección 1.2.3),
son los contrastes producidos por la iluminación natural que crea fuertes sombras, la
42 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

aparición de regiones confusas debidas al Sol o al cielo visible a través del árbol, y
la ausencia de información de profundidad. Los valores puntuales de reflectancia en la
imagen son parámetros bastante variables y por tanto no constituyen bases discriminantes
estables. Un buen método de reconocimiento debe basarse en la caracterización del
objeto mediante propiedades estables y que no cambien al presentarse dicho objeto en
diferentes entornos o condiciones. Por ello, un método de detección de frutos debe utilizar
caracterı́sticas intrı́nsecas al propio fruto y depender lo mı́nimo posible de otros factores
externos como las condiciones de iluminación o ambientales. Debido a que los mapas
de distancia son independientes de la iluminación y la reflectividad, y que las sombras
o las marcas no aparecen, el proceso de reconocimiento de objetos basándose en la
forma deberı́a ser menos difı́cil en imágenes de distancia que en imágenes de reflectancia
[100]. No por ello la información de reflectancia hay que desestimarla, ya que si la
iluminación está controlada, permite captar propiedades ópticas de la superficie de los
objetos posibilitando su caracterización. De esta forma se aportan factores discriminantes
adicionales a los generados mediante un análisis de forma en mapas de distancia.
La distancia a la que se encuentran los objetos (frutos), es un factor esencial para obtener
la localización tridimensional de estos y para que no se requiera utilizar la técnica de
aproximación ciega del brazo manipulador a lo largo de la lı́nea de visualización del fruto,
que ralentiza el ciclo de trabajo del robot. Adicionalmente la información de distancia
permite realizar análisis basados en la distribución espacial de los objetos, es decir, se
puede limitar el espacio de búsqueda en la imagen de distancias a aquellos volúmenes
donde se prevea la aparición de los objetos de interés, o como es nuestro caso, al volumen
de trabajo del robot manipulador.
Por los motivos expuestos proponemos realizar el sistema de detección y localización
automático mediante un análisis basado en la forma, en las propiedades ópticas de una
superficie, y en la distribución espacial de los objetos, para lo cual se deberá utilizar
una técnica de captación que genere imágenes incluyendo información de distancia y
reflectancia.

2.1.3. Especificaciones de las imágenes de distancia y reflectancia

En este apartado vamos a definir las caracterı́sticas que debe satisfacer la técnica de
captación de imágenes de distancia y reflectancia, para que un proceso de análisis sea
viable. Teniendo presente que nuestro objetivo se centra en la detección de frutos tales
como naranjas, manzanas o melocotones, esto implica tamaños medios del objeto a detectar
entre 60-130 mm y una distancia de posicionamiento respecto al sensor entre 1 y 4 metros.
Uniendo estos factores a otros requisitos básicos de resolución espacial, resolución en
profundidades y a otras consideraciones necesarias para aplicar las técnicas de análisis
en tiempo real, obtenemos que la técnica de captación de profundidad/reflectancia debe
cumplir las siguientes especificaciones:

Distancia absoluta. Para determinar la localización espacial del objeto, es necesario

conocer la distancia absoluta del sensor a la superficie a medir. Esta información
2.1 Estrategia de percepción mixta 43

además de facilitar la localización, permite eliminar ciertas ambigüedades y limitar

el volumen de análisis de las imágenes.

Reflectancia. La reflectancia deberá ser medida para posibilitar el análisis basado en

propiedades ópticas y para complementar la información de distancia. La reflectancia
deberá ser lo más estable e independiente de factores variables externos como la
iluminación o los contrastes producidos por sombras, para lo cual la iluminación
deberá estar controlada.

No contacto. El método de medida debe ser sin contacto. En este sentido,

son desaconsejables los métodos táctiles que requieren contacto y una búsqueda
secuencial a lo largo del entorno, normalmente guiados por un brazo móvil,
necesitando mucho tiempo para obtener la información tridimensional. Estos
métodos además son invasivos, interactuando con el medio.

Robustez en la captación. El principio de medida debe verse influenciado lo mı́nimo

posible ante fenómenos perturbadores. Por ejemplo por variaciones de temperatura y
de iluminación ambiental, por aparición de determinadas texturas, por presencia de
discontinuidades en las superficies o por perturbaciones producidas por la aparición
de objetos próximos al eje de medida. Este último caso se da en técnicas basadas en
triangulación apareciendo regiones donde no es posible medir debido a que la señal
utilizada queda interrumpida (fig. 2.11). El resultado es una falta de información en
determinadas áreas que se conocen por zonas de oclusión y sombras, las cuales son
debidas al método de medida utilizado.

Rango de medida en distancia. El rango de medida del sensor debe alcanzar los
cuatro metros para cubrir el volumen de trabajo definido por el conjunto formado
por el robot manipulador y el árbol (fig. 1.13).

Precisión en posición 3-D. La precisión es una medida de la máxima desviación de

una medida frente al valor real, y se suele expresar en términos del error cuadrático
medio como ±2σ. La precisión en la localización de un punto en el espacio viene dada
por la precisión en cada una de las coordenadas del sistema de referencia utilizado.
Por ejemplo, si el resultado se da en coordenadas esféricas, intervienen la precisión
angular y la precisión en la determinación de la distancia. Para el caso del robot
Agribot, se considera que el sistema puede admitir errores máximos de ±10 mm en
cada uno de los ejes cartesianos.

Resolución en distancia y repetitividad. La resolución es una medida que indica el

cambio más pequeño en distancia que el sensor es capaz de detectar. Con el objeto
de extraer información fiable en cuanto a la forma de los objetos, la resolución en
distancia debe ser suficiente como para que la forma del objeto no quede degradada.
En el caso del Agribot, para detectar cuerpos esféricos en torno a 35-40 mm de radio,
que es el caso más tı́pico, se estima que 1 mm de resolución en distancia es suficiente.
Sin embargo, este parámetro por sı́ solo no es suficiente si no viene acompañado de
una buena repetitividad, es decir, la medida repetida sobre un mismo punto debe
44 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

dar una desviación estándar que se estima no debe superar 1 mm. Ambos factores,
resolución y repetitividad, son muy importantes a la hora de captar la forma de las
superficies en la imagen de una forma fiable y ajustada a la realidad.

Resolución espacial. Para realizar un muestreo de la escena que permita captar la

forma de las superficies, la resolución espacial o separación deseable entre puntos
contiguos de la imagen estarı́a aproximadamente entre 2 y 4 mm.

Tiempo de medida. El tiempo de captura debe ser lo suficientemente pequeño como

para que considerando también el tiempo de procesamiento de la imagen, no se supere
el ciclo de trabajo de la aplicación considerada. En el caso concreto del Agribot,
considerando dos brazos recolectores trabajando, el ciclo de trabajo estimado es de
1.5 segundos por fruto. Si asumimos que un tercio del ciclo de trabajo puede estar
dedicado a tareas de detección y localización, y los otros dos tercios se dedican a la
captura y manipulación, tenemos que el tiempo dedicado a la detección y localización
es de 0.5 segundos/fruto. Según un estudio realizado en una plantación de naranjos,
hemos podido comprobar que el promedio de frutos en una ventana de 50 × 50 cm
es alrededor de 10 frutos. Esto implica que el tiempo que podemos dedicar a realizar
una captura de una imagen de 50 × 50 cm es de 5 segundos, y si suponemos que
necesitamos 3 mm de resolución espacial, esta imagen corresponde a una de 167×167
puntos con lo cual hay que captar 28.000 puntos en 5 segundos, lo que implica una
velocidad de muestreo de 5.6 kHz.

Con estas especificaciones se han dado datos cuantitativos referentes a los requisitos
necesarios para obtener imágenes de distancia/reflectancia con la suficiente fidelidad
como para poder plantear una posterior etapa de reconocimiento y localización de frutos
basándose en la forma, en las propiedades ópticas superficiales y en la distribución espacial
de los frutos. A pesar de que las especificaciones han sido dadas atendiendo a un problema
concreto, el planteamiento tiene la suficiente generalidad como para permitir cubrir un
gran número de problemas y aplicaciones de reconocimiento, con excepción de aquellas
que trabajan con objetos grandes a largas distancias, o con objetos pequeños a cortas
distancias.

2.2. Técnicas para captar distancia y reflectancia

En la sección anterior hemos planteado la necesidad de utilizar una técnica capaz de

captar tanto información tridimensional como de reflectancia, por ser esta información
muy completa para permitir aplicar posteriores análisis de reconocimiento automático
de objetos. No es un aspecto nuevo el hecho de utilizar información tridimensional y
de reflectancia para interpretar una escena. Los seres humanos utilizamos una serie de
deducciones automáticas para obtener información tridimensional a partir de dos vistas
de una escena o incluso a partir de una sola vista analizando gradientes en iluminación o
experiencias acumuladas. En este sentido han surgido numerosos trabajos de investigación
para extraer información tridimensional mediante diferentes estrategias, como la telemetrı́a
2.2 Técnicas para captar distancia y reflectancia 45

láser [50, 13, 67, 101, 110, 132, 179, 183, 186, 40], la estructuración de la luz [65, 66], la
estéreo visión [55, 102, 146], ultrasonidos [133] ó mediante pieles táctiles [177], registrando
en algunos casos tanto distancia como reflectancia [155]. A continuación vamos a revisar
las técnicas más representativas de captación, tanto activas como pasivas, que nos van
a permitir sentar las bases para posteriormente seleccionar el principio de medida más
adecuado a nuestro problema.

2.2.1. Técnicas basadas en cámaras ópticas

Las cámaras son los principales dispositivos utilizados en los sistemas de visión artificial.
Teniendo en cuenta el principio de captación utilizado, existen dos tipos de cámaras,
las basadas en tubos de rayos catódicos (Vidicon) y las basadas en captadores de estado
sólido (CCD y CID). Tanto en un caso como en otro, hablamos de sensores pasivos, puesto
que utilizan la propia energı́a electromagnética reflejada por los objetos del entorno, para
captar las imágenes. En este sentido, para este tipo de sensores, es de vital importancia la
correcta iluminación de la escena a registrar. Por tanto, a continuación vamos a dedicar
un apartado a las técnicas y fuentes de iluminación más empleadas para la captación
adecuada de imágenes utilizando cámaras.
Técnicas y fuentes de iluminación asociadas. Tal como se ha indicado las cámaras
son sensores pasivos y requieren por tanto una excitación del entorno mediante iluminación.
La iluminación de una escena es un factor muy importante ligada a la complejidad de esta.
Una iluminación arbitraria del entorno no suele ser aceptable puesto que puede producir
imágenes de bajo contraste, reflexiones especulares, sombras y otros tipos de efectos no
deseables. Un sistema de iluminación bien diseñado, debe iluminar la escena de tal forma
que reduzca la complejidad de la imagen, resaltando las caracterı́sticas importantes para
la detección de objetos.
Existen fundamentalmente cuatro técnicas de iluminación de la escena. En la figura 2.1 se
pueden apreciar las cuatro configuraciones que a continuación se describen:

Luz difusa. La luz difusa se suele emplear cuando los objetos tienen superficies suaves
y regulares, y nos interesa captar estas propiedades superficiales.

Contraluz. La iluminación por contraluz produce imágenes binarias. Esta técnica es

adecuada para aplicaciones en las que la silueta de los objetos es suficiente para
reconocerlos.

Luz estructurada. Estructurar la luz consiste en proyectar puntos, lı́neas o retı́culas

de luz sobre la zona de operación. El patrón de luz proyectado sobre la zona de
trabajo es conocido, y las alteraciones de este patrón facilitan la detección de la
presencia de un objeto. Analizando la deformación del patrón de luz, es posible
determinar caracterı́sticas tridimensionales del objeto.

Especular. La técnica de iluminación especular o directa, se utiliza fundamentalmente

para inspeccionar la superficie de los objetos. Los defectos de la superficie, tales
46 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Cámara
Cámara

Objeto

Fuentes de luz Luz

a) Difusa b) Contraluz

Luz
Luz
Cámara Cámara
Rejilla

Objeto

d) Especular o directa
c) Estructurada

Figura 2.1: Técnicas fundamentales de iluminación para cámaras.

como rugosidades o fisuras pueden detectarse utilizando un haz de luz direccional

y midiendo la cantidad de luz dispersada. Si no hay defectos, se produce reflexión
especular y se dispersa poca luz hacia la cámara, mientras que la presencia de defectos
incrementa la cantidad de luz dispersada hacia la cámara, lo cual facilita su detección
al presentarse en forma de regiones brillantes en la imagen.

Una vez apuntadas las técnicas de iluminación es necesario distinguir la fuente de

iluminación más adecuada para cada situación. La fuente de luz por excelencia es la luz
natural o luz solar, la cual puede ser apropiada en ciertos casos, sin embargo normalmente
se utilizan fuentes de luz artificiales por ser mucho más fácilmente controlables. A
continuación se describen las principales fuentes de luz artificial utilizadas en visión
artificial:

Lámparas incandescentes. Este es el tipo de iluminación más común, generalmente

con filamentos de tungsteno o halógeno-tungsteno. Es una forma simple de
suministrar luz continua en un amplio rango de potencias. Sin embargo, emiten
una gran cantidad de energı́a en forma de calor y pierden intensidad luminosa por
envejecimiento. Esta última caracterı́stica, puede causar problemas al sistema de
visión, salvo que se utilicen cámaras con control automático de iris o algoritmos de
procesamiento poco sensibles a cambios en el nivel de iluminación.

Tubos fluorescentes. Son más eficientes que las lámparas incandescentes y

suministran luz más difusa, caracterı́stica muy útil cuando no son deseables
reflexiones especulares, aunque presentan algunos problemas de parpadeo.

Fibra óptica. Se suele utilizar cuando la zona a iluminar es de difı́cil acceso. La

lámpara empleada es generalmente de tipo cuarzo-halógeno.
2.2 Técnicas para captar distancia y reflectancia 47

Láser. Es la fuente de luz habitualmente utilizada para generar luz estructurada.

Los láseres más utilizados son los de helio-neón y los de diodo semiconductor. Las
potencias empleadas son bajas, variando desde 1 a 5 mW.

Flashes. Un flash es un dispositivo que genera una fuente de luz muy intensa, con
una duración muy breve. Si los objetos se mueven a velocidades altas, se suele
utilizar flashes para “congelar” la imagen y evitar obtener imágenes borrosas. La
luz suministrada por el flash, debe ser varias veces mayor que la luz ambiental para
conseguir el efecto deseado de captación instantánea de la imagen.

Ultravioleta. La lámpara de xenón tiene una respuesta espectral dentro de la banda

ultravioleta. Existen aplicaciones en las que esta luz, al incidir sobre sustancias
fluorescentes, genera un alto contraste entre dichas sustancias y el resto de la escena.

Cámaras de tubo. La cámara de tubo más utilizada es el Vidicon. Existen otros tipos
con caracterı́sticas mejoradas en cuanto a la composición quı́mica del sensor, pero el
principio de funcionamiento es el mismo. Las cámaras de tubo fueron populares en las
primeras aplicaciones de visión artificial, pero actualmente se han visto desplazadas por
las cámaras de estado sólido. Constan de un tubo de rayos catódicos sobre cuya cara
frontal se proyecta la imagen de la escena (fig. 2.2). La parte interna de la cara frontal del
tubo, presenta un sustancia fotosensible cuya resistencia es inversamente proporcional a la
intensidad de la luz incidente. Mediante un haz de electrones se va realizando un barrido
por la superficie fotosensible, en los puntos donde no incide luz la resistencia es grande,
se produce una acumulación de cargas negativas y la corriente producida es baja. Por el
contrario, en las zonas iluminadas la resistencia es baja, con lo cual hay una descarga
y el haz de electrones produce un flujo de corriente de recarga superior al caso de no
iluminación. Esta variación de corriente producida durante el barrido electrónico genera
la señal de vı́deo que es proporcional a la intensidad de la imagen captada. El haz de
electrones recorre la superficie completamente a una frecuencia de 30 veces por segundo
en cuadros de 525 lı́neas de las cuales 480 contienen información de la imagen. Existen
otros modos de barridos, para evitar parpadeos, usando dos campos entrelazados de 265,5
lı́neas cada uno, o utilizando 559 lı́neas con 512 lı́neas de datos, siendo este último estándar
popular en visión artificial por ser el número de lı́neas una potencia entera de 2.
Las cámaras vidicon tienen limitaciones en las aplicaciones industriales ya que son
poco ligeras y manejables, la respuesta espectral es limitada (0,4 a 0,8 µm), y pueden
distorsionar la imagen o quemarse la superficie fotosensible por exceso de iluminación. Su
vida útil es limitada.
Cámaras de estado sólido. Las cámaras de estado sólido, utilizando dispositivos CCD
(Charge-Couppled Devices) o CID (Charge-Injected Devices), constituyen los sensores más
extendidos para los sistemas de visión artificial. Todas ellas están compuestas por series
lineales o matriciales de dispositivos elementales de detección; ası́, considerando el tipo de
imagen capturada, encontramos dos categorı́as principales: cámaras de lı́nea o cámaras de
área. Estas categorı́as aparecen según la distribución espacial de los elementos sensibles a
la luz. La utilización de uno u otro tipo, depende de la clase de aplicación que se plantee.
48 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Sistema de deflexión Capa fotosensible

Haz de electrones

Lente Objeto
Pines del tubo Rejilla

Figura 2.2: Cámara de tubo de tipo Vidicon.

Registro de transporte horizontal

Puerta de lectura

Puerta de
salida
Registro de transporte vertical
Elementos fotosensibles
Señales de control

Puerta de lectura

Amplificador

Salida

Figura 2.3: Elemento matricial de un sensor CCD.

Las cámaras lineales son indicadas en situaciones en la que el objeto se mueve (p. ej. sobre
una cinta de un sistema de inspección), obteniéndose finalmente imágenes sobre toda la
superficie del objeto.
Los dispositivos sensibles a la luz de las cámaras de estado sólido, se fabrican con
materiales semiconductores y contienen configuraciones lineales o matriciales de elementos
fotosensibles espaciados con gran precisión (fig. 2.3). Cada una de estas células fotosensibles
se puede direccionar independientemente mediante un circuito lógico de direccionamiento;
de esta forma ya no se utiliza el sistema de lectura por haz de electrones usado por
las cámaras Vidicon, lo cual permite obtener una mayor miniaturización. La densidad de
integración de los sensores matriciales supera actualmente los 200 elementos por milı́metro,
permitiendo obtener 1000 puntos de muestreo en vectores CCD de 5 mm de longitud.
Los componentes CCD están basados en elementos de transferencia de cargas en serie,
principio utilizado también en las memorias serie RAM. Cada lı́nea consta de una serie de
celdas que actúan como un condensador de tipo MOS, acumulando la carga producida por
los fotones incidentes sobre cada celda. Estas cargas pasan mediante unas puertas a los
registros de transporte, desde donde finalmente se llevan a un amplificador que genera un
voltaje proporcional a la carga de la celda direccionada en ese momento. A diferencia,
los componentes CID se basan en una matriz de condensadores MOS direccionables
2.2 Técnicas para captar distancia y reflectancia 49

individualmente de forma similar a las memorias RAM. Cuando se lee una celda, un
amplificador repone la carga del condensador por inyección de corriente, generándose la
propia señal de vı́deo.
Las cámaras de estado sólido ofrecen importantes ventajas sobre las Vidicon: Son más
compactas y ligeras, los elementos fotosensibles no se degradan con el uso, poseen baja
distorsión, son insensibles a los campos magnéticos, tienen baja persistencia (efecto que
consiste en una permanencia de la imagen durante un tiempo pequeño cuando varı́a la
imagen repentinamente), mejor respuesta espectral (0,4 a 1,1 µm) y hay un bajo efecto de
florecimiento (fenómeno ligado a la nitidez que ocurre cuando se ilumina excesivamente
un punto, el cual propaga su efecto fotoconductor a las zonas próximas, desvirtuando la
imagen).

[Link]. Estéreo visión

Mediante estéreo visión se obtienen dos vistas diferentes de una escena, normalmente
utilizando dos cámaras separadas una cierta distancia a través de lo que se conoce como
lı́nea base. Si conocemos la posición de un mismo punto de la escena en las dos imágenes,
es decir conocemos (x1 , y1 ) y (x2 , y2 ), el objetivo consiste en averiguar las coordenadas
tridimensionales (X, Y, Z) de dicho punto en la escena (fig. 2.4). Considerando que las dos
cámaras no convergen entre sı́, que sus focales son idénticas e iguales a f , y que están
separadas una distancia B a lo largo de la lı́nea base, podemos utilizar las ecuaciones 2.1
para obtener la localización espacial del punto.


 Z = f − (f B/(x2 − x1 ))

X = x1 (f − Z)/f (2.1)


Y = y1 (f − Z)/f

Una vez que se conocen las coordenadas (x1 , y1 ) y (x2 , y2 ) correspondientes a los puntos
homólogos, estas ecuaciones son muy sencillas de calcular. Sin embargo, la obtención de
estas parejas de puntos es una tarea muy problemática, existiendo una gran cantidad de
trabajos de investigación orientados a aportar nuevas soluciones. A estas técnicas se las
conoce como métodos de correspondencia.
El método de correspondencia más evidente puede consistir en realizar un emparejamiento
de regiones próximas en ambas imágenes y realizar la comparación mediante técnicas
de correlación. También, si una imagen contiene caracterı́sticas fácilmente distinguibles,
como por ejemplo esquinas, es posible realizar la comparación a un nivel descriptivo de
alto nivel, manipulando menos cantidad de información y por tanto más eficientemente.
En este sentido un trabajo reciente [1] ha explorado esta posibilidad realizando una
correspondencia jerárquica con dos niveles de resolución. En un primer nivel se realiza la
correspondencia de regiones segmentadas obteniendo mapas en profundidad poco precisos,
y en el segundo nivel se realiza la correspondencia de las esquinas de las regiones previas, las
cuales son determinadas con mayor precisión, y por tanto la información tridimensional
obtenida es más precisa. Otros métodos utilizados para realizar la correspondencia se
50 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Plano imagen izquierdo

y
(x1,y1)
x

Centro de la lente de focal f

y
Eje óptico
x
B
(x2,y2)

Plano imagen derecho

(X,Y,Z)

Figura 2.4: Modelo de la estéreo visión.

basan en técnicas de etiquetado por relajación, mediante programación dinámica, por

correspondencia de subgrafos donde los nodos representan las primitivas de la imagen,
o también restringiendo el área de búsqueda de correspondencias utilizando un mapa de
profundidades poco preciso captado por un telémetro láser [197].
El principal problema de la visión esteroscópica es que no se suelen obtener mapas de
distancias muy densos y esta densidad solo depende de las propiedades de la imagen
capturada. Ello es debido a que las regiones de la imagen que son uniformes y no presentan
puntos caracterı́sticos, no tienen elementos que puedan ser analizados para realizar la
correspondencia. Además el procesamiento necesario para realizar estos algoritmos es
costoso y se hace necesario la utilización de tarjetas con procesadores especiales para
acelerar el proceso. La oclusión también es un problema puesto que si en una imagen
una región es visible y en la adyacente no lo es, entonces tampoco es posible realizar la
correspondencia. Como ventajas podemos decir que es un método pasivo, que el coste
de dos cámaras es bajo y que en el caso de imágenes bien estructuradas y con objetos
claramente diferenciados se pueden obtener mapas en profundidad suficientemente precisos
para algunas aplicaciones tales como el guiado de robots móviles (±45 mm a distancias
superiores a 2 metros, con una lı́nea base de 300 mm [1]).

[Link]. Visión dinámica

Una forma muy interesante de obtener información tridimensional de una escena consiste
en utilizar una única cámara para capturar una secuencia de imágenes, las cuales deben
ser analizadas para obtener la información tridimensional. Esta técnica se puede ver como
una generalización de la visión esteroscópica, donde el desplazamiento de la cámara no
está solamente limitado a un desplazamiento lateral, sino que la cámara se puede mover
a distintas posiciones y además podemos obtener más de una pareja de imágenes.
2.2 Técnicas para captar distancia y reflectancia 51

Existen dos enfoques fundamentales para este problema: Métodos basados en movimientos
grandes y métodos con desplazamientos pequeños y sucesivos. En el primer caso se
suelen capturar pocas imágenes separadas por intervalos de tiempo elevados puesto que
hay que realizar movimientos de la cámara grandes. El método de análisis utilizado
consiste en localizar caracterı́sticas comunes en la pareja de imágenes y realizar el
emparejamiento para obtener las correspondencias correctas. Es una estrategia similar
a la visión esteroscópica y se requiere el conocimiento del desplazamiento realizado por la
cámara para obtener la información tridimensional, la cual suele ser poco densa.
En la segunda aproximación, se captura una secuencia de imágenes a una alta frecuencia
mientras la cámara se mueve a una determinada velocidad. En este caso, el análisis
se centra en la obtención del flujo óptico entre las sucesivas imágenes o en el uso de
derivadas espacio-temporales. Estas observaciones deben estar combinadas con la medida
de la velocidad de la cámara (en lugar del desplazamiento) para determinar la estructura
tridimensional de la escena. Sin embargo, no existe un método robusto y preciso para
realizar la correspondencia de caracterı́sticas o para el cálculo de los campos de flujo óptico,
y las aproximaciones existentes requieren unos algoritmos costosos computacionalmente.
La reconstrucción tridimensional no suele ser muy fiable debido a la presencia de mucho
ruido y a los fenómenos de oclusión presentes. Por este motivo es usual ver estrategias
hı́bridas en las que se combina la velocidad de las cámaras con su desplazamiento y la
extracción de caracterı́sticas.
Recientemente están apareciendo soluciones mediante métodos activos, tomando como
referencia trabajos como el de Bajcsy [5]. Estas técnicas tratan de realizar una adquisición
de datos de una forma inteligente o adaptativa. El propósito consiste en obtener las
posiciones o la secuencia de imágenes óptima necesaria para obtener la reconstrucción
tridimensional de un objeto cuyo modelo geométrico conocemos. De esta forma, análisis
que son complejos de realizar mediante una estrategia pasiva, pueden ser calculados más
fácilmente mediante una solución activa, fundamentalmente porque la información captada
es la más adecuada para el propósito que nos estábamos planteando.
Un trabajo reciente en esta dirección es aplicable a la caracterización y a la localización
de objetos tales como cilindros, cı́rculos y esferas en entornos estructurados [31]. En
este trabajo se muestran resultados que mejoran a los precedentes que utilizan visión
dinámica pasiva, obteniendo errores máximos en profundidad entre 2 y 20 mm, mejorando
las precisiones obtenidas respecto a la visión dinámica pasiva que estaba en torno los 4
cm.

[Link]. Enfoque

Esta técnica utiliza el enfoque o grado de contraste en la imagen para determinar la

distancia. Para ello solo es necesario utilizar una cámara y mover la lente de enfoque según
el eje de visión para obtener una secuencia de imágenes. Por cada una de las imágenes
se debe realizar una medida del grado de contraste o enfoque de pequeñas regiones en la
imagen, pudiéndose calcular la distancia a las regiones que presenten un grado de enfoque
52 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Plano imagen

Plano focal
Objeto

Imagen f ⋅v
f u=
v− f

v u

Figura 2.5: Principio de medida de distancias mediante focalización.

adecuado. Mediante el conocimiento de la distancia focal de la lente f y la distancia v

entre el plano imagen y el plano de la lente, es posible calcular la distancia u al plano
objeto (fig. 2.5).
Para obtener una mejor resolución en profundidad, es necesario utilizar lentes con
aperturas grandes para disminuir la profundidad del foco. Sin embargo es inevitable la
pérdida de capacidad de discriminación según aumenta la distancia al objeto. Por tanto
estos métodos son aconsejables para rangos que no superen 1 metro de distancia, si se
quieren obtener precisiones menores a 1 cm.
Otro problema de estas técnicas estriba en que no es posible extraer información
tridimensional si las superficies son homogéneas y no presentan algún tipo de textura. En
efecto, si por ejemplo observamos una pared blanca, la imagen enfocada y las desenfocadas
son iguales, y por tanto, es imposible conocer donde se produce el enfoque. Este hecho
ha estimulado a utilizar patrones de luz con una gran resolución espacial para iluminar la
escena y crear una textura sobre los objetos. De esta manera es posible medir la distancia
incluso a superficies homogéneas. El problema aparece de nuevo cuando se intente utilizar
esta técnica en ambientes exteriores donde el patrón de luz difı́cilmente va a generar una
imagen con suficiente contraste.
En un reciente trabajo [154] se utiliza la técnica de desenfoque, en vez del análisis por
enfoque, utilizando un patrón luminoso para poder ver tanto superficies con textura como
sin ella. La técnica basada en el desenfoque solo requiere la utilización de dos imágenes de
la misma escena. Mediante un modelado adecuado de los elementos que intervienen en la
captación de la imagen, se puede calcular el punto de enfoque, y a partir de aquı́ proceder
de una forma similar a la anterior. En este trabajo se muestran resultados de generación
de imágenes 512 × 480 a 30 Hz y con una resolución de 1 mm, aunque el volumen de
trabajo es muy reducido (30 × 30 × 30 cm).

[Link]. Gradiente de textura

Las técnicas basadas en textura se inspiran en uno de los métodos utilizados por el hombre
para extraer información volumétrica del entorno. Cuando observamos una superficie plana
2.2 Técnicas para captar distancia y reflectancia 53

posicionada frontalmente con un cierto patrón o textura, vemos que no se produce ninguna
deformación en esta. Sin embargo, al observar la superficie con un cierto ángulo, según
aumenta la profundidad el patrón que define la textura se va haciendo mas pequeño. A esta
variación progresiva de la textura se la conoce como gradiente de textura, y es utilizado
para obtener información referente a distancias relativas entre superficies de una escena.
Caracterizando las texturas de la imagen, por ejemplo mediante descriptores obtenidos a
partir de transformaciones de Fourier, es posible obtener información de distancia relativa.
El tamaño de la ventana utilizada para caracterizar las superficies, es bastante crı́tico y
dependerá del tipo de textura presente. Si el patrón de la textura de la imagen es conocido,
cosa poco habitual, es posible también obtener coordenadas absolutas.
Una restricción importante a esta técnica, es que la textura debe ser uniforme a lo
largo de las superficies, o en otro caso, las medidas se falsearı́an. Además, todos los
elementos de la imagen deben presentar texturas para poder ser analizados, de tal forma
que para una superficie uniformemente iluminada ([Link]. una pared blanca), no es posible
obtener información tridimensional. Finalmente los algoritmos utilizados son costosos
computacionalmente y requieren incluso la segmentación previa de la imagen.

[Link]. Gradientes de iluminación

Esta estrategia trata de obtener la orientación de las superficies en una imagen a partir
del análisis de la distribución luminosa a lo largo de la escena. Si consideramos que un
tipo concreto de superficie presenta diferentes luminosidades cuando varı́a la fuente de
iluminación y la orientación de la superficie, podemos representar este hecho mediante
una función <(p, q, lx , ly ) que depende de p,q (pendientes de la superficie en direcciones
x e y) y de lx ,ly (componentes de la dirección de la luz). A esta función se la conoce
como reflectancia de la imagen, y contiene el modelo de como deberı́a variar la intensidad
de la imagen al cambiar la orientación de la superficie y de la fuente de iluminación,
para un tipo de superficie. Si obtenemos este modelo, por ejemplo experimentalmente,
podemos plantear el problema como la resolución de un conjunto de ecuaciones del tipo:
I(x, y) = <(p, q, lx , ly ), para cada uno de los casos posibles de iluminación. De esta manera,
por cada punto en la imagen (x, y), obtenemos la pendiente (p, q) de la superficie en torno
a su vecindario.
Este método suministra distancias relativas, no pudiendo dar información absoluta por los
saltos bruscos que hay entre las superficies suaves y por la falta de una referencia absoluta.
Las superficies que además reciben iluminación indirecta de otros objetos desvirtúan los
resultados afectando a la precisión de los datos. Además el método, tal como se planteó,
se limita solamente a objetos con un determinado tipo de superficie.

[Link]. Luz estructurada

Las técnicas basadas en luz estructurada utilizan un patrón de luz conocido que se proyecta
sobre la escena y mediante una cámara colocada a una cierta distancia y con un cierto
54 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

ángulo de convergencia, se capta la deformación producida en el patrón por los objetos

presentes en la escena. Existen varias estrategias de generación de patrones, siendo las
más usuales la proyección de planos de luz verticales que se van moviendo por un barrido
horizontal o la generación instantánea de múltiples planos de luz paralelos. En cualquiera
de los casos la obtención de distancias absolutas requiere un análisis de la deformación de
las lı́neas de luz, basado en el hecho de que a mayor profundidad en la escena se producirán
mayores desplazamientos en las lı́neas de luz.
El método más simple de analizar se da cuando se genera una sola lı́nea por cada imagen,
sin embargo es una alternativa muy poco adecuada computacionalmente hablando, pues
hay que analizar una imagen completa por cada lı́nea vertical que proyectemos sobre la
escena. Los problemas de oclusión provocan que las imágenes obtenidas por esta técnica
no sean completas y haya regiones donde no se puede medir la distancia. La utilización de
dos cámaras, en vez de una, colocadas a ambos lados del emisor del plano de luz permite
eliminar estas zonas de oclusión y obtener imágenes con 0.25 mm de resolución a 0.5 m
de distancia a una frecuencia puntual de 200 Hz [179].
Una alternativa más eficiente consiste en proyectar varios planos paralelos de luz, aunque
en este caso el análisis se hace mas complicado pues se debe garantizar que las lı́neas de
luz no se mezclen unas con otras, lo cual generarı́a un falseado en las medidas de distancia.
Además, debido a las oclusiones, las lı́neas aparecerı́an interrumpidas siendo difı́cil saber a
cual pertenece cada segmento luminoso. Para solventar este problema, se pueden generar
patrones de luz donde las lı́neas paralelas adyacentes sean distinguibles codificándolas
por color o espacialmente [183, 186]. Además, para facilitar el análisis, la imagen deberı́a
contener un plano de fondo como referencia.
Existen otros tipos de estructuración de la luz [214], que permiten obtener la localización
y orientación de áreas planas de objetos poliédricos. Consiste en iluminar la imagen con
una rejilla rectangular de luz con muy alto contraste. Analizando la imagen en el dominio
de Fourier las deformaciones producidas en los rectángulos se corresponden a diferentes
frecuencias espaciales identificables como picos en el dominio frecuencial. Para identificar
los diferentes planos basta aplicar filtros paso banda centrados en la frecuencia de cada
pico.
La principal ventaja de los métodos basados en luz estructurada es la simplicidad de
los dispositivos (cámara y fuente de luz) y el bajo coste. La información generada son
distancias absolutas y la densidad espacial puede ser ajustable en función del patrón de
luz utilizado. Como desventajas podemos citar la necesidad de analizar la imagen para
obtener la información tridimensional, la posibilidad de que se generen oclusiones como
ocurre en cualquier método de triangulación (fig. 2.11), y la imposibilidad de generar un
patrón de luz cuando las superficies son especulares.
Franjas de Moiré. La técnica conocida como franjas de Moiré consiste en iluminar
una escena a través de una serie de rejillas que generan un patrón de lı́neas paralelas
igualmente espaciadas y ver el patrón sobre la escena a través de una configuración de
rejillas idéntica. La imagen captada mediante una cámara, desplazada lateralmente con
respecto a la fuente de luz, representa los contornos a igual distancia. Para conocer si existe
2.2 Técnicas para captar distancia y reflectancia 55

cambio entre dos lı́neas adyacentes y de que signo es, basta realizar un desplazamiento en
las rejillas o cambiar la frecuencia de espaciamiento entre ellas. Para realizar esto de una
forma flexible, las rejillas de recepción se suelen sustituir por otras virtuales creadas al
explorar la imagen en lı́neas verticales igualmente espaciadas.
Esta técnica puede ser utilizada para medir distancias relativas en superficies continuas,
pero la medida de distancias absolutas se pierde cuando existen discontinuidades en la
imagen mayores de 2 mm o la pendiente de la superficie es superior a 60o . Las oclusiones
en la iluminación que se pueden crear debido a la existencia de discontinuidades también
son un problema. Por el contrario como ventajas están la captura directa de la información
sin necesidad de barrido, la resolución en profundidad obtenible (10 µm en un rango de 5
cm) y el bajo coste.

2.2.2. Técnicas ultrasónicas

Utilizando sensores ultrasónicos es posible medir la distancia a la que se encuentra un

objeto. Cuando una onda ultrasónica se transmite por un medio y se encuentra con un
cambio de impedancia acústica (p. ej. cuando incide sobre un objeto rı́gido), parte de la
energı́a se propaga por el nuevo medio y el resto se refleja creando un eco. La técnica más
utilizada, pulso-eco, consiste en emitir un tren de pulsos y medir el tiempo transcurrido
hasta que se recibe el primer eco correspondiente al objeto más cercano. Los transductores
son de distinto tipo, siendo los más usados los electrostáticos y los piezo-eléctricos. El
mismo transmisor puede ser utilizado tanto para emitir como para recibir la señal de eco.
Conociendo la velocidad de propagación del sonido y el tiempo transcurrido en el viaje de
ida y vuelta del pulso, se deduce la distancia.
A parte de la medida de distancias, los sensores ultrasónicos presentan un amplio campo
de aplicaciones. Entre las aplicaciones más usuales, cabe destacar la medida de parámetros
para vigilancia y control de procesos industriales, pudiéndose realizar medidas de flujo,
temperatura, distancia, niveles, presión, densidad, porosidad, vibración, viscosidad, grosor,
composición, tensión mecánica, presencia de grietas y burbujas en materiales o fugas de gas
[133]. A diferencia de las aplicaciones anteriormente citadas, en las que se obtiene el valor
de un parámetro fı́sico, existen otro tipo de aplicaciones donde se requieren la obtención de
imágenes acústicas. Entre estos problemas se encuentran las exploraciones biomédicas para
caracterizar los tejidos del cuerpo humano (p. ej. la ecografı́a), y otras industriales como
los ensayos no destructivos para el control de calidad, el sonar en aplicaciones marinas, el
registro de entornos para la navegación de robot móviles autónomos, etc.
Basándonos en el principio de medida pulso-eco existen dos tipos de configuraciones para
la captura de imágenes, la basada en un solo transductor que se desplaza para explorar
el espacio (configuración monoelemento) y la basada en una matriz de transductores que
permanecen fijos e utilizan estrategias de control del tiempo de emisión entre pulsos, para
focalizar sobre diferentes zonas del volumen de exploración (configuración multielemento).
En los dispositivos monoelemento, el transductor ultrasónico suele tener acoplado un
elemento con perfil esférico o cónico que actúa como una lente acústica, obteniéndose
56 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Transductor Zona de
ultrasónico focalización acústica
a) Resolución lateral

Profundidad de foco
Lente focalizadora

Desplazamiento lineal Barrido del transductor

b) Eco recibido Imagen

t
V

c) t

Desplazamiento
angular

Figura 2.6: Captación de imágenes mediante un sistema ultrasónico monoelemento : a)

detalle de la focalización ultrasónica mediante una lente esférica, b) barrido lineal, c)
barrido angular.

una mejor resolución lateral (fig. 2.6). Si el sensor es desplazado linealmente o girado
angularmente se obtienen imágenes en formato rectangular o unas secciones circulares,
respectivamente. Una caracterı́stica común de los sistemas monoelemento es que, debido
al tiempo invertido en mover el transductor, la captura de la imagen es lenta. Además, son
poco flexibles, haciendo prácticamente necesario un diseño especı́fico para cada aplicación.
Por otro lado, operando con lentes de foco fijo, solamente se obtiene buena resolución
lateral en un rango de distancias pequeño.
La utilización de sistemas multielemento, permite superar las limitaciones presentes en los
sistemas monoelemento. Una matriz consta de varios transductores ultrasónicos dispuestos
geométricamente, de forma que puedan cubrir el volumen de interés. Se pueden simular
lentes acústicas de distintos perfiles sin más que intercalar lı́neas de retardo en sus
elementos. Para simular una lente, basta controlar el instante de emisión de los elementos,
con lo cual se logra que los pulsos emitidos por cada elemento de la matriz, lleguen
simultáneamente al foco. En recepción, existen lı́neas de retardo programables capaces
de controlar la focalización en tiempo real. Una de las caracterı́sticas más notables de los
sistemas basados en matrices es su flexibilidad, ya que al variar los retardos se pueden
obtener condiciones óptimas de resolución según la aplicación. Otra ventaja de estos
sistemas es que, hace innecesario el movimiento mecánico para realizar el barrido, con
lo cual se incrementa la frecuencia de captura de imágenes. A pesar de estas ventajas, los
sistemas de imagen existentes hoy en dı́a suelen usar un único elemento como transductor,
por su simplicidad y la no necesidad de altas velocidades. Sin embargo, en el campo de la
medicina se utilizan cada vez con más frecuencia los sistemas multielemento, pudiéndose
obtener tomografı́as de órganos como el corazón en tres dimensiones.
2.2 Técnicas para captar distancia y reflectancia 57

Luz
λ <<

Onda reflejada
Objeto
Objeto
perturbador

Ultrasonido
λ >>

Medida falsa

Transductor ultrasónico
Superficie mate en detalle
a) b)

Figura 2.7: a) Reflexión ultrasónica sin retorno directo de señal al sensor y medida falsa
por reflexiones múltiples. b) Modelo de la pelota elástica de tamaño igual a su longitud
de onda para comprender los fenómenos de reflexión especular en los ultrasonidos y de
reflexión difusa en la luz.

En general, las imágenes ultrasónicas se ven degradadas fundamentalmente por un ruido

conocido como moteado (speckle), que es comparable al encontrado usando iluminación
láser. El moteado proviene de las señales ultrasónicas generadas por elementos adyacentes
dispersores de las ondas, provocando interferencias destructivas y constructivas de una
forma aleatoria en función de la fase relativa con que incidan. Una solución es la
combinación de imágenes con diferentes patrones de moteado para reducir el ruido. En
los casos en los que se obtienen imágenes internas de objetos, la falta de homogeneidad
del material distorsiona la imagen resultante. Este efecto se debe a que los ultrasonidos se
propagan a diferentes velocidades en función del tipo de medio que atraviesan.
Otros problemas se presentan cuando las superficies sobre las que incide el haz son
especulares y se encuentran inclinadas, en este caso, la reflexión forma un ángulo con
el eje de emisión y puede ocurrir en función de la anchura del lóbulo, que muy poca
energı́a sea reflejada hacia el detector. Además, por el mismo motivo, la presencia de otros
objetos en la proximidad pueden reflejar de nuevo las ondas hacia el detector y provocar
medidas falsas. Este efecto de reflexión casi especular en los ultrasonidos, es parecido al
comportamiento de una pelota al impactar sobre una pared, y se debe a la alta longitud
de onda (0, 68 < λ < 8, 5 mm, para frecuencias entre 500 kHz y 40 kHz) de las señales
ultrasónicas comparándose con la rugosidad de la superficie de los objetos. En el caso de
la luz, este fenómeno no es tan crı́tico pues su longitud de onda (0, 4 < λ < 0, 7 µm)
es pequeña respecto a la rugosidad de las superficies y se suele producir reflexión difusa,
exceptuando el caso de superficies muy pulidas (fig. 2.7).
Otro aspecto poco favorable de los ultrasonidos consiste en la atenuación que se produce
en la amplitud de la señal cuando se transmite por el aire. A medida que aumentamos la
frecuencia de vibración, la atenuación aumenta limitando considerablemente el rango de
58 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

utilización. Resultados experimentales muestran que las máximas distancias de medida en

aire están en torno a 10, 3 y 2 metros para frecuencias de 20, 50 y 100 kHz, respectivamente
[25].

2.2.3. Palpación táctil

La mayorı́a de los seres vivos hacen uso de la información táctil. La idea predefinida
que tenemos de un sensor táctil, es la de una piel artificial que intenta emular el
comportamiento del sentido del tacto de los seres vivos, es decir, el sentido que nos permite
caracterizar un objeto mediante un contacto directo de la piel con el objeto. Sin embargo,
existen otras modalidades de sensores muy relacionados con la sensación táctil. Estos
sensores son los propioceptivos o cinestésicos, mediante los cuales se conoce la posición y
orientación de las articulaciones de por ejemplo un brazo manipulador y el par al que se ven
sometidas dichas articulaciones. Los sensores propioceptivos utilizados para captar estas
posiciones son de diversos tipos: potenciómetros, codificadores ópticos, transformadores
diferenciales variables (LVDT) y sincros. En cuanto a la medida de la fuerza y el par,
se puede utilizar la propia corriente que consumen los motores, células de carga, galgas
extensométricas, cristales piezoeléctricos y otros [177, 85].
Las pieles táctiles o sensores exteroceptivos, están formados fundamentalmente de un
conjunto de elementos sensoriales básicos dispuestos de tal forma que crean una matriz
sensitiva. Mediante estas pieles es posible captar propiedades de los objetos como la
temperatura, la forma y textura de su superficie, ası́ como la posición, orientación y
el tamaño de estos. Los requisitos deseables para un sensor táctil, exigen resoluciones
espaciales de 1 a 2 mm, tamaño de la matriz de entre 10 × 10 a 20 × 20 elementos, umbral
de sensibilidad de 0.005 a 0.1 Newtons, ausencia de histéresis, frecuencia de muestreo por
celda de 100 Hz a 1kHz y robustez. Se han utilizado muchas tecnologı́as para realizar estas
matrices táctiles. A continuación indicamos las más representativas [177, 43]:

Neumáticos. El principio de funcionamiento se basa en la deformación de una lámina

metálica moldeada al estilo de los conocidos teclados de membrana (fig. 2.8a). Bajo
esta lámina metálica existe una cavidad presurizada con un fluido y un electrodo.
Cuando se toca un objeto la lámina se deforma y entra en contacto con el electrodo,
dando cuenta de su presencia. Este tipo de técnica presenta una serie de dificultades
ya que no es posible obtener una buena resolución espacial, hay una fuerte histéresis
y la información de salida de cada elemento es pobre, ya que es solo binaria (hay
contacto o no).

Piezoresistivos. Los materiales piezoresistivos cambian la resistencia eléctrica cuando

varı́a la presión. Los materiales más utilizados son los elastómeros conductivos, que se
fabrican con goma y materiales conductores o semiconductores ([Link]. plata, carbono)
[80, 174]. Si se configuran los elementos sensibles del sensor de forma que se produzca
un cambio en la superficie de contacto al variar la presión externa (fig. 2.8b), la
resistencia de contacto también variará, incluso en mayor escala que debido al efecto
2.2 Técnicas para captar distancia y reflectancia 59

Sin aplicar fuerza

Lámina Objeto
metálica
Goma
Rejilla
Fuerza umbral separadora

Terminal
eléctrico
Fluido
presurizado Electrodo Contacto Mayor fuerza
Punto
a) b) de
contacto

c) d) Pin telescópico
Objeto Sensor posición
Piel
Barrera
elástica
móvil

Fotodetector Fotoemisor Objeto

Figura 2.8: Técnicas para la captación de imágenes mediante sensores táctiles: a)

Neumática, b) Piezoresistividad, c) Optomecánica, d) Pines retráctiles.

piezoresistivo. También se suelen utilizar cordones de elastómero con sección en forma

de D y circuitos impresos con pistas cruzadas e individualmente direccionables. Las
principales desventajas encontradas son la memoria, histéresis y la dependencia con
la temperatura.

Piezoeléctricos. Los cristales de cuarzo producen una carga eléctrica cuando se aplica
presión sobre el cristal. Este fenómeno, conocido como piezoelectricidad, se da en
los cristales que no tienen centro de simetrı́a y presentan un dipolo variable con
la presión. Existen otros materiales diferentes al cuarzo, polı́meros de polivinilo-
fluor (PVF), que presentan un efecto piezoeléctrico mayor y que han sido utilizados
recientemente para la fabricación de sensores táctiles. Las láminas de PVF son
flexibles adaptándose bien a formas sencillas, sin embargo, son sensibles al calor,
presentando cierta piroelectricidad que puede interferir la medida de presión [44, 49].

Ópticos. Se caracterizan por utilizar una fuente de luz. Algunos sensores utilizan el
principio de reflexión total, que se produce cuando la luz se propaga por un medio
más denso que el medio externo que le rodea, y a la vez se cumple, que el ángulo
de incidencia es menor que un cierto ángulo crı́tico. Si un objeto aparece en el
medio externo, cesará en esa zona la reflexión total y aparecerá una luz emergente
procedente de ese punto [194]. Para capturar esta luz emergente, se puede utilizar
una cámara o una matriz de fotodiodos, pero los sensores basados en esta técnica son
difı́ciles de construir. Existen otras versiones optomecánicas que utilizan, por cada
elemento de la matriz, un fotodetector y un fotoemisor alineados, cuya transferencia
de luz se puede ver interrumpida, por una barrera móvil acoplada a la piel elástica
(fig. 2.8c) [173]. Debido a que el elemento flexible suele ser goma, presenta problemas
de deriva, memoria, histéresis y dependencia con la temperatura. Otros sensores
emplean fibra óptica, y se basan en los diferentes comportamientos en la transmisión
60 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

de la luz cuando se manipula la fibra óptica. La luz se propaga a través de la fibra

óptica con muy pocas pérdidas, pero cuando la superficie es rugosa la luz puede
entrar y salir en esa zona. Si dos fibras ópticas pasan cerca una de otra y ambas
tienen la superficie rugosa en el punto de cruce, entonces, la luz pasa entre ambas
fibras produciéndose un acoplamiento que depende de la separación. También es
utilizado el principio según el cual se producen pérdidas en la transmisión de luz
cuando una fibra óptica se dobla en algún punto. Otra de las muchas variantes que
existen, utilizan dos fibras ópticas (una de entrada de luz y otra de salida) por
cada elemento sensible, y una superficie elástica reflectiva. La medida se basa en la
detección del grosor de esta piel óptica.

Magnéticos. Algunos sensores táctiles están basados en el efecto Hall y en la

magnetorresistencia [123]. Cuando por un material conductor circula una corriente,
y en la dirección perpendicular a esta corriente existe un campo magnético, se genera
una fuerza sobre las cargas eléctricas que al desplazarse provocan la aparición de un
potencial que es conocido como efecto Hall y que es proporcional a la corriente y al
campo magnético aplicado. Las cargas eléctricas que viajan a mayor velocidad son
desviadas de su ruta, aumentando el camino recorrido, y por tanto, provocando un
aumento en la resistencia eléctrica del material. Este efecto es conocido como efecto
magnetoresistivo que provoca una variación de la resistencia de un material cuando
cambia la intensidad de un campo magnético externo. Este efecto magnetoresistivo
tiene aplicaciones directas en la fabricación de sensores táctiles, bien empleando
dipolos magnéticos incorporados en pieles elásticas, o bien, generando campos
magnéticos mediante hilos conductores.

Ultrasónicos. El principio de medida de distancias pulso-eco por ultrasonidos, se

puede aplicar en la medida del grosor de superficies. Si utilizamos una piel elástica
que cambia su grosor al entrar en contacto con un objeto, podemos medir el tiempo
requerido por el pulso ultrasónico en viajar por la piel, reflejarse y volver de nuevo.
Estas variaciones en la distancia nos dan idea del contacto que se está produciendo,
pudiéndose medir deformaciones del orden de décimas de milı́metro [68].

Capacitivos. Acoplando una serie de electrodos en direcciones transversales y

separándolos mediante un medio dieléctrico, se pueden medir pequeños cambios de
distancia entre los electrodos, teniendo en cuenta la variación en la capacidad que
se produce al separar los electrodos de un condensador [103].

Los sensores que acabamos de revisar se caracterizan por manifestar un acoplamiento

pobre entre la superficie de la piel y el objeto con el que entran en contacto, por tanto si
existen curvaturas en el objeto, el área de contacto de la piel con dicho objeto es pequeña,
siendo adecuadas estas pieles táctiles para objetos con superficies relativamente planas.
Como consecuencia, se ha investigado también la realización de sensores táctiles capaces
de adaptarse a la forma tridimensional del objeto, los cuales son ventajosos a la hora de
realizar reconocimiento de objetos. A continuación se indican brevemente los principios de
algunos de estos sensores:
2.2 Técnicas para captar distancia y reflectancia 61

Galgas extensométricas. Se utiliza una ampolla de piel elástica, que tiene su

cámara interna rellena de espuma para dotarla de una gran flexibilidad. Las galgas
extensométricas de goma se acoplan a la cara interna de la piel elástica, cuya
deformación es registrada como una tensión o compresión en las galgas [21].

Agujas retráctiles. Una matriz de agujas retráctiles se utiliza como interfase entre
el objeto y un sensor de posición, que mide el desplazamiento de estos tentáculos al
entrar en contacto con el objeto (fig. 2.8d).

2.2.4. Técnicas basadas en telemetrı́a láser

El láser es un componente frecuentemente utilizado en sistemas metrológicos, debido a que

es una fuente de energı́a sencilla de generar y de adaptar a diferentes técnicas de medida.
Por la importancia de este componente, antes de comenzar relatando las diferentes técnicas
de medida con láser, vamos a presentar brevemente la historia, fundamentos y aplicaciones
de esta forma de energı́a.
El primer láser se construyó en 1960 por el fı́sico norteamericano Theodore H. Maiman. Sin
embargo, para llegar a este momento histórico, se necesitó la investigación y desarrollo de
teorı́as y experiencias previas por parte de otros muchos investigadores. Todos los estudios
parten de la teorı́a cuántica de Planck y de la teorı́a de emisión estimulada de Einstein que
postula que un átomo o una molécula pueden ser estimulados con el fin de que liberen la
energı́a que contienen, bajo la forma de radiación electromagnética. En 1950 el fı́sico Alfred
Kastler descubrió el bombeo óptico que constituye la base común de los sistemas láser. Sin
embargo fueron los cientı́ficos norteamericanos Weber y Townes (1953), los que llevaron
las teorı́as de Kastler a la práctica realizando el primer máser (sistema similar al láser
pero que genera energı́a electromagnética en la frecuencia de las microondas). De forma
paralela los investigadores moscovitas Basov y Prokhorov desarrollaron investigaciones en
el mismo campo, obteniendo casi al mismo tiempo los primeros máseres de amoniaco.
La palabra láser proviene del acrónimo inglés LASER que deriva de “Light Amplification
by Stimulated Emission of Radiation”, e intenta explicar su funcionamiento. Estos
términos indican que el láser es una luz amplificada que se ha generado mediante la
emisión estimulada de radiación electromagnética. Dada una sustancia, si la excitamos
con energı́a (flashes, radiofrecuencia, etc.), estamos generando un aumento en la energı́a
de los electrones de los átomos o en los estados de vibración y rotación de las moléculas
que la componen. Si la transición energética es adecuada como para alcanzar unos niveles
de energı́a suficientemente altos, se dice que se ha producido un bombeo óptico. Desde
este nivel energético de bombeo (nivel 3) se producen transiciones naturales a un nivel
energético más estable (nivel 2) en el que se produce una acumulación de electrones o
moléculas con esa energı́a. Se dice que se ha producido una inversión de la población.
En el nivel 2 es poco probable que se produzcan transiciones de forma espontánea a
un nivel de mı́nima energı́a o nivel 1. Sin embargo cuando se produce alguna, el fotón
generado provoca emisiones estimuladas del nivel 2 al 1, las cuales a su vez generan
más emisiones estimuladas, generándose una cascada de transiciones estimuladas entre
62 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

los niveles 2 y 1. Este salto energético genera energı́a electromagnética de una frecuencia
dada por la relación ν = (E2 − E1 )/h, siendo h la constante de Planck. Por este motivo
la luz láser es monocromática, obteniéndose diferentes tipos de frecuencia en función de
los saltos energéticos caracterı́sticos de la materia utilizada o medio activo para crear
el láser. Ası́ mismo, debido a que la emisión es estimulada y no aleatoria, y a que se
encierra el medio activo entre dos espejos paralelos, separados a una distancia múltiplo
de la longitud de onda deseada, la luz es coherente, esto es, está en fase, presentando una
alta direccionalidad y una muy baja dispersión por lo que la intensidad radiante (w/srad)
del haz es muy elevada.
En función del medio activo utilizado se encuentran diferentes tipos de láser, agrupándose
en tres categorı́as: sólidos, lı́quidos y gaseosos. Entre los láseres sólidos se encuentran los
de neodimio, rubı́ (primero que se creó en 1960), cristal y diodos semiconductores. Los
gaseosos más representativos son los de CO2 , Helio-Neón y Argón. Otros láseres menos
populares son los lı́quidos como los colorantes y alcohólicos. De los láseres anteriores, los
láseres de diodo están teniendo una gran difusión en aplicaciones donde no se requieren
potencias elevadas (1mW a 5mW), debido a su bajo coste, su pequeño tamaño y a la
calidad del haz que cada vez es mayor.
Asi pues, la radiación láser, que ha revolucionado muchos aspectos de la ciencia y de
la tecnologı́a, es una energı́a electromagnética que se encuentra en las bandas visible,
infrarroja o ultravioleta (fig. 2.9), y que se distingue del resto de fuentes de energı́a en estas
mismas bandas, en que la luz láser es monocromática, altamente directiva y coherente, es
decir, la luz no interfiere consigo misma mientras no encuentre un medio que provoque una
dispersión [138]. La gran direccionalidad del haz láser (divergencia < 1 mrad), posibilita
la generación de un haz altamente colimado manteniéndose una alta densidad de energı́a
incluso a grandes distancias. Las propiedades luminosas del láser permiten utilizar lentes,
espejos y fibras ópticas para distribuir esta energı́a, pudiéndose focalizar su luz en un
punto generando incluso una fusión nuclear. La coherencia del láser lo hacen ideal para
ser utilizado en casos en los que las interferencias jueguen un papel importante. Estas
caracterı́sticas únicas permiten aplicar el láser a innumerables campos:

Industria: Corte, soldadura, endurecimiento y marcado de materiales muy diversos;

control de calidad e inspección, guiado de vehı́culos, seguimiento de blancos,
calibración, creación de prototipos a partir de modelos CAD y en la generación
de modelos CAD digitalizando moldes.

Ofimática: Impresoras, fotocopiadoras, “scanners”, punteros láser, etc.

Militares: Guiado de misiles, técnicas antimisiles, armas con visores láser, visión
nocturna, láser radar, etc.

Metrologı́a: Telemetrı́a, alineación, vibraciones, sismógrafos, topografı́a,

cronómetros, medidores de velocidad de blancos, etc.

Medicina: Cirugı́a, oftalmologı́a, fotocoagulación, operación de cataratas, técnicas

de exploración como la endoscopia, tratamiento de tumores, laserterapia, etc.
2.2 Técnicas para captar distancia y reflectancia 63

Rayos Ultravioleta Visible Infrarrojo Infrarrojo Infrarrojo

X cercano medio lejano
0.0001 0.001 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 10 30 100 µm

CO Metanol
Nd:YAG
5-7 µm 37-1217 µm
1.064 µm CO2
F2
GaAs/GaAlAs 10.6 µm
H2 N2 850 nm
152 nm 110-162 nm 337 nm (780-905 nm)

400 nm 500 nm 600 nm 700 nm

Ar-Ion HeNe Kr-Ion GaInP

514 nm 543 nm HeNe 670 nm
Cu Vapor Cu Vapor 612 nm 647 nm
kr-Ion HeCd Ar-Ion HeNe
416 nm 441.6 nm Xe 510.6 nm 578.2 nm Rubí
ZnCdSe Xe HeNe Rubí 632.8 nm InGaAlP 694 nm
488 nm 490 nm 540 nm 594 nm 628 nm 635-660 nm

Figura 2.9: Lı́neas espectrales de emisión de diferentes tipos de láser.

Investigación óptica: Holografı́a, interferometrı́a, computadores ópticos, etc.

Comunicaciones: Fibra óptica, redes, CD-ROM, CD-Disc, Video-Disc, Photo-Disc y

el próximo soporte digital DVD.

Ocio y espectáculos: Realidad virtual, proyecciones, video juegos, etc.

Una vez vistos los fundamentos del láser, estamos en condiciones de pasar a describir las
técnicas utilizadas para medir distancias. A continuación veremos las cuatro técnicas más
utilizadas: Triangulación, diferencia de fases, tiempo de vuelo y modulación en frecuencia.

[Link]. Telemetrı́a láser mediante triangulación

La técnica consiste en utilizar una fuente de energı́a láser y un detector de radiación

puntual o lineal. Si se conoce el ángulo del eje de emisión del haz láser y la distancia a
la que se encuentra el emisor del detector (lı́nea base), mediante triangulación se puede
deducir la distancia a la que se encuentra un determinado objeto dispersor de la luz.
Esta técnica se podrı́a ver como una versión unidimensional de las técnicas de medida de
distancias mediante luz estructurada vistas anteriormente.
Como hemos dicho el elemento sensor puede ser lineal o puntual (figs. 2.10a y 2.10b).
Dependiendo cual de ellos se utilice se encuentran dos métodos diferentes de triangulación.
Cuando se utiliza un sensor lineal, el emisor láser se coloca de forma fija con un ángulo
θ respecto a la lı́nea base y el sensor receptor se coloca a una distancia fija b. Como
detector lineal suele usarse un sensor analógico de tipo PSD (Position Sensing Device),
que genera dos corrientes eléctricas en sus extremos cuyos valores son función del punto
de focalización del haz de radiación láser recibido. Midiendo dicho lugar de focalización
del haz, x, obtenemos el último parámetro necesario para deducir la distancia d:
64 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

distancia
máxima y
mínima
d
de medida

θ
Línea
θ base Láser f
Láser Lente f
b b
Detector puntual
Detector lineal
x

a) b)

Figura 2.10: Principio de medida de distancias por triangulación: a) utilizando un sensor

lineal, b) utilizando un sensor puntual.

fb
d= (2.2)
x + f / tan θ
donde f es la focal de la lente (fig. 2.10a).
Utilizando un sensor puntual, es necesario efectuar un barrido angular continuo del haz
láser a lo largo del plano definido por la lı́nea base y el eje de emisión, variando el ángulo
θ. Además de una forma sincronizada, el detector puntual se debe desplazar linealmente
(o angularmente en otras modalidades), hasta que se produce una detección. En este
momento, el detector se encuentra enfrentado al punto de impacto (fig. 2.10b) y la distancia
se puede calcular de esta forma tan sencilla:

d = b tan θ (2.3)

Cualquiera de las técnicas de triangulación vistas, permiten obtener la distancia absoluta a

un blanco, y mediante barridos se pueden obtener imágenes de distancia. Estas imágenes de
distancia se obtienen de una forma directa sin necesitar realizar un análisis en la imagen,
siendo esta una gran ventaja. Sin embargo, una de las desventajas que presentan es la
aparición de sombras y oclusiones debido a que el eje de emisión y el de recepción no
son coaxiales (fig. 2.11). Este fenómeno se incrementa cuanto más separados se encuentre
el emisor del receptor, aunque es en este caso cuando mejor resolución en profundidad
se obtiene. Utilizando separaciones en la lı́nea base pequeñas para reducir el efecto de
oclusión y sombras, el rango máximo de medida, con una aceptable resolución entorno
a 1 mm, queda limitado entre 0,5 m y 2 m [132]. Además, la precisión en la medida de
profundidad no se mantiene constante en todo el rango, siendo más precisas las medidas
en las proximidades al sensor y menos precisas cuando medimos a mayores distancias,
debido a que los incrementos en x se hacen menos apreciables al aumentar la distancia.
Por estos motivos, las técnicas de triangulación se aplican fundamentalmente para medidas
2.2 Técnicas para captar distancia y reflectancia 65

Emisor
Emisor
Detector
Detector

Objetos

Oclusión Sombra

a) b)

Figura 2.11: Regiones donde no es posible medir la distancia utilizando el principio de

triangulación: a) zona sin retorno de la señal (oclusión), b) zona no iluminada (sombra).

de superficies continuas a distancias cortas (100 mm a 400 mm) y con altas resoluciones
(0,5-10 micras).

[Link]. Telemetrı́a láser por diferencia de fases

Esta técnica consiste en medir la diferencia de fase entre el haz emitido y el recibido
correspondiente a una fuente de luz láser continua modulada en amplitud. En la figura
2.12 se muestra un diagrama de bloques del sistema de medida láser desarrollado en el
“Stanford Research Institute” por Nitzan y Duda [155]. Se utiliza un láser modulado a
9 MHz, que pasa a través de un divisor de haz o superficie semiespejada que desvı́a el
haz por dos caminos diferentes. El haz que es transmitido a través del divisor de haz,
mediante otro espejo es transmitido al medio exterior donde incide sobre la superficie del
objeto a medir. Suponiendo una dispersión Lambertiana de la luz, la energı́a contenida
en el ángulo sólido definido entre el punto de dispersión y el área de recepción del sensor,
es capturada por el dispositivo de medida para posibilitar el cálculo de la distancia.
Mediante un filtro interferencial, una lente y un pequeño orificio, se capta mediante un
fotomultiplicador la energı́a que proviene según el eje de emisión. Este hecho implica
que los ejes de emisión y recepción del haz láser van a ser idénticos. La señal eléctrica
generada en el fotomultiplicador es filtrada mediante un filtro paso-banda centrado a la
frecuencia de modulación de 9 MHz, con el objeto de eliminar la energı́a provenientes
de otras fuentes diferentes a la del telémetro láser. Posteriormente la señal filtrada es
comparada con la señal de referencia mediante un analizador de amplitud y fase. La fase
detectada es utilizada para calcular de una forma directa la distancia. La amplitud de
la señal informa de la atenuación producida en el haz debida a diversos factores como la
dispersión de la luz producida al incidir el haz sobre una superficie o la fracción de energı́a
que el sensor es capaz de captar a través de la óptica de recepción.
66 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Objeto

Dispersión de Lambert

Oscilador
a 9 MHz l
cia
ren dor
rfe lica
inte ultip
Analizador tro
Fil Foto
m

Láser Cristal
modulador Filtro
Espejo 9 MHz
Len Orif
te icio
Fotocélula Motor de
Señal de referencia barrido Control de barrido

Amplitud
Analizador de
Computador
Fase y Amplitud
Fase

Figura 2.12: Diagrama de bloques de un telémetro por diferencia de fase.

A diferencia de la técnica de triangulación vista antes, el resto de métodos telemétricos por

láser utilizan el mismo eje para transmitir la energı́a incidente y la reflejada. Esto implica
que no se van a producir los problemas de oclusión y sombra explicados anteriormente, lo
cual es una gran ventaja. En cuanto a la precisión en la medida, obviamente, depende del
rango para el cual esté diseñado el sensor, sin embargo, no ocurre como en el método de
triangulación donde la precisión varı́a dentro del rango de medida.
Una caracterı́stica común a todos los sistemas telemétricos, es el gran rango dinámico que
se puede encontrar en la señal retornada, que puede llegar a ser de 100 dB. La amplitud
de la señal disminuye con el cuadrado de la distancia, depende de la absorción de energı́a
en la superficie del objeto, y además disminuye al aumentar el ángulo entre el eje de
emisión y la normal a la superficie. Para evitar los problemas derivados de una señal de
baja intensidad se puede aumentar la energı́a del láser, lo cual puede resultar peligroso
en el caso de presencia humana, o se puede realizar un promediado sobre las medidas
individuales, lo que implicará una mayor lentitud en la generación de la información.
Para tener un dato cuantitativo, vamos a ver la capacidad de discriminación temporal
necesaria para medir en un rango de 2 metros con una resolución de 1 mm, utilizando
un láser modulado en amplitud a 10 MHz. Como el periodo de la señal es de 0, 1µs
y queremos dividir el rango de 2 metros en 2000 niveles, deducimos que tenemos que
discernir diferencias de fase de π/1000, correspondientes a 50 ps, lo cual unido a la debilidad
de la señal retornada, da idea de la complejidad del problema, haciendo imprescindible
un procesamiento de integración o promediado de los datos. Esto conduce a tiempos de
muestreo relativamente altos (de 0.05 ms a 10 ms), de forma que cuando se quiere obtener
una imagen de 200 × 200 puntos, se requieren tiempos de captura totales entre 2 segundos
y 5 minutos, dependiendo del diseño y de la tecnologı́a utilizada [110].
La medición por diferencia de fases puede provocar la obtención de medidas ambiguas.
Este hecho se da cuando las señales se desfasan en más de un periodo, no habiendo manera
2.2 Técnicas para captar distancia y reflectancia 67

Objeto

Dispersión de Lambert

al
nci
rf ere o r
inte cad
tro ultipli
Fil F otom
Fuente de Discriminador
Láser
excitación de comienzo
Espejo de pulso
Señal Len Orif
te ic io
de comienzo
de pulso de Motor de
referencia barrido Control de barrido

Parada Conversor Electrónica

tiempo / de A/D Computador
Comienzo Amplitud de pulso promediado

Figura 2.13: Diagrama de bloques de un telémetro por tiempo de vuelo.

de conocer en cual de los posibles rangos virtuales estamos trabajando, a no ser que se
varı́e la frecuencia de modulación. Por este motivo, la utilización de estos sensores es
recomendable hacerla en entornos donde la máxima distancia esté dentro del rango en el
cual no se produzca un desfase mayor de 360o .

[Link]. Telemetrı́a láser por tiempo de vuelo

En este caso el haz emitido es pulsado y lo que se mide es el tiempo que invierte el
pulso de energı́a en retornar al sensor por una reflexión desde el objeto a medir. En la
figura 2.13, se presenta un esquema de un sistema de medida que utiliza este principio
[102]. El pulso emitido por el láser incide en la superficie del objeto y a través del mismo
eje de emisión retorna al dispositivo de medida, donde la señal luminosa se convierte en
eléctrica mediante un fotodetector. Un elemento discriminador genera un pulso digital en
el momento que se detecta el eco, siendo esta detección independiente de la magnitud de
este eco. Posteriormente un conversor tiempo/amplitud de pulso, compara los instantes de
emisión y recepción generando un tren de pulsos digitales cuya frecuencia es fija pero cuya
amplitud varı́a con el intervalo temporal detectado. Finalmente se realiza un promediado
de la altura de estos pulsos digitales para obtener una medida más precisa y estable.
Las caracterı́sticas de este método son bastante semejantes a las de la técnica de diferencia
de fase, aunque en el caso de medida por tiempo de vuelo, debido a que la velocidad de
transmisión de la luz es muy alta, los tiempos implicados son muy pequeños. Esto complica
la medida de rangos pequeños; por ello las aplicaciones más abundantes se centran en
mediciones de distancias superiores a varias decenas o cientos de metros. Ası́, si queremos
hacer una medida con una capacidad de discriminación de 1 mm, teniendo en cuenta la
velocidad de la luz, debemos ser capaces de discriminar 3 ps. Este hecho limita en gran
medida las resoluciones en distancia alcanzables mediante esta técnica de telemetrı́a que
tı́picamente están en torno a 20-30 mm, pudiéndose alcanzar los 5 mm con tiempos de
68 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

integración próximos a 1 segundo [101].

[Link]. Telemetrı́a láser por frecuencia modulada

Esta técnica utiliza una onda electromagnética modulada en frecuencia mediante una
señal triangular periódica. Por tanto, la onda es una señal cuya frecuencia varia de forma
lineal con el paso del tiempo. Al comparar la señal de referencia con la señal recibida tras
incidir sobre la superficie a medir, debido a que existe una diferencia de frecuencia entre
ellas, se genera una señal modulada en amplitud a una frecuencia caracterı́stica que al ser
identificada permite calcular la distancia al objeto. La distancia calculada es directamente
proporcional a la frecuencia de modulación detectada y es tan precisa como la linealidad
en la generación del barrido de frecuencias [50, 67].
La mayorı́a de los dispositivos que utilizan esta técnica no usan energı́a láser, sino
microondas u ondas milimétricas. Por ello, se necesitan pequeñas antenas parabólicas
para su emisión y recepción, los haces son menos direccionales, aunque la capacidad de
penetrar en la atmósfera y de lograr largos alcances es superior que en el caso de utilizar
energı́a infrarroja o visible láser. Las aplicaciones tı́picas de estos sensores están en la
medida a largas distancias (>100 m) con precisiones poco exigentes (1 m). Sin embargo,
los diodos láser se pueden sintonizar en frecuencia variando su temperatura, lo cual unido
al incremento en la linealidad de su control, permite emplean láseres utilizando esta técnica
con resultados cada vez más prometedores.

2.3. Análisis, selección y configuración del sistema de

medida

2.3.1. Principio de medida: Telemetrı́a láser por diferencia de fases.

Una vez revisadas las principales técnicas para la generación de información de distancia,
que en algunos casos también viene acompañada de información de reflectancia, vamos
a realizar un análisis global de todas ellas haciendo una estimación del método más
adecuado a los objetivos que se plantearon en la sección 2.1.3. En este sentido hemos
creado una tabla comparativa (tabla 2.1) donde se presentan todos los métodos vistos
anteriormente, analizando las principales condiciones que deben satisfacer. Cada una de
las columnas de la tabla representa una condición, cuyo cumplimiento indica un aspecto
positivo para nuestros objetivos. De esta forma, si representamos por un ⊕ la satisfacción
de una condición, un método ideal será aquel que cumpla todas las condiciones y se
representará mediante una fila completa de signos positivos. Las condiciones no satisfechas,
o aspectos negativos, vendrán indicadas por un signo negativo ª, y las condiciones que
sean muy variables y difı́cilmente evaluables, se representan con un ¯.
La tabla 2.1 nos permite clasificar las diferentes técnicas sensoriales en función del grado
de adecuación a nuestros objetivos particulares. Los resultados de evaluación obtenidos
2.3 Análisis, selección y configuración del sistema de medida 69

Captura imagen (167 × 167)< 5 seg

Precisión profundidad1 ≤ ±10 mm

Resolución profundidad1 ≤ 1 mm

Generación distancia sin análisis

Resolución espacial ≤ 2 − 3 mm
de distancia y reflectancia

Rango de medida1 1-4 m

Ejes captación coaxiales

Reflectancia disponible
Técnicas de captación

Inocuo al ojo humano

Distancia absoluta

Robustez2

Coste
Estéreo ⊕ ⊕ ⊕ ª ª ª ª ª ª ª ⊕ ⊕
Visión dinámica ⊕ ⊕ ⊕/ª ª/⊕ ª ª ª ª ª ª ⊕ ⊕
Enfoque ⊕ ⊕ ª ⊕ ⊕ ª ⊕ ª ª ⊕ ⊕ ⊕
Textura ª ⊕ ⊕ ª ª ª ª ª ª ⊕ ⊕ ⊕
Gradiente ilum. ª ⊕ ⊕ ª ¯ ⊕ ⊕ ª ª ⊕ ⊕ ⊕
Luz ⊕ ⊕ ª/⊕ ⊕/ª ⊕/ª ⊕ ⊕ ª ¯ ª ⊕ ⊕
estructurada
Moiré ª ⊕ ª ª ⊕ ⊕ ⊕ ª ¯ ª ⊕ ⊕
Ultrasonidos ⊕ ª ª/⊕ ⊕/ª ⊕/ª ª ª ⊕ ¯ ⊕ ⊕ ⊕
Tel. láser triang. ⊕ ⊕ ª/⊕ ⊕/ª ⊕/ª ⊕ ¯ ⊕ ⊕ ª ª ª
Tel. láser AM ⊕ ⊕ ⊕ ⊕ ⊕ ⊕ ¯ ⊕ ⊕ ⊕ ª ª
Tel. láser t. ⊕ ⊕ ⊕ ª ª ⊕ ¯ ⊕ ⊕ ⊕ ª ª
vuelo
Tel. láser FM ⊕ ⊕ ⊕ ª ª ª ¯ ⊕ ⊕ ⊕ ª ª
1 Rango, precisión y resolución son parámetros dependientes, por tanto, el cumplimiento de una
condición puede forzar a que otras condiciones sean falsas. La aparición de la barra “/” significa
que cada lı́nea se debe leer de 2 formas: 1) leyendo los signos a la izquierda de la barra y 2)
mirando los signos de la derecha. Por ejemplo, Distancia ⊕ Rango ⊕/ª Precisión ª/⊕ debe
leerse: 1) Distancia ⊕ Rango ⊕ Precisión ª, y 2) Distancia ⊕ Rango ª Precisión ⊕.
2 Robustezante: Iluminación ambiental, presecia/ausencia texturas, discontinuidades superficies
o cambios en temperatura.

Cuadro 2.1: Tabla comparativa de diferentes técnicas para la captación de distancia y/o
reflectancia, mostrando su grado de adecuación a las especificaciones fijadas como objetivo.
70 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

utilizando tablas con este formato dependen de los objetivos concretos perseguidos y del
desarrollo futuro de las tecnologı́as implicadas. En nuestro caso, podemos observar que no
hay ningún método absolutamente perfecto o que cumpla todos los objetivos que nos hemos
planteado. Sin embargo, podemos apreciar que la telemetrı́a láser, en particular aquella
que opera según el principio de diferencia de fases (AM), es el método más destacado al
cumplir la mayorı́a de las condiciones crı́ticas.
En efecto, este método de medida presenta un buen comportamiento en casi todos
los aspectos, siendo sus puntos débiles la relativa lentitud en la exploración de una
imagen densa, los riesgos producidos por incidencias directas del haz láser sobre el ojo
humano (excepto en la clase I que es inocuo), y el relativo alto coste del equipo. Por
lo demás, la técnica es capaz de suministrarnos medidas de distancia absolutas, con
resoluciones y precisiones buenas, no viéndose afectada apenas por parámetros externos,
siendo por tanto una técnica bastante robusta. La medida se realiza a través del eje
de iluminación y la información de distancia es generada de forma directa sin ningún
tipo de interpretación posterior. Adicionalmente, muchos de estos dispositivos generan
información correspondiente a la atenuación que sufre el haz láser durante el proceso de
medida, lo cual permite obtener imágenes de reflectancia más estables que las captadas
mediante cámaras CCD, al ser independientes de la iluminación existente sobre la escena.
Por todos estos motivos hemos decidido utilizar esta técnica de medida en nuestro trabajo.

2.3.2. Telémetro láser: Selección y análisis tecnológico

[Link]. Selección: Acuity Range 4000-LIR

Una vez decidida la técnica de medida a utilizar, debemos proceder a la selección del
dispositivo existente más ajustado a las especificaciones dadas en la sección 2.1.3. Hemos
realizado una amplia revisión de diferentes medidores de distancia láser, presentando a
modo de resumen unas tablas donde se reflejan los diferentes parámetros caracterı́sticos de
estos sistemas de medida. Se han incluido indistintamente tanto sensores puntuales, lineales
o regionales, es decir, aquellos que realizan medidas de un punto fijo, con barrido en un
eje o que captan un matriz de datos de profundidad al barrer en dos ejes, respectivamente.
A pesar de partir con la idea de elegir un dispositivo que opere mediante el principio de
diferencia de fases, vamos también a presentar, a modo ilustrativo, modelos que operan
con los otros tres principios de medida, de esta forma cuantificaremos el análisis cualitativo
realizado en la sección 2.2.
En las tablas 2.2, 2.3, 2.4, 2.5 se presentan los telémetros láser que operan según los
principios de diferencia de fases, triangulación, tiempo de vuelo y modulación en frecuencia,
respectivamente. Aquellas casillas con un fondo oscuro significan que el dispositivo presenta
unas especificaciones que no satisfacen los requisitos establecidos como necesarios para
nuestro propósito, y por tanto el modelo deja de ser adecuado. Si alguno de los parámetros
no es conocido se indica mediante un guión.
Como era de esperar, los modelos basados en técnicas de triangulación presentan buenas
2.3 Análisis, selección y configuración del sistema de medida 71

medida puntual (Hz)

Potencia láser (mW)

Rango medida (m)

Resolución (mm)

Frecuencia max.

Tamaño imagen
Precisión (mm)

Diámetro haz
a 2 m (mm)
Modelo

Acuity 4000-LIR 0.5-15 ±5 0.8 50000 8 puntual 3

Acuity 4000-LV 0.5-12 ±15 4 50000 5 puntual 3
Sick DME-2000 0.1-2 ±5 1 30 3.4 puntual 3
ESP-Tech ORS-1 0.6-4.5 ±75 25 2000 2 100 × 1 25
ERIM-ASV 0.6-10 ±61 20 32768 – 128 × 128 150
ERIM-ALV [198] 0.6-20 ±61 20 32768 – 256 × 64 150
Perceptron LASAR 2-40 ±2 – 163840 – 1024× 1024 –
Perceptron 2 [122] 0.6-40 ±100 10 131072 – 256 × 256 10
Perceptron 3 [110] 2-4 ±4 0.5 147000 – 1000 × 1000 –
Odetics -10 – 40 13653 50 128 × 128 –
Boulder Elect-Optics -43 – 170 91750 – 256 × 256 –
Sandia SRI -30 – 300 524288 20000 256 × 256 –

Cuadro 2.2: Telémetros láser: Diferencia de fases (AM).

medida puntual (Hz)

Potencia láser (mW)

Rango medida (m)

Resolución (mm)

Frecuencia max.

Tamaño imagen
Precisión (mm)

Diámetro haz
a 2 m (mm)
Modelo

MIT-CSD 0.5-3 ±150 – 25000 500 puntual –

Hycan 3D 0.1-0.18 ±0.05 0.003 10000 – 800 × Adj. –
Keyence 3060 0.001-0.06 ±0.003 0.0001 50 – puntual –
Servo Robot Jupiler 0.5-2.5 – 1.4 20000 100 512 × 1 –
LAP LMS6024 0.3-8 – 1 500 5 puntual 1.5
Monocrom MKLT30 0.5-3 ±10 2 1000 5 puntual 3
Hamamatsu H3065 0.35-0.65 – 0.5 4000 – puntual 15
Zimmer 600/200 0.45-0.65 ±0.2 0.05 1000 20 puntual 14
Selcom 2005 1.2-2.2 ±1 0.5 16000 10 puntual 4×8
DynaVision SPR02 0.4-4 – – 667 – puntual –
HYMARC [132] 0.5-1.5 ±4 – 10000 2000 512 × 512 –

Cuadro 2.3: Telémetros láser: Triangulación.

72 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

medida puntual (Hz)

Potencia láser (mW)

Rango medida (m)

Resolución (mm)

Frecuencia max.

Tamaño imagen
Precisión (mm)

Diámetro haz
a 2 m (mm)
Modelo

Riegl LD90-3100HA 1-30 ±10 2 2 1 puntual –

Riegl LD90-210 1-15 ±5 1 0.8 1 puntual –
Leica DISCO 0.2-30 ±5 1 0.3 1 puntual –
SEO LRF-200 1-100 ±30 – 3000 – puntual –
SEO HDPSS 1.5-75 ±15 – 2000 – puntual –
SEO Tresense 1-30 ±100 – 18000 – Adj. × 1 –
Odetics 3D -100 ±150 12.5 400000 240 256 × 128 –
ANU Laser [101] 1-4 ±3 – 100 – 64 × 64 –

Cuadro 2.4: Telémetros láser: Tiempo de vuelo.

medida puntual (Hz)

Potencia láser (mW)

Rango medida (m)

Resolución (mm)

Frecuencia max.

Tamaño imagen
Precisión (mm)

Diámetro haz
a 2 m (mm)
Modelo

Dig. Optronics Vision 0-1 ±12 4 65536 – 256 × 256 –

Dig. Opt. Metrology 0-2.5 – 0.05 10 – 256 × 256 –
Millitech-S 0.5-100 – 500 131072 10 256 × 512 –
Millitech-I 0.2-30 – 50 – 5 puntual 50
Clemens VRSS 0.3-90 ±1000 – 200 10 puntual 200
VORAD 0.3-105 ±3000 – 30 0.5 puntual 140

Cuadro 2.5: Telémetros láser: Frecuencia modulada (FM).

2.3 Análisis, selección y configuración del sistema de medida 73

precisiones a costa de unos rangos de medida muy limitados y unas frecuencias de lectura
bajas. Las técnicas basadas en tiempo de vuelo consiguen rangos y precisiones elevadas pero
a costa de utilizar largos periodos de integración con lo cual las frecuencias de medida son
muy bajas. En el caso de la frecuencia modulada, cuando se utiliza radiación milimétrica
se consiguen altos alcances con bajas precisiones en profundidad y una pobre resolución
espacial al ser el frente de ondas emitido poco puntual. Las técnicas que miden el desfase de
la señal modulada en amplitud dan las mejores soluciones, con parámetros más próximos
a los requeridos. Se obtienen buenos rangos de medida con altas frecuencias de muestreo
utilizando poca energı́a, y en algunos casos las precisiones son las deseadas. En concreto,
de todos los modelos presentados y considerando todas las técnicas, solamente hay un caso
en el cual todos los parámetros requeridos se satisfacen. Es el caso del modelo AC4000-
LIR de la casa Acuity. Por tanto este es el sensor seleccionado y con él dotaremos al robot
Agribot del modo de detección automático, requerido para poder aplicar la estrategia de
detección mixta.

[Link]. Análisis tecnológico: Índice de eficiencia tecnológica

En el apartado anterior hemos visto que de todos los modelos analizados solamente uno
satisfacı́a nuestros requisitos y no de una forma muy holgada, es decir, algunos parámetros
estaban próximos a la frontera que marca el lı́mite entre un método válido y otro que no
lo es. En concreto la potencia estaba muy próxima a la máxima admisible, la frecuencia
de muestreo máxima (50000 puntos/segundo) permite captar imágenes de 167 × 167 en
poco menos de un segundo, y la precisión y resolución de ±5 y 0.8 son muy próximas a
las requeridas. Esto hace pensar que existe actualmente una limitación tecnológica que
no permite mejorar homogéneamente todos estos parámetros generando sensores más
avanzados. Lo más que se puede hacer es mejorar en algún parámetro a consta de perjudicar
en otro. Existe un compromiso que hace que si se quiere mejor precisión se necesite mayor
tiempo de integración y viceversa. Si queremos mayor rango de medida perdemos precisión,
y si queremos mantener ambas caracterı́sticas hay que aumentar la potencia de emisión o
de nuevo reducir la frecuencia de medición. Existe por lo expuesto, un compromiso estrecho
entre todos los parámetros.
Según el desarrollo que se mostrará en la sección 2.4.2, podemos ver como la relación señal-
ruido (SNR) en el fotodetector de un dispositivo de medida depende de diversos factores
(ec. 2.22 o 2.4). Entre estos factores están la longitud de onda del láser λ, el periodo de
integración T , la potencia o flujo radiante de emisión Fi , la reflectividad de la superficie
medida ρ, el ángulo de incidencia sobre la superficie θ, la distancia de medida D, el área
de recepción óptica de la señal A y otros parámetros relacionados con la eficiencia en la
conversión de la señal electromagnética en eléctrica, que ya se explicarán en la sección
2.4.2 y que ahora no tienen mayor interés.

s
λT βAFi ρ cos θ
SN R(f ) = η (2.4)
hc π D2
74 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Si aceptamos que la repetitividad en la distancia medida σD es inversamente proporcional

a la relación señal ruido [155], entonces el compromiso existente entre los parámetros
periodo de integración T , distancia de medida D, repetitividad de la medida σD y flujo
energético incidente emitido por el sensor Fi , se puede expresar de la siguiente forma:

D
σD ∝ √ (2.5)
T · Fi

Mediante esta relación de compromiso, podemos hacer múltiples interpretaciones; [Link].

podemos ver que si queremos obtener un sensor con muy buena repetitividad, entonces
tenemos que disminuir nuestras pretensiones en rango, aumentar los tiempos de integración
o incrementar la potencia de emisión. Hay que destacar que esta relación contiene un signo
de proporcionalidad, con lo cual el valor absoluto de los parámetros relacionados va a ser
función del valor concreto de la constante de proporcionalidad. Esto indica que dicha
constante está relacionada con la calidad de la técnica de medida. Por tanto podemos
definir un ı́ndice de eficiencia tecnológica, M (ec. 2.6), como el factor de proporcionalidad
que liga la relación de la ecuación 2.5. Este ı́ndice M mejora el ı́ndice presentado por Besl
[13], que no considera la influencia del término Fi , con lo cual sensores que obtienen buenas
especificaciones a base de utilizar altas potencias tienen ventaja sobre los que trabajan
con menores potencias, ya que la calidad de aquellos sensores queda sobrevalorada.

D
M= √ (2.6)
σD T · Fi

Utilizando M podemos deducir que una técnica de medida será más eficiente cuando
se consigan mejores rangos de medida con buenas repetitividades, pequeños tiempos de
integración y se requiera una energı́a mı́nima. En este caso el valor de M será grande, y
en el caso de tecnologı́as menos eficientes M tendrá un valor absoluto más reducido.
El compromiso existente entre los parámetros T , D y σD , lo podemos ver de una forma
gráfica en la figura 2.14. En esta gráfica el origen (0,0,0) del sistema de referencia
corresponde con un sistema de medida ideal, que tendrı́a un rango de medida infinito,
una repetitividad absoluta y frecuencias de muestreo infinitas. Cada una de las superficies
√
se caracterizan por tener un M · Fi constante. Si este producto aumenta la superficie
se aproxima paulatinamente al origen de referencia, lo cual implica que a igualdad de
tecnologı́a podemos mejorar las especificaciones simplemente aumentando la potencia de
emisión Fi . Sin embargo si la potencia de emisión láser es un parámetro que debe estar
acotado, [Link]. por razones de seguridad, la solución para obtener sensores mejores pasa
por incrementar la eficiencia M de la técnica.
En la tabla 2.6 se presentan algunos de los modelos comerciales de los que se dispone
de suficiente información para calcular su factor M . Para obtener la repetitividad en la
distancia σD hemos asumido que los medidores están bien calibrados y que la precisión
está dada en términos de ±2σ, con lo cual podemos obtener la repetitividad en la
2.3 Análisis, selección y configuración del sistema de medida 75

T (seg)

2 M ⋅ Fi = cte
1 D
T=
M Fi σ D

M ⋅ Fi = 2 ⋅ cte

M ⋅ Fi = 3 ⋅ cte

σD (mm)
1/D (m-1)

Figura 2.14: Compromiso existente entre algunos de los parámetros que caracterizan a un
telémetro láser.
√
# Modelo Fi /D T (seg.) σD (mm) M
1 Acuity 4000-LIR 0.19 2 × 10−5 2.5 474
2 Acuity 4000-LV 0.18 2 × 10−5 7.5 160
3 Selcom 2005 1.6 6 × 10−5 0.5 160
4 Odetics 3-D 0.15 2,5 × 10−6 75 54
5 Monocrom MKLT-30 0.75 1 × 10−3 5 8.5
6 Riegl LD90-3100 HA 0.03 0.5 5 8.5
7 Leica DISCO 0.03 3.3 2.5 8.5
8 Riegl LD90-210 0.06 1.25 2.5 5.3
9 ESP-Technologies ORS-1 0.35 5 × 10−4 37.5 3.4
10 Sick DME-2000 0.92 0.033 2.5 2.4

Cuadro 2.6: Eficiencia tecnológica M de algunos telémetros láser comerciales.

medida sin más que dividir el valor absoluto de la precisión entre dos. Los modelos están
enumerados siguiendo un orden decreciente en su ı́ndice de eficiencia M . Podemos ver que
el sensor elegido (AC4000-LIR) no solamente se ajusta a las especificaciones requeridas
sino que también utiliza la técnica más eficiente (M=474). Por tanto podemos decir que
existe una barrera tecnológica que ninguno de los sensores analizados ha podido superar,
que está en torno a M = 500. En la figura 2.15 se muestra esa barrera y los vectores
de especificaciones, indicados mediante cruces, de algunos de los sensores analizados.
Podemos ver igualmente como el volumen de las especificaciones deseadas (σD ' 1mm,
√
T = 1 × 10−4 − 1 × 10−5 , Fi /D = 0,23 − 0,75 con Fi = 5 mW) es seccionado por la
superficie M = 500, lo cual indica que estas especificaciones son muy exigentes estando
parte de ellas fuera del alcance de la tecnologı́a actual.
En un futuro inmediato, si se requieren especificaciones aún más exigentes que las
planteadas en nuestro trabajo, habrı́a que mejorar las técnicas de medida o en su defecto,
no quedarı́a más remedio que aumentar la potencia de emisión Fi . Para seguir respetando
76 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

T (seg)
2
10

0
10
7
6 8
-2 10
10
Volumen de especificaciones
9 5
deseadas
-4
10
3
4 1,2
-6
10

-8
10 Frontera tecnológica actual
M=500
-10
10
2
10
1 2
10 1.5
0 1
σ D (mm) 10 -1
0.5
10 0 Fi (mW1/2/m)
D

Figura 2.15: Espacio de especificaciones mostrando algunos de los telémetros analizados

(representados por aspas y numerados según tabla 2.6), la frontera tecnológica M=500, y
el volumen de especificaciones deseado.

las normas de seguridad frente a daños en la retina de una persona, este aumento de energı́a
deberı́a ser acompañado de la sustitución de fuentes láser visibles o en el infrarrojo cercano
por láseres trabajando en el infrarrojo medio o lejano. De esta forma, utilizando láseres
en estas bandas del infrarrojo, se podrı́an utilizar potencias bastante más elevadas que
las actuales mejorando las especificaciones de los medidores. El motivo se debe a que a
partir de longitudes de onda superiores a 1540 nm [132], el agua presente en los tejidos de
ojo absorbe la energı́a que llega a la retina, y además la radiación trasmitida a través del
cristalino pierde capacidad de focalización al aumentar la longitud de onda, con lo cual la
densidad de energı́a que incide en la retina es mı́nima.

2.3.3. Configuración fı́sica del sistema de exploración

El telémetro láser AC-4000-LIR es un sistema de medida puntual, por tanto para

obtener una imagen necesitamos realizar un barrido en acimut y elevación. La torreta
de exploración, utilizada en el robot Agribot para mover el telémetro láser en el modo
de señalización asistida, permite realizar este barrido, sin embargo debido a las altas
velocidades de barrido requeridas y a las altas inercias generadas al mover todo el sensor,
esta solución no es la más adecuada ya que para obtener imágenes de 167 × 167 puntos se
emplea más de un minuto.
Las especificaciones fijadas en la sección 2.1.3, indican que una imagen que capte 50×50 cm,
adquiriendo 167×167 puntos, debe tardar menos de 5 segundos. Esto significa que el eje de
movimiento más rápido debe realizar 33 barridos en un segundo, o un barrido en 30 ms. Si
la distancia media de operación es de 2500 mm, tenemos que la velocidad angular requerida
2.3 Análisis, selección y configuración del sistema de medida 77

Motor de barrido Espejo móvil Motor de barrido

en acimut 76.1 mm diametro en elevación

Telémetro láser Ac4000-LIR

Infrarrojo 780 nm, 8 mW

Espejo "caliente"
50 mm diametro

Diodo láser apuntador

633 nm 5 mW
Montura para
alineamiento

Figura 2.16: Sistema de exploración por deflexión de haz.

es de 6.7 radianes por segundo. Por el contrario el barrido lento solo requiere una velocidad
de 0.04 rad/s. Considerando una resolución espacial de 3 mm/punto, tenemos que a la
distancia media de trabajo de 2500 mm, el incremento angular mı́nimo de nuestro sistema
de barrido dα es de 1.2 miliradianes. Con el objeto de satisfacer estas especificaciones
hemos optado por una solución que realiza una deflexión del haz láser utilizando un espejo
motorizado (fig. 2.16).

[Link]. Componentes del sistema de deflexión

El sistema por deflexión de haz que hemos diseñado tanto para la adquisición de imágenes
como para la señalización asistida de frutos, consta básicamente de un espejo motorizado
en acimut y elevación, el telémetro láser infrarrojo Acuity-4000-LIR, un diodo láser visible
con luz estructurada, una ventana de integración para hacer coaxiales los dos haces láser y
unas monturas de ajuste fino para alinear los haces. El motivo para incorporar un sistema
de señalización mediante un láser visible es doble; por un lado es necesario para permitir
trabajar de una forma asistida con un operario señalando la fruta, y por otro es útil para
determinar la posición en torno a la cual se desea captar una imagen. Por estos motivos,
y debido a que el telémetro láser trabaja con un haz invisible, se tuvo que incorporar el
sistema de señalización mencionado. A continuación presentamos una breve descripción
de estos componentes, aunque si se desean más detalles, en el apéndice A presentamos las
hojas técnicas de los distintos componentes.

Motores. El motor utilizado para el eje de barrido rápido incorpora una etapa de
reducción (1:29.6) precargada, con objeto de eliminar histéresis por holguras, un
codificador óptico de 1000 pasos por revolución, que permite giros máximos tras la
etapa de reducción de 135 rpm, o lo que es lo mismo 14.1 rad/s, generando 5.6 pasos
en cada intervalo de barrido angular dα = 1,2 mrad. En el otro eje de barrido, el
motor que se utilizaba en la antigua torreta de localización del Agribot es adecuado,
78 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

ya que utilizando un codificador de 500 pasos por revolución y una reducción de

1:751.68 permite una velocidad máxima de 0.7 rad/s.

Tarjetas de control de motores y etapas de potencia. Los dos motores de corriente

continua son controlados desde el ordenador mediante una tarjeta basada en el
microcontrolador LM629. Las señales de signo y pulso de baja potencia que generan
las tarjetas ante determinadas acciones de control, antes de actuar sobre los motores,
pasan por una etapa de potencia que amplifica en voltaje y corriente la señal
modulada por ancho de pulso. Ambos componentes electrónicos se desarrollaron
en el Instituto de Automática Industrial (IAI-CSIC) constituyendo un trabajo de
final de maestrı́a [180].

Diodo láser apuntador. El puntero láser visible que sirve al operador para saber
donde está señalando, es un diodo láser rojo de 5 mW a 633 nm. Con esta potencia
y longitud de onda, se consigue que el riesgo de daños al ojo humano sea limitado
(véase la sección siguiente para más detalles relativos a la seguridad). Debido a que la
longitud de onda está próxima a la zona de alta sensibilidad (555 nm), la visibilidad
del haz es muy clara en entornos sin luz ambiental intensa, requiriéndose el uso de
filtros centrados en 633 nm para poder vez el haz al incidir sobre una superficie
cuando se trabaja en el exterior con luz solar. Para facilitar la detección inicial de la
posición del haz y el seguimiento de este, hemos estructurado el haz acoplando un
generador de cruz, con lo que se mejora su visibilidad, aunque también supone un
descenso significativo de su densidad de energı́a.

Espejos. El espejo deflector que va motorizado en acimut y elevación es un

espejo redondo de 76.2 mm de diámetro con recubrimiento multicapa dieléctrico
que proporciona reflectividades superiores al 99 % en el infrarrojo cercano y
reflectividades mayores del 80 % en la banda visible de 633 nm. El espejo utilizado
para integrar el haz visible e invisible es redondo y de 50 mm de diámetro, se
suele denominar “espejo caliente”(hot mirror) ya que refleja la radiación infrarroja
y transmite la luz visible, con pérdidas del 1-2 % en la reflexión infrarroja y del 20 %
en la transmisión del visible.

Telémetro y tarjeta de adquisición de alta velocidad. El telémetro láser es un sistema

de medida puntual que puede trabajar a frecuencias de muestreo de hasta 50 kHz,
suministrando información de forma periódica de la distancia y de la reflectancia.
Esta información se puede leer por un puerto serie RS-232-C o de una forma
especial ya que también se transmite por modulación de ancho de pulso. Debido
a que necesitamos altas velocidades de lectura, el canal de comunicación serie no es
adecuado y utilizamos una tarjeta de alta velocidad que demodula la información
de distancia y reflectancia que le llega. Para evitar que se produzcan pérdidas de
los datos si el programa de lectura de la información no se activa con la suficiente
cadencia, la tarjeta de adquisición de alta velocidad dispone de un buffer de 512 kb
con lo cual la integridad de los datos se garantiza.

Monturas de alineamiento. Para asegurar que la medida de distancia del telémetro

2.3 Análisis, selección y configuración del sistema de medida 79

se corresponda con el punto donde el haz visible este incidiendo, es necesario que
ambos haces estén perfectamente alineados en el mismo eje. Para conseguirlo, aparte
de los ajustes groseros existentes para la posición del telémetro y del diodo láser,
hemos añadido dos ajustes finos en acimut y elevación en el espejo caliente y en el
puntero láser utilizando dos monturas de posicionamiento preciso a tornillo.

[Link]. Aspectos de seguridad ante la radiación láser

Según los estándares de seguridad (ANSI, American National Standards Institute y IEC,
International Electrotechnical Commision [89]), todo producto que emplee radiación láser
debe atender unas mı́nimas normas de seguridad, relativas fundamentalmente a ciertas
especificaciones de diseño y construcción de los equipos, y a la correcta información de
peligrosidad en etiquetas o pilotos de advertencia. Según estas normas, y atendiendo a la
potencia de emisión de la radiación y su relación con los riesgos al ojo o a la piel humana,
los láseres se pueden clasificar en cinco clases o categorı́as:

Clase I. Totalmente seguros.

Clase II. Potencia menor de 1 mW. Es permisible la exposición directa del haz al
ojo durante cortos periodos de tiempo.

Clase IIIa. Potencia menor de 5 mW. La exposición directa produce daños en la

retina.

Clase IIIb. Potencias superiores a 5 mW e inferiores a 0.5 W. Tanto la exposición

directa como difusa es dañina a la retina y cornea.

Clase IV. Potencias superiores a 0.5 W. Daños en retina, piel y peligro de

combustión.

El sistema de exploración que hemos presentado utiliza dos haces láser, uno visible
correspondiente al diodo visible de 633 nm con 5 mW de potencia, y otro invisible utilizado
por el telémetro Ac-4000-LIR de 780 nm y 8 mW de potencia. Debido a su potencia, estos
láseres quedan clasificados en las clases 3a, en el caso del visible, y en la clase 3b para el
láser con haz invisible. Simplemente por el hecho de utilizar dos láseres correspondientes
a las clases 3a y 3b (aunque este último esta muy próximo a la clase 3a) podemos deducir
con total certeza que existen riesgos de daño en la retina ante exposiciones directas del
haz sobre el ojo, o bien, a través de reflexiones especulares.
Vamos a tratar de cuantificar estos factores de riesgo de tal forma que podamos ser más
explı́citos en las precauciones que se deben ser tomadas para poder trabajar con seguridad
en el entorno de este sistema de exploración. Estudiaremos tanto el daño a los ojos como
el daño sobre la piel ante exposiciones directas y ante reflexiones difusas, viendo cuales son
los umbrales de energı́a de riesgo y deduciendo las protecciones oculares apropiadas para
trabajar de forma segura o las distancias mı́nimas a las que se debe trabajar del equipo
láser para no sufrir daños.
80 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Figura 2.17: MPE para exposición ocular directa con duraciones superiores a 1 segundo
para longitudes de onda entre 400 y 1400 nm [89].

Según las normas, entendemos por MPE (Maximum Permissible Exposure) o exposición
permisible máxima, el nivel de radiación para el cual, ante circunstancias normales, las
personas pueden ser expuestas sin sufrir efectos adversos sobre la piel o la retina. Este
concepto suele tener unidades de irradiancia [w/m2 ] y está relacionado con la longitud
de onda de la radiación, el tiempo de exposición y el tipo de tejido expuesto. En las
figuras 2.17 y 2.18 se presentan unas gráficas donde se dan los valores de MPE para
diferentes tiempos de exposición y diferentes longitudes de onda, para daños en la retina
con exposición directa o difusa respectivamente. La tabla 2.7 muestra MPE para el caso
de incidencia directa sobre la piel.
Cuando un láser no es seguro existen normalmente dos soluciones: trabajar siempre a
una distancia de seguridad del equipo o utilizar gafas de protección. La distancia nominal
de daño ó NOHD (Nominal Ocular Hazard Distance), es aquella distancia a la cual la
exposición producida sobre el ojo tiene una irradiancia que se ha atenuado suficientemente
con la distancia como para que no exista riesgo. Por tanto la determinación de NOHD nos
va a marcar la distancia de trabajo a partir de la cual existe seguridad. En el caso de
que esta distancia sea muy grande, resultando imposible desde un punto de vista práctico
trabajar tan alejado del equipo, la solución pasa por utilizar gafas de protección. La
densidad óptica D de un filtro protector se define como el logaritmo decimal negativo
del cociente entre el flujo radiante transmitido y el flujo incidente (ec. 2.7). Por tanto,
para determinar la densidad óptica de las gafas a utilizar, basta calcular esta relación
2.3 Análisis, selección y configuración del sistema de medida 81

Figura 2.18: MPE para exposición ocular procedente de reflexiones difusas con duraciones
superiores a 1 segundo para longitudes de onda entre 400 y 1400 nm [89].

Cuadro 2.7: MPE para exposición directa de radiación láser sobre la piel [89].
82 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

entre la potencia del láser y la MPE de seguridad que los filtros de las gafas pueden dejar
transmitir.

Ft
D = − log10 (2.7)
Fi

Para el caso del láser de 8 mW con una longitud de onda de 780 nm, tenemos que su
divergencia α es de 0.5 mrad y el diámetro del haz a es de 3 mm, por tanto la irradiancia
a la salida del sensor es de 1132 W/m2 . En el caso de exposición sobre el ojo y piel de
forma directa o difusa, tenemos los siguientes resultados:

1. Exposición directa al ojo de 100 segundos.

MPE. Según la figura 2.17 tenemos que MPE=6 W/m2 .

NOHD.
√ La distancia nominal de daño se calcula aplicando N ODH =
(4Fi )/(πM P E)−a
α .
En nuestro caso esta es de 76.4 metros, con lo cual se
requiere el uso de gafas para evitar daños por posibles reflexiones especulares o
exposiciones directas al haz por accidente.
Densidad óptica de las gafas. La gafas recomendadas deberán tener una
densidad óptica de 2 o superior, ya que: D = − log10 (48·10−36)/(πa2 ) = 2,27

2. Exposición difusa al ojo de 100 segundos.

MPE. Según la figura 2.18 tenemos que MPE=10000 W/m2 sr2 .

NOHD. Es de 0.57 m, con lo cual se requiere el uso de gafas para reflexiones
difusas si se trabaja a menos de 57 centı́metros del punto de impacto del haz.
Densidad óptica de las gafas. La gafas recomendadas anteriormente serán
adecuadas también para este caso.

3. Exposición directa sobre la piel de 100 segundos.

MPE. Según la tabla 2.7 tenemos que MPE=2000 W/m2 .

NOHD. Es de -1.48 m, lo cual indica que no existe riesgo de daños en la piel,
y por tanto no hay necesidad de utilizar ninguna prenda o cubierta protectora.

En el caso del láser visible la potencia emitida es ligeramente inferior al caso anterior, 5
mW, y la divergencia y el diámetro del haz a la salida del diodo son iguales (707 W/m2
a la salida del diodo). Como consecuencia los valores de MPE y NOHD obtenidos para
el diodo visible son muy similares a los presentados anteriormente, con lo cual se deberı́a
recomendar el uso de gafas de densidad óptica 2 o superior para longitudes de onda de
633 nm. Sin embargo debido a que existe un generador de cruz que reduce la densidad
de energı́a por un factor variable con la distancia, que para 2 metros está en torno a 100,
no es necesario el uso de estas gafas para reflexiones difusas y solamente podrı́a existir
un riesgo ante incidencias directas. Esta última circunstancia también queda minimizada
2.3 Análisis, selección y configuración del sistema de medida 83

ya que la respuesta temporal, ante un destello de haz visible, en cerrar la pupila y girar
la cabeza (respuesta de aversión) es de 0.25 segundos, con lo cual la exposición no es
lo suficientemente prolongada como para producir daños ya que el MPE de respuesta de
aversión es de 25 W/m2 (fig. 2.17) y la densidad de potencia del haz con la cruz generada
a 2 metros es de 707/100=7 W/m2 .
Por tanto, para trabajar de forma segura con este sistema de exploración no se necesita
ninguna protección ante el haz visible, y se puede trabajar igualmente sin protección para el
haz infrarrojo si se producen siempre reflexiones difusas estando a más de 60 centı́metros
de distancia. Como esta circunstancia no tiene porque cumplirse siempre, ya que bien
debido a la presencia de superficies especulares o bien a que por accidente podemos mirar
directamente el haz infrarrojo, se recomienda el uso de gafas de protección (D=2, λ = 780
nm) para trabajar de forma segura y no confiar en que las circunstancias poco probables
anteriormente citadas no se vayan a dar nunca.

[Link]. Adquisición de las imágenes

El sistema de exploración desarrollado, gracias a que el telémetro suministra tanto

información de distancia, D, como de reflectancia, <, permite obtener dos imágenes por
cada escena captada (fig. 2.19). Las imágenes en distancia también se conocen como mapas
de distancia, imágenes o mapas de profundidades, imágenes 3-D ó 2.5-D o mapas de alturas
superficiales. Si las medidas se referencian respecto a un sistema de coordenadas ortogonal
se dice que la imagen de distancias es de la forma XY Z. A diferencia, si la distancia
medida indica la profundidad a lo largo de un vector cuya dirección queda definida por dos
ı́ndices, se dice que la imagen de distancias tiene la forma Di,j . Nuestro caso es este último
y los ı́ndices son las coordenadas angulares en acimut y elevación. Este formato provoca
una cierta deformación de la imagen que consiste en que las superficies planas aparecen
ligeramente curvadas, especialmente si el ángulo de barrido es grande. Sin embargo el
formato Di,j , en general, permite un procesamiento más sencillo que sobre imágenes en
formato XY Z ya que en éste caso no existe un claro ordenamiento de los puntos a la hora
de procesarlos [13].
Para asegurar que tanto en las imágenes Di,j como <i,j exista una correspondencia entre los
ı́ndices (i, j) que indican los ángulos de acimut y elevación, y la distancia D o reflectancia
< medidas, se han ensayado dos modos de sincronización entre las lecturas que el telémetro
suministra de forma periódica y los ángulos que hay que leer de los codificadores de los
motores. Estos modos los denominados sı́ncrono y ası́ncrono.
En el caso sı́ncrono mientras se realiza cada uno de los barridos verticales de los que
se compone la imagen, se va supervisando la posición angular actual. En el momento
que los motores están en la posición adecuada almacenamos en las coordenadas (i, j)
de los mapas Di,j y <i,j , los valores de distancia y reflectancia que en ese momento
suministra el telémetro. El perfil trapezoidal de velocidad que sigue cada barrido, con sus
consiguiente aceleración inicial y deceleración final, no influye en el proceso de adquisición
pues solamente se almacenan datos en el momento que se comprueba que estamos midiendo
84 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

a) b) c)

Figura 2.19: Escena de un árbol con cuatro frutos: fotografı́a natural (a), y las
correspondientes imágenes de distancia (b) y reflectancia (c) captadas mediante el sistema
de exploración.

en el lugar deseado (fig. 2.20a). Mediante este método de sincronización los ángulos de
inicio y fin de barrido en elevación se corresponden con los extremos superior e inferior de
la imagen a captar, ya que el proceso de medida puede realizarse incluso en las zonas de
aceleración y deceleración.
En el método ası́ncrono, el almacenamiento de los datos de distancia y reflectancia se hace
sin consultar la posición angular actual. El barrido vertical se hace realizando un rastreo
mayor que la altura de la imagen, de tal forma que las regiones exploradas mientras
se está en zona de aceleración/deceleración no se contemplan y solamente almacenamos
los datos captados mientras el movimiento se realiza con velocidad uniforme (fig. 2.20b).
Como el telémetro genera la información a intervalos regulares y el movimiento es uniforme,
solamente con realizar una sincronización al inicio de cada barrido es suficiente. Este modo
de barrido tiene sentido debido a que el modo sı́ncrono requiere una carga extra de trabajo
al necesitar consultar constantemente la posición angular del motor de barrido vertical.
Además, las tarjetas de control que estamos utilizando (basadas en LM629) no permiten
consultas a más de 500 µs con lo cual trabajar a más de 2 kHz en el modo sı́ncrono se
hace imposible.
Cualquiera de los dos modos de barridos son válidos a la hora de generar imágenes, sin
embargo si se pretende trabajar a menos de 2 kHz el método que recomendamos es el
sı́ncrono, pues requiere menor exploración, y para más de 2 kHz hay que utilizar el modo
ası́ncrono que permite realizar barridos más rápidos aunque también necesita mayores
exploraciones.

[Link]. Limitaciones encontradas

En principio con el sistema presentado se podrı́a trabajar en el modo ası́ncrono a 5.6

kHz obteniendo imágenes de 167 × 167 puntos en 5 segundos, que era nuestro objetivo.
Sin embargo, existe un factor que limita actualmente nuestro sistema, nos referimos a las
inercias existentes en los cambios de dirección del barrido. Estas inercias hacen que las
2.3 Análisis, selección y configuración del sistema de medida 85

Barrido vertical de interés

V(rad/s)
puntos de muestreo

a) Modo síncrono (muestreo adaptativo) t (s)

V(rad/s)
puntos de muestreo

b) Modo asíncrono (muestreo regular) t (s)

Figura 2.20: Modos de sincronización en el barrido vertical.

aceleraciones/deceleraciones máximas alcanzables sean de 200 rad/s2 , lo que implica que

para alcanzar una velocidad de 6.7 rad/s en el eje de elevación se requieren 33 ms de
aceleración y otro tanto de deceleración. Realizando 167 aceleraciones y deceleraciones en
cada imagen tenemos un tiempo de 11.2 segundos solamente dedicados a esta tarea. Si
además sumamos a los 11.2 segundos el tiempo que se invierte en el barrido con movimiento
uniforme que es de 5 segundos en el modo ası́ncrono, tenemos tiempos totales de 16.2 s
para captar una imagen de 500 × 500 mm con una resolución de 3 mm/punto que genera
167 × 167 puntos.
En la práctica los tiempos experimentales rondan los 20 segundos ya que también hay
que considerar el periodo de estabilización de la posición al comienzo de cada barrido.
Somos conscientes de que este sistema de exploración no es adecuado para una operación
en tiempo real ya que se queda lejos de lo deseado, sin embargo nos permite continuar
estudiando la viabilidad de las técnicas láser en entornos agrı́colas y además constituye
una muy buena base experimental para plantearse mejoras futuras, las cuales deberán ir
encaminadas hacia la reducción de las inercias o al empleo de sistemas rotatorios que no
supongan tener que variar la velocidad.
En el apartado referente al nivel de señal con el que el telémetro realiza el cálculo de
la distancia, podemos decir que es un aspecto bastante crı́tico, ya que a las pérdidas de
señal que se producen en el proceso de medida hay que añadir las pérdidas introducidas
al guiar el haz láser por medio del espejo móvil y el “espejo caliente”. Una selección de
componentes con reflectividades no próximas al 100 % para la longitud de onda de 780
nm, puede hacer que las pérdidas de señal acumuladas en las cuatro reflexiones sobre
estos componentes, atenúe la señal de tal forma que si medimos sobre objetos de baja
reflectividad, la reflectancia final captada sea baja y las medidas de distancia sean muy
poco fiables.
86 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

En nuestro caso los componentes ópticos tienen reflectividades del 99.5 % en el espejo
móvil y del 98 % en el caliente. Esto hace que considerando las reflexiones en el camino de
ida y vuelta tengamos una pérdidas totales del 5 % de la energı́a. A esto hay que añadir
la sección del espejo caliente que es de 50 mm de diámetro, debido a que la óptica de
recepción del telémetro es de 60 mm de diámetro y el espejo está dispuesto a 45o , existe
una pérdida adicional de un 10 %, con lo cual la energı́a total perdida con el sistema de
deflexión de haz presentado es del 15 %, frente al sistema operando directamente sobre
el blanco. Este factor, con estos niveles de pérdidas no es muy significativo, ya que solo
supone una reducción uniforme en los valores del mapa de reflectancia y un aumento del
nivel de ruido en la imagen de distancias como consecuencia de la menor señal captada.

2.4. Caracterización del telémetro láser

En esta sección nos planteamos la caracterización del telémetro láser Ac-4000-LIR, con
el fin de conocer otras caracterı́sticas adicionales a las suministradas por el fabricante en
las especificaciones del aparato. En especial estamos interesados en identificar cuales son
los factores que influyen en el valor de la reflectancia que proporciona el sensor como
salida, y ver de que forma este valor influye en la calidad de las medidas de distancia.
Los dos apartados siguientes presentan y desarrollan ambos aspectos, indicando también
la utilidad de sendos estudios.

2.4.1. Modelado de los factores que afectan a la reflectancia registrada

La imagen de distancia, obtenida mediante el sistema de exploración presentado en la

sección anterior, tiene una directa interpretación puesto que sus gradientes dan idea de
la forma de los objetos. Sin embargo la imagen de reflectancia no tiene una inmediata
significación puesto que los valores puntuales de reflectancia dependen de diversos factores.
La correcta interpretación del parámetro de reflectancia va a permitir predecir como
será la distribución de una región del mapa de reflectancia cuando asumamos la presencia
de un objeto determinado, o lo que es lo mismo, una determinada distribución en el
mapa de distancia. Este hecho hace posible que podamos utilizar tanto la información
de distancia como la de reflectancia en el análisis de formas, ası́ como la obtención
de propiedades ópticas, aspectos ambos que mostraremos en el capı́tulo 4. Al integrar
ambas fuentes de información en las etapas de procesamiento de las imágenes, estaremos
facilitando la obtención de resultados más fiables y útiles a la hora de realizar un
proceso de reconocimiento. Es por ello que para poder llevar a cabo esta integración,
será indispensable un perfecto conocimiento del significado y de como están relacionados
los parámetros distancia y reflectancia.
En esta subsección vamos a presentar la caracterización del telémetro láser Ac-4000-LIR,
modelando matemáticamente la reflectancia registrada por el sensor como una función
que depende de diversos factores que intervienen en el proceso de medida. Este modelo se
basa en principios genéricos, por tanto no se limita a este dispositivo concreto y puede ser
2.4 Caracterización del telémetro láser 87

aplicado a diversos sistemas telemétricos operando con los mismos principios de medida.

[Link]. Planteamiento inicial del modelo

El telémetro láser genera un haz de energı́a electromagnética que al incidir sobre una
superficie se ve afectado por fenómenos de atenuación, reflexión y dispersión. Dependiendo
del tipo de superficie, de su orientación y de su posición espacial, la amplitud de la radiación
recibida por el sensor varı́a. Los principios generales en los que se basan estos fenómenos
son conocidos [9, 155, 36, 84, 193, 66], sin embargo, también será necesario modelar las
variables especı́ficas de nuestro telémetro para poder cuantificar todos los fenómenos a los
que se ve sometida la señal final de reflectancia, desde que se emite el haz láser hasta que
ya en forma de corriente eléctrica se amplifica y se almacena.
Inicialmente vamos a suponer que la superficie sobre la que incide la radiación es un
difusor perfecto, o superficie Lambertiana. Este tipo de superficies se caracteriza porque
la radiancia, o luminancia en el caso del ojo humano, es constante independientemente del
ángulo desde donde se observe. Una superficie que tiene caracterı́sticas muy próximas a las
de un difusor perfecto es el sulfato de Bario (BaSO4 ), aunque cualquier otra superficie de
las denominadas “mate” (papel, madera, escayola,. . . ) presenta caracterı́sticas próximas
a las de un difusor perfecto. Debido a que la luminancia es constante, si la iluminación
es fija, al observar estas superficies desde ángulos distintos siempre tendremos la misma
sensación de claridad (luminancia constante [w/m2 sr]). Sin embargo si nos olvidamos del
parámetro que capta el ojo humano o sensores como cámaras (luminancia o radiancia,
respectivamente), y nos referimos a la intensidad radiante o intensidad luminosa [w/sr],
la distribución de este parámetro en un difusor perfecto no es uniforme y obedece a una
función que depende del coseno del ángulo de observación. Este hecho es conocido como
ley de Lambert, y se expresa ası́:

I = Iθ=0 cos θ (2.8)

donde Iθ=0 representa la intensidad máxima que se emite en la dirección perpendicular

a la superficie. En la figura 2.21 podemos ver los perfiles en intensidad y radiancia
correspondientes a una superficie difusora perfecta.
Si expresamos Iθ=0 en términos del flujo radiante incidente Fi [w], y del coeficiente de
reflexión o reflectividad difusa ρ, podemos reformular la ley de Lambert como:

Fi
I= ρ cos θ (2.9)
π
donde el término constante π tiene dimensiones de estereoradian para que las unidades a
ambos lados de la expresión sean las de una intensidad radiante [w/sr].
La reflectividad difusa, ρ, es la relación entre el total del flujo radiante difuso reflejado
y el total del flujo radiante incidente Fi . Este coeficiente depende de la longitud de
onda utilizada y del tipo de superficie, sin embargo en nuestro caso al utilizar una onda
88 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Inte nsidad Radiancia

I[w/sr]=I(θ=0)cos(θ) L[w/m2sr]=cte

Superficie difusora perfecta

a) b)

Figura 2.21: Distribución de intensidad (a) y radiancia (b) de una superficie difusora
perfecta.

monocromática, ρ solo dependerá del tipo de superficie. Si se utiliza un láser visible ρ

variará desde 1, para una superficie idealmente blanca o que refleja todos los colores,
hasta 0, para una superficie de color negro o que absorbe todos los colores. En cuanto
al flujo radiante, Fi , utilizando el telémetro Ac-4000-LIR a la máxima potencia será de 8
mW.
Teniendo en cuenta que la superficie se encuentra a una distancia D del telémetro,
que el área de la óptica de recepción del telémetro, A, es un cı́rculo de radio 30 mm
(A = π · 302 = 2827mm2 ), que la óptica interna atenúa la señal por un factor constante
β, y que el ángulo sólido subtendido por el receptor es Ω = A/D2 , tenemos que el flujo
radiante capturado por los sensores fotoeléctricos del propio telémetro, Fc [w], viene dado
por la siguiente expresión:

βAFi ρ cos θ
Fc = βIΩ = ( ) (2.10)
π D2
Debido a que la energı́a electromagnética es transformada en señal eléctrica mediante un
sensor fotoeléctrico y posteriormente se realiza una amplificación logarı́tmica de esta señal,
finalmente podemos modelar la amplitud de la señal recibida, o reflectancia, por

AFi ρ cos θ
< = cte1 log(cte · Fc ) = cte1 log(cte2 ) (2.11)
π D2
donde cte1 representa el factor de amplificación y cte2 representa varios factores: el factor
de atenuación óptica β, el factor de conversión y la sensibilidad del fotodiodo η, y la
preamplificación en la señal eléctrica.
Tanto cte1 como cte2 son desconocidos, por tanto para determinarlos se realizó la recogida
de los datos experimentales que se muestran en el apéndice B, para una superficie
difusora casi perfecta (superficie mate), y posteriormente se realizó un ajuste por mı́nimos
cuadrados. Realizando tantos ajustes como diferentes distancias ensayadas, se pudo
comprobar que cte1 tenı́a un valor medio en torno a 80 con unas variaciones máximas
2.4 Caracterización del telémetro láser 89

160 200

150 D=2400 mm 180

θ=30º

140
160
130
140
120
120
110

100 100

90 80
0 10 20 30 40 50 60 70 80 1000 1500 2000 2500 3000 3500 4000
θ D (mm)
a) b)

Figura 2.22: Adaptación del modelo inicial expresado en la ec. 2.11 (trazo continuo) a los
datos experimentales (‘+’) ante variaciones en θ (a) y ante variaciones en D (b).

del 6 %, mientras que cte2 tenı́a una valor promedio de 5,8 × 107 con variaciones del 200 %.
Analizando la figura 2.22a, se puede apreciar cómo el modelo planteado, ante cambios en
θ, se ajusta bastante bien a los datos experimentales, con lo que se confirma que para
esta superficie casi difusora perfecta la ley de Lambert es un buen modelo. Analizando
la figura 2.22b se puede observar que los datos experimentales, ante cambios en D, no
se ajustan al modelo planteado y se produce una clara discrepancia. Esto significa que
la señal no se atenúa según el cuadrado de la distancia. Como esta ley evidentemente se
cumple, se deduce que debe existir otro factor que varı́e con la distancia y que provoque
el comportamiento global observado. Es por tanto necesario considerar el término cte2 ,
que por lo visto en el ajuste inicial tenı́a una gran dispersión (200 %), como un factor
no constante y que depende de la distancia D. Por tanto cte2 será reemplazado por una
función f (D) que depende de la distancia, que al incorporarlo a la ecuación 2.11 genera el
siguiente modelo corregido:

AFi ρ cos θ
< = c1 log((aD3 + bD2 + cD + d) ) (2.12)
π D2
donde f (D) lo hemos desarrollado como un polinomio de orden tres de tal forma que
obtengamos sus coeficientes de forma empı́rica, sin necesidad de realizar un desarrollo
analı́tico de su comportamiento.
El telémetro no dispone de ningún tipo de compensación o amplificación variable en
función de la distancia D, por tanto la causa de esta dependencia añadida de la señal
con la distancia lo atribuimos fundamentalmente a un fenómeno de reducción de la señal
luminosa transmitida a través de la óptica de recepción cuando la distancia al sensor
disminuye. Este hecho puede ser debido a la disminución de la capacidad de focalización
de la lente cuando la distancia disminuye y a la presencia del orificio previo al fotodiodo
que limita la energı́a que no fue focalizada correctamente.
Realizando un ajuste por mı́nimos cuadrados a los datos experimentales, obtenemos los
coeficientes a, b, c y d (−4,10 × 10−3 , 34,25, −2,71 × 104 y 7,98 × 106 respectivamente).
90 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

8
x 10 160
2
θ=0
1.8 150 θ=20 θ=10
1.6 θ=30
140 θ=40
1.4 θ=50
130
1.2
θ=60
f(D) 1 120

0.8 110 θ=70

0.6
100
0.4
90
0.2 θ=80
0 80
1000 1500 2000 2500 3000 3500 4000 1000 1500 2000 2500 3000 3500 4000
D (mm) D (mm)
a) b)

Figura 2.23: a) Representación de la función empı́rica f (r). b) Adaptación de los datos

experimentales del apéndice B al modelo corregido (ec.2.12).

El término cte1 lo hemos considerado temporalmente igual a 80, por ser una estimación
bastante estable de la amplificación logarı́tmica utilizada en el sensor y por no influir
significativamente su elección arbitraria en la determinación de f (D).
En la figura 2.23a, podemos ver la representación gráfica de f (D), apreciándose una
actuación casi lineal con un punto de inflexión en torno a 2500 mm que corresponde a la
distancia de máxima sensibilidad del sensor. La gráfica de la derecha (fig. 2.23b) muestra
la adaptación del modelo corregido planteado a todos los datos experimentales incluyendo
variaciones en θ, pudiéndose apreciar una clara mejorı́a en el ajuste.

[Link]. Modelo general: Superficies no ideales

Observando de nuevo la figura 2.23b podemos ver que el modelo define reflectancias
similares para el caso de incidencias con un ángulo θ = 0o que igual a 10o . Sin embargo los
datos experimentales no manifiestan este comportamiento, existiendo una diferencia media
de una unidad en la reflectancia entre ambas situaciones. Atribuimos este efecto a que la
superficie elegida no es una superficie difusora perfecta y existe un pequeño porcentaje de
reflexión difusa que se propaga siguiendo el eje de reflexión especular.
Existen trabajos previos [84, 36, 7] en los cuales se ha tratado de modelar el
comportamiento difuso de la luz al incidir sobre una superficie. Cuando la luz incide
sobre una superficie, parte se absorbe, parte se transmite y el resto se refleja en un grado
que depende de cual sea el factor de reflexión. La energı́a reflejada a su vez se puede dividir
en dos componentes: especular y difusa. La luz especular, siguiendo la ley de Snell de la
óptica geométrica, proviene de las caras con superficies suficientemente pulidas para que
las irregularidades superficiales sean menores que la longitud de onda de la luz. La luz
difusa proviene de las múltiples reflexiones que se producen en las microcaras orientadas
aleatoriamente de una superficie mate, y también se genera por dispersión interna cuando
la luz incidente penetra dentro de la superficie del material.
2.4 Caracterización del telémetro láser 91

Reflexión difusa con tres lóbulos:

1. Lambertiano
2. Dirección especular
Reflexión Lambertiana 3. Dirección de incidencia Reflexión especular

1
2

Superficie Lambertiana Superficie común Superficie especular

a) b) c)

Figura 2.24: Distribuciones de intensidad radiante reflejada para: (a) difusor ideal, (b)
superficie común, (c) superficie idealmente especular.

Según lo expuesto hasta ahora, la reflexión o es especular o es difusa, siguiendo en este

último caso la ley de Lambert. En la realidad las superficies comunes no son ni de un tipo
ni del otro, sino que presentan propiedades intermedias. En este sentido se ha intentado
modelar superficies mates como una combinación lineal de estos comportamientos
extremos, pero los resultados obtenidos no son satisfactorios. La solución más próxima
a la realidad se obtiene descomponiendo la reflexión en tres lóbulos difusos [193]. En
el esquema central de la figura 2.24 podemos ver la distribución de intensidad radiante
[W/sr] de los tres lóbulos, y en los esquemas laterales los casos ideales correspondientes a
difusores perfectos y superficies especulares.
En el caso de superficies comunes (fig. 2.24b), el lóbulo difuso más importante es el
lambertiano, que sigue siempre la dirección normal a la superficie, y es debido a las
reflexiones múltiples en el interior de la superficie del material. El segundo lóbulo difuso
en orden de importancia es el que sigue la dirección especular, comportándose de forma
semejante a una reflexión especular aunque con la salvedad de que en este último caso
no existe dispersión, y en nuestro caso sı́. Esta componente difusa tiene su origen en las
reflexiones que se producen en las microcaras orientadas aleatoriamente de una superficie
rugosa. El último lóbulo, que se transmite en la dirección de incidencia de la luz, tiene
una importancia menor y no siempre se manifiesta, y cuando lo hace puede aproximarse
como un valor constante.
Por tanto, siguiendo estas pautas, nuestro modelo para superficies no ideales va a
contemplar no solo el lóbulo lambertiano, sino también el lóbulo en la dirección especular.
De esta forma si representamos por g a la fracción de la señal reflejada de una forma
que tiene una dispersión lambertiana; 1 − g serı́a la fracción reflejada de forma difusa
en la dirección especular. Representando por Kesp a la distribución relativa de la energı́a
al variar θ correspondiente al lóbulo difuso en la dirección especular, y por Kdif a la
correspondiente distribución lambertiana, podemos plantear que la distribución total, K,
92 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

se puede expresar ası́:

K = gKdif + (1 − g)Kesp (2.13)
Donde K es adimensional y muestra la fracción de energı́a recibida por el sensor para un
determinado ángulo de incidencia θ y una determinada superficie con fracción difusa g.
Es un hecho conocido que Rdif = cos θ, sin embargo en cuanto a Resp no hay tal
unanimidad de criterios. Se suele plantear un modelo basado en la distribución de
las pendientes correspondiente a las pequeñas caras microscópicas que forman una
superficie. Representando por m la pendiente de estas caras existen dos distribuciones
2
utilizadas: La distribución gaussiana Kesp = ce−(θ/m) [201], y la distribución de Beckman
c
Kesp = m2 cos −(tan θ/m)2 [9]. Sin embargo, para simplificar al máximo el modelo, hemos
4 θe

considerado la relación que indudablemente existe entre el factor g y la pendiente de las

micro-caras m. De esta forma hemos planteado una distribución en la cual el término m
desaparece con lo que queda simplificada dependiendo solo de θ y de g.

c2 )2
e−(θ/c1 g
Kesp = (2.14)
g c2
Por tanto el modelo completo, válido para todo tipo de superficies desde las muy rugosas
hasta las más especulares, es el siguiente:

c4 )2
3 2 AFi ρ e−(θ/c3 g
< = c1 log((aD + bD + cD + d) (g cos θ + (1 − g) )) (2.15)
π D2 g c4
Realizando un ajuste por mı́nimos cuadrados obtenemos los resultados que se muestran
en la figura 2.25a, donde se puede ver como los datos experimentales se ajustan mucho
mejor que en el modelo restringido a superficies mates perfectas (fig. 2.23b). Asumiendo
que la superficie utilizada en los experimentos refleja de forma difusa el 75 % (ρ = 0,75) de
la luz con longitud de onda de 0,78 µm, hemos deducido que g = 0,95 lo cual indica que
el 95 % de la energı́a reflejada lo hace según una distribución difusa lambertiana y el 5 %
restante sigue una distribución difusa en la dirección especular. Utilizando otras superficies
con propiedades ópticas diferentes, se pudo comprobar la adaptación del modelo general
a los datos experimentales. Como muestra de esta adaptación véase el gráfico de la figura
2.25b, donde se aprecia la distribución total correspondiente a la interacción de las dos
componentes difusas. Evidentemente la superficie con g = 0,78 presenta un pico más
pronunciado que el resto en torno a incidencias frontales a la superficie. A igualdad de
reflectividad, debido a que la superficie más pulida refleja más energı́a de forma difusa
en la dirección especular y a que la energı́a total reflejada se debe conservar, la energı́a
reflejada lambertianamente disminuye proporcionalmente al aumentar la especularidad de
la superficie, apreciándose una menor reflectancia para ángulos de incidencia entre 10o
y 90o que corresponden a reflexiones difusas puras. Véase un ejemplo de este hecho en
la figura 2.25b, donde se muestra el caso de dos superficies con la misma reflectividad,
ρ = 0,75, pero con distintos grados de difusión g = 0,95 y g = 0,78
Las constantes obtenidas por los ajustes realizados proporcionaron los siguientes valores:
c1 = 80,9, c3 ' 20 y c4 ' 5. Por tanto estamos ya en condiciones de presentar el modelo
2.4 Caracterización del telémetro láser 93

160 180
150 160
140
140
130
120 120
110 100
g=0.95 ρ=0.75
100
80 g=0.78 ρ=0.75
90 g=0.83 ρ=0.98
80 60
1000 1500 2000 2500 3000 3500 4000 0 10 20 30 40 50 60 70 80
D (mm) θ (grados)
a) b)

Figura 2.25: Adaptación del modelo general (ec. 2.16) con: a) los datos experimentales del
apéndice B, b) superficies con diferentes ρ y g.

general de reflectancia correspondiente a la señal generada por el fotosensor a partir de

una onda reflejada sobre una superficie real:

5 )2
3 AFi ρ
2 e−(θ/20g (2.16)
< = 80,9 log((aD +bD +cD+d) (g cos θ+(1−g) ))
π D2 g5

La figura 2.26 nos presenta de una forma gráfica el comportamiento de la reflectancia, <, en
función de la distancia, D, y el ángulo de incidencia, θ, para superficies caracterizadas por
el grado de reflexión difusa g y la reflectividad ρ. Las figuras 2.26a y 2.26d muestran dos
casos con g=1, es decir, superficies difusoras perfectas, donde no hay puntos de inflexión y
los cambios en la reflectividad, ρ, no afecta a la forma de la superficie modelada, aunque
si generan desplazamientos relativos a lo largo del eje <. En las figuras 2.26a,b,c se
puede observar el paulatino aumento de la inflexión en torno a θ = 0o , a medida que
el coeficiente de reflexión difusa g va disminuyendo, y por tanto, aumenta la reflexión
difusa en la dirección especular. Es importante destacar que este tipo de reflexión se
podrá dar en cualquier dirección en función de cual sea la orientación de la superficie, sin
embargo, solamente aquellas reflexiones con θ próximas a cero (incidencias normales a la
superficie) serán captadas por nuestro telémetro láser. Por este motivo, podemos decir que
la energı́a captada en el rango de 10 a 90 grados se deberá únicamente a reflexiones difusas
lambertianas, mientras que en el rango de 0 a 10 grados la energı́a recibida corresponde a
la suma de las dos componentes difusas.

[Link]. Modelo aproximado: Superficies difusoras perfectas

Como acabamos de indicar, nuestro sensor, al tener el eje de emisión y recepción iguales, va
a captar solamente la reflexión difusa lambertiana, salvo en el caso de incidencias normales
a la superficie donde ambos términos difusos contribuyen, pero esta circunstancia tiene una
baja probabilidad. Por este motivo tiene sentido plantearse utilizar un modelo aproximado
94 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

160 180

160
140
140
120
120
100 100

80 80
4000 4000
3000 3000
0 0
2000 20 2000 20
40 40
D D 60
θ θ
1000 80 60 1000 80

g=1 g=0.85
a) b)
ρ=0.9 ρ=0.9
250
140
200
120
150
100
100
80
50
4000 60
4000
3000
0 3000
2000 20 0
40 2000 20
D 1000 80 60
θ D 40
θ
1000 80 60

c) g=0.65 d) g=1
ρ=0.9 ρ=0.5

Figura 2.26: Modelo general. En a) b) y c), deformación de la superficie de reflectancias al

variar g = (1, 0,85, 0,65), para una ρ = 0,9. En d), disminución uniforme de la reflectancia
al disminuir la reflectividad, ρ = 0,5 y g = 1.
2.4 Caracterización del telémetro láser 95

g=1(superficie difusora perfecta) ρ=0.75

80
=100
=110
70 =120

=130
60

50 =140
θ
40

30
=150

0
1000 1500 2000 2500 3000 3500 4000
D(mm)

Figura 2.27: Contornos de reflectancia constante para el caso de una superficie difusora
perfecta con una reflectividad ρ = 0,75.

que no considere la reflexión difusa en la dirección especular. Además puede ser conveniente
trabajar con un modelo aproximado por motivos de simplicidad computacional. En este
caso podemos deducir a partir del modelo general de la ecuación 2.16 la situación
correspondiente a un comportamiento totalmente difuso. Basta considerar g = 1 y
obtendremos el modelo aproximado siguiente:

AFi ρ cos θ
< = 80,9 log((aD3 + bD2 + cD + d) ) (2.17)
π D2

Representando los contornos de reflectancia correspondientes a una superficie

supuestamente difusora ideal de reflectancia ρ = 0,75 obtenemos el gráfico de la figura
2.27, donde se puede apreciar que la reflectancia va a depender fundamentalmente del
ángulo de incidencia con la superficie, θ, y va a variar poco dentro del rango de 1 a 4
metros en el que vamos a trabajar.

[Link]. Reflectividad y fracción difusa: Propiedades caracterı́sticas de una

superficie

Según el modelo expresado en la ecuación 2.16, vemos que existen cinco variables que
quedan relacionadas entre sı́. Estas variables son la reflectancia, <, la distancia a la
superficie, D, el ángulo de incidencia del haz láser con respecto a la normal a la superficie,
θ, la reflectividad de la superficie, ρ, y la fracción difusa g. De estos parámetros, D y <
96 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

son directamente medibles a través del telémetro láser, mientras que θ se puede estimar
mediante el análisis de la imagen de distancias generada. Los otros dos parámetros que
quedan por deducir, ρ y g, solo dependen de las propiedades ópticas de la superficie, por lo
tanto su estimación permitirı́a caracterizar la superficie sobre la cual estamos realizando
la medida.
La obtención de estos parámetros discriminantes, ρ y g, junto con el análisis previsto
basado en la forma, deberı́a proporcionar un método más potente para realizar el análisis
de las imágenes, para lo cual los parámetros ρ y g deben ser diferentes para el objeto
que para el fondo. No solamente se podrı́a facilitar el reconocimiento, sino que además,
se podrı́a hacer una caracterización más precisa del objeto reconocido, no incluyendo
solamente su posición y tamaño, sino también propiedades relativas a la superficie del
objeto. Estas propiedades superficiales del objeto permitirı́an realizar una clasificación
más rica dentro de los objetos reconocidos. En el caso del reconocimiento de frutas, estas
propiedades podrı́an servir para obtener el grado de madurez del fruto o la presencia de
defectos.

2.4.2. Modelado de la repetitividad de la distancia

Cuando realizamos una medida con el telémetro sobre un blanco, obtenemos un valor
indicando la distancia a la que se encuentra este. En nuestro caso particular de análisis
de escenas mediante imágenes de profundidad interesa, más que la precisión absoluta
de la distancia, la sensibilidad y la dispersión en la medida de un punto. Una forma
de cuantificar esta sensibilidad consiste en el cálculo de la repetitividad en distancia,
o desviación estándar σD , obtenida al medir repetidamente sobre un punto fijo. Esta
varianza en la distancia depende de muchos factores, como la distancia, la orientación
de la superficie, la temperatura, el tipo de superficie y la frecuencia de muestreo. Si la
repetitividad de la señal es pobre (σD altas), el resultado obtenido cuando generamos
una imagen en distancias, es que esta imagen presenta una baja relación señal-ruido y
las superficies obtenidas no representan de una forma fiel a las reales. Este hecho hace
que la imagen de distancias sin preprocesamiento sea poco adecuada para realizar un
reconocimiento basado en la forma y se hace necesario una restauración de la imagen.
Existen muchas técnicas de restauración de imágenes, las cuales se estudiarán con detalle
en el capı́tulo 3. Estas técnicas suelen aplicar filtros gausianos, filtros no lineales, filtros
adaptativos o ajustes a curvas predefinidas, siendo unas estrategias más adecuadas que
otras en función de las caracterı́sticas del problema. En algunos de estos casos es necesario
realizar una estimación del ruido presente en la imagen de tal forma que sea posible
establecer un criterio para distinguir lo que es ruido de lo que es una discontinuidad
propia de la escena la cual debe ser preservada. En la mayorı́a de los casos la estimación
del ruido presente en un punto local de la imagen se hace mediante estadı́sticas sobre un
vecindario muy reducido. Esta estimación suele ser aceptable pero no siempre plenamente
satisfactoria debido al reducido número de datos que intervienen en la estimación. El
conocimiento local de la repetitividad σD correspondiente a cada punto de la imagen,
mediante un método determinı́stico, permitirı́a obtener una estimación local más fiel del
2.4 Caracterización del telémetro láser 97

ruido presente en la imagen y por tanto realizar una restauración adaptativa respetando
discontinuidades en la imagen y suavizando regiones continuas contaminadas de ruido,
mejorándose significativamente la calidad de la imagen. Por este motivo, la obtención de
un modelo que nos permita obtener de una forma directa la repetitividad σD de cada
punto de la imagen, serı́a deseable para nuestro propósito de restauración de imágenes de
distancia.
La restauración de la imagen también se puede hacer tomando varias medidas de distancia
en un mismo punto y posteriormente promediando. Esto es posible gracias a que la
desviación estándar de la señal se reduce según la raı́z cuadrada del número de medidas
realizadas. Sin embargo esta técnica requiere una enorme cantidad de medidas reiteradas
para conseguir obtener buenas reconstrucciones en las zonas con alto valor de σD . Si
se utiliza una aproximación activa calculando, en cada punto de la imagen, el número
de medidas necesarias para que al promediar se obtenga una σD fija, el número total de
medidas disminuirı́a al estar realizando promedios de tamaño variables sobre cada punto de
la imagen [155]. Sin embargo esta técnica requiere un barrido de la escena a velocidades
variables para poder realizar en cada punto el número de medidas adecuadas, lo cual
redunda en una baja velocidad de barrido.
La obtención del modelo que nos de una σD local, permitirı́a realizar una restauración
adaptativa en el sentido descrito anteriormente, y a la vez la velocidad de barrido serı́a la
más alta posible, puesto que solamente es necesario realizar una medida en cada punto de
la imagen. A continuación presentamos el desarrollo de este modelo. Su aplicación para la
reconstrucción de imágenes de distancia se verá en el capitulo 3.

[Link]. Repetitividad en régimen estático

Existen múltiples fuentes de ruido en un sistema óptico de medida como el que estamos
utilizando, entre ellos está el ruido fotónico, de cuantificación, del diodo láser, ruido
ambiental, térmico y ruidos de amplificación. El ruido térmico originado en el fotodetector
o elementos resistivos tiene una distribución gausiana de media cero, siendo directamente
proporcional a la temperatura e inversamente proporcional a la impedancia. Este ruido es
independiente de la imagen captada y en los casos en que existe suficiente amplificación en
el fotodetector queda enmascarado por el ruido fotónico [169]. En particular, los factores
más significativos que afectan en mayor medida a nuestro sensor son dos: el ruido fotónico
en el fotodiodo y el debido a la cuantificación. El primer foco de ruido es generado en
el diodo fotodetector, lo que se pone especialmente de manifiesto cuando el nivel de la
señal recibida es muy baja. Representaremos la desviación estándar de este ruido por
σD(f ) . El segundo foco proviene de la cuantificación en la digitalización de la señal, siendo
además variable debido a que el sensor es programable y se pueden seleccionar diversos
parámetros que afectan a la resolución en la medida. En este caso su desviación estándar
la representaremos por σD(c) . Suponiendo que estos dos ruidos no están correlacionados, la
varianza de la suma de dos señales es la suma de las varianzas de las señales individuales,
por tanto podemos plantear la siguiente ecuación
98 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

q
σD = 2
σD(f 2
) + σD(c) (2.18)

Cuando el nivel de potencia de la señal recibida es muy bajo, el ruido fotónico en el

fotodetector es significativo frente a la señal. Si representamos por E a la energı́a que
corresponde a un fotón, podemos plantear la conocida relación

hc
E= (2.19)
λ
donde λ es la longitud de onda de la radiación láser utilizada, h es la constante de Planck
(6, 62 × 10−34 J · s) y c es la velocidad de la luz.
El número de fotones n recibidos en el fotodiodo del telémetro durante el intervalo de
muestreo T , vendrá dado por

Fc T λT
n= = Fc (2.20)
E hc
donde Fc es el flujo radiante capturado por el telémetro láser, cuya expresión puede verse
en la ecuación 2.10.
El número de fotoelectrones nf e generados por el fotodiodo de eficiencia cuántica η en el
intervalo de tiempo T , vendrá dado por nf e = ηn. Asumiendo que el proceso de fotoemisión
es un proceso de Poisson [169], la desviación estándar en la fotoemisión σf e es igual a la
raı́z cuadrada del número nf e de fotoelectrones emitidos. Planteando la relación señal-
ruido en el fotodetector SN R(f ) como el cociente entre los electrones nf e emitidos en el
intervalo T y el ruido de fotoemisión σf e , obtenemos la siguiente expresión:

s
nf e nf e √ λT
SN R(f ) = =√ = nf e = η Fc (2.21)
σf e nf e hc

Sustituyendo Fc , por la expresión de la ecuación 2.10, tenemos

s
λT βAFi ρ cos θ
SN R(f ) = η (2.22)
hc π D2

Identificando términos con la ecuación 2.17, obtenemos que la relación señal-ruido se puede
expresar de la siguiente forma:

s
λ p
SN R(f ) = T 10</80,9 = 20 × 108 T 10</80,9 (2.23)
hc

Es conocido [155], que la desviación estándar de la distancia σD de un sistema telemétrico

basado en diferencias de fase, es inversamente proporcional a la relación señal-ruido
SN R(f ) . De esta forma podemos expresar la desviación estándar correspondiente al ruido
fotónico de esta manera:
2.4 Caracterización del telémetro láser 99

1
σD(f ) ∝ √ (2.24)
T 10A/80,9

En cuanto al ruido debido a la cuantificación, el fabricante del telémetro asegura que se

rige según la siguiente expresión:

Dmax
σD(c) = (2.25)
9 × 107 T

donde Dmax es un factor programable que indica la máxima distancia a la cual se pretende
medir (expresada en mm), y T es el periodo de muestreo expresado en segundos.
Finalmente, podemos plantear el modelo que representa la desviación estándar de la
distancia medida por el telémetro láser mediante la ecuación 2.26, donde se puede ver
que aparecen tres factores que influyen en la fiabilidad de la medida: <, T y Dmax . Y
existe un factor constante k que se determinará en función de los datos experimentales
que se presentan en el apéndice B.

s
k Dmax 2 (2.26)
σD = +( )
T 10</80,9 9 × 107 T

En la figura 2.28, se puede apreciar el resultado de un ajuste por mı́nimos cuadrados

del modelo de la ecuación 2.26 a los datos experimentales presentados en el apéndice B,
obteniéndose un k = 8,37×10−3 . Se puede apreciar, como era de esperar, que a medida que
aumenta la amplitud de la señal, o reflectancia <, la fiabilidad en la medida de distancia
es mayor, y por el contrario, si esta disminuye σD crece.
Según resultados experimentales, la precisión en la medida (o error absoluto entre una
referencia considerada correcta y la medida de distancia generada por el telémetro)
está siempre acotada entre ±2 mm para reflectancias entre 160 y 90, excepto para valores
entre 90 y 50 en que la precisión es de ±4 mm, y para reflectancias entre 50 y 35
donde la precisión es escasa: ±20 mm. Valores de reflectancia inferiores a 35, provocan la
inestabilidad del sistema de medida y por tanto cualquier medida con reflectancias en este
rango no deben tenerse en cuenta y debe considerarse como una medida falsa o irrealizable.
En las figuras 2.29 y 2.30, se puede ver la influencia de la reflectancia < y de la frecuencia
de muestreo 1/T , en la desviación estándar. Puede apreciarse como el incremento de la
desviación estándar al disminuir la reflectancia, se hace más evidente cuando la frecuencia
de trabajo seleccionada se aproxima a la frecuencia de trabajo máxima permitida por
el sensor (50 KHz). Teniendo en cuenta que es deseable una frecuencia de trabajo
máxima con una desviación estándar mı́nima, se debe obtener una solución de compromiso
seleccionando unos parámetros intermedios que estén lo más próximos a nuestros objetivos.
Una frecuencia de muestreo de 5.6 KHz permitirı́a obtener imágenes de 167 × 167 puntos
en 5 segundos, tomando una medida por cada punto en la imagen, y σD quedarı́a acotada
100 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

1.6

1/T = 1 KHz
1.4 Dmax = 4000 mm

1.2

σD (mm) 1

0.8

0.6

0.4

0.2
40 60 80 100 120 140 160 180

Figura 2.28: Adaptación del modelo de repetitividad en distancia (ec. 2.26) a los datos
experimentales presentados en el apéndice B.

entre 0.75 mm para reflectancias en torno a 160 y 2.1 mm para reflectancias cercanas a
80.

[Link]. Repetitividad en situaciones dinámicas

Hasta ahora todas las experimentaciones han sido realizadas en régimen estático, es decir,
sin realizar ningún tipo de barrido o exploración mediante el telémetro láser. Entre los
aspectos considerados anteriormente para deducir el modelo de la repetitividad σD , no se
incluyó ningún parámetro que considerase si el modo de medida era estático o dinámico,
puesto que no hay razones objetivas para que este aspecto deba ser incluido. Sin embargo,
los resultados experimentales indican que hay una diferencia en la repetitividad de la
medida entre un modo estático y uno dinámico o de exploración. La figura 2.31 muestra
de una forma gráfica cómo la amplitud del ruido, para un perfil de distancia, es superior
en las primeras mil muestras (régimen dinámico) que en las últimas mil muestras (régimen
estático).
En la tabla 2.8 se pueden ver algunos de los datos experimentales tomados de forma
dinámica para diferentes frecuencias de muestreo 1/T y distintas reflectancias <. Al
comparar la situación dinámica con la estática ante diferentes circunstancias, aparece un
ruido constante de magnitud 1 mm que se suma al ruido estático deducido con anterioridad
(ec. 2.26). El ruido adicional lo hemos estimado según la ecuación 2.27 y los resultados
obtenidos se muestran en la columna de la derecha de la tabla 2.8.

q
σD = 2
σD 2
− σD (2.27)
adicional din est
2.4 Caracterización del telémetro láser 101

Dmax = 4000 mm
σD(mm)

0
50
40
30 40
20 60
80
1/T (KHz) 100
10 120
140
0 160
180

Figura 2.29: Desviación estándar de la distancia medida por el telémetro láser

AccuRange4000-LIR en función de la reflectancia < y de la frecuencia de muestreo 1/T .

Dmax=4000 mm
160 σD =0.25 mm
σD =0.5 mm
σD =1 mm
140

σD =2 mm
120
σD =3 mm

100
σD =4 mm

80
σD =6 mm

60 σD =8 mm

0 5 10 15 20 25 30 35 40 45 50
1/T (KHz)

Figura 2.30: Curvas de contorno con σD constante correspondientes a la figura 2.29.

102 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

Régimen dinámico Régimen estático

{
{
2934
Dmax=4000 mm
2932 1/T=1 kHz
D 2930
(mm)
2928

2926
0 500 1000 1500 2000
nº muestras

144
Dmax=4000 mm
1/T=1 kHz
142

140

138
0 500 1000 1500 2000
nº muestras

Figura 2.31: Distancia medida correspondiente a un barrido a distancia constante (1000

primeras muestras) y una lectura estática (siguientes 1000 muestras).

1/T (kHz) < σD est σD din σD adicional σD adicional

25 140 2.50 2.70 1.01

10 140 1.35 1.70 1.03
5 140 0.70 1.30 1.09
2 140 0.45 1.15 1.05
1 140 0.33 1.01 0.95 1.01
25 110 3.60 3.75 1.05
10 110 1.65 1.92 0.98
5 110 1.12 1.48 0.97
2 110 0.86 1.35 1.04
1 110 0.57 1.10 0.94

Cuadro 2.8: Datos de repetitividad en modo estático y dinámico que muestran la existencia
de un ruido adicional de amplitud 1 mm.
2.5 Conclusiones 103

Las razones para la aparición de este tipo de comportamiento en situaciones dinámicas la

atribuimos al principio de medida del sensor, que utiliza una técnica de diferencia de fases
con cambio activo de frecuencia de modulación al cambiar la distancia de medida, para
lo cual se usa un oscilador electro-óptico que modula el haz láser en función de la propia
radiación láser recibida [177]. Es de suponer que la exploración entre dos puntos de un
barrido supondrá una pequeña variación en la distancia o tipo de superficie, y de esta forma
pueda afectar al lazo de realimentación óptico provocando una cierta inestabilidad en la
medida que se corresponda con el ruido adicional detectado. Las vibraciones mecánicas del
sensor al realizar la exploración, es otra posible causa de este ruido adicional que aparece
en modo dinámico, sin embargo estas vibraciones mecánicas son de menor amplitud que la
oscilación necesaria para introducir un ruido con σ = 1 mm, es decir ±2σ = ±2 mm. Las
posibles interferencias electromagnéticas generadas por los motores de exploración han sido
descartadas al seguir apareciendo el ruido incluso con barridos manuales y al no detectarse
ruido en modo estático realizando una fuerte acción de control con la consiguiente emisión
de interferencias electromagnéticas.
En cualquier caso, el modelo de repetitividad que nos interesa es el dinámico ya que
las imágenes hay que captarlas realizando barridos. Por tanto, el modelo dinámico que
utilizaremos vendrá dado por la ecuación 2.28.

s
µ ¶2
8,37 · 10−3 Dmax (2.28)
σD = + +1
T · 10</80,9 9 · 107 T

En la figura 2.32 se puede ver la diferencia que existe en repetitividad según el modo
sea estático (ec. 2.26) o dinámico (ec. 2.28). Finalmente, en la figura 2.33 podemos ver
los contornos de σD = cte para el caso dinámico. De acuerdo a nuestros objetivos la
captura de una imagen de 167 × 167 puntos en 5 segundos requiere una frecuencia de 5.6
kHz, con lo cual la repetitividad es de 1.2 mm para amplitudes de 160 y de 2.4 mm para
amplitudes de 80. Esto significa que nuestros mapas de distancia van a estar contaminados
con ruido gausiano con unas amplitudes que variarán entre ±2,4 y ±4,8 mm. Este hecho
hace que sea necesario aplicar un preprocesamiento a las imágenes de distancia con el
propósito de restaurarlas y obtener unas superficies mucho más regulares que permitan
realizar un correcto análisis basado en la forma de dichas superficies, incluso utilizando
regiones reducidas y muy localizadas. Este proceso de restauración se tratará en el capı́tulo
3, donde se presentará un nuevo método de restauración que utiliza como estimación del
ruido presente en la imagen, el modelo de repetitividad que acabamos de obtener (ec.
2.28).

2.5. Conclusiones

Por lo expuesto anteriormente, los aspectos más destacables que se han tratado a lo largo
del capı́tulo 2 son los siguientes:
104 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia

1.8
Dmax=4000 mm
1/T=1 kHz
1.6

1.4

1.2
Régimen dinámico
σD (mm)
1

0.8

0.6
Régimen estático
0.4

0.2
40 60 80 100 120 140 160 180

Figura 2.32: Repetitividad en modo dinámico para una frecuencia de muestreo de 1 kHz
y Dmax =4000 mm.

Dmax=4000 mm
160 σD =1.1 mm
σD =1.3 mm
σD =1.6 mm
140
σD =2 mm

120
σD =3 mm

100 σD =4 mm

80
σD =6 mm

60 σD =8 mm

0 5 10 15 20 25 30 35 40 45 50
1/T (kHz)

Figura 2.33: Contornos de σD = cte para el modo dinámico.

2.5 Conclusiones 105

Se ha propuesto una estrategia de detección y localización mixta de frutos que opera

aplicando un modo de detección automático seguido de una estrategia asistida. Esta
estrategia integra los modos de percepción automáticos con los asistidos, permitiendo
eliminar las desventajas propias en cada una de las soluciones por separado.

Hemos propuesto basar el proceso de detección automático de frutas en criterios

que utilizan la forma de los objetos, las propiedades ópticas de las superficies y la
distribución espacial de los objetos. Para ello se plantea la necesidad de utilizar un
sensor que capte información de distancia y reflectancia.

Se ha realizado un análisis del estado de desarrollo de diferentes técnicas para

captar imágenes de distancia y reflectancia. Teniendo en cuenta las especificaciones
deseadas, la telemetrı́a láser por diferencia de fases es la técnica más adecuada,
seleccionando para nuestras investigaciones el telémetro Ac-4000-LIR de Acuity.

Hemos realizado un análisis tecnológico de los sistemas de telemetrı́a láser actuales,

definiendo un ı́ndice de eficiencia tecnológico M , y presentando las relaciones de
compromiso existentes entre el rango de medida, la frecuencia de muestreo, la
repetitividad de la medida y la potencia de la fuente de emisión. Concluimos que la
mejora en las especificaciones, tomando en cuenta los aspectos de seguridad, pasa
por mejorar la tecnologı́a o aumentar la potencia láser en el infrarrojo medio.

Presentamos la configuración fı́sica de un sistema de exploración telemétrico por

deflexión de haz en acimut y elevación para la generación de imágenes de distancia
y reflectancia, y para actuar como sistema de señalización en el modo de detección
asistido. Se muestran las debilidades de este prototipo que se centran en las inercias
existentes, las cuales limitan la adquisición de imágenes de 167×167 puntos a tiempos
superiores a 15 s.

Presentamos un modelo matemático del telémetro que relaciona la reflectancia

registrada con diferentes factores que intervienen en el proceso de medida (distancia,
ángulo incidencia, reflectividad,. . . ). Este modelo permite interpretar la información
de reflectancia y es la base para una integración entre las imágenes de distancia y
amplitud, y para obtener propiedades ópticas de la superficie de los objetos como la
reflectividad ρ.

Hemos modelado la repetitividad de la distancia, tanto en régimen estático como

en dinámico, concluyendo que los factores que más influyen son la reflectancia y
el periodo de muestreo. Este modelo permite por tanto obtener una estimación del
ruido presente en la imagen de distancias a partir de la imagen de reflectancias, y
podrá ser utilizado en la restauración de aquella.
106 Capı́tulo 2: Estrategia de detección mixta . . . distancia y reflectancia
Capı́tulo 3

Restauración del mapa de

distancias: Filtrado adaptativo y
calidad de restauración

Resumen. En este capı́tulo presentamos la elaboración tanto de una nueva técnica de

restauración de imágenes como de una métrica que permite evaluar la eficiencia de los
métodos de restauración. Inicialmente revisamos diversas técnicas de preprocesamiento de
imágenes incluyendo procesos de realce y de restauración. Revisamos también algunos
métodos utilizados para evaluar diferentes algoritmos de restauración, poniendo de
manifiesto que es una tarea escasamente formalizada. Debido a la necesidad de utilizar
un método de evaluación que valore la fidelidad y la suavidad de una restauración,
desarrollamos la métrica GRI que es el resultado de combinar dos ı́ndices independientes
que valoran ambos factores de calidad de restauración. Utilizando la métrica recién
definida, clasificamos diferentes métodos de restauración concluyendo que los mejores
algoritmos encontrados, o bien no eliminan convenientemente el ruido, y por tanto no
existe suficiente suavidad en las superficies, o proporcionan suavidad pero degradan las
discontinuidades. Debido a ello presentamos nuestro propio método de restauración que
hemos denominado filtrado 3σ-MPF que se basa en un ajuste de planos multiresolución
que evoluciona de regiones grandes a pequeñas hasta encontrar un ajuste con fidelidad-
3σ. En el caso de que no se encuentre dicho ajuste se supone que estamos en una
discontinuidad y se aplica un filtro de preservación de bordes M T M . Hemos evaluado
esta técnica mediante la métrica GRI, realizando un comparación con otros algoritmos
de restauración, obteniéndose resultados siempre superiores del filtro adaptativo 3σ-MPF
ante degradaciones de ruido gausiano y gausiano-impulsional.

107
108 Capı́tulo 3: Restauración del mapa de distancias

En el capı́tulo anterior vimos cómo mediante un sistema de exploración por deflexión del
haz de un telémetro láser, éramos capaces de obtener una imagen de distancia y otra
de reflectancia. La imagen de distancia, obtenida utilizando el sensor láser configurado
para medir a 5.6 kHz, está contaminada de ruido gausiano aditivo con amplitudes entre
±2,4 mm y ±4,8 mm. Además, dicha imagen puede contener ruido impulsivo en lugares
donde la amplitud de la señal láser recibida es muy baja o donde aparezcan reflexiones
altamente especulares. Este tipo de ruido se caracteriza por valores de distancia alejados
de los valores reales, sin embargo solo suele afectar a porcentajes muy reducidos de la
imagen. La presencia de ambos tipos de ruido supone una desviación de los valores reales
frente a los capturados, lo cual redunda en la adquisición de una imagen degradada.
Es indudable que imágenes degradadas, presentan mayores dificultades a la hora de
extraer caracterı́sticas de sus datos, puesto que la información contaminada puede alejarse
significativamente de un determinado modelo asumido. En nuestro caso el modelo de
objetos a procesar corresponde a una esfera de radio medio en torno a 35-45 mm (naranjas).
Variaciones entre ±2,4 mm y ±4,8 mm suponen una degradación importante a la hora
de detectar formas y curvaturas en regiones reducidas, como es el caso de escenas con
árboles frutales donde debido a las oclusiones solo es visible parte de la superficie de
cada fruto. Por tanto, antes de comenzar realizando cualquier tipo de análisis sobre las
imágenes, necesitamos aplicar algún algoritmo de restauración eficiente. Debido a que
existe un gran rango dinámico en los mapas de profundidad con diversas superficies a muy
distintas distancias, lo cual genera discontinuidades muy abruptas en la transición de una
superficie a otra, este algoritmo debe ser capaz de eliminar la mayor cantidad de ruido y
a la vez preservar las discontinuidades significativas en la imagen. Esto es, el método de
restauración debe ofrecer suavidad y fidelidad.
Con el objetivo de aplicar la técnica de restauración más apropiada a nuestro
problema, comenzaremos realizando un repaso de las principales técnicas existentes de
preprocesamiento de imágenes.

3.1. Técnicas de preprocesamiento de imágenes

Existen dos grandes categorı́as en las que podemos encuadrar las diversas técnicas de
preprocesamiento existentes. La finalidad de cada una de estas categorı́as se define a
continuación:

Métodos de realce. La etapa de preprocesamiento está dirigida a aumentar la calidad

subjetiva de una imagen observada por un usuario humano, y a la vez, facilitar el
reconocimiento automático. No se pretende incrementar la fidelidad de la imagen
tratada respecto a una imagen ideal, cosa que se trata en la restauración, sino realzar
detalles inicialmente no apreciables.

Técnicas de restauración. La etapa de preprocesamiento se dirige a mejorar imágenes

digitales, degradadas por la existencia de ruido, y facilitar, por tanto, las etapas
sucesivas orientadas al reconocimiento automático. El objetivo de la restauración
3.1 Técnicas de preprocesamiento de imágenes 109

consiste en obtener una imagen lo más próxima a una imagen de referencia ideal, la
cual no contiene el ruido presente en la imagen degradada de origen.

En nuestro caso lo que queremos es eliminar el ruido aditivo presente en la imagen de

distancias y preservar todas las discontinuidades para no introducir errores en distancia
que afecten a la forma de las superficies o a la localización de los objetos. La imagen
restaurada queremos que sea lo más fiel posible a un mapa de profundidades ideal. Por
tanto el tipo de preprocesamiento que queremos realizar es una restauración de la imagen.
A continuación presentamos los métodos de preprocesamiento más destacados tanto en la
restauración como en el realce de imágenes.

3.1.1. Métodos de realce

Debido a que nuestro objetivo no está dirigido hacia el realce de una imagen, solamente
vamos a presentar de una manera ilustrativa las tendencias más destacadas en este campo,
lo cual nos permitirá apreciar con mayor claridad la diferencia de enfoque entre realce y
restauración.

[Link]. Transformaciones del histograma

Dada una imagen con diversos niveles de gris, podemos obtener su histograma, h, mediante
un gráfico donde, en abscisas, se representan los n niveles de gris que existen en la imagen
y en ordenadas se indica la frecuencia de aparición del nivel de gris correspondiente h(n).
Para imágenes digitales, el histograma corresponde a un diagrama de barras donde la
altura h(nk ) de cada una de ellas representa el número de puntos (pixels) con un nivel
de gris nk . Frecuentemente los niveles de gris nk son normalizados entre los valores 0 y
1, donde el cero se corresponde con la mı́nima intensidad o negro y el uno con el blanco
o máxima intensidad. En el caso de imágenes de distancia la normalización se realiza
asignando un 1 a la distancia máxima y un 0 a la distancia mı́nima, y si las imágenes son
de color el proceso es análogo con cada uno de los tres histogramas correspondientes a las
componentes espectrales RGB.
Las técnicas de realce presentadas en este apartado se basan en modificar el histograma
caracterı́stico de una imagen con la intención de aumentar su visibilidad. Para ello se
aplica una función sk = T (nk ) que transforma los niveles de gris iniciales nk en otra gama
de niveles sk . Estas son las estrategias habituales de conformación de histogramas:

Oscurecimiento. La transformación T (nk ) es de tipo cuadrática o cúbica, es decir,

T (nk ) = n2k ó T (nk ) = n3k . Ası́ se consigue aumentar el contraste en las zonas muy
luminosas oscureciendo las zonas menos luminosas.

Aclarado. La transformación T (nk ) es de tipo raı́z cuadrada o cúbica, es decir,

1/2 1/3
T (nk ) = nk ó T (nk ) = nk . Ası́ se consigue aumentar el contraste de las zonas
muy oscuras, aclarando las menos oscuras.
110 Capı́tulo 3: Restauración del mapa de distancias

Rx 2
2 e−y dy
Aumento de contraste. Aplicando la función error f er(x) = 0 √π , se puede
conseguir un aumento de contraste tanto en las zonas claras como en las oscuras. El
efecto final es la generación de un histograma bimodal, donde cada modo contiene
los tonos oscuros y los claros. La transformación viene dada por [135]:
√
f er( nk√−0,5
2
) + 2/4
T (nk ) = √ (3.1)
f er( 2/4)

Ecualización del histograma. La ecualización del histograma consiste en repartir

todos los niveles de gris de manera uniforme entre los puntos de la imagen. De esta
forma se obtiene un histograma plano. La transformación T (nk ) que se aplica debe
ser esta:
nk
X
T (nk ) = h(nj ) (3.2)
nj =0

Especificación del histograma. Este proceso consiste en aplicar una transformación

T (nk ) que permita obtener una imagen con un determinado histograma. El
procedimiento se divide en dos etapas, primeramente se realiza la ecualización del
histograma y a partir de este se aplica una transformación que permite modular el
histograma a la forma final deseada.

Transformaciones locales. Los anteriores métodos son globales, es decir, las

transformaciones de cada pixel se hace atendiendo a la distribución de tonos de
toda la imagen. Los métodos globales son apropiados para mejorar de un modo
uniforme la imagen, sin embargo, a veces es necesario resaltar detalles que aparecen
solo en regiones pequeñas de la imagen, y los métodos globales no pueden debido
a que la influencia en el histograma de una pequeña región no es significativa. La
solución está en dividir la imagen en diferentes regiones, y sobre cada una de ellas
aplicar una técnica basada en el histograma como las globales que acabamos de ver.

[Link]. Acentuado de bordes

Diversos estudios muestran que una imagen con los bordes acentuados es subjetivamente
más agradable de ver que una reproducción fiel de la escena [169]. El realce de los bordes
de una imagen puede ser realizado de diversas formas:

Enmascarado suavizado. Combinando linealmente un perfil, muestreado

espacialmente a alta resolución, con un perfil interpolado tras muestrear a baja
resolución (perfil suavizado), obtenemos un perfil resultante en cuyos bordes presenta
unas oscilaciones que visualmente producen un efecto de resaltado de los mismos.

Filtro paso-alto. Convolucionando máscaras de tipo paso-altas se obtiene igualmente

un efecto de acentuado de los bordes.
3.1 Técnicas de preprocesamiento de imágenes 111

Diferenciado estadı́stico. Básicamente consiste en dividir cada punto de la imagen

g(i, j) por la desviación estándar σ(i, j) en torno a su vecindario. Añadiendo un
factor de ganancia A, la media deseada md , la desviación estándar deseada σd y un
coeficiente de proporcionalidad α, la transformación que permite obtener una imagen
resaltada g ∗ (i, j), se puede expresar ası́:
µ ¶
∗ Aσd
g (i, j) = (g(i, j) − ḡ(i, j)) + αmd + (1 − α)ḡ(i, j) (3.3)
Aσ(i, j) + σd

Modificación de los coeficientes de las transformadas. Transformaciones como la

de Fourier o la de Hadamard generan una descomposición espectral de una imagen
en coeficientes caracterı́sticos de la imagen. Una técnica de resaltado consiste en
modificar la amplitud de los coeficientes de la transformación sin modificar la fase.
Si elevamos la amplitud a un exponente entre 0 y 1, estamos reduciendo en un alto
grado los coeficientes con mayor valor, mientras que los de menor amplitud no se
reducen tanto. El resultado es una redistribución de la energı́a que se traduce en una
visualización más agradable.

Cepstrum generalizado. Es una operación no lineal que consiste en realizar una

transformación como la de Fourier o Hadamard, aplicar el logaritmo a los coeficientes
y posteriormente realizar la transformada inversa para obtener de nuevo la imagen
en el dominio espacial. Debido a que normalmente las imágenes suelen contener
componentes de alta frecuencia de baja magnitud y componentes de baja frecuencia
de alta amplitud, al aplicar el logaritmo en el dominio de la transformación se produce
una ecualización que atenúa las componentes de baja frecuencia y por tanto provoca
un realce de los bordes de la imagen.

[Link]. Coloreado

El color es otra caracterı́stica que permite resaltar diferentes componentes en una imagen.
En este sentido existen dos técnicas básicas usadas para facilitar la visualización de una
imagen [169]:

Cambio de colores. La técnica consiste en la reconfiguración de los tonos de color

de una imagen que inicialmente tenı́a colores naturales. Existen varias razones por
las cuales puede ser interesante aplicar esta técnica. En primer lugar, cambiando
colores de fondo como el color del cielo a rojo o el color del césped a azul, el
observador va a prestar más atención a los objetos que si estuviesen coloreados
normalmente. El ojo humano es más sensible al color verde (555 nm), con lo cual
se podrı́a transformar ciertos colores que son tı́picos de algunos objetos, en colores
dentro de las bandas de alta sensibilidad para que dichos objetos sean más fácilmente
distinguibles. Finalmente, también puede ser interesante realizar transformaciones a
la banda del azul, pues en ella el ojo es más sensible a cambios de tonalidad y por
tanto se aumenta el contraste.
112 Capı́tulo 3: Restauración del mapa de distancias

Seudocolor. Esta técnica utiliza imágenes con tonos de gris y realiza una
transformación para generar una imagen en color, la cual es más agradable de
visualizar. Para ello se utilizan transformaciones lineales o no lineales, las cuales
se pueden visualizar como una trayectoria a través de un espacio tridimensional
RGB, donde el inicio de la trayectoria corresponde a la transformación aplicada a
los tonos negros y el final de la trayectoria indica la transformación que se aplica a
los tonos blancos.

3.1.2. Métodos de restauración

La restauración de señales o de imágenes constituye un área del conocimiento que tiene

un amplio historial. Es sin duda uno de los campos del procesamiento de la información
donde más aplicaciones se pueden encontrar, pues en todo proceso en el que intervenga
la captación, transmisión o transformación de información es habitual aplicar una etapa
de restauración para recomponer la información original degradada. Para presentar las
técnicas más significativas utilizadas en restauración, hemos hecho una clasificación
agrupándolas en cuatro clases: lineales, no lineales, adaptativas e iterativas. Algunos de
estos grupos pueden solapar con otros, como por ejemplo el caso de los adaptativos o los
iterativos que pueden ser tanto lineales como no lineales. Sin embargo, los hemos agrupado
en estas clases por presentar cada uno de ellos caracterı́sticas bien diferenciadas.
Con el objetivo de presentar los diferentes métodos de restauración con la mayor
consistencia posible, vamos a utilizar la siguiente notación:

(i, j) coordenadas de un punto de la imagen.

f (i, j) imagen ideal, la cual no tiene ruido.

g(i, j) imagen captada, la cual está degradada.

fˆ(i, j) estimación de la imagen ideal f (i, j) a partir de la imagen captada g(i, j). Es
el resultado de la restauración.

N × N tamaño de la imagen.

Vij conjunto de L puntos pertenecientes a un vecindario en torno al punto (i, j).

[Link]. Filtros lineales

Este tipo de filtros están basados en la teorı́a de sistemas lineales. La idea básica radica en
que normalmente las señales o imágenes a restaurar tienen un contenido espectral de baja
frecuencia, mientras que el ruido que las contamina está caracterizado por anchos de banda
mayores. La estrategia de filtrado consiste en eliminar las componentes de alta frecuencia
y quedarse con el resto. Este filtrado, que normalmente es paso-bajo, se puede hacer
tanto en el dominio de la frecuencia como es el dominio espacial aplicando la convolución,
siendo el efecto totalmente equivalente aunque no la eficiencia del cálculo. En principio
3.1 Técnicas de preprocesamiento de imágenes 113

1 1 2 2 2 1 1
1 2 2 4 2 2 1
2 2 4 8 4 2 2
2 4 8 16 8 4 2
2 2 4 8 4 2 2
1 2 2 4 2 2 1
1 1 2 2 2 1 1

Figura 3.1: Máscara gausiana para restauración de tamaño 7 × 7.

una convolución tiene una complejidad O(N 4 ), resultando menos eficiente que un filtrado
mediante transformada rápida de Fourier FFT O(N 2 × log(N )) [135]. Sin embargo, el
filtro diseñado en el dominio de la frecuencia se corresponde en el dominio espacial a un
filtro de tamaño N × N , el cual se puede aproximar por una máscara de tamaño muy
reducido n × n, con lo cual al aplicar la convolución se obtienen complejidades del orden
de O(N 2 × n2 ) que son menores que en el caso de la FFT. Realizando el filtrado mediante
convolución de máscaras reducidas se consigue mayor eficiencia computacional que cuando
se hace en el dominio de la frecuencia, especialmente cuando N À n [169]. En función de
la máscara utilizada para la convolución obtenemos las siguientes soluciones:

Media aritmética. Consiste en realizar un promediado entorno al vecindario de cada

punto de la imagen. Para ello se puede aplicar, [Link]., una máscara de tamaño 3 × 3
o 5 × 5 con todos los valores igual a 1/9 o 1/25, respectivamente.

Filtro Gausiano. En este caso la máscara utilizada tiene una distribución gausiana.
Para ello se utilizan como mı́nimo máscaras de tamaño 7 × 7 (fig. 3.1), pudiéndose
utilizar de mayor tamaño pero teniendo en cuenta que se va a producir un suavizado
con un alto efecto desfocalizador.

FIR (Finit Impulse Response). Es un filtro utilizado fundamentalmente en el

suavizado de señales unidimensionales que, eliminando su causalidad, puede aplicarse
a imágenes de una manera similar a los casos anteriores , es decir, convolucionando
una máscara que realiza un promedio ponderado sobre el vecindario de un punto.

En otros casos, la restauración puede hacerse sin utilizar máscaras de convolución que se
desplazan a lo largo de la imagen. Si disponemos de varias imágenes de la misma escena
que están degradadas por la adición de ruido con distribución normal, al promediarlas
obtenemos una imagen resultante que tiene un ruido cuya desviación estándar es menor que
la correspondiente a cada imagen individual. En concreto, la dependencia es inversamente
proporcional a la raı́z cuadrada del número M de imágenes promediadas:
σ
σpromedio = √ (3.4)
M

Otros filtros lineales, frecuentemente aplicados en el dominio de Fourier son el filtrado

inverso y los filtros de Wiener:
114 Capı́tulo 3: Restauración del mapa de distancias

Filtro inverso. Dada una imagen degradada g(i, j), que se ha generado al actuar un
sistema lineal degradante H(u, v) sobre una imagen ideal f (i, j), podemos reconstruir
la imagen ideal sin más que invertir la función degradante H(u, v) y aplicarla sobre
g(i, j). Es decir, en el dominio de Fourier tendrı́amos que la transformada de la
imagen reconstruida es: F̂ (u, v) = G(u, v)/H(u, v). Este método solo es correcto
cuando no existe ruido aditivo y la función degradante H(u, v) no tiene términos
igual a cero en alguna de sus componentes espectrales. Si esto se cumple, y por
supuesto se conoce con certeza al sistema lineal degradante H(u, v), se obtiene una
reconstrucción perfecta.
Sin embargo, si existe un cierto ruido N(u,v) en la imagen y si hay términos
de H(u, v) pequeños, se producen grandes valores en el espectro de la imagen
reconstruida F̂ (u, v) y por tanto se producen errores en la reconstrucción puesto
que el componente aditivo introducido por el ruido hace que F (u, v) y F̂ (u, v) se
hagan diferentes, como se puede ver en la siguiente ecuación:

G(u, v) N (u, v) N (u, v)

F̂ (u, v) = + = F (u, v) + (3.5)
H(u, v) H(u, v) H(u, v)

Otra limitación del filtro inverso estriba en la dificultad en determinar la naturaleza

exacta del proceso de degradación, es decir, la obtención de H(u, v). Además este
proceso de degradación no debe tener componentes iguales a cero, puesto que de ser
ası́, no es posible aplicar el filtro correctamente y se hace necesario recurrir a algunos
arreglos heurı́sticos.

Filtro de Wiener. En este caso se incorpora un conocimiento a priori del ruido

presente en la imagen que se da en términos de su densidad espectral WN (u, v). La
respuesta a un impulso del filtro de Wiener es calculada para minimizar el error
cuadrático medio, por ello a este filtro también se le conoce como filtro LMS (Least
Mean Square). La función de transferencia del filtro es esta:

H ∗ (u, v)
WN (u,v)
(3.6)
|H(u, v)|2 + WF (u,v)

En esta expresión se necesita utilizar una estimación de la degradación H(u, v), de

la densidad de potencia espectral del ruido WN (u, v) y de la imagen ideal WF (u, v).
En el caso de que no haya ruido podemos ver que el filtro de Wiener se convierte en
un simple filtro inverso, con lo cual se vuelve a ver que el filtro inverso solo se debe
aplicar cuando no hay ruido.

[Link]. Filtros no lineales

Una de las familias de filtros no lineales más representativas son los filtros de orden. La
técnica recibe este nombre debido a que siempre se realiza una ordenación de los valores
correspondientes al vecindario de un punto, y posteriormente se aplica una transformación
lineal. Si denominamos por ~vij al vector desordenado que contiene L puntos vecinos al
3.1 Técnicas de preprocesamiento de imágenes 115

punto (i, j), y a ~v(ij) al mismo vector pero con sus componentes ordenadas, podemos
representar la acción de un filtro de orden de la siguiente forma:

fˆ(i, j) = ~aT ~v(ij) (3.7)

donde ~aT es un vector que expresa el tipo particular de filtro de orden que se está utilizando.
Este vector debe ser simétrico y no debe producir desviaciones en la salida, es decir,
PL
i=1 ak = 1 y ak = aL−k . En función del vector ~
a utilizado podemos destacar los siguientes
filtros de orden [34]:

Mediana. Consiste en ordenar todos los valores y coger el del medio como estimación,
es decir, ~aT = [0 . . . 0 1 0 . . . 0]. El filtro de la mediana se caracteriza por eliminar
ruido impulsivo y preservar discontinuidades, siendo por tanto de naturaleza robusta
al no verse influenciado por la presencia de ciertos valores dispares muy alejados del
valor real. Sin embargo no realiza un suavizado satisfactorio cuando el ruido no es
impulsional.

Mediana ponderada. El efecto de dar más peso o influencia a unos valores que a
otros, se puede conseguir duplicando algunos valores, p. ej. aquellos que estén más
cerca del punto central del vecindario. Una vez hecho esto se aplica el filtro de la
mediana, con lo cual aumenta la probabilidad de que alguno de los puntos que se
han duplicado sean considerados como la mejor estimación.

Media truncada (Trimmed mean). Esta técnica combina las caracterı́sticas del filtro
de la mediana en cuanto a la supresión de ruido impulsional y preservar bordes,
con las propiedades de suavizado de ruido no impulsional de los filtros lineales
paso bajos. La idea consiste en eliminar los extremos del vector ordenado ~v(ij) y
aceptar como estimación el promedio de los valores centrales no eliminados. Es decir,
1 1
~aT = [0| .{z
. . 0} L−2M . . . L−2M 0| .{z
. . 0}].
M M

Rango medio. En este caso se promedian solamente los extremos del vector ordenado
~v(ij) , con lo cual ~aT = [1/2 0 . . . 0 1/2]. Este filtro puede ser una estimación más
eficiente que la media cuando la distribución del ruido tiene colas ligeras y suaves.

Filtro de orden de mı́nima varianza (Minimum Variance Unbiased-MVUB).

Suponiendo que hay un ruido estacionario de media cero, podemos plantear la
minimización de la varianza del error respecto al promedio del vecindario. Si
denominamos R a la matriz de autocorrelación de las medidas de ruido ordenado,
−1~
podemos definir el vector ~aT como ~1TRR−11~1 [34].

Otro grupo de filtros no lineales son los filtros morfológicos, los cuales tienen versiones tanto
para imágenes binarias como para aquellas con un rango completo de valores. Funcionan
aplicando un elemento estructurante, o máscara de forma definible y que normalmente es
una ventana cuadrada 3 × 3, sobre toda la imagen realizando operaciones binarias entre el
elemento estructurante y los puntos de la imagen correspondientes. En el caso de imágenes
116 Capı́tulo 3: Restauración del mapa de distancias

no binarias se aplican funciones como el máximo y el mı́nimo. Estos son algunos de los
operadores:

Erosión. Si alguno de los puntos de la imagen bajo el elemento estructurante B

vale 0, entonces el punto bajo consideración se hace cero, en caso contrario vale 1.
En una imagen no binaria la erosión se obtiene aplicando la función mı́nimo sobre
los puntos de la imagen cubiertos por el elemento estructurante. El efecto visual
obtenido es precisamente de erosión de los contornos de los objetos en la imagen, de
ahı́ su nombre.
Y
fˆ(i, j) = Erosión(g(i, j)) = g(i + x, j + y) (3.8)
x,y∈B

fˆ(i, j) = Erosión(g(i, j)) = mı́n g(i + x, j + y) (3.9)

x,y∈B

Dilatación. El efecto es el de una dilatación o crecimiento de los objetos, para lo

cual se aplica un XOR o la función máximo.
M
fˆ(i, j) = Dilatación(g(i, j)) = g(i + x, j + y) (3.10)
x,y∈B

fˆ(i, j) = Dilatación(g(i, j)) = máx g(i + x, j + y) (3.11)

x,y∈B

Cierre. Es una dilatación seguida de una erosión. Se llama cierre puesto que
los pequeños agujeros dentro de los objetos quedan rellenados y los objetos muy
próximos quedan unidos.

fˆ(i, j) = Cierre(g(i, j)) = Erosión(Dilatación(g(i, j))) (3.12)

Apertura. Es una erosión seguida de una dilatación. En este caso objetos alargados
con algunos agujeros o semicortes quedan fraccionados y separados, de ahı́ su nombre.
Igualmente objetos pequeños compuestos de unos pocos puntos desaparecen.

fˆ(i, j) = Apertura(g(i, j)) = Dilatación(Erosión(g(i, j))) (3.13)

Además de los filtros de orden y los morfológicos existen muchos más filtros no lineales
aplicados en la restauración de imágenes o señales. A continuación citamos algunos:

Filtrado homomórfico. Este tipo de filtro es adecuado cuando existe ruido

multiplicativo en la imagen, es decir, g(i, j) = f (i, j) · h(i, j). La técnica consiste
en aplicar una transformación no lineal como el logaritmo neperiano para conseguir
que el término que corresponde al ruido quede relacionado mediante una adición al
término que contiene la imagen sin degradar f (i, j).

log g(i, j) = log f (i, j) + log h(i, j) (3.14)

De esta forma se pueden aplicar filtros lineales para separar ambas componentes
y posteriormente mediante una exponenciación se puede recuperar la imagen
restaurada la cual ya no contiene la degradación multiplicativa.
3.1 Técnicas de preprocesamiento de imágenes 117

Filtro de histéresis. Este tipo de filtro elimina fluctuaciones pequeñas, preservando

la estructura de las principales transiciones. Funciona como un proceso con histéresis
donde hay tantos estados como niveles de gris en la imagen. Una vez que estamos en
un estado para salir de él será necesario que se produzca una variación significativa
del valor de gris superior a un umbral determinado; si no es ası́, el estado o valor de
salida quedará inalterado y por tanto se eliminan las pequeñas fluctuaciones.

Media armónica. Este filtro no lineal es adecuado para eliminar ruido gausiano,
preservar bordes y a la vez eliminar ruido impulsional de tipo positivo. Considerando
que vij es el vecindario de tamaño L entorno al punto (i, j), podemos definir el filtro
ası́:
L
fˆ(i, j) = P 1 (3.15)
x,y∈Vij g(i+x,j+y)

Media contra-armónica. Como en el caso anterior, este filtro es adecuado para

eliminar ruido gausiano, preservar bordes y a la vez eliminar ruido impulsional. Si
el parámetro P es positivo eliminará ruido impulsional negativo y si P es negativo
eliminará los impulsos positivos.
P
x,y∈V ij g(i + x, j + y)P +1
fˆ(i, j) = P P
(3.16)
x,y∈Vij g(i + x, j + y)

Media Yp . Presenta las mismas caracterı́sticas que la media contra-armónica.

 1/P
 X g(i + x, j + y)P 
fˆ(i, j) = (3.17)
 L 
x,y∈Vij

Media geométrica. Es otro tipo de filtros de promedio no lineal que se define como
el producto de L puntos pertenecientes al vecindario elevados a 1/L. Es adecuado
para eliminar ruido gausiano y preservar bordes, pero se ve afectado por impulsos
negativos. Y
fˆ(i, j) = g(i + x, j + y)1/L (3.18)
x,y∈Vij

Otra gama de técnicas de restauración procede del análisis por ondı́culas (wavelets).
Una ondı́cula o wavelet es una onda de una duración limitada y con una media cero.
La transformada de ondı́culas consiste en realizar una convolución de una ondı́cula a
diferentes escalas y en diferentes posiciones respecto a la señal a transformar. El resultado
de esta transformación es un espacio escala-tiempo o escala-posición que contiene los
coeficientes que caracterizan a la señal. Cada coeficiente indica lo mucho que se parece
una ondı́cula de una determinada escala a la señal en un determinado lugar de esta. A
diferencia de la transformada de Fourier donde no se sabe la localización en el tiempo
de las componentes de una determinada frecuencia, o de la representación en el tiempo
donde se puede ver la localización pero no la frecuencia de una señal, la transformada
de ondı́culas permite determinar la escala (o frecuencia) que existe en una determinada
localización espacial o temporal. Por tanto podemos decir que la transformación permite
118 Capı́tulo 3: Restauración del mapa de distancias

disponer de la información contenida en la señal de una forma más utilizable y manejable

[142].
La idea básica del filtrado utilizando la transformada de ondı́culas es similar al utilizado
en las transformadas de Fourier. Se asume que el ruido tiene componentes de poca energı́a
o amplitud y se da a escalas reducidas, por tanto el método consiste en eliminar los
coeficientes de menor amplitud aplicando un umbral en los coeficientes correspondientes
a las escalas refinadas de la señal. Posteriormente se realiza la transformada inversa
reconstruyendo la señal que ha perdido parte del ruido. El problema del filtrado con
ondı́culas está en que no eliminan ruido impulsional y existe un enorme rango de familias
de ondı́culas, no siendo evidente determinar cual de ellas es la más adecuada para una
aplicación [35].
También se han aplicado redes neuronales en la eliminación de ruido de imágenes. Greenhill
y Davies [69], utilizan una red neuronal de tres capas, con una capa de entrada de tamaño
5 × 5 y una sola neurona en la salida. La red neuronal se debe mover a través de toda
la imagen obteniéndose en cada posición el valor restaurado correspondiente al pixel
actual. Los resultados son bastante dependientes del tipo de imágenes y del tipo de ruido
presente en las imágenes utilizadas para el aprendizaje. Además, en casos prácticos en los
que las imágenes deseadas no están disponibles, el entrenamiento se hace con imágenes
filtradas con otros métodos de restauración, limitando la capacidad de filtrado neuronal a
la capacidad de suavizado de la técnica de restauración utilizada para generar las imágenes
de referencia. Varona y Villanueva [210], obtienen también resultados semejantes.

[Link]. Suavizado adaptativo

Los filtros adaptativos son aquellos que presentan diferentes comportamientos cuando
actúan ante discontinuidades que cuando lo hacen ante secciones continuas. Dentro de
los filtros adaptativos, podemos encontrar dos soluciones: aquellos que utilizan métodos
iterativos para ir realizando el filtrado y aquellos que solamente utilizan una iteración.
A continuación veremos las técnicas de filtrado más relevantes, que solo requieren una
iteración y que por tanto son más eficientes computacionalmente:

Eliminación de impulsos por contraste (CDOR). Este filtro mide si el punto a filtrar
está demasiado alejado del promedio de un vecindario de centro borrado (vecindario
sin el punto central). Si esto es ası́ significa que el punto es un impulso indeseable
y por tanto el valor restaurado es la media del vecindario de centro borrado ğ(i, j).
Si por el contrario hay proximidad entre el punto g(i, j) y ğ(i, j), entonces no se
produce ningún filtrado. Esta es la expresión que describe el filtro CDOR (Contrast-
dependent outlier removal)
(
g(i, j) si | g(i,j)−ğ(i,j) |<T
fˆ(i, j) = σ̆ (3.19)
ğ(i, j) en otro caso
donde es necesario seleccionar un umbral definido T y calcular la varianza del
vecindario de centro borrado σ̆.
3.1 Técnicas de preprocesamiento de imágenes 119

Eliminación suavizada de impulsos por contraste (SCDOR). Este filtro es una

variación del anterior donde la decisión entre no filtrar y filtrar no se hace de
una forma discreta sino de una forma suave. Por tanto el valor restaurado es una
combinación del valor de entrada g(i, j) y del promedio del vecindario de centro
borrado ğ(i, j).

Pesado inverso al gradiente (GIW). La idea de este filtro radica en que los puntos
del vecindario deberı́an contribuir en la reconstrucción de un punto en función de lo
cerca que se encuentren de él. Para ello se utilizan unos pesos w(i, j, x, y) que miden
esta distancia:

 1/2 si x = 0 y y = 0
w(i, j, x, y) = P (3.21)
 0,5/ (1/max(0,5,|g(i+x,j+y)−g(i,j)|)) en otro caso
max{0,5,|g(i+x,j+y)−g(i,j)|}
X
fˆ(i, j) = w(i, j, x, y)g(i + x, j + y) (3.22)
x,y

Media del vecindario seleccionado (SNA). Esta técnica, a diferencia de aquellas

que utilizan ventanas o vecindarios centrados respecto al punto de la imagen que
queremos filtrar, utiliza para realizar el filtrado de un punto todos los posibles
vecindarios que contienen a ese punto. Por ejemplo con un vecindario 3 × 3, dado
un punto, tenemos que hay nueve vecindarios 3 × 3 que lo contienen. Si calculamos
la varianza y la media de cada uno de los nueve vecindarios y nos quedamos con
el valor medio del vecindario con menor varianza, entonces estamos realizando un
filtrado SNA (Selected Neighborhood Averaging). Este filtro tiene la caracterı́stica
de que nunca promediará puntos que estén en lados diferentes de un borde, pues en
este caso la varianza es alta y se elegirá otra región de menor varianza para realizar
el promediado. Por tanto, esta técnica asume que cada punto en la imagen pertenece
a una región homogénea y dicha región puede ser cubierta por un vecindario que
está completamente dentro de esta región [73].

Filtro sigma. El filtro sigma mira a los puntos en un vecindario de g(i, j) y realiza un
promedio de solo aquellos que están dentro de un intervalo ±2σ centrado en g(i, j).
(
(i + x, j + y) ∈ vij
fˆ(i, j) = ḡ(i + x, j + y) ∀ x,y
g(i, j) − 2σn < g(i + x, j + y) < g(i, j) + 2σn
(3.23)
Experimentos realizados por Lee [128] indican que el filtro sigma se comporta mejor
ante ruido gausiano que el filtro GIW, la mediana y la media SNA. Este aspecto
también lo hemos podido comprobar nosotros [109] aplicando una métrica para medir
la calidad de restauración, como presentaremos más adelante en la sección 3.2.

MSME. El filtro MMSE (Minimun Mean Square Error), introducido por Lee [126],
hace uso del conocimiento de la varianza local σl para determinar si se debe realizar
120 Capı́tulo 3: Restauración del mapa de distancias

un filtrado promedio o se debe dejar intacta la imagen. Esta capacidad adaptativa

queda claramente reflejada en su correspondiente expresión matemática:
σl σn
fˆ(i, j) = g(i, j) + ḡ(i, j) (3.24)
σl + σn σl + σn
donde σn es la varianza estimada del ruido presente en la imagen y ḡ(i, j) es el
promedio en torno a un vecindario del punto g(i, j). En las zonas planas de la
imagen las dos varianzas deben ser similares con lo cual el filtro tiende a ser un
promedio aritmético. Sin embargo en las regiones con discontinuidades σl va a ser
mucho mayor que σn con lo cual el filtro tiende a ser fˆ(i, j) = g(i, j), es decir, en los
bordes el filtro no actúa, con lo cual se preservan las discontinuidades pero también
se deja pasar el ruido.

MSME Mejorado. Lee [127] mejora el método MSME presentado por él mismo [126],
incrementando el suavizado de los puntos cercanos a las discontinuidades. Para ello
se calcula la dirección del borde y se promedia solo con aquellos puntos del vecindario
que están al mismo lado del borde que el punto central.

Ajuste en regiones sin discontinuidades. Grimson [70] plantea un método de

restauración de regiones homogéneas dentro de imágenes de distancia, basado en
detectar primero las discontinuidades en la imagen y posteriormente realizar un
ajuste individualizado de las regiones aisladas por las discontinuidades. La idea de
esta técnica se basa en que no se deben realizar ajustes de funciones sobre imágenes
que constan de diversas superficies entre las cuales hay saltos, sino que los ajustes
se deben hacer de forma individualizada sobre cada una de las regiones continuas
de la imagen. Inicialmente se realiza un ajuste aproximado de toda la imagen y a
partir de los residuos generados, que serán mayores en los bordes que en las zonas
homogéneas, detecta las discontinuidades. En la imagen de residuos los pasos por cero
son utilizados para detectar la correcta localización de los bordes, sin embargo, surgen
problemas al aparecer pasos por ceros adicionales debidos a puntos de inflexión en
la imagen a restaurar o ruidos significativos comparados con las discontinuidades
entre regiones. Además las discontinuidades detectadas no son puntuales y tienen
un cierto tamaño, especialmente en los bordes que no son escalones puros, con lo
cual surge el problema de cómo conectar las diversas regiones aisladas entre sı́. En
la figura 3.2 podemos ver que en la conexión entre las cuatro regiones de que consta
la imagen restaurada existe una apreciable degradación.

Media truncada modificada con doble ventana (DW-MTM). El filtro DW-MTM

(Double Window-Modified Trimmed Mean), fue introducido para superar las
dificultades que presenta el filtro M M SE ante ruido impulsional [149]. Se utiliza una
nueva estimación de la media utilizando el promedio en un rango limitado entorno a
la mediana. La introducción de la mediana elimina el ruido impulsional y por tanto se
mejora las caracterı́sticas del filtro promedio en presencia de este ruido. Inicialmente
se calcula la mediana en un vecindario vij de tamaño n×n, y a partir de este valor se
realiza una media truncada pero diferente que la vista en los filtros de orden, por eso
se llama media truncada modificada M T M . La técnica M T M realiza un promedio
3.1 Técnicas de preprocesamiento de imágenes 121

a) b)

Figura 3.2: Restauración mediante el método de Grimson [70]. a) Superficie degradada b)

Superficie restaurada.

de los puntos en una ventana de tamaño q × q (q > n), que están incluidos en un
intervalo simétrico en torno al punto estimado anteriormente mediante la mediana.
Este intervalo viene definido por un factor proporcional k a la desviación estándar
σn del ruido esperado. Matemáticamente podrı́amos expresar el filtro DW-MTM de
la siguiente forma


 −q/2 < x < q/2


 −q/2 < y < q/2
fˆ(i, j) = ḡ(i + x, j + y) ∀ x,y (3.25)

 g(i + x, j + y) > med(vij ) − kσn


 g(i + x, j + y) < med(v ) + kσ
ij n

Filtrado escala-espacio. Witkin [215] introduce la técnica conocida como filtrado

escala-espacio (scale-space filtering). El método produce una representación de una
señal a diferentes escalas, la cual es utilizada para realizar la restauración de la señal
conservando las formas más destacables. Inicialmente se realiza la convolución de la
señal con una máscara gausiana a diferentes escalas (diferentes σ), obteniéndose una
imagen escala-espacio. La detección de los pasos por cero de la segunda derivada en
la imagen escala-espacio, permite obtener una imagen con los puntos de inflexión. A
partir de esta imagen, se genera un árbol de rectángulos que describe la señal a lo
largo del tiempo (o espacio) y a diferentes escalas (fig. 3.3). Los rectángulos largos
en el eje de la escala, representan zonas limitadas por dos bordes que persisten al
variar la escala, por tanto, son consideradas zonas representativas de la señal. Estas
secciones de la señal son aproximadas mediante el ajuste de curvas parabólicas.
La detección de los bordes persistentes que delimitan las regiones representativas
es el aspecto más delicado del método y varios criterios de estabilidad pueden ser
utilizados.

Suavizado adaptativo multiresolución (MAS). Meer [140] presenta la técnica de

restauración conocida como MAS (Multiresolution Adaptive Smoothing), donde
por cada punto se busca la ventana centrada más grande que contenga una región
plana y constante. El criterio para determinar la región que cumple esto se obtiene
122 Capı́tulo 3: Restauración del mapa de distancias

Figura 3.3: Método de restauración espacio-escala de Witkin [215]. a) Perfil degradado, b)

Árbol de rectángulos, c) Perfil restaurado.

comparando una medida de homogeneidad local con una medida global. Si una
ventana es declarada homogénea, al punto central se le asigna el valor promedio
de la ventana. Si no se encuentran regiones homogéneas, entonces estamos sobre
una discontinuidad y se aplica el método de suavizado adaptativo con preservación
de bordes MSME de Lee [126]. El trabajo de Meer muestra una comparación del
filtro MAS con otros métodos iterativos. En particular, realiza la comparación con
los métodos iterativos de Saint-Marc y Perona [178, 162] para el caso de una sola
iteración, y mediante criterios visuales determina que el filtro MAS se comporta
apreciablemente mejor. A pesar de los buenos resultados, el método presenta algunas
limitaciones ya que al utilizar un filtro MSME en presencia de discontinuidades, no
hay suavizado en puntos próximos a bordes. Además, la presencia de pendientes
en las superficies hace que la máscara de promediado se reduzca mucho en esos
puntos, debido a que la varianza local de una región inclinada es mayor que la de
una horizontal, generando suavizados pobres en este tipo de superficies.

[Link]. Suavizado adaptativo iterativo

Dentro de los filtros iterativos, uno de los primeros trabajos descritos en la literatura
de visión artificial, es el suavizado basado en el modelo facetado de Haralick y Watson
[74]. Por cada punto de la imagen, se realiza un conjunto de 9 ajustes de una superficie
polinómica a los puntos contenidos en una ventana 3 × 3 situada en las nueve posibles
posiciones conteniendo al pixel bajo consideración. De los nueve ajustes, aquel con menor
residuo es utilizado para generar el valor restaurado. Siguiendo esta aproximación, los
3.1 Técnicas de preprocesamiento de imágenes 123

valores restaurados provienen de ajustes a regiones homogéneas, y de esta forma, en las

proximidades de las discontinuidades las zonas correspondientes a saltos no intervienen en
la restauración y por tanto los bordes tienden a preservarse.
Saint-Marc [178] calcula el módulo del vector gradiente en cada punto de la imagen,
y a partir de este valor, genera los pesos de una máscara de tamaño 3 × 3 cuyos valores
cambian al mover la máscara por la imagen. Los coeficientes de la máscara reflejan el grado
de continuidad de la señal. Cuando mayor sea el gradiente, mayor probabilidad existe de
que haya una discontinuidad, y por tanto, menor será el peso de la máscara para evitar
que ese punto contribuya. Por el contrario, en zonas homogéneas, la máscara obtenida
también se homogeneiza con lo cual su acción se traduce en un simple promediado sobre
el vecindario. El proceso iterativo converge después de más de 250 iteraciones, requiriendo
tiempos de 700 segundos en imágenes 100×100. Las superficies suaves degeneran en planos
horizontales, con lo cual si se quiere preservar superficies planas con una cierta pendiente,
es necesario trabajar con la derivada de la imagen.
Yu [218] presenta un método robusto de segmentación y restauración de imágenes conocido
como RESC (Residual Consensus). El proceso iterativo va cogiendo conjuntos de puntos de
la imagen de forma aleatoria, con ellos, ajustando una superficie a los puntos, construye
tantos histogramas de residuos como conjuntos seleccionados. Por cada histograma de
residuos detecta aquel ajuste con un mayor número de puntos en el histograma y cuya
suma de residuos sea mı́nima. Si se cumple esta condición significa que hemos cogido un
grupo de puntos que difiere poco de la superficie ajustada, con lo cual el ajuste es correcto
y podemos coger los parámetros de la función para realizar una restauración, segmentación
o una reconstrucción. Este proceso se repite hasta que no quedan más puntos por elegir
de forma aleatoria. El método RESC presenta sustanciales mejorı́as al ser comparado con
las técnicas LMS y RANSAC.
Perona y Malik [162], realizan el filtrado basándose en la ecuación de difusión de calor
(ec. 3.26), pero utilizando barreras aislantes definidas mediante diferencias de puntos en el
vecindario. Estas barreras detienen la difusión del calor (o suavizado de las superficies) en
las discontinuidades de la imagen. Sin embargo, es conocido que el promediado iterativo
es un proceso equivalente a la difusión de calor, por tanto, la aproximación planteada
por Saint-Marc [178] o la de Perona y Malik [162], conducen finalmente a soluciones muy
similares. Trucco [202] plantea el problema de restauración como un problema de difusión,
resolviendo la ecuación de difusión bajo ligaduras de conservación de la energı́a en los
bordes para preservar las discontinuidades.

∂calor
= b · ∇2 calor donde calor(i, j, t = 0) = g(i, j) (3.26)
∂t

Umasuthan y Wallace [204], presentan un método de filtrado adaptativo que aplican

a la restauración de imágenes de distancia captadas por una técnica de triangulación
láser. El método consta de dos etapas, la primera utiliza la técnica robusta de estimación
MLMS (o mediana del error cuadrático mı́nima) que permite eliminar el ruido impulsional.
La segunda etapa utiliza un suavizado no isotrópico con preservación de bordes, que
124 Capı́tulo 3: Restauración del mapa de distancias

está inspirado en el trabajo de difusión de Perona [162], utilizando el gradiente de la imagen

desfocalizada mediante un filtro gausiano en el cálculo de la presencia de discontinuidades
para frenar la difusión. El algoritmo tiene tres parámetros de control: el coeficiente de
conducción, el tamaño del núcleo de suavizado y el tiempo de finalización del algoritmo,
debiéndose de elegir los valores más adecuados para llegar a un compromiso en el suavizado
obtenido, la preservación de bordes y el tiempo de cómputo.

3.2. Evaluación de la calidad de restauración

A pesar de las diferentes técnicas de restauración publicadas, a la hora de elegir una de

ellas para utilizarla en una determinada aplicación, surge el problema de cómo seleccionar
la mejor de ellas. En las comparaciones que se hacen entre diferentes métodos, en muchos
casos la evaluación de los resultados se hace de forma manual observando visualmente
los resultados de las distintas técnicas. Debido a que esta evaluación es muy subjetiva
e imprecisa, ya que la evaluación visual capta fundamentalmente la inteligibilidad de la
imagen pero no su fidelidad respecto a otra considerada como ideal, se hace necesario la
utilización de métricas analı́ticas que valoren la calidad de una restauración sin recurrir a
la inspección visual. Además estas métricas no solo pueden ser utilizadas para evaluar sino
también para la fase de diseño de una etapa de preprocesamiento como la restauración.
Entre las principales métricas analı́ticas podemos destacar las siguientes [169]:

Strehl. Esta métrica es simplemente una medida de la reducción de contraste de

una imagen reconstruida fˆ(i, j) al compararla con otra ideal f (i, j). La métrica en
realidad realiza una evaluación de tipo subjetivo que encaja con una calificación
visual. R∞ R∞
−∞ F̂ (u, v)dudv
Q = R−∞ ∞ R∞ (3.27)
−∞ −∞ F (u, v)dudv

Correlación cruzada. Es una medida de la proximidad entre las imágenes fˆ(i, j) y

f (i, j). Sin embargo, esta medida da buenos resultados incluso cuando la imagen
f (i, j) está degradada por un filtro paso bajo y tiene una baja calidad de tipo
subjetivo.
R∞ R∞
F (u, v)F̂ ∗ (u, v)dudv
Q = −∞ R ∞−∞R∞
2
(3.28)
−∞ −∞ |F (u, v)| dudv

Error absoluto medio.

P P
i j |f (i, j) − fˆ(i, j)|
E= P P (3.29)
i j1

Error relativo medio.

P P |f (i,j)−fˆ(i,j)|
i j f (i,j)
E= P P (3.30)
i j 1
3.2 Evaluación de la calidad de restauración 125

Perfil ideal
Reconstrucción

a) Reconstrucción ruidosa b) Reconstrucción suave

Figura 3.4: Ejemplo de dos reconstrucciones con el mismo error cuadrático medio

Error cuadrático medio.

P P
i j {f (i, j) − fˆ(i, j)}2
E= P P (3.31)
i j1

Diferencia media de normales [204].

P P
i j | arc cos(~nf · ~nfˆ)|
¯n =
d~ P P (3.32)
i j 1

Las métricas analı́ticas más frecuentemente utilizadas son el error cuadrático medio y el
error absoluto. Sin embargo, ambos métodos contemplan solamente la desviación local
entre los puntos de la imagen reconstruida y de la imagen ideal, pero no considera la
disposición de un punto en relación con los de su vecindario. La figura 3.4 muestra un
claro ejemplo donde dos reconstrucciones que no deberı́an ser consideradas con la misma
calidad de restauración, sin embargo, tienen el mismo error cuadrático medio.
¯n mide que la orientación de las superficies sea la misma en la imagen ideal y
La métrica d~
la restaurada, y por tanto si la superficie ideal es suave premiará aquellas superficies que
también lo sean. Sin embargo, como norma general no mide la fidelidad en términos de la
separación entre la imagen ideal y la restaurada, y dos superficies perfectamente paralelas
separadas por un desplazamiento constante no es posible detectarlo con esta métrica de
forma aislada.
Otros métodos de evaluación se basan en la observación de los resultados después de pasar
la imagen restaurada por alguna etapa posterior de procesamiento, como una extracción
de bordes o una votación en un espacio paramétrico de Hough. Sin embargo en este caso
se corre el riesgo de elegir un método de restauración que funciona óptimamente siempre y
cuando se mantengan fijas las etapas posteriores de procesamiento con las que se realizó la
evaluación. Por tanto, si el sistema de procesado se modifica, la etapa de restauración no
tiene por qué seguir siendo la más adecuada y por tanto el método está muy fuertemente
ligado con una determinada aplicación.
En vista de la falta de estandarización y poca fiabilidad para determinar la fidelidad
de una restauración mediante los métodos actuales, vemos la necesidad de definir una
métrica analı́tica que nos dé una medida objetiva que nos establezca un criterio para
poder seleccionar el mejor método de restauración dentro de un conjunto de posibles
126 Capı́tulo 3: Restauración del mapa de distancias

candidatos. A continuación presentaremos una métrica que considera tanto los residuos
puntuales como las relaciones entre puntos, para valorar positivamente a aquellas técnicas
que no introducen distorsiones y además suavizan las superficies.

3.2.1. Definición de una nueva métrica de calidad de restauración: GRI

El error cuadrático medio o el error absoluto medio son excelentes métricas para medir la
desviación de la señal restaurada frente a la señal original. En zonas donde un borde
no se preserva o un ruido impulsional no es eliminado aparece un residuo elevado,
con lo cual ambas métricas penalizan las distorsiones no eliminadas por el método de
restauración. La evaluación visual permite medir de una forma poco fiable las distorsiones
en discontinuidades, sin embargo capta mejor la textura fı́sica de las superficies continuas.
Si las superficies homogéneas contienen aún ruido sin eliminar, la apreciación visual no
será positiva. Esta misma valoración de la suavidad se podrı́a hacer utilizando la métrica
que mide la diferencia en las normales, sin embargo, en las regiones suaves en las que no
se preservan adecuadamente los bordes se produce una fuerte penalización debido a la
pérdida de paralelismo entre las superficies restaurada e ideal. Esto hace que esta métrica
no solo mida suavidades sino que también en determinadas regiones mide fidelidades y por
tanto es más difı́cil de interpretar.
La idea principal de la métrica que vamos a presentar, combina las caracterı́sticas de las
evaluaciones visuales que captan la suavidad o rugosidad, con la de evaluaciones basadas
en residuos que focalizan su atención en la fidelidad. Por tanto, nuestra métrica va a tratar
de valorar positivamente la fidelidad en la preservación de discontinuidades, y a la vez,
la suavidad o ausencia de rugosidad en las zonas que deben ser homogéneas. Para ello
vamos a combinar dos métricas que miden de forma aislada e individual la fidelidad y la
suavidad.
Para medir la fidelidad en la restauración, y en particular la preservación de
discontinuidades, definimos la métrica de fidelidad de restauración FI (Fidelity Index)
mediante una exponencial del promedio de los errores absolutos entre la imagen ideal
f (i, j) y la imagen restaurada fˆ(i, j) (ec. 3.33). El motivo de utilizar la función no lineal
“exponencial negativa” se debe por un lado a que normaliza el ı́ndice de medida entre 0
y 1, y por otro a que aumenta la capacidad de discriminación en los valores próximos a
1 y hace lo contrario en los valores con alto residuo a los cuales les corresponde siempre
valores muy próximos a cero, con lo cual se agrupa todas las técnicas con preservaciones
malas, muy malas ó pésimas en un mismo grupo que indica que todas ellas son inadecuadas
(F I ' 0).

³P ´
N,N
− i,j=1
|f (i,j)−fˆ(i,j)| /N 2
FI = e (3.33)

Para medir el suavizado de la imagen, utilizamos la exponencial de un factor de rugosidad

ξ, con lo que la métrica SI (Smoothing Index) la definimos ası́:
3.2 Evaluación de la calidad de restauración 127

n f (i − 1, j ) n f (i , j )

dα fx
f
n f (i , j )
n f (i − 1, j )

dα fx
f

Figura 3.5: Incrementos angulares entre las normales de puntos vecinos en la dirección x
para un perfil ideal y el mismo restaurado.

SI = e−ξ (3.34)

El término que mide la rugosidad, ξ, se obtiene realizando el promedio de las

diferencias entre los incrementos angulares dα, correspondientes al cambio de las normales
superficiales de dos puntos vecinos tanto para la imagen ideal como para la reconstruida
(fig. 3.5). Como consecuencia lo que estamos midiendo con ξ es básicamente la fluctuación
media de las normales de la imagen restaurada, ya que en el caso de la imagen ideal esta
fluctuación debe ser nula si asumimos que una superficie ideal es suave y por tanto sin
rugosidad. Los incrementos angulares de los vecinos en las direcciones perpendiculares x
e y , los calculamos mediante las siguientes ecuaciones:

Ã !
n~f (i, j) · n~f (i − 1, j)
dαf x = arc cos (3.35)
kn~f (i, j)k · kn~f (i − 1, j)k
Ã !
n~f (i, j) · n~f (i, j − 1)
dαf y = arc cos (3.36)
kn~f (i, j)k · kn~f (i, j − 1)k
Ã !
n~fˆ(i, j) · n~fˆ(i − 1, j)
dαfˆx = arc cos (3.37)
kn~fˆ(i, j)k · kn~fˆ(i − 1, j)k
Ã !
n~fˆ(i, j) · n~fˆ(i, j − 1)
dαfˆy = arc cos (3.38)
kn~fˆ(i, j)k · kn~fˆ(i, j − 1)k

De esta forma, definimos el factor de rugosidad ξ, mediante la siguiente expresión:

 
N,N
X
ξ= (dαfˆx − dαf x ) · (dαfˆx ≥ dαf x ) + (dαfˆy − dαf y ) · (dαfˆy ≥ dαf y ) /(2N 2 )
i,j=1
(3.39)
128 Capı́tulo 3: Restauración del mapa de distancias

en donde los términos condicionales dαfˆx ≥ dαf x y dαfˆy ≥ dαf y aparecen para no
considerar los incrementos angulares en las zonas de transición de la imagen ideal como
si fuesen posibles rugosidades, con lo cual la rugosidad en la imagen restaurada solo se
calcula en las zonas donde la imagen ideal sea continua.
Nótese que los valores de ambas métricas, FI y SI, están acotados entre 0 y 1.
Correspondiendo un valor de 1 para el caso de fidelidad y suavizado perfectos, mientras que
valores próximos a cero indican una mala calidad en la reconstrucción. La integración de
las dos métricas en una única que mida la calidad de reconstrucción global contemplando
tanto fidelidad como suavizado de una forma conjunta, la podemos obtener aplicando una
media geométrica de los ı́ndices FI y SI :
√
GRI = F I · SI (3.40)

donde GRI es la métrica que indica la calidad global de restauración (Global Restauration
Index), que sigue teniendo un rango de valores posibles entre 0 y 1. Técnicas de restauración
con buenas calidades de suavizado, pero mala preservación de bordes presenta un FI
cercano a cero y un SI cercano a 1. Un simple promedio entre FI y SI darı́a un valor
de 0.5 indicando que el método de restauración es intermedio. Sin embargo, utilizando la
integración multiplicativa de la ecuación 3.40, si una de las dos métricas genera valores
próximos a cero la penalización en la métrica global GRI va a ser significativa. Esto
concuerda con el propósito marcado inicialmente, es decir, la métrica va a premiar aquellas
técnicas que realizan reconstrucciones fieles, y a la vez, generan superficies suaves. Si alguno
de estos factores no se cumple la calidad de la reconstrucción disminuirá considerablemente.

3.2.2. Evaluación de técnicas de restauración mediante la métrica GRI

Una vez definida la métrica GRI estamos en condiciones de comparar diferentes tipos de
técnicas de restauración. Para ello hemos generado un perfil sintético que contiene una
muestra variada de diferentes tipos de superficies y discontinuidades (fig. 3.6a). Sobre este
perfil hemos añadido ruido gausiano con una desviación estándar de 1 mm (fig. 3.6b).
Varias técnicas de restauración no iterativas fueron aplicadas, y la calidad de restauración
utilizando la métrica GRI fue calculada. Para evitar posibles variaciones de la métrica ante
determinadas configuraciones del ruido sobre el perfil, se realizó el promediado de GRI para
100 muestras diferentes de perfiles contaminados con ruido gausiano. En la tabla 3.1 se
presentan los diferentes métodos de restauración ordenados según el ı́ndice de calidad GRI
que obtuvimos al analizar los perfiles restaurados por cada técnica, mostrándose también
las componentes de calidad parciales FI y SI.
Podemos observar en la tabla 3.1 que los mejores métodos según la métrica GRI son
la media truncada con doble ventana DW-MTM, la técnica de suavizado adaptativo
multiresolución MAS, y el filtro de mı́nimo error cuadrático medio MMSE, con ı́ndices
de 0.69, 0.68 y 0.66 respectivamente. En las figuras 3.6h,g,f se puede apreciar uno de
los cien perfiles restaurados por las técnicas DW-MTM, MAS y MMSE respectivamente.
Observando los perfiles y sus ı́ndices parciales FI y SI, podemos ver que hay una buena
preservación de bordes y una apreciable mejorı́a en el suavizado de las tres restauraciones.
3.2 Evaluación de la calidad de restauración 129

Método de filtrado GRI FI SI

DW-MTM (σn = 1, L=3, k=2, q=5) 0.69 0.62 0.76
MAS (σn = 1, L=7,5,3) 0.68 0.61 0.76
MMSE (σn = 1, L=3) 0.66 0.59 0.74
Sigma (σn = 1, L=5) 0.65 0.61 0.70
Mediana (L=3) 0.61 0.57 0.66
Wavelet (Daubechies, 3, Suave) 0.60 0.54 0.67
SNA (L=3) 0.57 0.52 0.64
GIW (L=5) 0.55 0.56 0.54
SCDOR (L=5,k=3) 0.51 0.47 0.55
FIR (L=3) 0.51 0.33 0.79
Media truncada (L=5, M=1) 0.50 0.32 0.79
Media aritmetica (L=3) 0.49 0.37 0.65
Media Geométrica (L=3) 0.49 0.36 0.65
Media Yp (L=3, P=2) 0.48 0.36 0.65
Gausiano (L=7) 0.48 0.30 0.77
Media armónica (L=3) 0.48 0.35 0.65
Contrarmónico (L=3, P=2) 0.45 0.31 0.66
CDOR (L=5, T=5) 0.44 0.47 0.42
Rango medio (L=5) 0.32 0.15 0.68

Cuadro 3.1: Clasificación de métodos clásicos de restauración según métrica GRI (ruido
gausiano).

También mostramos en las figuras 3.6e,d,c el perfil correspondiente a un filtrado utilizando

el filtro sigma, un máscara gausiana y ondı́culas Daubechies de orden 3 con umbralización
suave. Podemos observar en la tabla 3.1 que la eliminación de ruido mediante ondı́culas
no preserva tan bien los bordes como en las anteriores técnicas y el suavizado tampoco es
acentuado, presentando un ı́ndice GRI de 0.60. El filtrado gausiano realiza un aceptable
suavizado (SI = 0,77), sin embargo la preservación de bordes no es respetada (F I = 0,30),
con lo cual el ı́ndice de calidad global GRI se reduce a 0.48.
Es necesario remarcar que la métrica GRI es apropiada para la comparación de técnicas de
restauración utilizando las discrepancias relativas entre los valores de calidad obtenidos,
sin embargo, los valores absolutos de la métrica no deben ser considerados. Esto es ası́ pues
los valores obtenidos dependen de la amplitud y tipo de ruido presente en la imagen, y de la
propia imagen de prueba utilizada. Por tanto un valor absoluto GRI obtenido al restaurar
un perfil contaminado con ruido como el de la figura 3.6b, no debe ser comparado con otro
valor de GRI obtenido al reconstruir otro tipo de imagen o perfil, o con otro tipo de ruido.
La forma más adecuada de realizar una comparación consiste en utilizar una imagen de
prueba representativa conteniendo un amplio rango de diferentes tipos de discontinuidades
y superficies, y con un particular tipo de ruido. Bajo estas condiciones, y analizando las
diferencias relativas en GRI, la métrica permite clasificar las técnicas de restauración de
una forma precisa.
Obsérvese que existe una perfecta correspondencia entre el concepto subjetivo que tenemos
130 Capı́tulo 3: Restauración del mapa de distancias

40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Sigma (0.65: 0.61, 0.70)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido normal σ=1 f) MMSE (0.66: 0.59, 0.74)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
c) Gaussiano (0.48: 0.30, 0.77) g) MAS (0.68: 0.61, 0.76)
40 40
30 30
20 20
10 10

0 0
0 50 100 150 200 0 50 100 150 200
d) Wavelet (0.60: 0.54, 0.67) h) DW-MTM (0.69: 0.62, 0.76)

Figura 3.6: Reconstrucción de un perfil contaminado con ruido gausiano mediante algunas
de las técnicas de restauración clásicas. Entre paréntesis se indica las métricas GRI, FI y
SI respectivamente.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 131

de suavidad y los valores de SI. Ası́ la restauración gausiana y la generada a partir de

ondı́culas (wavelets) presentan visualmente una clara diferencia en cuanto a la suavidad
de sus perfiles, lo cual es puesto de manifiesto por la métrica SI al generar los valores 0.77
y 0.67, respectivamente.
Hemos visto que las mejores técnicas de restauración para eliminar ruido gausiano
corresponden a filtros adaptativos, como MAS, DW-MTM y MMSE. Por tanto, cualquiera
de los tres podrı́a ser utilizado para realizar la restauración de las imágenes que queremos
mejorar. Sin embargo, aunque los resultados de los mejores filtros analizados no son malos,
se echa en falta una mayor suavidad en los perfiles restaurados. En algunos casos como
el MMSE esto se puede explicar ya que el objetivo marcado en su diseño era minimizar
el error cuadrático medio, pero no se considera en ningún caso la suavidad o conexión
continua entre cada uno de los puntos individuales. Es indudable que cualquier sistema de
procesamiento modularizado en una secuencia de etapas, funcionará mejor cuando cada
una de ellas entregue los mejores resultados posibles. En nuestro caso, estamos interesados
en una etapa de preprocesamiento de imágenes lo mejor posible para facilitar la labor a
las etapas posteriores de análisis de las imágenes. Mejores resultados de restauración que
los presentados se podrı́an obtener mediante técnicas iterativas, sin embargo, el alto coste
computacional nos impide utilizar estas técnicas para aplicaciones que pretenden operar en
tiempo real. Por estos motivos, en la siguiente sección vamos a presentar un nuevo método
no iterativo de restauración, que como podremos comprobar mejora, según la métrica GRI
definida, las técnicas analizadas en la tabla 3.1.

3.3. Nuevo método de restauración adaptativa por ajustes

de planos multiresolución con fidelidad-3σ

En esta sección pretendemos definir un filtro adaptativo que sea capaz de restaurar
imágenes eliminando la mayor parte del ruido degradante, y a la vez, conservando las
discontinuidades presentes. Es decir, queremos eliminar la información que no nos interesa
(ruido) y conservar aquella información que nos permita captar la forma de los objetos
en una imagen (superficies homogéneas y discontinuidades significativas). Para terminar
de definir el problema vamos a especificar lo que entendemos por superficies homogéneas,
discontinuidades y ruido:

Las superficies homogéneas de que consta una imagen asumimos que se caracterizan
por ser suaves, es decir, no presentan rugosidad, pudiendo ser planas o curvas y
quedando limitadas por discontinuidades.

Una discontinuidad se considera significativa, y por tanto hay que preservarla, si es

debida a saltos en la propia escena de mayor amplitud que el ruido presente en la
imagen.

El ruido presente es de tipo aditivo pudiendo presentar distribuciones de tipo

gausiano, impulsional o una combinación de ambos.
132 Capı́tulo 3: Restauración del mapa de distancias

Una vez presentados los objetivos y las asunciones que definen la imagen a procesar,
estamos en condiciones de presentar nuestra técnica de restauración.

3.3.1. Definición de la técnica de restauración 3σ-MPF

A la hora de diseñar un filtro adaptativo, existen dos grandes problemas:

¿Cómo detectar las discontinuidades?. Por definición un filtro adaptativo trabaja

de forma diferente en unos puntos de la imagen que en otros, siendo esta adaptación
función de las caracterı́sticas locales de la imagen. Una forma de determinar cuando
aplicar un modo de filtrado u otro se puede hacer detectando discontinuidades. De
esta forma el filtro puede suavizar en las regiones continuas y evitar el suavizado
sobre los bordes. En muchos casos la forma de detectar discontinuidades se hace
comparando la varianza local calculada en una ventana con la varianza global
estimada en toda la imagen. Si la varianza local supera a la varianza global se
considera que estamos ante una discontinuidad y en caso contrario se asume que
estamos en una región continua. El problema de esta solución estriba en que las
estadı́sticas locales calculadas en regiones pequeñas no son muy fiables con lo cual
existe un cierto riesgo de realizar mal la detección de la discontinuidad.

¿Cómo determinar el tamaño de la ventana de procesamiento?. Cuanto mayor sea la

ventana del filtro que vamos moviendo a lo largo de la imagen, mejor es el suavizado
que se puede conseguir cuando se trata de regiones continuas. Sin embargo, si la
ventana es grande la probabilidad de que una discontinuidad esté presente también
crece, y por el contrario, la capacidad de detectar la discontinuidad decrece. Por
tanto existe un compromiso que limita la elección de la ventana de procesamiento
que se suele resolver, en la mayorı́a de los casos, eligiendo ventanas 3 × 3.

Nosotros proponemos utilizar un criterio que mida la fidelidad de ajuste de un plano a un

conjunto de datos que pertenecen a la imagen, para decidir dónde hay una discontinuidad
y determinar el tamaño de la ventana de procesamiento más adecuada. Este criterio de
fidelidad del ajuste lo llamamos fidelidad-3σ y se puede definir mediante la siguiente
expresión

(
V erdadero Si ∀(x, y) ∈ vij |g(x, y) − (ax + by + c)| ≤ 3σ
f idelidad − 3σ = (3.41)
F also En caso contrario

siendo σ la desviación estándar del ruido aditivo esperado sobre la imagen, y a, b y c los
parámetros del plano ajustado. Es decir, después de realizar un ajuste de unos datos a un
plano diremos que se realizó un ajuste con fidelidad-3σ si “todos los puntos en la ventana
están a una distancia de los respectivos puntos del plano ajustado, menor o igual que 3σ”.
Mediante este criterio de ajuste podremos determinar que existe una discontinuidad
cuando no sea posible realizar un ajuste de fidelidad-3σ sobre una ventana de tamaño
3.3 Nuevo método de restauración adaptativa 3σ-MPF 133

Errores mayores que 3σ

Plano con ajuste

no fiel (discontinuidad)
Planos con ajuste fiel

Ajuste fiel
Punto del perfil captado

Ventana de error +/- 3σ

Figura 3.7: Detección de discontinuidades utilizando el ajuste con fidelidad-3σ.

3 × 3 (fig. 3.7). Por el contrario si la región es homogénea, aunque esté contaminada por
ruido gausiano, siempre existirá una alta probabilidad de que una región se pueda ajustar
de una forma fiel a un plano, incluso aunque la superficie tenga una cierta curvatura. Por
otro lado, el criterio de fidelidad-3σ también lo utilizaremos para elegir el tamaño de la
ventana de procesamiento, la cual será variable y se podrá ir adaptando a las caracterı́sticas
de la imagen.
Teniendo presentes las consideraciones anteriores, el algoritmo 3σ-MPF (3σ-
Multiresolution Plane Fitting) que proponemos se basa en un ajuste multiresolución de
planos sobre regiones homogéneas, que evoluciona hacia un método de preservación de
bordes en las regiones con discontinuidades. La idea consiste en suavizar tanto como sea
posible en las regiones homogéneas donde son factibles los ajustes sobre grandes regiones.
Si el ajuste no es satisfactorio, probablemente debido a regiones con curvatura o a la
proximidad de bordes, se reducirá la región de aplicación hasta conseguir un ajuste fiel.
Finalmente, si después de reducir las regiones de aplicación no se consigue un ajuste
con fidelidad-3σ, significará que estamos sobre una discontinuidad y se deberá aplicar un
método de preservación de bordes.
En la figura 3.8 se muestra el pseudocódigo del algoritmo 3σ-MPF, donde se puede apreciar
que para realizar el ajuste multiresolución utilizamos secuencialmente tres ventanas de
tamaños: 7 × 7, 5 × 5 y 3 × 3. Comenzando por la ventana de mayor tamaño, ajustamos
un plano a los puntos de la imagen contenidos dentro de dicho ventana y evaluamos el
criterio fidelidad-3σ. Si hay algún punto que no cumple este criterio, se repite el proceso
con la siguiente ventana de menor tamaño. Finalmente, cuando se obtenga un ajuste con
fidelidad-3σ, el valor de la imagen a filtrar correspondiente al centro de la ventana es
sustituido por la media de los puntos contenidos en esa ventana.
En el caso de que la mı́nima ventana de 3 × 3 no genere ajustes fieles, aplicamos la técnica
M T M (Modified Trimmed Mean) que combina el algoritmo de los filtros de orden con
promedio truncado (trimmed mean) y la selección de candidatos a promediar que se usa en
el filtro sigma. Mediante el valor central y sus 4 vecinos de conectividad 4, estimamos un
valor inicial calculando la mediana de estos 5 valores. Este valor estimado es utilizado para
134 Capı́tulo 3: Restauración del mapa de distancias

POR cada punto de la imagen g(i,j)

σ=estimación_ruido(g,(i,j));
tamaño_ventana=7x7;
REPEAT
a,b,c=ajuste_plano_minimos_cuadrados(g,(i,j),tamaño_ventana);
test_fidelidad_3σ=fidelidad_3σ(g,(i,j),tamaño_ventana,(a,b,c),σ);
IF test_fidelidad_3σ==FALSE
tamaño_ventana=tamaño_ventana-2x2;
UNTIL (test_fidelidad_3σ==TRUE OR tamaño_ventana<3x3);
IF test_fidelidad_3σ==TRUE // región continua encontrada
f(i,j)=c;
ELSE // discontinuidad o impulso detectado
ref=Mediana(g,(i,j),3x3,conectividad_4);
f(i,j)=media_rango_3σ(g,(i,j),3x3,conectividad_8,|g(x,y)-ref|<3σ)
END

Figura 3.8: Pseudocódigo del método de restauración 3σ-MPF.

realizar un promediado con aquellos puntos que se encuentren dentro del intervalo ±3 · σ
en una ventana 3×3 de conectividad 8. De esta forma se consigue preservar bordes, reducir
ruido gausiano al realizar un promediado y a la vez eliminar ruido de tipo impulsional.
La desviación estándar σ del ruido aditivo esperado sobre la imagen, no necesita ser
estimada calculando la varianza en una ventana, cuya fidelidad de estimación se degrada
a medida que la ventana se hace más pequeña. Para obtener esta estimación utilizamos el
modelo de repetitividad σD deducido en el capı́tulo 2 (ec. 2.28 ó 3.42), que permite obtener
una buena aproximación del ruido aditivo presente utilizando la imagen de reflectancia <.
Por comodidad lo repetimos a continuación:

s
µ ¶2
8,37 · 10−3 Dmax
σD = + +1 (3.42)
T · 10</80,9 9 · 107 T

Debido a que el método de filtrado presentado no pretende ser exclusivo para ser
aplicado sobre parejas de imágenes Distancia-Reflectancia, en el caso de no disponer
de una imagen de reflectancia < para estimar el ruido, la técnica utilizada por Meer
[140] parece más adecuada que una simple estimación local de varianzas. El método que
propone Meer calcula la varianza media de toda la imagen mediante la detección del pico
del histograma de varianzas que es normalmente unimodal, obteniéndose resultados de
estimación bastante robustos.
El filtro que hemos presentado, 3σ-MPF, está inspirado en las mejores cualidades de
los filtros MAS y DW-MTM. Las debilidades manifestadas en ambos diseños han sido
superadas añadiendo la estrategia de fidelidad-3σ que se basa en un test sobre los residuos
de un ajuste por mı́nimos cuadrados de un plano. De esta forma es de esperar que el
comportamiento de este nuevo filtro sea superior a los ya reconocidos filtros MAS y DW-
MTM.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 135

Una de las novedades del filtro 3σ-MPF reside en que no se necesita establecer ningún
umbral de forma arbitraria para determinar la presencia de discontinuidades. La definición
de ajuste con fidelidad-3σ, es el criterio utilizado para determinar si está presente una
discontinuidad, no necesitándose realizar ninguna sintonı́a de parámetros. Además, no
es necesario la estimación de ninguna estadı́stica sobre ventanas locales, como suele ser
habitual en otras técnicas para determinar la varianza local de una región, siendo esta
aproximación poco precisa al estimarse estadı́sticas sobre un reducido conjunto de datos.
El problema de la selección del tamaño de la máscara de filtrado queda también resuelto
en el filtro 3σ-MPF mediante la aproximación multiresolución al ser aplicada junto con
el criterio de ajuste con fidelidad-3σ, el cual fuerza a reducir el tamaño de la ventana si
no se cumple dicho criterio. De esta forma somos capaces de suavizar utilizando ventanas
grandes donde es posible y al mismo tiempo determinar de una forma fiable la presencia
de un borde.

3.3.2. Evaluación comparativa de la técnica de restauración 3σ-MPF

por la métrica GRI

Una vez presentada la técnica de restauración 3σ-MPF, vamos a evaluarla utilizando la

métrica GRI presentada en la sección 3.2. En el caso de degradación por ruido gausiano, si
aplicamos esta técnica de restauración al perfil contaminado de la figura 3.9b, obtenemos
el perfil mostrado en la figura 3.9i, el cual lo podemos comparar con las restauraciones
realizadas por los métodos clásicos (fig. 3.9c-h). Podemos apreciar visualmente que el
método que proponemos es de calidad superior al resto, especialmente en términos de
suavidad, siendo solo comparable en este sentido con el filtrado gausiano. Sin embargo
nuestro método también consigue obtener una buena preservación de bordes, como puede
verse en la tabla 3.2, donde el ı́ndice FI es de 0.64. Adicionalmente como el ı́ndice de
suavidad SI es elevado, 0.87, el ı́ndice global GRI es de 0.75, superando claramente al
resto de técnicas presentadas.
Ante ruido impulsional el filtro diseñado también presenta un buen comportamiento
aunque no resulta tan efectivo como para eliminar ruido gausiano. En la tabla 3.3 se
puede apreciar cómo la calidad de restauración ante este tipo de ruido, medido con GRI,
permite incluir el método 3σ-MPF entre una de las mejores alternativas para eliminar este
tipo de ruido. En la figura 3.10 se aprecian algunos de los perfiles restaurados mediante
los métodos analizados. Evidentemente, si una imagen está contaminada únicamente con
ruido impulsional un método como CDOR o un filtro Mediana serı́an los más adecuados,
sin embargo, esto no es habitual y lo normal es que además aparezca siempre un fondo de
ruido gaussiano o uniforme.
En el caso de imágenes contaminadas con ruido gausiano e impulsional, el método 3σ-MPF
se muestra de nuevo como el más atractivo de todos. Siendo incluso más recomendable
que filtros que operan en dos etapas donde en un primer paso se aplica un filtro CDOR o
Mediana para eliminar la parte impulsional, y a continuación un filtro MAS, DW-MTM
o MMSE para eliminar la componente gausiana del ruido (tabla 3.4 y fig. 3.11). En estos
136 Capı́tulo 3: Restauración del mapa de distancias

Método de filtrado GRI FI SI

3σ-MPF (σn = 1, L=7,5,3) 0.75 0.64 0.87
DW-MTM (σn = 1, L=3, k=2, q=5) 0.69 0.62 0.76
MAS (σn = 1, L=7,5,3) 0.68 0.61 0.76
MMSE (σn = 1, L=3) 0.66 0.59 0.74
Sigma (σn = 1, L=5) 0.65 0.61 0.70
Mediana (L=3) 0.61 0.57 0.66
Wavelet (Daubechies, 3, Suave) 0.60 0.54 0.67
SNA (L=3) 0.57 0.52 0.64
GIW (L=5) 0.55 0.56 0.54
SCDOR (L=5,k=3) 0.51 0.47 0.55
FIR (L=3) 0.51 0.33 0.79
Media truncada (L=5, M=1) 0.50 0.32 0.79
Media aritmetica (L=3) 0.49 0.37 0.65
Media Geométrica (L=3) 0.49 0.36 0.65
Media Yp (L=3, P=2) 0.48 0.36 0.65
Gausiano (L=7) 0.48 0.30 0.77
Media armónica (L=3) 0.48 0.35 0.65
Contrarmónico (L=3, P=2) 0.45 0.31 0.66
CDOR (L=5, T=5) 0.44 0.47 0.42
Rango medio (L=5) 0.32 0.15 0.68

Cuadro 3.2: El filtro 3σ-MPF evaluado según la métrica GRI, y comparado con otras
técnicas para eliminar ruido gausiano.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 137

40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Sigma (0.65: 0.61, 0.70)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido normal σ=1 f) MMSE (0.66: 0.59, 0.74)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
c) Gaussiano (0.48: 0.30, 0.77) g) MAS (0.68: 0.61, 0.76)
40 40
30 30
20 20
10 10

0 0
0 50 100 150 200 0 50 100 150 200
d) Wavelet (0.60: 0.54, 0.67) h) DW-MTM (0.69: 0.62, 0.76)
40

0
0 50 100 150 200
i) 3σ-MPF (0.75: 0.64, 0.87)

Figura 3.9: Perfiles contaminados con ruido gausiano y restaurados mediante 3σ-
MPF y otras técnicas clásicas. Entre paréntesis se indica las métricas GRI, FI y SI
respectivamente.
138 Capı́tulo 3: Restauración del mapa de distancias

Método de filtrado GRI FI SI

CDOR (L=5, T=5) 0.97 0.96 0.99
Mediana (L=3) 0.91 0.88 0.94
DW-MTM (σn = 1, L=3, k=2, q=5) 0.88 0.83 0.93
3σ-MPF (σn = 1, L=7,5,3) 0.84 0.75 0.94
Media truncada (L=5, M=1) 0.59 0.39 0.89
GIW (L=5) 0.52 0.35 0.79
SNA (L=3) 0.51 0.33 0.77
Media Geométrica (L=3) 0.44 0.26 0.73
Wavelet (Daubechies, 3, Suave) 0.33 0.14 0.78
Sigma (σn = 1, L=5) 0.32 0.13 0.76
MMSE (σn = 1, L=3) 0.32 0.13 0.75
MAS (σn = 1, L=7,5,3) 0.31 0.13 0.74
Media Yp (L=3, P=2) 0.27 0.10 0.73
SCDOR (L=5, k=3) 0.27 0.11 0.66
Media aritmética (L=3) 0.24 0.08 0.71
FIR (L=3) 0.23 0.07 0.74
Gausiano (L=7) 0.22 0.07 0.74
Contrarmónico (L=3, P=2) 0.11 0.02 0.71
Rango medio (L=5) 0.04 0.003 0.73
Media armónica (L=3) 0.04 0.002 0.72

Cuadro 3.3: El filtro 3σ-MPF evaluado según la métrica GRI, y comparado con otras
técnicas para eliminar ruido impulsional.
3.3 Nuevo método de restauración adaptativa 3σ-MPF 139

40 40

30 30

20 20
10 10

0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Media Truncada (0.59: 0.39, 0.89)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido impulsional f) DW-MTM (0.88:0.83, 0.93)
40 40

30 30
20 20
10 10
0 0
0 50 100 150 200 0 50 100 150 200
c) Gaussiano (0.22: 0.07, 0.74) g) Mediana (0.91:0.88, 0.94)
40 40

30 30
20 20
10 10

0 0
0 50 100 150 200 0 50 100 150 200
d) SNA (0.51: 0.33, 0.77) h) CDOR (0.97:0.96, 0.99)
40

0
0 50 100 150 200
i) 3σ-MPF (0.84: 0.75, 0.94)

Figura 3.10: Perfiles contaminados con ruido impulsional y restaurados mediante 3σ-
MPF y otras técnicas clásicas. Entre paréntesis se indica las métricas GRI, FI y SI
respectivamente.
140 Capı́tulo 3: Restauración del mapa de distancias

Método de filtrado GRI FI SI

3σ-MPF (σn = 1, L=7,5,3) 0.69 0.58 0.82
DW-MTM (Mediana) 0.68 0.55 0.83
DW-MTM (CDOR) 0.68 0.60 0.77
MAS (Mediana) 0.67 0.55 0.82
MAS (CDOR) 0.67 0.59 0.77
DW-MTM (σn = 1, L=3, k=2, q=5) 0.65 0.56 0.75
Mediana (L=3) 0.57 0.51 0.64
Media truncada (L=5, M=1) 0.46 0.29 0.75
CDOR (L=5, T=5) 0.44 0.46 0.42
SNA (L=3) 0.37 0.25 0.56
Media Geométrica (L=3) 0.34 0.19 0.59
GIW (L=5) 0.32 0.21 0.47
MAS (σn = 1, L=7,5,3) 0.24 0.09 0.63
MMSE (σn = 1, L=3) 0.23 0.09 0.62
Sigma (σn = 1, L=5) 0.23 0.09 0.59
Media Yp (L=3, P=2) 0.21 0.07 0.59
FIR (L=3) 0.20 0.06 0.69
Gausiano (L=7) 0.20 0.06 0.68
Wavelet (Daubechies, 3, Suave) 0.20 0.08 0.49
SCDOR (L=5,k=3) 0.19 0.08 0.45
Media aritmetica (L=3) 0.18 0.06 0.57
Contrarmónico (L=3, P=2) 0.08 0.01 0.57
Rango medio (L=5) 0.04 0.002 0.59
Media armónica (L=3) 0.03 0.001 0.57

Cuadro 3.4: El filtro 3σ-MPF evaluado según la métrica GRI, y comparado con otras
técnicas para eliminar ruido gausiano e impulsional.

casos de dos etapas, la degradación en la preservación de bordes se acumula al pasar por

ambas etapas, obteniéndose mejores resultados al aplicar el filtro 3σ-MPF el cual consta
de una sola etapa.
Para apreciar cualitativamente los resultados de las restauraciones en imágenes completas
y no solamente sobre perfiles, vamos a aplicar el método de restauración 3σ-MPF sobre
imágenes de distancias sintéticas contaminadas con ruido gausiano, ruido impulsional y una
combinación de ambos ruidos. En la figura 3.12 se aprecian en la columna de la izquierda
y de arriba hacia abajo: Las superficies contaminadas con ruido gausiano, impulsional
y gausiano+impulsional. El resultado de la restauración empleando nuestro método se
puede observar en la columna de la derecha de la misma figura. Podemos observar cómo
las discontinuidades han sido preservadas y al mismo tiempo se ha realizado un suavizado
tanto en las regiones continuas como en las proximidades de discontinuidades.
Al aplicar el filtrado 3σ-MPF sobre imágenes de distancias conteniendo escenas reales,
como la mostrada en la figura 3.13 que corresponde a un árbol artificial conteniendo dos
naranjas, la mejora conseguida es más difı́cil de apreciar visualmente debido al mayor
3.3 Nuevo método de restauración adaptativa 3σ-MPF 141

40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
a) Perfil original e) Mediana (0.57:0.51, 0.64)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
b) Degradación con ruido normal e impulsivo f) DW-MTM (0.65: 0.56, 0.75)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
c) CDOR (0.44: 0.46, 0.42) g) CDOR+MAS (0.67:0.59, 0.77)
40 40

30 30

20 20

10 10

0 0
0 50 100 150 200 0 50 100 150 200
d) Media Truncada (0.46: 0.29, 0.75) h) Mediana+DW-MTM (0.68: 0.55, 0.83)
40

0
0 50 100 150 200
i) 3σ-MPF (0.69: 0.58, 0.82)

Figura 3.11: Perfiles contaminados con ruido gausiano e impulsional y restaurados

mediante 3σ-MPF y otras técnicas clásicas. Entre paréntesis se indica las métricas GRI,
FI y SI respectivamente.
142 Capı́tulo 3: Restauración del mapa de distancias

Figura 3.12: Superficies sintéticas contaminadas con ruido gausiano, impulsional y una
combinación de ambos (izquierda). Restauración aplicando el filtro 3σ-MPF (derecha).
3.4 Conclusiones 143

rango dinámico en la imagen. Para observar bien la mejora conseguida, en la tercera

fila de la figura 3.13 podemos observar el perfil correspondiente a la lı́nea horizontal (en
blanco) sobre la imagen de distancia de la segunda fila que pasa por el centro de una de
las naranjas. En el perfil se puede apreciar que en aquellos puntos donde el ruido presente
está en consonancia con los valores de ruido estimados, se consigue un alto suavizado, y
en cualquiera de los casos, la preservación de bordes se mantiene.
Considerando la frecuencia de activación de las diferentes técnicas de filtrado de que consta
el filtro adaptativo 3σ-MPF, para el caso de la imagen natural de la figura 3.13, el ajuste de
planos sobre ventanas 7x7 se activa en un 17 % de los casos, un 16 % para ventanas 5x5, un
28 % para ventanas 3x3 y la técnica de media truncada modificada se aplica en el 39 % de los
casos. En la figura 3.14 se han representado mediante máscaras las regiones de activación
de cada una de las cuatro posibles técnicas en las que puede evolucionar el filtrado 3σ-
MPF. Como era de esperar los ajustes sobre ventanas grandes 7x7 se aplican en las regiones
más homogéneas y la media truncada modificada se aplica en las discontinuidades o en
sus proximidades.

3.4. Conclusiones

Los aspectos más destacables tratados a lo largo del presente capı́tulo han sido estos:

Hemos presentado una revisión de las técnicas de preprocesamiento de imágenes

incluyendo tanto métodos de realce como, fundamentalmente, métodos de
restauración.

Se ha propuesto una nueva métrica para la medida de la calidad global de

restauración que hemos denominado GRI. Dicha métrica penaliza aquellos métodos
de restauración que no preservan las discontinuidades con lo cual se pierde fidelidad
entre la imagen restaurada y una referencia ideal, y considera positivamente la
suavidad conseguida sobre la superficie de las regiones continuas.

Se ha propuesto una nueva técnica de restauración de imágenes denominada 3σ-MPF

(3σ-Multiresolution plane fitting), que permite realizar restauraciones con alto grado
de suavizado y a la vez preservar las discontinuidades significativas de la imagen. La
técnica utiliza una aproximación multiresolución realizando ajustes secuenciales de
planos sobre ventanas de la imagen, comenzando por ventanas de mayor tamaño y
progresivamente reduciendo su tamaño hasta que se encuentra un ajuste del plano
con una fidelidad de tipo 3σ. Si ningún ajuste de este tipo se detecta significa que nos
encontramos ante un borde y aplicamos un filtro de preservación de bordes M T M .

Se ha evaluado el método de restauración 3σ-MPF utilizando la métrica GRI y se

han comparado los resultados obtenidos frente a aquellos obtenidos a través de otras
técnicas de restauración. Hemos encontrado que el método de restauración propuesto
3σ-MPF se comporta apreciablemente mejor que las demás técnicas en presencia de
ruido gausiano y gausiano-impulsional.
144 Capı́tulo 3: Restauración del mapa de distancias

2760 2760

2740 2740

2720 2720

2700 2700

2680 2680

2660 2660

2640 2640

2620 2620

2600 2600
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100

Figura 3.13: Restauración aplicando el filtro 3σ-MPF de una imagen de distancias captada
con nuestro sensor láser (columna izquierda imagen degradada, columna derecha imagen
restaurada).
3.4 Conclusiones 145

7x7 5x5

3x3 MTM

Figura 3.14: Máscaras representando las zonas de actividad del filtro 3σ-MPF sobre la
imagen considerada en la figura 3.13. De izquierda a derecha y de arriba abajo: ajustes de
planos en ventanas 7x7, 5x5, 3x3 y activación de la media truncada modificada.
146 Capı́tulo 3: Restauración del mapa de distancias
Capı́tulo 4

Método de reconocimiento de
objetos esféricos: Estrategia
modular de acumulación de
indicios mediante múltiples
primitivas

Resumen. En este capı́tulo se presenta la metodologı́a de reconocimiento aplicada a

imágenes de distancia y reflectancia para la detección, localización 3-D y parametrización
de objetos esféricos. Inicialmente se muestran los fundamentos y técnicas de análisis
de imágenes estableciéndose tres etapas diferenciadas: segmentación, descripción y
clasificación. Seguidamente presentamos nuestro sistema de reconocimiento de objetos
esféricos basado en acumulación de indicios que está especialmente indicado para casos
con baja estructuración del entorno y oclusiones significativas de los objetos. El método
de reconocimiento constituye un proceso modular que realiza la extracción de cuatro tipos
de primitivas, permitiendo captar propiedades discriminantes del objeto buscado. A partir
de dichas primitivas se realiza una extracción de parámetros de la esfera junto con el
grado de confianza de dicha estimación. Finalmente se realiza una integración de hipótesis
parciales generando los candidatos definitivos para ser identificados como esferas, que
vienen parametrizados por su posición 3-D, radio y reflectividad media. En todo momento,
el proceso de reconocimiento se distingue por una integración entre las imágenes de
distancia y reflectancia basada en el modelo del sensor láser presentado en el capı́tulo
2, lo cual redunda en una mejor capacidad de interpretación.

147
148 Capı́tulo 4: Método de reconocimiento de objetos esféricos

En el capı́tulo anterior vimos que mediante una técnica de restauración éramos capaces de
obtener imágenes de mejor calidad que las directamente proporcionadas por el sensor láser.
Por tanto ahora estamos en condiciones de poder aplicar estrategias de reconocimiento
sobre la imagen de una forma más fiable que sin dicho preprocesamiento. Este hecho se
podrá comprobar en el próximo capı́tulo, donde se realiza una evaluación de los métodos
de reconocimiento presentados a lo largo del presente capı́tulo.
La presente tesis está orientada hacia la resolución de un tipo de problemas que contemplan
la detección, localización-3D y caracterización de frutos en un árbol; por ello la estrategia
de reconocimiento que se presentará se centrará en la satisfacción de este objetivo. Como
se manifestó en el capı́tulo 2, la propiedad fundamental a utilizar para el reconocimiento
será la forma de los objetos, siendo dicha información deducible tanto a partir del mapa
de distancias como de reflectancias. Otro aspecto discriminante utilizado estará ligado a
las propiedades ópticas superficiales del objeto, en concreto la reflectividad. Finalmente,
la posición tridimensional de los objetos se utilizará para restringir las detecciones válidas
a aquellas que están dentro del volumen de trabajo y para comprobar que se cumplen una
serie de reglas de tipo heurı́stico.
Refiriéndonos a la forma, frutos tales como naranjas, manzanas o melocotones pueden ser
aproximadamente modelados como esferas. De esta manera el problema de reconocimiento
de frutos por formas lo vamos a plantear como un problema más general de reconocimiento
de objetos esféricos en condiciones de oclusión y en entornos de baja estructuración. Ası́,
el sistema de reconocimiento no se limitará solamente a aplicaciones de recolección de
frutos en el campo, sino que su rango de aplicación se amplı́a a cualquier problema que
considere el reconocimiento, localización y caracterización de objetos esféricos, donde el
resto de objetos no son de interés y por tanto pueden ser ignorados.
Antes de presentar la estrategia de reconocimiento propuesta, analizaremos brevemente
las principales técnicas de análisis de imágenes existentes, las cuales nos servirán de base
para plantear nuestro método de reconocimiento.

4.1. Técnicas principales de análisis de imágenes

Independientemente del tipo de sensor utilizado, una vez obtenida una imagen o matriz
de datos ligada a una determinada propiedad fı́sica ([Link]. intensidad, distancia, absorción,
etc.), se nos plantea el problema de analizarla e interpretarla. Una imagen suele estar
compuesta por una serie de objetos de interés y de un fondo formado por el resto de
elementos superfluos. El objetivo de un sistema de análisis de imágenes, en general, es la
identificación o reconocimiento de los objetos y la determinación de sus posiciones. Para
poder realizar este reconocimiento es necesario aislar el área de la imagen que corresponde
a cada objeto. Estas regiones se conocen en el área del procesamiento de imágenes
como segmentos, y al proceso de subdividir una imagen en regiones correspondiendo a
los objetos presentes, se conoce con el nombre de segmentación. Una vez segmentada
la imagen, se debe realizar una descripción de cada segmento, y finalmente, basándose
en la descripción previa, se realiza la clasificación de cada objeto. Estas tres etapas:
4.1 Técnicas principales de análisis de imágenes 149

segmentación, descripción y clasificación, son los pasos clásicamente utilizados para

realizar el análisis de imágenes. Los tres apartados siguientes presentan una revisión de
las técnicas más destacables en cada una de estas etapas.

4.1.1. Segmentación

La segmentación es una etapa crucial en los sistemas de visión artificial por las dificultades
que conlleva y por la importancia de sus resultados. Se han propuesto muchas técnicas
de segmentación, sin embargo, todavı́a no se ha encontrado una solución general a este
problema [83, 51]. En la mayorı́a de los casos, los algoritmos de segmentación operan
basándose solamente en la información presente en la imagen. Esta aproximación no
se parece a la estrategia utilizada en los seres vivos, donde la información captada
directamente por los elementos de visión, es una parte pequeña si la comparamos con el
conocimiento adicional utilizado para poder ver objetos e interpretar escenas. Por tanto,
no es de extrañar que los resultados obtenidos por las aproximaciones no basadas en el
conocimiento, no sean plenamente satisfactorias en algunos casos. Sin embargo, debido al
conocimiento limitado de los procesos de almacenamiento y recuperación de la información
en los seres vivos, y a las limitaciones de tiempo de proceso de los sistemas de visión
experimentales que han intentado aproximarse a su emulación, actualmente no es viable
dotar a un sistema de visión de una estrategia para la incorporación de conocimiento
semejante a como lo hacen los seres vivos. Esta es un área actual de investigación y
los sistemas existentes que incorporan conocimiento están basados en estrategias muy
simplificadas.
Existen dos principios básicos para realizar la segmentación, uno está basado en la
detección de discontinuidades y el otro en la detección de similitudes. En el primer caso,
se plantea la hipótesis de que dos objetos diferentes deben tener propiedades distintas y
por tanto debe existir una frontera entre ellos caracterizada por un cambio pronunciado
en algún aspecto [104, 220, 212, 143]. Estas zonas de cambio se conocen como bordes
y se pueden detectar analizando un vecindario próximo de cada punto de la imagen.
Una vez que los bordes son detectados deben ser marcados y agregados, de forma que
se obtengan contornos cerrados que definan los segmentos de la imagen. La estrategia
de segmentación mediante similitudes, considera que los puntos que pertenecen al mismo
segmento deben tener propiedades semejantes, y por lo tanto, realiza la agrupación de
puntos siguiendo un cierto criterio de similitud [105, 82]. Este criterio suele considerar
la proximidad espacial y la semejanza de intensidades para realizar la agrupación.
Teóricamente, tanto siguiendo el principio basado en discontinuidades como el basado
en similitudes, los resultados obtenidos deben ser los mismos. Si se obtienen los bordes y
estos son cerrados, mediante un algoritmo de llenado se pueden obtener las regiones, y si
obtenemos las regiones podemos calcular los bordes mediante un algoritmo de seguimiento
de fronteras. Desafortunadamente, en la práctica esto es muy raro que se obtenga debido
al cumplimiento solo parcial de las hipótesis de segmentación presentadas anteriormente.
150 Capı́tulo 4: Método de reconocimiento de objetos esféricos

[Link]. Técnicas para la detección de bordes

Las técnicas de detección de bordes utilizan un pequeño vecindario en torno a un

punto para detectarlos. Los bordes obtenidos, son simplemente puntos en la imagen que
representan una discontinuidad, pero no hay ninguna relación entre ellos. La agrupación
de estos puntos en contornos que delimitan segmentos, se verá en el siguiente apartado.
Las técnicas más habituales para detectar bordes, se basan en la aplicación de filtros
paso altos. Los filtros aplicados suelen ser filtros espaciales, que son aproximaciones
de filtros frecuenciales, pero con la ventaja de una mayor sencillez de cálculo. Existen
fundamentalmente dos tipos de filtros:

Filtros paso alto basados en el gradiente

Filtros paso alto basados en la Laplaciana

Detección de bordes basada en el gradiente. Los bordes de la imagen se obtienen

calculando el gradiente en cada punto e identificando aquellos puntos (pixels) con
magnitudes de gradiente superiores a un cierto umbral. El gradiente en un punto (x, y) de
la imagen f (x, y) es un vector que se define según la ecuación 4.1.

~ (x, y)] = ∇f = (Gx , Gy ) = (∂f /∂x, ∂f /∂y)

G[f (4.1)

Dado el alto número de elementos que intervienen en una imagen es muy importante
el tiempo de cálculo; por ello se han utilizado muchas aproximaciones para calcular las
derivadas parciales
q en las direcciones x e y. Además es habitual aproximar la magnitud del
gradiente G = G2x + G2y , con fines de eficiencia computacional mediante G = |Gx |+|Gy | o
G = M ax(|Gx |, |Gy |). Según el tipo de aproximación empleada para las derivadas parciales,
podemos encontrar los siguientes filtros [51]:

Roberts. Uno de los primeros operadores utilizados fue introducido por Roberts
(1965). El operador cruzado de Roberts utiliza dos ventanas 2 × 2 para aproximar
las dos componentes del gradiente (fig. 4.1). Mediante estas ventanas, se calcula la
diferencia de los puntos de la diagonal de las ventanas como muestran las ecuaciones
4.2 y 4.3.
Gx = ∂f (x, y)/∂x = f (x, y + 1) − f (x − 1, y) (4.2)

Gy = ∂f (x, y)/∂y = f (x, y) − f (x − 1, y + 1) (4.3)

Prewitt, Sobel y Frei-Chen. El operador de Prewitt (1970) realiza la aproximación

utilizando dos ventanas de tamaño 3 × 3 (fig. 4.1), orientadas para detectar bordes
tanto en direcciones verticales como horizontales. El cómputo de las aproximaciones
al gradiente, se muestra en las ecuaciones 4.4 y 4.5, tomando A = 1. El operador de
Sobel (1970) da peso doble a los puntos geométricamente más próximos, y por tanto
4.1 Técnicas principales de análisis de imágenes 151

-1 1 1 1 1
-1 -1
-1 1
1 1
-1 1 -1 -1 -1

Figura 4.1: Ventanas utilizadas por el operador de Roberts (izquierda) y Prewitt (derecha).

-3 -3 5 -3 5 5 5 5 5 5 5 -3
-3 5 -3 5 -3 -3 5 -3
-3 -3 5 -3 -3 -3 -3 -3 -3 -3 -3 -3

5 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3
5 -3 5 -3 -3 -3 -3 5
5 -3 -3 5 5 -3 5 5 5 -3 5 5

Figura 4.2: Ventanas utilizadas por el operador de Kirsch.

√
A = 2. La aproximación de Frei-Chei (1977) utiliza A = 2.

Gx = ∂f (x, y)/∂x = (f (x − 1, y + 1) + Af (x, y + 1) + f (x + 1, y + 1)) −

(f (x − 1, y − 1) + f (x, y − 1) + f (x + 1, y − 1)) (4.4)

Gy = ∂f (x, y)/∂y = (f (x − 1, y − 1) + Af (x − 1, y) + f (x − 1, y + 1)) −

(f (x + 1, y − 1) + f (x + 1, y) + f (x + 1, y + 1)) (4.5)

Kirsch, Robinson y Nevatia-Babu. El método de Kirsch (1971), utiliza ocho máscaras

de tamaño 3 × 3, cada una de las cuales da un indicación de la existencia de un
borde en una determinada dirección (fig. 4.2). Una vez aplicadas todas las máscaras,
la magnitud del gradiente, G, es el máximo del resultado obtenido con cada una
de las máscaras. La dirección del gradiente θ es un múltiplo de 45 grados, cuyo
valor depende de la máscara con la que se obtuvo el resultado máximo. Un método
semejante es utilizado por Robinson (1977), pero sus máscaras utilizan valores
menores; solo 0, ±1 y ±2. Nevatia-Babu (1980), utilizan 12 máscaras de tamaño
5 × 5 y los intervalos angulares son de 30 grados.

Los detectores de borde basados en el gradiente, presentan dos problemas principales:

El ruido y el grosor de los bordes detectados. Los bordes ruidosos se pueden tratar
parcialmente filtrando la imagen original antes de aplicar los operadores de detección
de bordes. En este sentido, hay que tener cuidado con el tipo de filtrado que se utiliza,
puesto que es bastante frecuente utilizar filtros que distorsionan los bordes o los hacen
152 Capı́tulo 4: Método de reconocimiento de objetos esféricos

1
1 -4 1
1

Figura 4.3: Máscara utilizada para calcular la Laplaciana.

indetectables. Idealmente, un algoritmo de eliminación de ruido se debe aplicar solo en la

dirección del borde, es decir, perpendicular a la dirección del gradiente, de esta forma no se
difuminan. El segundo problema se debe a que los bordes detectados suelen tener más de
un punto. Esto es debido a que los bordes no son siempre escalones ideales y frecuentemente
son rampas o bordes suavizados. Se suele solucionar este problema aplicando técnicas de
supresión de puntos no máximos y por tanto conservando sólo los máximos locales en los
mapas de gradientes.
Probablemente el mejor detector de bordes escalón es el filtro de Canny, debido a su
sencillez y a los buenos resultados que se obtienen con él [26]. El operador de Canny, tras
suavizar la imagen original con un filtro gausiano, elige como puntos borde aquellos con
gradiente máximo. Posteriormente se realiza un posprocesamiento aplicando un umbral
en un proceso de histéresis que elimina bordes falsos. Los resultados obtenidos son casi
óptimos y por ello es el detector de bordes escalón más aceptado actualmente.
Detección de bordes basado en la Laplaciana. La Laplaciana está definida en
términos de segundas derivadas parciales de la forma

L[f (x, y)] = ∇2 f = ∂ 2 f /∂x2 + ∂ 2 f /∂y 2 (4.6)

Los filtros basados en la Laplaciana, se pueden aproximar como se indica en las ecuaciones
4.7 y 4.8, y por tanto se puede utilizar una máscara 3 × 3 como la mostrada en la figura
4.3.

∂ 2 f /∂x2 = f (x + 1, y) − 2f (x, y) + f (x − 1, y) (4.7)

∂ 2 f /∂y 2 = f (x, y + 1) − 2f (x, y) + f (x, y − 1) (4.8)

El hecho de que la Laplaciana se base en las segundas derivadas parciales de la imagen la

hace extremadamente sensible al ruido. Es por ello, que no suele ser tan utilizada como los
detectores de borde basados en el gradiente. Sin embargo, la detección de pasos por cero
una vez aplicada la Laplaciana, permite obtener con mayor precisión la posición del borde,
lo que es útil cuando existen bordes anchos y graduales. Mediante la técnica de detección de
pasos por ceros en la segunda derivada, lo que hacemos es detectar los máximos locales en
un mapa de gradientes, en contraste con la detección por umbral utilizada en los métodos
basados en el gradiente.
4.1 Técnicas principales de análisis de imágenes 153

La alta sensibilidad al ruido de la Laplaciana crea problemas y por ello se suele utilizar
la Laplaciana junto con una etapa previa de reducción de ruido. En este sentido
Marr y Hildreth proponen un filtro Gausiano para promediar la imagen, dicho filtro
se caracteriza por conservar espacialmente las propiedades en la imagen. El método
consiste en convolucionar la imagen con una máscara gausiana y posteriormente aplicar la
Laplaciana. Debido a las propiedades conmutativa y asociativa de la convolución, aplicar
el método anterior es lo mismo que convolucionar directamente la imagen con la función
LOG o Laplaciana del Gausiano (ec. 4.9).

∇2 (G(x, y) ∗ f (x, y)) = (∇2 G(x, y)) ∗ f (x, y) =

Ã !
x2 + y 2 − 2σ 2 − x2 +y2 2 )
LOG ∗ f (x, y) = ( )e 2σ ∗ f (x, y) (4.9)
σ4

La variación de σ permite realizar filtrados variables, pudiéndose adaptar el algoritmo a las

diferentes dimensiones de los bordes. La solución adoptada por Witkin utiliza un entorno
espacio-escala, donde el eje de escala se corresponde con σ [215]. Las diferentes escalas de
resolución se consiguen al variar σ; cuando su valor crece se detectan solamente los bordes
más significativos y al disminuir se detectan incluso los más pequeños.
Existen otras técnicas, también basadas en la segunda derivada, que utilizan el ajuste de
funciones sobre pequeñas áreas de la imagen. La idea es obtener una función continua que
represente la imagen discreta original, de esta forma se pueden obtener localizaciones con
precisión subpunto. En el modelo facetado de Haralick [74], el vecindario de un punto es
aproximado por una función cúbica , cuyos coeficientes son obtenidos mediante ajuste por
mı́nimos cuadrados. Los puntos que corresponden a un borde son aquellos que cumplen
que la primera derivada es distinta de cero y la segunda derivada es igual a cero.

[Link]. Segmentación por agregación y detección de contornos

Los resultados obtenidos utilizando los métodos vistos en la sección anterior, generan
normalmente bordes fraccionados que no delimitan regiones. Debido a esto, los algoritmos
de detección de bordes son seguidos de métodos de unión de puntos (agregación) o por
algoritmos de detección de contornos. De esta forma es posible cerrar los contornos, o
bien, obtener una caracterización del contorno fragmentado. A continuación vamos a ver
algunos de los métodos utilizados para realizar estas tareas.
Técnicas de agregación mediante análisis local. Una de las formas más directas
de realizar la unión de bordes, es analizar las caracterı́sticas de los puntos en torno a un
pequeño vecindario, utilizando técnicas de relajación. Un punto de la imagen, inicialmente
no considerado como borde, puede llegar a serlo si cumple una serie de restricciones. Dos
posibles restricciones son que la diferencia de gradientes y la diferencia de direcciones del
gradiente, entre dos puntos, deben ser inferiores a un cierto umbral. Por tanto, un punto
(a, b) de un vecindario de (x, y) se une al grupo de puntos al que pertenece (x, y), si se
cumplen los criterios de agrupamiento. Una forma sencilla de marcar los grupos de puntos
154 Capı́tulo 4: Método de reconocimiento de objetos esféricos

y
recta de ecuación:
ρ = x cos θ + y sin θ

θ
x

Figura 4.4: Parámetros ρ y θ que definen una recta utilizados en la transformada lineal de
Hough.

que definen los diferentes contornos, es asignar un nivel de gris diferente a cada grupo.
El método es aplicado moviendo una ventana (3 × 3 o 5 × 5) a través de toda la imagen,
aunque existen otros algoritmos conocidos como seguidores de bordes, que comienzan a
trabajar desde un punto con alta magnitud en el gradiente. En este caso, a partir del
punto inicial se va siguiendo el contorno y se va aplicando el criterio de agrupamiento
hasta cerrar los bordes [190].
Transformada de Hough. La transformada de Hough es un método para el
reconocimiento de lı́neas rectas y curvas [47, 120, 90, 152, 159]. La estrategia consiste
en expresar la lı́nea a reconocer mediante una expresión del tipo: g(~x, ~c) = 0. Donde
~x = (x, y) representa las coordenadas de la imagen, y ~c son las coordenadas en el espacio
de la transformación o espacio de parámetros. En el caso de una recta la transformación
se define mediante

ρ = x cos θ + y sin θ (4.10)

donde ρ y θ, son las variables en el espacio de parámetros, y representan la distancia y el

ángulo de un segmento perpendicular a la recta considerada y que pasa por el origen del
sistema de referencia (fig. 4.4). Mediante esta transformación por cada punto (x, y) de la
imagen, se genera una sinusoide en el espacio ρ − θ. Todos los puntos correspondientes a
una recta, generan sinusoides que se intersectan en un solo punto (ρ, θ), y que caracterizan
la recta presente en la imagen. La manera de generar estas sinusoides y los puntos de corte,
se plantea como un proceso de votación sobre el espacio de parámetros. Este espacio se
discretiza en forma de matriz con el objetivo de crear casillas donde poder depositar un voto
por cada posible pareja de parámetros. Cada punto que representa un borde en la imagen,
realiza la votación incrementando el valor de varias casillas de la matriz de acumuladores.
Finalmente, las casillas con mayores votaciones se corresponden a los puntos de corte de
sinusoides, y por tanto nos permiten detectar las lı́neas rectas presentes en la imagen.
La transformada de Hough se puede utilizar también para detectar lı́neas curvas [3, 158]
4.1 Técnicas principales de análisis de imágenes 155

e incluso cualquier contorno con forma arbitraria [6]. En el caso de búsqueda de

circunferencias, los parámetros necesarios son tres: el centro de la circunferencia (cx , cy ) y
el radio R de esta. En este caso la transformación es

(x − cx )2 + (y − cy )2 = R2 (4.11)

El principal problema de la transfomada de Hough, es la larga búsqueda requerida en

el espacio de parámetros. Existen formas de aumentar la eficiencia de este método, por
ejemplo, utilizando la dirección del gradiente de la curva; de esta forma se limita el número
de votaciones que emite cada punto [120]. Otras optimizaciones utilizan la selección de
tripletas de forma aleatoria mediante la técnica conocida como RHT (Randomized Hough
Transform) [116] o incluso aplican heurı́sticas basadas en las relaciones espaciales de los
puntos de una circunferencia [124, 131, 86].
Ajuste de curvas a los bordes. Dada una imagen conteniendo los bordes fragmentados
correspondientes al contorno de un solo objeto, podemos ajustar una curva a esos datos de
tal forma que obtengamos los parámetros que definen esa curva y por tanto permitiendo
definir la frontera de un objeto. Las técnicas de ajuste aplicables pueden ser diversas [221]:
mı́nimos cuadrados, mı́nimos cuadrados de medianas, minimización por otros criterios,
ajustes sobre subconjuntos de puntos elegidos aleatoriamente ó división del conjunto de
puntos en tantos grupos como incógnitas haya en la curva a calcular [219].
Algunas de estas técnicas son más robustas ante presencia de ruido de tipo impulsional y
otras, como el ajuste por mı́nimos cuadrados, no lo son tanto. En cada circunstancia se
aplicará la técnica más adecuada. En cualquier caso el mayor problema se encuentra a la
hora de aislar los puntos del borde que pertenecen a un único objeto. Como es de esperar, si
estamos tratando de definir la región sobre la cual existe un objeto ¿cómo vamos a separar
dentro de una imagen de bordes aquellos puntos que deben ser ajustados conjuntamente
por pertenecer al mismo objeto, si no sabemos dónde está dicho objeto?. La respuesta no
es evidente y supone un fuerte contratiempo a la hora de aplicar esta estrategia.
Detección de bordes continuos mediante grafos. Un grafo está formado por una serie
de nodos unidos mediante arcos. La idea de esta estrategia consiste en representar cada
posible componente elemental de un borde mediante un nodo. Los nodos se unen por arcos
que llevan asociados un peso. Este peso es un coste, e indica la penalidad que supondrı́a
que aceptásemos la existencia de un borde entre los nodos que une el arco, considerando la
calidad del contorno resultante. De esta forma, el contorno óptimo se obtiene encontrando
un camino dentro del grafo con coste mı́nimo.
La función de coste utilizada debe generar valores pequeños cuando el camino entre dos
puntos de la imagen se mantiene dentro de una zona de transición, indicando que estamos
sobre un borde. Si no hay o no permanecemos en la zona de transición, el coste debe crecer
debido a que esos dos puntos no representan un borde. Una posible medida de coste c(a, b)
entre los puntos a y b, se puede describir en términos del gradiente de esta forma
156 Capı́tulo 4: Método de reconocimiento de objetos esféricos

(Gmax (f (x, y)))2

c(a, b) = (4.12)
G(f (ax , ay ))G(f (bx , by ))

El problema de encontrar un camino de coste mı́nimo en un grafo no es trivial, y requiere

gran cantidad de cálculo. Se suelen adoptar soluciones más rápidas a costa de obtener
soluciones casi mı́nimas.

[Link]. Segmentación por umbral

La técnica de segmentación por umbral, se basa en la selección de un valor lı́mite, T , que

separa las zonas de la imagen que pertenecen a objetos, de las zonas correspondientes al
fondo. Este valor T se conoce con el nombre de umbral. La obtención del umbral se puede
realizar a partir de caracterı́sticas globales de la imagen, o a partir de propiedades locales.
En el caso de que el umbral tenga un valor que depende de cada punto de la imagen, es
decir T = T (x, y), se dice que el umbral es dinámico.
Dada una imagen f (x, y), la imagen umbralizada g(x, y) se obtiene de la forma siguiente:
(
1 si f (x, y) > T
g(x, y) = (4.13)
0 si f (x, y) ≤ T
La selección del umbral T se puede hacer de diversas formas:

Experimentalmente. Se realizan umbralizaciones a varias imágenes y se selecciona

el valor que aparentemente separa mejor los objetos del fondo. Este método no es
recomendable debido a que no se adapta a futuros cambios en las imágenes.

Promedio de picos en histograma. Dado un histograma bimodal, es decir, aquel con

dos máximos claramente diferenciados, para obtener el umbral T basta detectar los
máximos y realizar el promedio.

Óptimo. Consideremos que el histograma h(z) de una imagen se puede aproximar

por la suma ponderada de dos funciones de densidad de probabilidad:

h(z) = P1 p1 (z) + P2 p2 (z) (4.14)

donde, P1 y P2 representan las probabilidades a priori y p1 (z) y p2 (z) son las

funciones de densidad. El valor óptimo de umbralización T cumple la igualdad
P1 p1 (T ) = P2 p2 (T ). Por tanto, suponiendo funciones de densidad Gausianas para
p1 (z) y p2 (z), con medias m1 y m2 , y considerando dispersiones iguales en ambos
casos , es decir σ1 = σ2 = σ, tenemos que el valor óptimo de T viene dado por

T = (m1 + m2 )/2 + ln(P2 /P1 )(σ 2 /(m1 − m2 )) (4.15)

Después de obtener la imagen binaria, todos los objetos aparecen en la imagen

representados por un “1”. Para separar los diferentes objetos, y finalizar la segmentación,
se debe aplicar un algoritmo de etiquetado que busque regiones conexas.
4.1 Técnicas principales de análisis de imágenes 157

En muchos casos, el histograma no presenta una configuración bimodal o existe mucho

ruido entre ambos picos. Para “limpiar” el histograma y resaltar los picos se suele aplicar
un umbral previo que elimine de la imagen los puntos correspondientes a transiciones
entre regiones. Para ello se puede utilizar como métrica el gradiente de cada punto. De
esta forma, se eliminan los puntos correspondientes a transiciones, profundizando el valle
que separa los picos del histograma y por tanto resaltando estos.
En el caso de que la imagen conste de varias componentes, como en las imágenes a color
que tienen 3 componentes, el histograma es tridimensional. Para realizar la segmentación
se utilizan técnicas de agrupamiento (clustering) y el concepto de umbral se sustituye
por la clasificación de puntos en un espacio de caracterı́sticas. En el caso de parejas de
imágenes distancia-intensidad, se ha utilizado un tipo especial de histograma que combina
ambos tipo de información en un solo histograma conocido como RIH (Range Intensity
Histogram). El histograma RIH se forma acumulando por cada distancia la suma de los
valores de intensidad, por tanto los picos de este histograma se corresponden a regiones
en un mismo plano y con alta intensidad [98].

[Link]. Segmentación basada en caracterı́sticas de regiones

En este apartado vamos a ver técnicas de segmentación que obtienen las regiones de una
forma directa. Existen tres aproximaciones fundamentales: agrupamiento en espacio de
caracterı́sticas, crecimiento de regiones y división y unión.
Agrupamiento en espacio caracterı́sticas. Mediante este procedimiento, por cada
punto de la imagen se extrae una serie de caracterı́sticas, como su posición (i, j),
su intensidad f (i, j), el gradiente y su dirección, formando un patrón o vector
de caracterı́sticas. A continuación se realiza un agrupamiento sobre el espacio de
caracterı́sticas buscando los grupos naturales, aplicando alguna de las múltiples técnicas
de agrupamiento que existen [54]. Cada grupo detectado se corresponderá a un segmento,
que normalmente deberá ser mejorado aplicando técnicas de relleno, crecimiento o división
de segmentos [97].
Crecimiento de regiones. Es un procedimiento mediante el cual se agrupan puntos
o subregiones para formar nuevas regiones mayores. La versión más sencilla consiste en
utilizar varios puntos semilla, a partir de los cuales se van agregando otros puntos para
formar regiones. Para agregar un punto en una región, se debe cumplir un cierto criterio
de similitud. Por ejemplo, un criterio posible consistirı́a en incluir un punto en una región
si la diferencia de intensidad, entre el punto y la “semilla” correspondiente a esa región,
no supera un cierto umbral. Este proceso se repite hasta que no haya más puntos que
satisfagan el criterio de similitud.
Dos aspectos crı́ticos en esta técnica son, la selección inicial de las semillas y del criterio
para incluir puntos. Una forma de selección de las semillas puede consistir en calcular
medidas de similitud sobre todos los puntos de una imagen y ver si aparecen agrupaciones
naturales. Los centroides de estos grupos se pueden utilizar como las “semillas” iniciales.
En cuanto al criterio utilizado, este debe caracterizar la región, para ello se pueden utilizar
158 Capı́tulo 4: Método de reconocimiento de objetos esféricos

descriptores de regiones como los citados en la sección [Link] que se verá posteriormente
(momentos de área, texturas, intensidades medias, coeficientes de un ajuste [8] ó curvaturas
[203]). Besl [14], ajusta superficies de orden variable a regiones para caracterizarlas,
definiendo de esta forma un criterio para realizar el crecimiento de regiones. Las semillas
se obtienen después de un proceso de etiquetado donde, usando la curvatura, se distinguen
entre ocho diferentes tipos de superficies. Najman [153], investiga técnicas de segmentación
basadas en la representación de la imagen como una superficie topográfica y utilizando
un vertido de agua sobre ella, determina los mı́nimos más significativos allı́ donde haya
mayor acumulación de agua. Otros trabajos utilizan “culebras” (snakes), que son curvas
continuas que desde un estado inicial ajustan dinámicamente su posición y forma hasta
que se establece un estado de equilibrio con los datos subyacentes en la imagen [171].
División y unión. En esta aproximación, se parte de una única región correspondiente a
la totalidad de la imagen. Se utiliza un criterio de similitud P para saber si una región es
homogénea, y por tanto, saber si no debe ser dividida. Aplicando el criterio de similitud
a una región R, si no se cumple dicho criterio, es decir P (R) = F also, entonces debemos
dividir la región de una forma arbitraria. Posteriormente, se realiza la unión de las regiones
que cumplen el criterio, es decir, si P (Ri ) ∪ P (Rj ) = V erdadero. El proceso anterior se
repite iterativamente, hasta que el algoritmo se detiene cuando no es posible realizar más
uniones o divisiones.
El proceso de división de una región a varias es problemático, puesto que hay que definir
como realizarla. Evidentemente, existen infinitas formas de dividir una región en varias.
Una posibilidad consiste en dividir la región de una manera regular, por ejemplo, partiendo
la región en cuatro secciones cuadradas. En la figura 4.5 se puede ver un ejemplo del proceso
de división y unión, utilizando divisiones uniformes mediante cuadrados.

[Link]. Segmentación por movimiento

El movimiento de un objeto respecto a un fondo inmóvil, permite realizar la segmentación

del objeto que se mueve [96]. Una técnica inmediata consiste en tomar dos imágenes a
diferentes tiempos y restar punto a punto las imágenes. La imagen diferencia obtenida
contiene el contorno del objeto móvil en la dirección del movimiento. La imagen diferencia
di,j (x, y) entre los instantes i y j se calcula ası́:

(
1 si f (x, y, ti ) − f (x, y, tj ) > U mbral
di,j (x, y) = (4.16)
0 en otro caso

Otro método consiste en generar una imagen de diferencias acumulativas. Basta capturar
una secuencia de imágenes y restarlas respecto a una imagen referencia ([Link]. la primera de
la secuencia), acumulando las diferencias resultantes. En el momento que el objeto móvil
sale del área ocupada inicialmente, se obtiene una segmentación perfecta del objeto móvil.
4.1 Técnicas principales de análisis de imágenes 159

a) b)

c) d)

Figura 4.5: Segmentación mediante división y unión: a) partición inicial, b) y c) las regiones
que cumplen la propiedad de homogeneidad P se marcan con blanco o gris oscuro. Si no
se cumple se realizan mas subdivisiones, d) imagen final segmentada.
.

4.1.2. Descripción o extracción de caracterı́sticas

Una descripción consiste en proporcionar una serie de caracterı́sticas referentes a un

objeto que permitan su reconocimiento. Estas caracterı́sticas, deben ser suficientemente
representativas y discriminantes como para permitir diferenciar entre objetos distintos
o detectar los objetos que pertenezcan a la misma clase. Idealmente, los descriptores
deberı́an ser independientes del tamaño, posición y orientación del objeto en la imagen,
puesto que un cambio en estos aspectos nunca debe suponer la modificación de la clase
de objeto. La etapa de descripción es muy importante, puesto que el posterior proceso
de reconocimiento o clasificación se va a basar en estos descriptores. Si la descripción
no es adecuada o suficientemente discriminatoria, la complejidad de los algoritmos de
reconocimiento será mayor y difı́cilmente se va a poder realizar una correcta clasificación.
En función de qué entidad se describa, se encuentran tres tipos de descriptores: descriptores
de contorno, descriptores de regiones y otros dedicados al caso especial de imágenes
tridimensionales.

[Link]. Descriptores de contorno

Descripción de contornos mediante códigos cadena. Los códigos cadena se utilizan

para representar un contorno mediante pequeños segmentos rectos en una determinada
dirección y de una longitud predefinida. Se suelen emplear dos tipos de código cadena: de
4 direcciones y de 8 direcciones. Si trabajamos con códigos de 4 direcciones, se marcan los
segmentos apuntando a la derecha con un 0, hacia arriba con un 1, izquierda con un 2 y
160 Capı́tulo 4: Método de reconocimiento de objetos esféricos

0 0 Código cadena: 11010033032222

1 3 Diferencia: 0313030133000
Número forma: 0000313030133
0
1
1 3

0
2 0

1 3

2 2 2 2 3

Figura 4.6: Generación del código cadena mediante la subdivisión del contorno en
segmentos.

abajo con un 3. Para generar un código cadena (fig. 4.6), se recorre el contorno hasta que
nos desplazamos una determinada longitud. Se conecta, mediante un segmento recto, el
punto final alcanzado con el de partida y se extrae su código cadena al elegir aquel con
la dirección más próxima a la del segmento obtenido. Este proceso se repite hasta que se
alcanza de nuevo el punto de partida, con lo cual se completa la descripción del contorno
cerrado.
El código cadena que se obtiene no depende de la posición del objeto en la imagen, pero
depende del punto de comienzo de la descripción, de la orientación del objeto y de su
tamaño. Para normalizar la descripción en cuanto al punto de inicio, se suele redefinir
este punto de tal forma que el número entero que representa el código cadena tenga una
magnitud mı́nima. El código cadena también es sensible a rotaciones, por ello, en vez de
utilizar el código en sı́, se puede utilizar la diferencia entre los códigos. Esta diferencia
se calcula contando ([Link]. en dirección horaria) el número de direcciones que separan
dos códigos adyacentes. La normalización del tamaño puede ser obtenida subdividiendo el
contorno de todos los objetos en un número constante de segmentos y por tanto obteniendo
siempre códigos cadena de la misma longitud.
Integrando estos criterios de normalización, el número forma se define como la primera
diferencia, obtenida a partir de una descripción con códigos cadena, con menor magnitud.
Su orden n indica el número de dı́gitos empleados para su representación.
Descripción de contornos mediante firmas. Una firma es una representación de un
contorno mediante una función unidimensional. Una de las firmas más sencillas se obtiene
al calcular el centro de un contorno, y tomando este punto como referencia, representar
la distancia r entre el centroide y un punto del contorno en función del ángulo de barrido
θ. La firma obtenida es la función unidimensional r(θ) que depende del punto de partida
y del tamaño del contorno. La invarianza respecto al tamaño se consigue, por ejemplo,
normalizando la función para que tenga un valor máximo determinado. La invarianza ante
el punto de partida, se consigue aplicando una estrategia similar a la utilizada para el
código cadena.
La representación del ángulo, φ, existente entre la tangente a la curva en un punto y
4.1 Técnicas principales de análisis de imágenes 161

una lı́nea fija de referencia ([Link]. la horizontal), en función del desplazamiento s a lo

largo del contorno, es otra forma de firma que se representa mediante la función φ(s). La
representación gráfica de la función muestra las lı́neas rectas del contorno mediante valores
constantes o segmentos horizontales. Por tanto, el histograma de φ(s) presenta máximos
locales cuando existen lı́neas rectas en el contorno que pretende describir.
Una vez obtenida la firma tenemos una función unidimensional, pero es necesario obtener
una descripción más adecuada para la fase de reconocimiento. Debido a que el problema ha
pasado de un espacio bidimensional a otro unidimensional, la descripción es más sencilla y
en la literatura existen multitud de descriptores utilizados para estos casos. Por ejemplo, se
pueden calcular los momentos de la firma, que para sus ordenes más bajos son el promedio
y la varianza de la señal.
Descripción de contornos por aproximaciones poligonales. Un contorno puede
ser aproximado mediante un polı́gono. El objetivo de esta aproximación es capturar la
esencia de la forma del contorno, pero utilizando el mı́nimo número de segmentos posibles.
Existe un método, que data de 1972, que encuentra polı́gonos con perı́metro mı́nimo (fig.
4.7a). El proceso comienza colocando celdas cuadradas sobre el contorno, de tal forma
que dicho contorno queda encerrado entre las paredes interiores y exteriores de las celdas
concatenadas. Si consideramos el contorno como una goma elástica y esta se contrae,
obtenemos una aproximación al contorno inicial mediante segmentos rectos.
Otras soluciones se basan en técnicas de agrupamiento de puntos según algún criterio. Los
puntos a lo largo de un contorno se van agrupando, hasta que el error acumulado en un
ajuste por mı́nimos cuadrados a una recta supera un cierto umbral. En este último caso,
se finaliza la aproximación de un segmento y se comienza otra agrupación en búsqueda
del segmento siguiente.
Otra técnica consiste en dividir sucesivamente un segmento recto en dos partes, hasta
que se alcanza un determinado criterio (fig. 4.7b). Si la máxima distancia (siguiendo la
perpendicular a un segmento recto que une dos puntos del contorno) a un punto del
contorno, supera un determinado umbral, este punto lejano del contorno se convierte en
un vértice más de la aproximación poligonal. Para un contorno cerrado la mejor pareja de
puntos para comenzar, es la formada por los dos puntos más alejados que pertenecen al
contorno.
Descriptores de Fourier. Si los puntos correspondientes a un contorno, los vemos como
si estuviesen situados en el plano complejo, tenemos que cada punto bidimensional (x, y)
se reduce a un número complejo x + jy. Si aplicamos la transformada de Fourier a la
secuencia de puntos del contorno, obtenemos la respuesta espectral F (u). Utilizando las
primeras componentes de baja frecuencia de F (u), se pueden distinguir curvas que sean
relativamente distintas en su forma. La normalización de la transformada de Fourier ante
diferentes tamaños y rotaciones, se consigue multiplicando F (u) por una constante y por
ejθ , respectivamente.
Como ejemplo práctico de la utilización de los descriptores de Fourier podemos presentar
el trabajo de Ghazanfari [62], en donde se presenta la clasificación de pistachos en la
162 Capı́tulo 4: Método de reconocimiento de objetos esféricos

b.1) b.2)

b.3) b.4)

a) b)

Figura 4.7: a) Método de descripción mediante polı́gonos de perı́metro mı́nimo b)

Aproximación mediante divisiones sucesivas de segmentos: b.1) contorno original, b.2)
puntos de máxima separación respecto al segmento central, b.3) división del segmento
central, b.4) polı́gono final.

categorı́a de cerrados o abiertos. La caracterı́stica discriminante de un pistacho abierto es

la aparición de discontinuidades en su contorno. Para captar esta circunstancia el autor
selecciona los siete armónicos de Fourier más discriminantes; con ellos, y un clasificador
neuronal consigue clasificaciones con precisiones del orden del 95 %.

[Link]. Descriptores de regiones.

Descriptores básicos de regiones. En las aplicaciones de tiempo-real, donde debido

a las limitaciones de tiempo, los algoritmos desarrollados deben ser computacionalmente
eficientes, se utilizan mucho descriptores sencillos de calcular. El uso de estos descriptores,
se limita a casos en los que los objetos a detectar son fácilmente distinguibles y solo se
requiere un conjunto limitado de ellos. A continuación se citan algunos de estos descriptores
o caracterı́sticas:

Momento de área. El momento de área de orden pq, se define ası́

XX
mpq = xp y q f (x, y) (4.17)
x y

Área. El área de una región se define como el número de puntos que contiene.
Utilizando la definición de momento de área, tenemos que área = m00 .

Orientación. El ángulo θ de orientación de una región, se define considerando el eje

de menor momento de inercia, de esta manera
· ¸
2(m00 m11 − m10 m01 )
θ = 0,5 arctan (4.18)
(m00 m20 − m210 ) − (m00 m02 − m201 )
4.1 Técnicas principales de análisis de imágenes 163

Excentricidad. Es la relación entre las longitudes de los ejes mayor y menor del área.

Perı́metro. Es el número de puntos en el contorno del área.

Compacidad. Se define como el perı́metro2 /área.

Número de Euler. Es el número de regiones conexas, menos el número de agujeros

en la región.

Descripción de regiones por textura. No existe una definición formal de lo que es

textura, pero un descriptor de textura debe dar una medida cuantitativa de la suavidad,
rugosidad y regularidad de una superficie. Existen dos aproximaciones principales a
la caracterización de la textura, mediante estudios estadı́sticos y estructurales. Las
descripciones estadı́sticas tratan de medir el grado de suavidad, rugosidad o granularidad
de las regiones, y las descripciones estructurales se basan en la distribución espacial regular
de determinados patrones.
Una aproximación sencilla para describir la textura, es el uso de los momentos del
histograma de intensidad de la imagen o de una región. Si representamos por i a los
diferentes niveles de intensidad , la media de las intensidades por m y el histograma de
intensidad por h(i), el momento µn de orden n, se define según la ecuación 4.19.

N
X
µn = (i − m)n h(i) (4.19)
i=0

Se deduce según la ecuación 4.19, que µ0 = 1 y µ1 = 0. Sin embargo el momento de

orden 2, se corresponde a la varianza del histograma y es una medida del contraste, o
si trabajamos con su inversa obtenemos una medida de la suavidad de la imagen. El
tercer momento, µ3 , es una medida de la distorsión , y µ4 es una medida de la planitud.
Sin embargo, estas medidas (debido a que trabajan con el histograma) carecen de la
información correspondiente a la posición relativa de cada punto dentro de la imagen.
Una forma de conservar la información espacial, es la utilización de matrices de
coocurrencia. Si definimos un operador de posición P , que dé una salida binaria indicando
si se cumple o no una determinada relación espacial entre dos puntos de intensidad i y
j, podemos generar una matriz A donde cada elemento aij indica el número de veces que
se ha cumplido en la imagen el operador espacial P entre dos puntos con intensidad i
y j. Un ejemplo de operador espacial P puede ser el siguiente: “El punto a la derecha
de uno con intensidad i debe tener intensidad j”. La matriz A será siempre cuadrada
y tendrá tantas filas como número de niveles de intensidad. Para obtener la matriz de
coocurrencia C normalizamos la matriz A mediante un factor que es igual a la suma de
todos sus elementos. Haralick propone los siguientes descriptores a partir de la matriz C
[73]:

Probabilidad máxima: maxi,j (Cij )

P
Momento de diferencia de elementos: i,j (i − j)n Cij
164 Capı́tulo 4: Método de reconocimiento de objetos esféricos

P
Momento de diferencia inverso: ( i,j Cij )/(i − j)n
P
Entropia: − i,j Cij log Cij
P 2
Uniformidad: i,j Cij

Por otro lado las propuestas estructurales, consideran que una simple primitiva de textura,
puede ser utilizada para formar patrones más complejos, mediante la aplicación de una
serie de reglas de generación de patrones. Mediante técnicas de reconocimiento estructural
de patrones, se pueden detectar las primitivas y en función de la estructura en la que
estén dispuestas, se puede determinar la clase de patrón al que pertenece una región de la
imagen.
Descripción de regiones mediante esqueletos. Una manera de representar la forma
estructural de una región, es mediante esqueletos, que se obtienen aplicando algoritmos
de adelgazamiento a dicha región. El algoritmo propuesto por Blum, se conoce como
transformación de eje medio (MAT-Medial Axis Transformation). Consiste en representar
la estructura básica de la región mediante ejes. Para obtener los ejes se recorren todos los
puntos de la región, y por cada uno de ellos se comprueba si existen dos puntos del contorno
de la región que están a la misma distancia del punto que actualmente se está visitando.
Si la condición anterior se cumple, entonces ese punto visitado pertenece al eje medio. Sin
embargo, este algoritmo es prohibitivo desde un punto de vista de eficacia computacional.
Existen algoritmos más eficaces, como el propuesto por Naccache en 1984. Utiliza un
conjunto de 4 máscaras de tamaño 3 × 3, con las cuales determina si un punto interior a
una región no tiene caracterı́sticas de esqueleto, con lo cual debe ser marcado. Una vez
aplicado el algoritmo iterativamente por todos los puntos de la imagen, los marcados se
eliminan y los restantes constituyen el esqueleto de la región bajo análisis.
Descripción de regiones por momentos invariantes. Existen unos descriptores que
son invariantes a cambios en el tamaño, orientación y translación de la región segmentada
en la imagen, a estos momentos se les conoce como momentos invariantes. Para obtener
su expresión de una forma abreviada, se suelen definir en función de otros momentos no
invariantes como el momento central µpq (ec. 4.20) y momento central normalizado ηpq
(ec. 4.21).

XX
µpq = (x − x̄)p (y − ȳ)q f (x, y) (4.20)
x y

(p+q)/2+1
ηpq = µpq /µ00 (4.21)
De esta forma, se definen los siguientes momentos invariantes:
φ1 = η20 + η02 (4.22)
φ2 = (η20 − η02 )2 + 4η11
2
(4.23)
φ3 = (η30 − 3η12 )2 + (3η21 − η03 )2 (4.24)
φ4 = (η30 + η12 )2 + (η21 + η03 )2 (4.25)
4.1 Técnicas principales de análisis de imágenes 165

[Link]. Descripción de estructuras tridimensionales

Es bastante aceptado que la utilización de información tridimensional, juega un importante

papel a la hora de desarrollar un sistema de visión versátil en entornos no estructurados.
Sin embargo, y a pesar que este área de investigación data de hace más de 20 años, los
sistemas de visión tridimensional no son muy frecuentes en la industria. Factores como el
coste, la complejidad y la velocidad han limitado su uso.
La información tridimensional se puede obtener directamente a través de sensores que
captan distancia, como telémetros láser, sensores táctiles, ultrasonidos, etc., o mediante
inferencias a partir de imágenes de intensidad puramente bidimensionales, como en el
caso de la visión esteroscópica o mediante el estudio de los gradientes de iluminación. En
cualquiera de los casos se suele hablar de imágenes de 21/2 D debido a que la información
tridimensional es incompleta, al solamente captarse datos de una parte de la superficie de
los objetos, ya que la zona no visible no es digitalizada a no ser que el objeto sea rotado.
Una vez que disponemos de la información tridimensional, la imagen consta de un conjunto
de puntos (x, y, z), cada uno de ellos con tres coordenadas. También existe la posibilidad de
organizar la información de una forma similar a cuando tenemos imágenes de intensidad,
es decir, utilizando la función bidimensional f (x, y), pero en este caso el valor de f ya no
es la intensidad sino una distancia. En cualquiera de las representaciones, los algoritmos
de descripción de superficies tridimensionales que vamos a ver a continuación son válidos.
Ajuste de planos a la superficie. Una de las formas más directas de describir, y al
mismo tiempo segmentar una imagen tridimensional consiste en ajustar pequeñas áreas
de la imagen mediante planos y, posteriormente, combinar esas regiones en entidades de
superficie mayores. Primeramente, se ajusta un grupo pequeño de puntos a un plano
y se calcula, de cada grupo, el vector unitario normal al plano. Seguidamente se van
uniendo los grupos que tengan unas direcciones próximas y sean adyacentes. Estas regiones
resultantes, se clasifican [Link]. como curvas, planas o indefinidas, y finalmente, dichas
regiones clasificadas, se ensamblan al agrupar regiones adyacentes del mismo tipo. El
resultado final es una imagen segmentada y con un descriptor asociado a cada segmento
(en este caso segmento curvo o plano) [8, 48].
Gradiente, normal y curvatura. Este tipo de parámetros pueden ser utilizados para
caracterizar superficies, dando información que permita realizar una clasificación inicial
grosera. Como ya se vio en la sección 4.1.1, el gradiente es un vector cuya dirección es
la de máximo cambio y la magnitud es proporcional a dicho cambio. La normal a una
superficie en un punto (u, v) (fig. 4.8), viene dada según la geometrı́a diferencial, por la
ecuación
~xu × ~xv
~n(u, v) = (4.26)
k ~xu × ~xv k

La curvatura k de una superficie es un escalar, y mide el cambio que se produce en la normal

de la superficie cuando nos desplazamos por ella. Curvaturas con magnitud distintas de
cero indican que en torno a un punto las normales a la superficie cambian, mientras que
el signo asociado a la curvatura indica si la superficie es cóncava (positiva) o convexa
166 Capı́tulo 4: Método de reconocimiento de objetos esféricos

xu
xv dx

∂x
xu =
∂u
∂x
x ( u, v ) xv =
∂v

x (u + du, v + dv ) ( u, v )

(u + du, v + dv )

Figura 4.8: Representación de los componentes que definen la normal a una superficie.

(negativa). La curvatura normal, knormal , se define de esta forma

−d~xd~n
knormal = (4.27)
k d~x k2

Existen otras versiones de curvatura que no contienen toda la información tridimensional

de la superficie, pero sı́ la esencial. Nos referimos a la curvatura media H y a la curvatura
Gausiana K. A partir de ellas, y considerando solo los signos, se pueden derivar 8 tipos de
superficies [15]. Otras formas habituales de estimar la curvatura de una superficie emplean
ajustes por mı́nimos cuadrados de polinomios [125] ó utilizan métodos como el introducido
recientemente por Matas y conocido como diferenciado por filtro mediana [139]. Una
completa revisión de diversos métodos para estimar la curvatura ha sido presentada por
Worring [216].
Etiquetado de lı́neas y vértices. Dada una imagen tridimensional, podemos representar
los bordes tipo escalón mediante lı́neas, las cuales en los puntos de intersección forman
vértices. Analizando las superficies a ambos lados de las lı́neas, podemos deducir si el borde
que representan es convexo o cóncavo, asignando una etiqueta a cada tipo de lı́nea. Por
otra parte, se crea un diccionario de posibles vértices, los cuales permiten hacer un análisis
posterior basado en reglas heurı́sticas que nos posibilitan clasificar las distintas superficies,
o incluso, deducir si varias de ellas pertenecen a un determinado objeto tridimensional (un
cubo, esfera, paralelepı́pedo, etc.). Por ejemplo, si se detecta un vértice formado por la
intersección de tres lı́neas convexas, existe evidencia de que las tres superficies implicadas
sean las caras visibles de un cubo. Normalmente estos algoritmos funcionan bien para
escenas muy sencillas, formadas por objetos geométricos clásicos y sin la presencia de
otros elementos perturbadores que dificulten su visión.
Conos generalizados. Con el objetivo de obtener representaciones de objetos
tridimensionales válidas para aplicarlas al reconocimiento mediante emparejamiento de
modelos, los conos generalizados son bastante adecuados. Un cono generalizado es un
volumen que se obtiene al trasladar una sección plana, a lo largo de una curva arbitraria,
4.1 Técnicas principales de análisis de imágenes 167

mientras el ángulo a la curva se mantiene constante y la sección se transforma de acuerdo

a una regla de barrido. Por ejemplo, un cilindro se obtiene al desplazar una sección circular
a lo largo de un eje recto. Si la sección circular aumenta de diámetro mientras se avanza
a lo largo del eje, entonces obtenemos un tronco de cono.
Cuando tenemos un conjunto de puntos, que representan un objeto susceptible de ser
representado mediante conos generalizados, la primera tarea consiste en obtener el eje
central del objeto y posteriormente la sección que mejor se ajusta a los datos. De esta
forma es posible realizar el reconocimiento al comparar la descripción obtenida del objeto
desconocido, con el conjunto de descripciones almacenadas en la base de conocimiento de
objetos válidos.

4.1.3. Reconocimiento o clasificación

Un algoritmo de reconocimiento o clasificación, esencialmente, debe identificar los objetos

segmentados en una escena y asignarles una etiqueta. Para poder llevar a cabo esta
identificación, los algoritmos de reconocimiento utilizan las descripciones obtenidas
previamente. La etiqueta que se asigna a cada objeto, suele ser un nombre indicando
el tipo de objeto de que se trata ([Link] cubo, silla, esfera, gato, etc.), y opcionalmente,
se suelen dar algunos datos descriptivos adicionales, como las dimensiones, la posición y
orientación del objeto. Por tanto, podemos concluir que el reconocimiento es básicamente
un proceso de etiquetado.
Existen dos categorı́as principales de reconocimiento: los métodos basados en la teorı́a
de decisiones y los métodos estructurales. Las aproximaciones que se engloban bajo el
concepto genérico de teorı́a de decisiones, están basados en descripciones cuantitativas.
A diferencia, los métodos estructurales utilizan descriptores simbólicos y las relaciones
existentes entre ellos.

[Link]. Teorı́a de decisiones

Clasificación clásica mediante funciones de decisión. Después de la etapa de

descripción, se suele tener un grupo de descriptores o caracterı́sticas que representan al
objeto o segmento bajo análisis. Si este grupo de caracterı́sticas, son variables numéricas
o las asimilamos a valores, podemos expresarlas en una forma más compacta mediante un
vector de caracterı́sticas ~x. Este vector contiene la descripción del objeto que pretendemos
clasificar. Por otro lado, tenemos un conjunto finito de K clases Sk (k = 1..K), a las
que puede pertenecer el objeto. Para poder averiguar a que clase pertenece el objeto
desconocido, se utilizan unas funciones discriminantes o de decisión gk (~x). Cada una de las
funciones discriminantes, miden el grado de similitud del objeto desconocido, representado
por ~x , con la clase bajo comparación Sk . El objeto desconocido se asignará a la clase cuya
función discriminante sea máxima. De esta forma el objeto dejará de ser desconocido y se
le asignará la etiqueta correspondiente a la clase ganadora.
Algunos autores, en el proceso de reconocimiento, distinguen entre tres espacios: espacio
168 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Reducción de
dimensionalidad

Vector de
Entorno Objeto Descripción características Reconocimiento Clase
Segmentación (extracción de (clasificación)
características) Espacio de Espacio de
características clasificación
o patrones (Dim. N) (Dim. K)

Figura 4.9: Diagrama de bloques del proceso de reconocimiento mediante extracción de

caracterı́sticas.

de patrones de dimensión R, espacio de caracterı́sticas (N-dimensional ) y el espacio de

clasificación que tiene K dimensiones. El proceso mediante el cual se pasa del espacio de
patrones al de caracterı́sticas, consiste en una reducción de dimensionalidad con el objetivo
de seleccionar solamente las caracterı́sticas más discriminantes, y por tanto reducir la
complejidad del sistema. En esta breve descripción que estamos haciendo, no vamos a
hacer distinción entre el espacio de patrones y caracterı́sticas, con lo cual hablaremos
independientemente de uno o de otro refiriéndonos al mismo concepto (fig. 4.9).
La selección del espacio de caracterı́sticas, es el aspecto más importante de un sistema
de reconocimiento basado en estos principios. Si las caracterı́sticas elegidas no son
suficientemente discriminatorias entre ellas, difı́cilmente vamos a ser capaces de averiguar
la clase de los objetos. Incluso usando la función discriminante más sofisticada, si
las caracterı́sticas no son discriminantes, no existirá ninguna posibilidad de obtener
clasificaciones correctas. A pesar de ello, la mayor parte de la investigación se centra en
el análisis y mejora de las funciones discriminantes, mientras la tarea de selección de las
caracterı́sticas óptimas ha recibido una menor atención. Dicha selección, suele realizarse
de forma manual, pareciéndose más a un arte que a una ciencia. Bien es cierto, que existe
un conjunto de transformaciones matemáticas que permiten reducir la dimensionalidad
del espacio de caracterı́sticas, pero no siempre de una forma completamente satisfactoria.
Para obtener un sistema de reconocimiento satisfactorio, es condición indispensable que
se cumplan las siguientes propiedades:

Debe haber una pequeña varianza dentro de cada clase Sk y la separación entre
clases diferentes debe ser lo mayor posible. Es decir, los vectores de la misma clase
deben ser muy parecidos y los que corresponden a clases diferentes deben ser lo más
distintos que se pueda.

Las caracterı́sticas utilizadas para formar el espacio de patrones, deben ser insensibles
a cambios en el tamaño, la orientación o la posición del objeto a clasificar en la
imagen. Si esto no es ası́, las clases ocuparán un mayor volumen en el espacio
de patrones y la posibilidad de solapamiento entre clases crecerá, con lo cual el
desempeño del sistema se verá notablemente afectado.
4.1 Técnicas principales de análisis de imágenes 169

La dimensionalidad N del espacio de caracterı́sticas debe ser tan pequeña como sea
posible.

Una vez que el espacio de caracterı́sticas es el adecuado, y por tanto, las clases son
visiblemente discernibles, llega el momento de elegir las funciones de decisión adecuadas.
Existen muchos tipos de funciones discriminantes, pero todas ellas tratan de medir el
grado de similitud entre un vector ~x, que representa a un objeto desconocido, y una
clase de pertenencia Sk . La clase Sk suele constar de un conjunto de Mk muestras de
(k)
vectores ~ym , que corresponden a objetos conocidos (ya que se sabe que pertenecen a Sk )
utilizados para crear un modelo de la clase de pertenencia. La definición de las funciones
de decisión dependen del tipo de modelo utilizado para representar las clases. Existen
versiones deterministas, que asignan un vector como modelo representativo de una clase,
y versiones estadı́sticas, que trabajan con la probabilidad de que un vector pertenezca a
una clase determinada. Dentro de los modelos estadı́sticos, se suele hablar de clasificación
paramétrica (asume una determinada función de densidad de probabilidad y se estiman
sus parámetros) y no paramétrica (la función de densidad no es conocida). Sin embargo,
esta distinción puede llegar a ser un tanto engañosa puesto que tanto en los modelos
deterministas como en las dos versiones probabilı́sticas, se trabaja con parámetros.
Tanto en un caso determinista como en el probabilı́stico, la forma de obtener estos modelos
se puede hacer manualmente o mediante aprendizaje. En ambos casos, se habla de métodos
supervisados, puesto que debe haber un experto supervisando el proceso de formación del
modelo. Existen métodos de generación de modelos no supervisados, donde a priori, ni el
propio diseñador sabe cuantas clases existen y es el propio sistema de aprendizaje, el que
deduce las clases predominantes mediante técnicas de agrupamiento (clustering). Algunas
de las funciones de decisión más utilizadas en la literatura son las siguientes:

Los n vecinos más cercanos. Dada una observación ~x, decimos que pertenece a la
clase Sk , si los n vecinos más cercanos pertenecen en su mayorı́a a la clase Sk .
Para determinar el concepto de cercanı́a se puede utilizar la distancia euclı́dea. La
(k)
distancia entre un vector ~x y la muestra m de la clase Sk , se representa por d(~x, ~ym )
y se define ası́: v
uN
uX (k)
(k)
d(~x, ~ym ) = t (xi − ymi )2 (4.28)
i=1

El vecino más cercano. Es un caso particular del caso anterior, considerando n = 1.

Por tanto basta con tomar como clase de ~x, la clase a la que pertenezca el vector ~y
más próximo.

Regla de Bayes. Asumiendo una función de densidad normal o Gausiana y una

probabilidad a priori igual para todas las clases, se puede deducir la ecuación 4.29,
donde Φk es la matriz de covarianza y µ ~ k es el vector promedio correspondiente a la
clase Sk . El valor mı́nimo de gk (~x), permite averiguar la clase más probable.

~ k )Φ−1
gk (~x) = log(|Φk |) + (~x − µ k (~
x−µ
~ k) (4.29)
170 Capı́tulo 4: Método de reconocimiento de objetos esféricos

1 X2 Espacio de Características Bidimensional

0.5 C3

Muestra de objeto de la clase C1

C2
Muestra de objeto de la clase C2
Muestra de objeto de la clase C3
C1
Muestra de objeto de la clase C4

X1
0 0.5 1

Figura 4.10: Espacio de caracterı́sticas donde se aprecia como objetos pertenecientes a la

misma clase tienden a agruparse, pudiéndose utilizar funciones discriminantes para realizar
la clasificación.

Distancia media ponderada. Cada clase viene representada por un vector promedio
µ
~ k , que es utilizado para calcular la distancia con el vector del objeto desconocido ~x.
Sin embargo esta distancia está ponderada al tener en cuenta la desviación estándar
(k)
σi en cada componente del espacio de la clase. Esta distancia ponderada se expresa
en la ecuación 4.30. ( )
XN (k)
|xi − E(yi )|
d(~x, Sk ) = (k)
(4.30)
i=1 σi

Las funciones discriminantes tienen la propiedad de que parten el espacio de caracterı́sticas

o de patrones en volúmenes mutuamente excluyentes, mediante hipersuperficies de
dimensión N − 1 (fig. 4.10). Cada uno de estos volúmenes constituyen una clase, siendo
también posible que esté formada por varios subvolúmenes no contiguos. Las funciones
discriminantes más sencillas son las lineales, que generan hiperplanos como superficies de
separación entre clases. Las funciones cuadráticas generan hipersuperficies que delimitan
mejor que los hiperplanos la frontera de las clases.
Comparación de plantillas (Template matching). El reconocimiento de objetos
requiere la comparación de descripciones con modelos de objetos conocidos. Como vimos
anteriormente, hay dos clases fundamentales de reconocimiento: la que trabaja con
descripciones cuantitativas y la que utiliza descriptores simbólicos y sus relaciones. A
parte de esta diferenciación, también podemos clasificar las técnicas de reconocimiento,
según la manera en que proceden, en dos grupos: 1) Técnicas de búsqueda de la presencia
de un objeto conocido, y 2) Técnicas de detección de la clase a la que pertenece un
objeto desconocido. A este segundo caso pertenecen la mayorı́a de las técnicas; se trata
de comparar un objeto desconocido con diferentes modelos almacenados, para ver con
4.1 Técnicas principales de análisis de imágenes 171

cual se obtiene la mejor correspondencia. Por el contrario, en el primer caso se busca

un determinado objeto a lo largo de toda la imagen. En esta categorı́a recae la técnica
conocida como comparación de plantillas (template matching), y que vamos a describir a
continuación.
La técnica consiste en mover una plantilla a lo largo de toda la imagen. La plantilla es
una pequeña matriz, normalmente de menos de 64 × 64 puntos, que suele contener la
imagen del objeto que se busca. Mientras se va moviendo la plantilla por la imagen, para
poder medir el grado de similitud en la zona de superposición, se utilizan unas métricas.
A continuación se describen las métricas más comúnmente utilizadas, donde ψ(i, j) es la
plantilla y f (i, j) es la imagen:

Suma de diferencias y de cuadrados de diferencias. Las métricas de las ecuaciones

4.31 y 4.32, acumulan los errores que se producen al comparar la plantilla con la
región correspondiente en la imagen. Sin embargo, requieren que las ventanas a
comparar tengan niveles de intensidad semejantes. Además, no aceptan cambios en
escala y en rotación.
XX
e(x, y) = |f (i, j) − ψ(i, j)| (4.31)
i j
XX
e(x, y) = (f (i, j) − ψ(i, j))2 (4.32)
i j

Coeficiente de correlación normalizado. Esta técnica trata de maximizar la relación

señal ruido (SNR-Signal to Noise Ratio) definida como el cociente entre la respuesta
a la plantilla buscada dividida por la respuesta al ruido de fondo. La correlación
es un caso particular del “Matched filter” cuando el ruido considerado es de tipo
gausiano. Los principales aspectos negativos a destacar son su respuesta significativa
en las proximidades de la posición óptima de detección, con lo cual los picos de
correlación son suavizados; y que se vé afectado fuertemente por la oclusión. Para
que la métrica sea insensible a los valores absolutos de intensidad, se debe utilizar
el coeficiente de correlación normalizado, que se define según la ecuación 4.33. Los
valores de γ, variarán entre 1 y -1, siendo 1 el valor correspondiente a un ajuste
perfecto. Si además se quiere trabajar con objetos a diferentes escalas y orientaciones,
es necesario extender el conjunto de plantillas para que se adapten a estos cambios.
P P ¯
i j (f (i, j) − f (i, j))(ψ(i, j) − ψ̄(i, j))
γ(x, y) = P P P P (4.33)
( i j (f (i, j) − f¯(i, j))2 · i j ψ(i, j) − ψ̄(i, j)2 )1/2

Expansion Template Matching (EXM) [172]. Esta técnica está basada en aplicar
un filtro que optimiza una medida de similitud conocida como relación señal ruido
driscriminante (DSNR-Discriminant Signal to Noise Ratio). DSNR se define como
el cociente entre la respuesta a la plantilla centrada y la respuesta a cualquier
otra situación incluyendo un emparejamiento no centrado con la plantilla. De esta
forma la respuesta ideal buscada es un impulso en el centro de la plantilla, lo cual
diferencia esta técnica de la tradicional correlación que generaba máximos suavizados
172 Capı́tulo 4: Método de reconocimiento de objetos esféricos

lo cual acarrea problemas de detección ante oclusión y superposición de varios

objetos iguales. El emparejamiento DSNR se corresponde con una expansión en
un espacio no ortogonal de la imagen de entrada usando funciones básicas que son
versiones desplazadas de la propia plantilla. Los filtros diseñados bajo este criterio
son discriminantes en zonas con formas significativas de la plantilla como esquinas
o zonas con alta curvatura; por tanto concentran su atención fundamentalmente en
estos puntos. La expresión que nos permite obtener el filtro en el dominio de la
frecuencia es:
Ψ∗ (w)
EXM (w) = (4.34)
Sψ (w) + Sn (w)

donde Ψ(w) es la transformada de Fourier de la plantilla ψ(x, y), y Sψ (w) y Sn (w)

son la densidad espectral de la plantilla y del ruido respectivamente.

Es de destacar que esta técnica de reconocimiento trabaja directamente sobre los datos
presentes en la imagen, y no requiere la habitual fase de descripción. A diferencia, existen
técnicas de comparación, que se verán en la sección de métodos estructurales, que trabajan
con conceptos y primitivas creados en la fase de descripción.
Las técnicas de comparación de plantillas utilizadas para averiguar la clase de un objeto
desconocido, que debe pertenece a un modelo dentro de una gran base de modelos, son
un caso más complejo debido a su alta explosión combinatoria. Sin embargo, constituyen
un método más flexible ya que, en teorı́a, posibilita almacenar un amplio rango de objetos
en su base de conocimiento, permitiendo realizar interpretaciones del entorno completas
y no restringiéndose a aplicaciones donde el número de objetos es muy limitado. Un
ejemplo significativo es el sistema de reconocimiento MULTI-HASH [115] donde se plantea
un proceso de generación de varias hipótesis y mediante una verificación posterior se
selecciona el candidato más probable. Para extraer las hipótesis iniciales se utiliza una
representación incompleta pero con un cómputo de comparación muy eficiente. Esto es
posible ya que se utiliza un conjunto de caracterı́sticas locales unidas mediante relaciones
y un almacenamiento en tablas HASH. En la fase de verificación, al trabajar con un
conjunto de hipótesis reducido, se aplica una comparación más completa mediante una
esfera de Gauss mejorada.
Clasificación mediante redes neuronales artificiales. Las redes neuronales artificiales
están inspiradas en la versión natural que la naturaleza ha proporcionado al cerebro de
los animales y del ser humano. Una red neuronal consta de un conjunto de unidades de
procesamiento muy sencillas, llamadas neuronas, que se conectan entre sı́. Se caracterizan
por el poder de cálculo masivamente paralelo, la capacidad de aprendizaje, la habilidad
de generalización y adaptabilidad, la tolerancia a fallos y la posibilidad de cómputo y
almacenamiento de los conocimientos de forma distribuida.
Una neurona se suele modelar constituida por varias entradas, un bloque de procesamiento
sencillo y de una salida. El modelo matemático de una neurona es muy sencillo (ec. 4.35
y fig. 4.11), realiza básicamente una suma ponderada de sus entradas y luego aplica una
función de activación g, que suele dar un valor binario que depende del resultado de la
4.1 Técnicas principales de análisis de imágenes 173

x1 Sumatorio
w1 Función de activación
x2 n 1
w2 Sigmoide

Pesos
Patrón
y

i=1 0
wn
u
xn
-1

Figura 4.11: Modelo matemático de una neurona.

suma. Las funciones de activación más usadas son la escalón, la lineal, la sigmoide y la
Gausiana.

N
X
y = g( wj xj − u) (4.35)
j=1

Las redes neuronales son agregados de neuronas que se suelen distribuir formando una
capa de entrada, otra de salida y opcionalmente otras capas intermedias. Dependiendo de
la manera en que se interconecten las neuronas entre las diferentes capas, se distinguen dos
tipos de arquitecturas: lazo abierto (no hay lazos y las conexiones van de las capas de la
entrada hacia las de salida), y recurrentes (existen realimentaciones). La caracterı́stica más
importante de las redes neuronales radica en la capacidad de aprendizaje. El aprendizaje
se puede ver como el mecanismo mediante el cual los pesos wj de cada neurona se
van actualizando, hasta que finalmente la red es capaz de realizar la tarea para la cual
estaba diseñada. Entre los algoritmos de aprendizaje más comunes están los siguientes:
perceptrón, propagación hacia atrás, Boltzman, regla de Hebb y métodos competitivos
como LVQ y Kohonen.
Las redes neuronales se pueden aplicar al reconocimiento o clasificación de patrones, de
una forma similar a como trabajaban las funciones discriminantes vistas anteriormente.
Si suministramos como entrada de una red neuronal un vector de caracterı́sticas
representando un objeto, y esta red consta de tantas neuronas en la última capa como
clases posibles, estas redes se suelen entrenar para que una única neurona de la última
capa se active, indicando la clase a la que corresponde el patrón desconocido. Por tanto,
una red neuronal puede trabajar como un clasificador tradicional, y análogamente, trabaja
dividiendo el espacio de caracterı́sticas en subvolúmenes disjuntos, asociando a cada uno
de ellos una clase.
Las redes neuronales se aplican como clasificadores en muchos campos [107]. Debido a
la propiedad de autoaprendizaje o aprendizaje no supervisado, también se aplican en
problemas de agrupamiento (clustering). Otras áreas donde son de utilidad incluyen la
aproximación de funciones, la predicción de variables, la optimización, el filtrado, el diseño
de memorias direccionables por contenido y la teorı́a de control.
174 Capı́tulo 4: Método de reconocimiento de objetos esféricos

[Link]. Métodos estructurales

Las técnicas discutidas en la sección anterior trabajan con patrones cuantitativos. A

diferencia, los métodos estructurales analizan patrones simbólicos, formados por un
conjunto de primitivas y las relaciones que existen entre ellas. Una primitiva es un
sı́mbolo que representa componentes sencillas de un objeto ([Link]. un segmento recto de
longitud constante de un contorno se puede representar mediante el sı́mbolo ”a”, y un
segmento curvo por ”b”). La idea consiste en descomponer un objeto en una lista de
primitivas y en las relaciones que existen entre ellas. El caso más sencillo de relación es la
concatenación, donde dos primitivas consecutivas indican que una parte del objeto consiste
en la concatenación de las componentes representadas por las primitivas. Una vez que se
obtiene la descripción en términos de primitivas, se debe realizar su análisis. Los métodos
fundamentalmente utilizados son dos: la comparación de patrones simbólicos y el análisis
sintáctico o estructural.
Comparación de patrones simbólicos. Un ejemplo de descripciones simbólicas son los
código cadena y los números de forma. En estos casos, para averiguar si dos descripciones
representan al mismo objeto, se deben utilizar medidas de similitud [192]. Dos posibles
medidas de similitud son las siguientes:

Dadas dos descripciones simbólicas A y B, podemos utilizar como medida de

similitud el mayor orden n para el cual existe coincidencia entre cada una de las
primitivas. Es decir, A(1) = B(1), . . . , A(n) = B(n), A(n + 1) 6= B(n + 1).

Si representamos por α al número de coincidencias locales entre las descripciones A

y B, y por β el número de veces que no coinciden, podemos definir la medida de
similitud γ como γ = α/β.

Análisis sintáctico. Cuando los objetos a describir son complejos, no es adecuado realizar
una correspondencia directa entre las descripciones simbólicas como vimos anteriormente,
pues pequeñas diferencias entre objetos de la misma clase, generarán medidas de similitud
muy bajas y el reconocimiento será fallido. En este caso, el proceso de análisis adecuado
es el jerárquico, mediante el cual subpatrones de primitivas se agrupan en primitivas de
mayor nivel de abstracción, y estas a su vez se agrupan en otras de mayor nivel. Finalmente,
se representa el objeto mediante una sola primitiva de alto nivel que es la etiqueta o el
nombre del objeto reconocido. Este análisis jerárquico se realiza mediante los conocidos
métodos sintácticos.
La estructura de un sistema de reconocimiento de patrones sintáctico se puede ver en la
figura 4.12. Se pueden observar dos fases diferenciadas: diseño y reconocimiento. En la
fase de diseño se seleccionan las primitivas que se van a utilizar y el conjunto de reglas
que definen los objetos válidos. En la fase de reconocimiento, se comienza identificando
las primitivas que describen al objeto, las cuales son suficientemente simples como para
poderse reconocer mediante algoritmos sencillos. Posteriormente se realiza un análisis
sintáctico del patrón de primitivas, determinándose si es sintácticamente correcto con
respecto a una serie de gramáticas, y por tanto reconociendo el objeto. Como consecuencia
4.1 Técnicas principales de análisis de imágenes 175

Reperesentación del patrón

Clasificación
y descripción
Imagen Pre- Reconocimiento estructural
Análisis
procesamiento de las
Sintáctico
primitivas
Reconocimiento

Diseño
Objetos en mente
para reconocer Selección de
Inferencia
las
Gramatical
primitivas

Figura 4.12: Diagrama de bloques de un sistema de reconocimiento de patrones sintáctico.

del análisis, se genera una descripción estructural del objeto, normalmente, en forma de
árbol, mediante el cual se aprecia el proceso de razonamiento seguido para deducir la clase
a la que pertenece el objeto.
En la figura 4.13 se puede ver una imagen compuesta por dos objetos (un cuadrado
y un rectángulo). Después de un reconocimiento de primitivas, se asignan los sı́mbolos
“a” y “b” en las apariciones de segmentos rectos y curvos respectivamente. De toda la
imagen, obtenemos un vector de sı́mbolos (hojas del árbol), a partir del cual y mediante
abstracciones sucesivas se realiza el reconocimiento de los objetos en la imagen. Las reglas
aplicadas y presentes en la gramática indican que un rectángulo se compone de una esquina
(“b”) seguida de un lado, repetido cuatro veces, y además los lados opuestos deben tener
igual longitud. Un lado consta de un segmento recto (“a”) o de varios encadenados. Y un
cuadrado es un rectángulo con todos los lados iguales.
Cada gramática, mediante un conjunto de reglas, expresa una clase de objetos válidos
o reconocibles, y también el proceso lógico mediante el cual se pasa de las primitivas
elementales a la etiqueta final. Para aplicar este análisis en el problema de reconocimiento,
se deben utilizar tantas gramáticas como objetos válidos consideremos. Cada gramática
representa el conjunto posible de patrones simbólicos aceptables que serán interpretados
como un objeto determinado.
Formalmente las gramáticas se definen como una 4-tupla G = (Vn , Vt , P, S), donde Vn
son elementos no terminales (denotados por A, B, . . . ), Vt son las primitivas o elementos
terminales (denotados por a, b, . . .), P son las reglas y S es el sı́mbolo final o etiqueta
del objeto a reconocer. En función de el tipo de las reglas permitidas se distingue entre
diferentes gramáticas:

Gramáticas sensibles al contexto. Tienen reglas de la forma ζ1 Aζ2 → ζ1 Aζ2 .

Gramáticas libres de contexto. Cada elemento no terminal A puede ser sustituido

por una cadena β, independientemente del contexto en que aparezca A. En general
A → β.

Gramáticas regulares o de estados finitos. Las reglas siempre son de estas dos posibles
formas: A → aB y A → b. Tienen la ventaja de que el algoritmo de análisis de
176 Capı́tulo 4: Método de reconocimiento de objetos esféricos

b a b b a a b

a Cuadrado a a Rectangulo a

b a b b a a b

Imagen

Cuadrado Rectangulo

esq lado(1) esq lado(1) esq lado(1) esq lado(1) esq lado(1) esq lado(2) esq lado(1) esq lado(2)

b a b a b a b a b a b a a b a b a a

Figura 4.13: Proceso de asignación de primitivas, reconocimiento y descripción estructural

de una imagen mediante técnicas sintácticas.

los patrones puede ser realizado mediante un sencillo autómata de estados finitos,
aunque la expresividad del lenguaje es limitada.

4.2. Estrategia de reconocimiento propuesta

4.2.1. Consideraciones iniciales sobre métodos de reconocimiento

Hemos revisado en los apartados anteriores los fundamentos y las técnicas de análisis
más extendidas en la visión artificial. El proceso tradicional se divide en las etapas de
segmentación, descripción de cada uno de los segmentos, y finalmente, en base a esos
descriptores, se realiza una clasificación o reconocimiento asignando una etiqueta y unos
parámetros a los objetos detectados. Estas estrategias funcionan bastante bien cuando
las imágenes y los objetos a reconocer son bastante ideales. Sin embargo, en un caso real
como es el que pretende resolver esta tesis, es frecuente encontrarse con situaciones en las
que la captación tiene un alto contenido de ruido, la escena no está apenas estructurada
y aparecen problemas de oclusiones parciales de los objetos. Bajo estas condiciones la
primera etapa del proceso de reconocimiento, que busca obtener segmentaciones ideales,
se hace muy compleja ya que tiende a aparecer una segmentación excesiva caracterizada
porque un objeto no viene representado por un segmento, sino que aparecen múltiples,
con lo cual se requiere aplicar otras estrategias que agrupando diversos segmentos y
almacenando las relaciones entre ellos, traten de determinar la presencia del objeto u
objetos buscados. Existen soluciones parciales a esta problemática, pero en ningún caso
de tipo general, y a consta de incrementar enormemente la complejidad de los algoritmos.
Otro método más directo que es especialmente interesante cuando el universo de objetos a
buscar es reducido, es el emparejamiento de plantillas. En nuestro caso, donde se pretende
realizar un sistema de reconocimiento de objetos cuasi-esféricos para reconocer, entre
otras aplicaciones, objetos tales como fruta, basta crear un modelo de objeto esférico
4.2 Estrategia de reconocimiento propuesta 177

0.4

0.2

−0.2

−0.4

−0.6
50
40 50
30 40
20 30
20
10 10
0 0

Figura 4.14: Fitro diseñado para detectar esferas aplicando la técnica EXM.

e irlo desplazando por la imagen hasta que se detecte un alto grado de correlación. En
un caso general, la búsqueda del emparejamiento con el modelo habrı́a que hacerlo para
diferentes tamaños y diferentes orientaciones de este. Sin embargo, en nuestro caso al haber
simetrı́a esférica, no se requiere realizar la búsqueda realizando cambios en la orientación,
y solo se necesita variar el radio del modelo. Esto hace que el método de reconocimiento
por emparejamiento con una esfera sea muy directo e incluso eficiente. A pesar de estos
aspectos positivos, también existen otros factores que degradan los resultados obtenibles
idealmente, como son la oclusión de los objetos buscados y la presencia de objetos diferentes
al buscado pero con un conjunto de caracterı́sticas que generan respuestas ante una
correlación similares a las del objeto buscado. Llamaremos a estos objetos seudosimilares,
ya que dan una respuesta similar al aplicar un reconocimiento basado en emparejamiento
de plantillas, a pesar de diferir del objeto buscado. Como consecuencia una detección
de picos en los mapas de correlación puede generar muchos errores de interpretación al
detectarse tanto los objetos buscados como los seudosimilares.
Para ilustrar lo que acabamos de exponer vamos a realizar unos ensayos de correlación
de un conjunto de imágenes de prueba conteniendo esferas y objetos seudosimilares a
estas ([Link] discos u hojas). Aplicaremos dos de las técnicas de emparejamiento vistas
anteriormente en este capı́tulo: correlación y filtrado EXM. A partir de un modelo de
objeto esférico hemos creado una plantilla esférica de 21/2 dimensiones para realizar la
correlación, y esta misma plantilla la hemos utilizado para diseñar el filtro mostrado en la
figura 4.14 para realizar el filtrado EXM.
Las imágenes de prueba utilizadas se muestran en la columna de la izquierda de la figura
4.15 y son: 1) una esfera aislada, 2) la misma esfera semiocluı́da por una plancha, 3) la
imagen anterior con la adición de un objeto seudosimilar a una esfera, y 4) una escena de
un naranjo conteniendo un fondo de hojas y dos naranjas, una de ellas muy visible y la
otra parcialmente ocluida. Según los resultados de aplicar la correlación y el filtrado EXM
sobre las imágenes (columna central y derecha de la figura 4.15 respectivamente) podemos
obtener las siguientes conclusiones:

La respuesta del filtro EXM ante el patrón buscado es mucho más impulsiva que en
el caso de la correlación, como la teorı́a predice [172].
178 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Figura 4.15: Reconocimiento mediante técnicas de emparejamiento de plantillas. Columna

izquierda: imágenes de prueba sobre las cuales queremos detectar objetos esféricos;
Columna central: resultado de aplicar una correlación con una plantilla esférica; Columna
derecha: resultado de aplicar un filtrado EXM utilizando el filtro de la figura 4.14.
4.2 Estrategia de reconocimiento propuesta 179

La oclusión afecta reduciendo la repuesta y generando respuestas laterales debido a

objetos seudosimilares. Como vemos la simple plancha de oclusión genera respuestas
en ambos casos, especialmente para la correlación donde el rango de objetos
seudosimilares es mucho mayor que en el filtrado EXM que es más selectivo.

Objetos como una hoja o un disco plano con un contorno de curvatura similar a
la del objeto buscado son fuertemente seudosimilares a una esfera, tanto para una
correlación como para el filtrado EXM, lo cual se puede ver claramente en la tercera
imagen de prueba.

Las zonas discriminantes de una esfera son los contornos o los bordes, y es
precisamente aquı́ donde el filtro EXM centra su atención como puede verse en
la forma del propio filtro (fig. 4.14). En el centro el valor del filtro es próximo a cero,
por tanto solamente se realiza una convolución efectiva en busca del emparejamiento
correcto justo en los contornos de la esfera. Este aspecto permite definir cuales son los
objetos seudosimilares de una esfera aplicando EXM: “cualquier objeto con contorno
curvo de igual radio que la esfera y separado del fondo”. Se puede dar el caso de
que estos objetos den más respuesta que la propia esfera si la separación del objeto
pseudosimilar del fondo es mayor que la separación de la esfera con dicho fondo.

Las escenas naturales de un árbol frutal contienen oclusiones y objetos seudosimilares

que hacen del proceso de detección mediante esta técnica un proceso no viable.

Las técnicas de comparación de plantillas que acabamos de analizar, constituyen un proceso

lineal que centran su atención en caracterı́sticas que pueden no llegar a ser suficientemente
discriminantes para realizar una correcta detección. Esto sugiere la necesidad de aplicar
técnicas no lineales con capacidad de centrar la atención en caracterı́sticas realmente
discriminantes, y de esta forma evitar los problemas de ambigüedades y poder llegar
a realizar reconocimientos robustos y con una mayor certeza sobre los resultados de
clasificación obtenidos. Teniendo presentes estas lı́neas de actuación en la siguiente sección
presentamos la estrategia de reconocimiento que proponemos para este tipo de problemas.

4.2.2. Estrategia de reconocimiento basada en la extracción de

primitivas y en la acumulación de indicios

Cuando una persona observa una imagen donde aparecen objetos que son conocidos y no
existen dificultades provocadas por escasez de iluminación o oclusiones, el reconocimiento
de estos objetos se hace de una forma inmediata. No somos conscientes de haber realizando
ningún esfuerzo explı́cito para percibir una escena de este tipo. El análisis se realiza
mediante un procesamiento y transmisión de señales electro-quı́micas a un nivel neuronal
y finalmente cerebral. Sin embargo, cuando las escenas observadas son más complejas no es
posible realizar una interpretación automática y el ser humano recurre a otras estrategias.
Este análisis requiere un periodo temporal perceptible, durante el cual la persona es
consciente de estar realizando un análisis mental para determinar el tipo de objeto que tiene
ante sı́. Este estudio es un proceso de análisis de caracterı́sticas, generación de hipótesis,
180 Capı́tulo 4: Método de reconocimiento de objetos esféricos

y finalmente, verificación de la validez de las hipótesis planteadas. El proceso es iterativo

y en él se tienen en cuenta tantos parámetros caracterı́sticos como sean necesarios para
poder considerar una determinada hipótesis como la más probable dentro de un universo
de posibles objetos. Se trata por tanto de un proceso de acumulación de indicios sobre
la posibilidad que el objeto presente en la escena corresponda a una determinada clase,
siendo el conjunto de objetos que hemos visto y reconocido a lo largo de nuestra vida el
universo de objetos reconocibles sin necesitar más aprendizaje.
En el caso que nos ocupa, el universo de objetos válidos y susceptibles de ser reconocidos,
se limita solo a un único objeto: la esfera. La estrategia de reconocimiento que vamos a
presentar se basa en la definición de un conjunto de primitivas o componentes básicos, que
son por sı́ solos representativos de esferas o al menos tienen una alta probabilidad de que
correspondan a zonas pertenecientes a superficies esféricas. Este conjunto de primitivas
constituyen un conjunto de “pistas” que mediante un proceso de generación/verificación
de hipótesis, que contempla los indicios generados por cada una de ellas, permite etiquetar
como objetos esféricos a aquellos que acumulan un grado de evidencia suficiente [108].
Para ofrecer una idea general de la estrategia de reconocimiento que proponemos, la
figura 4.16 muestra un diagrama de bloques donde se pueden ver tres grandes etapas
de procesamiento de datos:

1. Generación de primitivas.

2. Estimación de parámetros e indicios.

3. Generación de hipótesis y verificación.

La primera etapa se caracteriza por ser diferente a otras estrategias de reconocimiento

que se centran en segmentaciones regionales, de contornos o en combinaciones de ambos
casos para mejorar los segmentos. En nuestra aproximación no estamos interesados
en segmentaciones perfectas, sino en la acumulación de “pistas” de reconocimiento
(primitivas). En el presente trabajo se han definido cuatro tipos de primitivas
suficientemente representativas de una esfera, pero la estrategia es modular y se podrı́an
añadir tantas primitivas caracterı́sticas del objeto como se estimasen necesarias. De las
cuatro primitivas, dos de ellas son primitivas locales y las otras dos son regionales. Las
primitivas locales se obtienen analizando un pequeño vecindario alrededor de cada punto,
mientras que las regionales se obtienen a partir de segmentos homogéneos extensos.
En la segunda etapa, se estiman los parámetros de la esfera y el conjunto de indicios que
indican lo fiable que es la estimación anterior. La estimación de parámetros es posible
hacerla a partir de una única primitiva de tipo regional, sin embargo, en el caso de
primitivas puntuales no se genera evidencia directa sobre la presencia de una esfera a partir
de cada primitiva, y es necesario detectar distribuciones de ellas formando agrupaciones
circulares. La definición local de estas primitivas puntuales permite que sean eficaces ante
problemas de oclusión. Aunque la oclusión reducirá el grado de evidencia generado, la
capacidad de detección permanece inalterada, siempre y cuando se detecten suficientes
primitivas como para generar hipótesis consistentes.
4.3 Definición y generación de primitivas 181

Contorno p&I1

D Corona Estimación p&I2 Generación

Generación de Parámetros
de
de Hipotesis
Parámetros (posición 3-D,
Primitivas y
e radio y
Convexas p&I3 Verificación
Indicios reflectividad)

Reflectividad p&I4

Figura 4.16: Diagrama de bloques de la estrategia general de reconocimiento.

Finalmente, en la tercera etapa, los cuatro conjuntos de estimaciones parciales serán

integrados de forma que las cuatro fuentes de indicios se apoyen mutuamente para generar
hipótesis finales más estables y fiables. Las hipótesis generadas que sean consistentes se
integrarán realizando un promedio ponderado de sus parámetros y acumulando los indicios.
Las hipótesis finales con suficientes indicios serán aceptadas y las que no alcancen un
umbral mı́nimo serán eliminadas.
En las siguientes secciones del presente capı́tulo se describe de una forma detallada
cada una de las tres etapas de procesamiento de que consta la estrategia general de
procesamiento propuesta.

4.3. Definición y generación de primitivas

El objetivo normalmente buscado en los procesos de etiquetado de puntos (pixels), se

centra en la segmentación de imágenes. En unos casos se pretende obtener el contorno
cerrado de objetos, delimitando de esta forma la región en la que aparece el objeto. En otros
casos los puntos son etiquetados con la intención de obtener regiones correspondientes a
secciones de un objeto. En cualquiera de los casos, el objetivo es realizar una segmentación,
es decir, separar los objetos del fondo. Tras la segmentación, una posterior parametrización
y clasificación permitirı́a finalizar el proceso completo de reconocimiento. Sin embargo,
una segmentación perfecta es casi siempre una tarea complicada ya que muchas veces,
especialmente en entornos no estructurados, los objetos están solapados no pudiéndose
separar unos objetos de otros, o en ocasiones, son el fondo y los objetos los que no son
separables.
A diferencia de las estrategias habituales de segmentación, nosotros planteamos una
estrategia basada en la generación de un conjunto de primitivas. El objetivo que nos
marcamos a la hora de presentar esta generación múltiple de primitivas, consiste en
extraer puntos y regiones caracterı́sticas o con alta probabilidad de pertenecer a un objeto
182 Capı́tulo 4: Método de reconocimiento de objetos esféricos

determinado, evitando al mismo tiempo la necesidad de obtener segmentaciones perfectas.

Estas primitivas, de forma individual o mediante su colaboración con otras, generan un
conjunto de indicios acerca de la existencia de un objeto. En nuestro caso, el objeto a
considerar es la “esfera” y por tanto las primitivas discriminantes seleccionadas captan
una serie de propiedades presentes en objetos esféricos.
Una estrategia que también plantea la extracción de primitivas como base para la posterior
estimación de parámetros y que no necesita obtener contornos cerrados, fue presentada
por Seitz introduciendo el concepto de ejes locales de simetrı́a [185]. Mediante esta técnica
se marcan aquellos puntos que tienen una fuerte simetrı́a analizando solo un pequeño
vecindario en su entorno. Estos puntos serán las primitivas, estando cada uno de ellos
parametrizados con el ángulo θ de su eje de simetrı́a. A partir de ellos la estimación
de los parámetros del objeto buscado se hace aplicando una estrategia parecida en
concepto a la transformada de Hough, pero donde la posición de los puntos no tiene
apenas importancia y sı́ la orientación de las fronteras de los objetos que delimitan.
Por ello la estrategia es robusta ante distorsiones, como una dilatación, pero existen
muchos problemas especialmente a la hora de asignar las primitivas que contribuyen a
un determinado objeto. Esto se debe a que las primitivas se definen mediante un concepto
genérico, no habiendo sido definidas de forma especı́fica teniendo presente el tipo de objeto
a detectar. Por ello los puntos considerados como primitivas son muy numerosos ya que no
solamente surgen de los ejes de simetrı́a de los objetos buscados, sino que surgen a partir
de otras entidades visibles con lo cual al haber exceso de primitivas no es evidente derivar
interpretaciones inmediatas.
A diferencia del caso anterior, las primitivas que vamos a presentar son exclusivas del
objeto buscado con lo cual se facilitará su posterior interpretación. Como puede apreciarse
en la figura 4.16, son cuatro las primitivas propuestas en el presente trabajo. Los nombres
asignados a cada una de estas primitivas son:

primitivas puntuales contorno

primitivas puntuales corona

primitivas regionales convexas

primitivas regionales reflectividad

El nombre que reciben explican por un lado la extensión espacial de estas, denominando
primitivas puntuales a aquellos puntos de la imagen que de forma individual tienen
unas ciertas propiedades que las hacen discriminantes; por primitivas regionales nos
referimos a aquellos grupos de puntos conexos que de forma conjunta cumplen otra serie de
propiedades discriminantes. Por otro lado las denominaciones de contorno, corona, convexo
y reflectividad indican la propiedad fundamental que deben cumplir los puntos o regiones
para ser considerados como primitivas aceptables. Las primitivas puntuales contorno y
corona son puntos que pertenecen a arcos circulares sobre el contorno y corona de una
esfera, respectivamente. Las primitivas regionales convexas y reflectividad son regiones o
4.3 Definición y generación de primitivas 183

grupos de puntos que tienen curvatura de tipo convexa y reflectividades medias propias
de la superficie del objeto buscado, respectivamente.
El hecho de elegir este tipo de primitivas se justifica por los problemas de oclusión parcial
que existe en los ambientes poco estructurados como los agrı́colas. En una escena tı́pica de
un árbol frutal existen múltiples tipos de oclusión que afectan a la visibilidad de la fruta (p.
ej. la creada por las hojas, por otros frutos o por ramas), todas ellas causando la reducción
de la superficie visible de la fruta o la partición en varios segmentos de esta. Debido a que
estas regiones visibles pueden corresponder tanto a zonas periféricas como interiores del
fruto, las primitivas a definir van a tratar de captar propiedades discriminantes del objeto
en diferentes puntos de su superficie, con el objetivo de que la oclusión parcial afecte lo
mı́nimo posible. Por ello las primitivas contorno, que captan solo los bordes o el perfil
de la esfera, serán apropiadas cuando la superficie central de la esfera este oculta pero
no lo esté una sección de su contorno. Igualmente, pero en un anillo más interior que las
primitivas contorno, las primitivas corona generarán indicios de esfericidad cuando no sea
visible ni el borde ni el centro de la esfera, pero sı́ lo sea una corona sobre su superficie. En el
caso de las primitivas regionales se centrará la atención en las áreas interiores de la esfera,
captando la curvatura propia de una esfera mediante las primitivas convexidad o bien
captando propiedades ópticas propias del objeto buscado lo cual se hace con las primitivas
reflectividad. En definitiva se han contemplado estas cuatro primitivas por considerarse
suficientemente significativas y complementarias entre sı́ como para permitir la detección
de objetos esféricos ante diferentes configuraciones de visibilidad.
A modo ilustrativo, y para presentar gráficamente lo que entendemos por cada tipo de
primitiva, en la figura 4.17 adelantamos los resultados de la extracción de los cuatro tipos
de primitivas. Hemos elegido una escena (fig. 4.17a) que contiene dos naranjas y un fondo
de hojas y ramas. Las correspondientes imágenes de distancia y reflectancia se muestran
en las figuras 4.17b y 4.17c. En la figura 4.17d vemos las primitivas puntuales contorno
que están agrupadas delimitando los bordes de los dos objetos esféricos. En la figura 4.17e
vemos las correspondientes primitivas corona que se agrupan formando semiarcos de radio
siempre menor que los formados por las primitivas contorno. Las figuras 4.17f y 4.17g
muestran las primitivas regionales convexas y reflectividad que han sido derivadas por ser
regiones con adecuada convexidad y adecuada reflectividad, respectivamente. En el caso
de la escena captada, las imágenes de distancia y reflectancia obtenidas son lo bastante
ideales como para que se generen indicios claros en cada una de las primitivas, con lo
cual el proceso de detección será redundante, siendo esto importante para dar robustez al
sistema.
El proceso de reconocimiento que presentamos es esencialmente una estrategia modular ya
que permite la utilización del número de primitivas que se estimen oportunas. Esto quiere
decir que incluso utilizando solamente una de ellas, se podrı́a seguir generando indicios
suficientes para conseguir la detección de los objetos. Sin embargo, en este caso, en el
momento de que por algún motivo no seamos capaces de captar dichas primitivas sobre el
objeto, el reconocimiento no será posible al no generarse ningún indicio. Es por ello que
se hace necesario la utilización de diferentes primitivas que sean complementarias entre
184 Capı́tulo 4: Método de reconocimiento de objetos esféricos

a) b) c)

d) e) f) g)

Figura 4.17: Ejemplo de extracción de primitivas: (a) escena fotografiada, (b) mapa de
distancias, (c) mapa de reflectancia, (d) primitivas puntuales contorno, (e) primitivas
corona, (f) primitivas regionales convexas, y (g) primitivas reflectividad.

sı́, para permitir seguir generando indicios incluso en el caso de que alguna de las otras
primitivas no se pongan de manifiesto.
En el caso que queramos reconocer objetos diferentes a una esfera, la estrategia general de
reconocimiento propuesta seguirı́a siendo aplicable. Sin embargo, las primitivas utilizadas
no tendrı́an por qué ser las mismas, tanto en su concepto o semántica como en el aspecto
cuantitativo.
En los siguientes apartados pasamos a describir en detalle todos los aspectos contemplados
en el planteamiento y diseño de cada una de las cuatro primitivas empleadas.

4.3.1. Primitivas puntuales contorno

El contorno de una esfera es un anillo del mismo radio que esta. En el caso que
dicha esfera esté parcialmente oculta, el resultado de la extracción de su contorno es
un semiarco circular. La obtención de este tipo de semiarcos es, sin duda, un claro
indicio, que convenientemente tratado genera una clara evidencia de presencia de objetos
esféricos. Cada uno de los puntos de estos semiarcos, son unidades básicas que generan la
información local que permite detectar las esferas que los originan. Estas unidades básicas
son las primitivas que pretendemos extraer y que hemos denominado primitivas puntuales
contorno.
Hay que destacar que estas primitivas no son simplemente los puntos activos tras una etapa
de extracción de contornos tradicional ([Link]. Sobel o Canny). Lo que pretendemos realizar
al extraer esta primitiva es obtener un subconjunto de los puntos contorno extraı́dos
aplicando los métodos tradicionales. Este subconjunto de puntos incluye aquellos generados
4.3 Definición y generación de primitivas 185

por objetos esféricos (o discontinuidades que a uno de sus lados pertenecen a una región
convexa), pero excluye el resto de contornos que generan otro tipo de objetos.
La clara ventaja al trabajar con las primitivas contorno, en lugar de imágenes obtenidas
tras aplicar una extracción de bordes clásica, radica en que la imagen de primitivas
contorno es mucho más limpia al no contener los bordes correspondientes a otro tipo
de objetos. Por tanto los arcos circulares se pueden apreciar de una forma mucho más
clara y consecuentemente su detección se simplifica notablemente.
La ventaja de la extracción de las primitivas contorno se pone aún más claramente de
manifiesto al considerar las escenas naturales agrı́colas conteniendo frutos y hojas como
fondo. Bajo estas circunstancias, una técnica de detección de bordes tradicional extrae
una gran cantidad de arcos semicirculares, unos que corresponden a los frutos (arcos
deseables) y otros generados por las hojas, que también tienen contornos circulares (arcos
indeseables). Una posterior etapa de detección de arcos circulares, provocarı́a la generación
de falsas evidencias allı́ donde se detecten arcos generados por presencia de hojas. Esto
significa que bajo estas condiciones se hace absolutamente imprescindible una técnica de
extracción de contornos selectiva como la que vamos a presentar ahora.
Para ilustrar el fenómeno de como una técnica clásica de extracción de bordes no discrimina
entre los diferentes tipos de contornos, y sin embargo las primitivas contorno captan el
subconjunto de los bordes que corresponden a “discontinuidades esféricas”, obsérvese la
figura 4.18 donde se muestra ambos procesamientos aplicados a imágenes sintéticas. En
la columna de la izquierda de la figura 4.18, aparece en la parte superior una imagen de
distancias donde se ha incluido una esfera y un disco plano. Ambos objetos se encuentran
parcialmente ocluidos por una plancha que los cubre, pudiéndose visualizar el 50 % de
ellos. La esfera viene a representar un fruto parcialmente oculto y el disco plano podrı́a
representar una posible hoja de un árbol. Adicionalmente, la imagen sintética contiene
una zona escalonada y una marca cuadrada que no es posible apreciar en la imagen de
distancias pero sı́ en la de reflectancias, que se muestra debajo de la correspondiente imagen
de distancias. Al aplicar un filtro de Sobel sobre cada una de las imágenes, obtenemos los
bordes que se muestran en la columna central. Es posible apreciar que no hay ninguna
discriminación en su extracción y los semiarcos correspondientes a los bordes de la esfera
y del disco generan indicios de circularidad del mismo orden. Sin embargo, aplicando la
técnica de extracción de primitivas contorno que describiremos en breve, obtenemos una
discriminación entre los diferentes tipos de bordes existentes y por tanto sólo mantenemos
los puntos del contorno que provienen de “discontinuidades esféricas” (columna derecha).
Para obtener nuestro objetivo debemos realizar un sistema de clasificación de bordes. En la
literatura se pueden encontrar diversos trabajos que contemplan la clasificación de bordes
en clases como: salto, cresta y rampa. Los primeros tipos pueden ser detectados aplicando
operadores generales de detección de bordes o métodos basados en los residuos entre la
imagen original y su versión suavizada [2] ó ajustada mediante un polinomio [118]. Otros
clasificadores utilizan operadores morfológicos aunque solamente sirven para detectar una,
o a lo sumo, dos clases de bordes. Las técnicas basadas en la covarianza permiten obtener
descriptores de forma invariantes a movimientos y permiten detectar bordes salto y cresta
186 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Figura 4.18: Extracción de contornos sobre imágenes sintéticas de distancia y reflectancia

(columna de la izquierda), utilizando un filtro de Sobel (columna central) y generando
primitivas puntuales contorno (columna derecha)

[12, 81], al igual que utilizando técnicas basadas en momentos de Zernike [63]. Aplicando
la técnica conocida por aproximación de lı́nea de barrido (Scan Line Aproximation) se
ha podido clasificar entre saltos y bordes cresta [104] aunque los resultados son bastante
sensibles al ruido.
En trabajos de Nadabar [150] y Zhang-Wallace [220] se presenta una clasificación de
bordes utilizando la integración de imágenes en distancia e intensidad. Este último
plantea clasificar siete tipos de bordes incluyendo bordes esféricos (equivalentes a nuestras
primitivas contorno), pero finalmente solo se clasifican: saltos, crestas, marcas y no bordes.
Se renuncia a clasificar los bordes esféricos (que ellos llaman Extremal ) por ser muy
similares a los bordes salto. El procedimiento utilizado consta de dos etapas:

1. Clasificación bayesiana utilizando distancia, orientación e intensidad como

caracterı́sticas.

2. Refinamiento de la clasificación mediante un proceso iterativo de relajación que de

forma concurrente realiza una restauración de las imágenes.

Otros trabajos que utilizan imágenes de distancia para clasificar bordes son los de Wani
[212] y Mintz [141]; sin embargo en ambos casos la clasificación se reduce a dos tipos de
bordes, saltos y crestas. Lo mismo ocurre con el trabajo de Gil [64] donde se combinan los
bordes del mapa de distancia e intensidades utilizando operaciones “Y” lógicas locales y
globales.
Como vemos en ninguno de los trabajos revisados se clasifican bordes de tipo esférico, que
4.3 Definición y generación de primitivas 187

Tipo Punto Distancia Reflectancia |Km|>u_Km mD>u_mD dm >u_dm m >u_m

Borde
Esférico -- SI SI --
(primitiva
contorno)

Borde SI --
NO --
Cresta

Borde
NO NO -- SI
Marca

Otros
bordes -- SI NO --

Punto
Suave NO NO -- NO

Figura 4.19: Clasificación geométrica de diferentes tipos de puntos utilizando información

de distancia y reflectancia.

es la clase en la cual nosotros estamos especialmente interesados, por ello plantearemos

nuestro propio método de clasificación.
El sistema de clasificación de puntos que proponemos se basa, al igual que en los trabajos
de Zhang-Wallace [220], Nadabar [150] y Gil [64], en la integración de la información
presente tanto en las imágenes de distancia como en las de reflectancia. Mediante esta
estrategia vamos a poder distinguir entre cinco clases de puntos: bordes esféricos, bordes
cresta, bordes marca, otros bordes y puntos suaves. En la figura 4.19 se puede ver de una
forma gráfica qué es lo que entendemos por cada una de estas denominaciones.
Basándonos en las descripciones geométricas de estos cinco tipos de puntos podemos
establecer de forma inicial las propiedades o caracterı́sticas que nos permitirán clasificarlos.
De forma general, los bordes esféricos se caracterizan por presentar un salto en el mapa
de distancias y al mismo tiempo generar una depresión o concavidad abrupta en el mapa
de reflectancias. Este último fenómeno se debe a la baja señal de reflexión captada que se
produce al incidir sobre superficies muy oblicuas, como indica la ley de Lambert, siendo
esta una caracterı́stica altamente discriminante. Los bordes cresta se caracterizan por
presentar una alta curvatura tanto positiva como negativa en el mapa de distancias, siendo
totalmente irrelevante la información de reflectancia. Los bordes marca son cambios en la
tonalidad o reflectividad de las superficies, por tanto aparecen cuando hay cambios en el
mapa de reflectancias habiendo continuidad en la imagen de distancias. En la categorı́a
188 Capı́tulo 4: Método de reconocimiento de objetos esféricos

de otros bordes incluimos el resto de posibles tipos de bordes presentes en una escena.
Son por tanto los puntos que presentan discontinuidad en el mapa de distancias pero
que no encajan en ninguna de las categorı́as anteriores. Finalmente, los puntos suaves
corresponden a regiones con continuidad o suavidad en la imagen de distancias y que
además no presentan marcas, no apareciendo por tanto discontinuidades en el mapa de
reflectancia.
Analizando las propiedades que acabamos de utilizar para describir los diferentes tipos
de puntos, hemos propuesto un conjunto de cuatro parámetros que nos va a permitir
discriminar entre ellos, y por tanto, clasificar cada punto de la imagen de una forma
muy directa al aplicar funciones discriminantes lineales y cuadráticas sobre un espacio de
caracterı́sticas de cuatro dimensiones. Este conjunto de parámetros contiene la pendiente
en el mapa de distancias mD, la curvatura media en distancias Km , la pendiente en
reflectancias m< y el diferencial de pendientes en reflectancias dm<.

[Link]. Caracterı́sticas

El cálculo de la pendiente en el mapa de distancias, mD, y en el de reflectancias,

m<, lo realizamos utilizando una ventana de tamaño 3 × 3. Realizamos primeramente
una descomposición en las direcciones horizontal y vertical para calcular las pendientes
direccionales en D: mDx , mDy , y en <: m<x , m<y . Posteriormente, la contribución de
ambas direcciones es tenida en cuenta para obtener el valor final de las pendientes de la
siguiente forma:
q
mD = (mDx )2 + (mDy )2
q
m< = (m<x )2 + (m<y )2 (4.36)

donde
2Di,j+1 + Di−1,j+1 + Di+1,j+1 − (2Di,j−1 + Di−1,j−1 + Di+1,j−1 )
mDx =
8·s
2Di+1,j + Di+1,j−1 + Di+1,j+1 − (2Di−1,j + Di−1,j−1 + Di−1,j+1 )
mDy =
8·s
2<i,j+1 + <i−1,j+1 + <i+1,j+1 − (2<i,j−1 + <i−1,j−1 + <i+1,j−1 )
m<x =
8·s
2<i+1,j + <i+1,j−1 + <i+1,j+1 − (2<i−1,j + <i−1,j−1 + <i−1,j+1 )
m<y = (4.37)
8·s

Hay que resaltar que en el cómputo de estas pendientes se considera la resolución espacial
s de la imagen capturada, indicando los milı́metros de separación entre cada pareja de
puntos contiguos. Este factor, por tanto, contribuye a que los parámetros aquı́ definidos
sean invariantes a posibles cambios en la resolución de la imagen, y a hacer que la pendiente
calculada sea adimensional.
Para ver las variaciones locales en el mapa de reflectancia dm< nos apoyamos en la
información que nos da el mapa de distancia para detectar las direcciones de los gradientes.
4.3 Definición y generación de primitivas 189

De esta forma, al detectar primeramente la dirección de la transición más representativa,

el cálculo de la diferencia de pendientes en el mapa de reflectancia se reduce al cálculo de
dos gradientes a lo largo de la lı́nea orientada según la dirección del gradiente. A la hora
de calcularlo, el rango angular continuo de 360 grados ha sido discretizado en un conjunto
de 12 secciones angulares, barriendo los 360 grados a intervalos de 30. En base a estas
secciones hemos definido dos grupos de gradientes, uno de ellos abarcando lı́neas de tres
puntos en el sentido indicado por la sección angular correspondiente, gradl3 seccion , y el otro
empleando solo dos puntos en el sentido opuesto, gradl2 seccion . Estas son sus definiciones:



 gradl3
0 (i, j) = (<i,j+3 − <i,j )/(3 ∗ si,j )




 gradl3
30 (i, j) = (<i−2,j+3 − <i,j )/(3 ∗ si,j )




 gradl3
60 (i, j) = (<i−3,j+2 − <i,j )/(3 ∗ si,j )




 gradl3
90 (i, j) = (<i−3,j − <i,j )/(3 ∗ si,j )




 gradl3
120 (i, j) = (<i−3,j−2 − <i,j )/(3 ∗ si,j )

 gradl3
150 (i, j) = (<i−2,j−3 − <i,j )/(3 ∗ si,j )
gradl3
seccion (i, j) = (4.38)


 gradl3
180 (i, j) = (<i,j−3 − <i,j )/(3 ∗ si,j )

 l3

 grad210 (i, j) = (<i+2,j−3 − <i,j )/(3 ∗ si,j )



 gradl3

 240 (i, j) = (<i+3,j−2 − <i,j )/(3 ∗ si,j )




 gradl3
270 (i, j) = (<i+3,j − <i,j )/(3 ∗ si,j )

 l3

 grad300 (i, j) = (<i+3,j+2 − <i,j )/(3 ∗ si,j )


 gradl3
330 (i, j) = (<i+2,j+3 − <i,j )/(3 ∗ si,j )



 gradl2
0 (i, j) = (<i,j − <i,j−2 )/(2 ∗ si,j )




 gradl2
30 (i, j) = (<i,j − <i+1,j−2 )/(2 ∗ si,j )




 gradl2
60 (i, j) = (<i,j − <i+2,j−1 )/(2 ∗ si,j )




 gradl2
90 (i, j) = (<i,j − <i+2,j )/(2 ∗ si,j )

 l2

 grad120 (i, j) = (<i,j − <i+2,j+1 )/(2 ∗ si,j )


 gradl2
150 (i, j) = (<i,j − <i+1,j+2 )/(2 ∗ si,j )
gradl2
seccion (i, j) = (4.39)


 gradl2
180 (i, j) = (<i,j − <i,j+2 )/(2 ∗ si,j )

 l2

 grad210 (i, j) = (<i,j − <i−1,j+2 )/(2 ∗ si,j )



 gradl2

 240 (i, j) = (<i,j − <i−2,j+1 )/(2 ∗ si,j )




 gradl2
270 (i, j) = (<i,j − <i−2,j )/(2 ∗ si,j )

 l2

 grad300 (i, j) = (<i,j − <i−2,j−1 )/(2 ∗ si,j )


 gradl2
330 (i, j) = (<i,j − <i−1,j−2 )/(2 ∗ si,j )

De acuerdo a la sección angular activa, la cual se seleccionó al discretizar la dirección

del gradiente en el mapa de distancias, solamente la pareja (gradl3 l2
seccion ,gradseccion )
será contemplada a la hora de efectuar la clasificación. En concreto, la diferencia entre
ambas componentes será la caracterı́stica de clasificación (ec. 4.40), aunque sujeta a unas
ligaduras locales como veremos más adelante en el apartado de funciones discriminantes.

dm< = gradl3 l2
seccion − gradseccion (4.40)

La cuarta de las caracterı́sticas utilizadas es la curvatura media Km . Existen definiciones

190 Capı́tulo 4: Método de reconocimiento de objetos esféricos

bastantes sofisticadas de lo que se entiende por curvatura [15], sin embargo, una buena
definición de este concepto se puede obtener utilizando el concepto de curvatura K(p, q)
para una pareja (p, q) de puntos [82]. Dados los vectores unitarios, n~p y n~q , normales a
una superficie en los puntos p y q, definimos la curvatura K(p, q) como la razón entre las
distancias de sus cabezas y sus orı́genes. La siguiente ecuación expresa este concepto de
una manera formal:

kn~p − n~q k
K(p, q) = · s(p, q) (4.41)
k~p − ~qk

donde s(p, q) es un término que vale 1 o -1 dependiendo de si la superficie es convexa o

cóncava, respectivamente.

( k(~
p+n~ )−(~
q +n~ k
p q
1 k~
p−~
qk >1
s(p, q) = (4.42)
−1 caso contrario

Finalmente, el parámetro utilizado para la clasificación es la curvatura media Km (p) en un

punto p, que se obtiene al promediar las curvaturas entre parejas de puntos del vecindario
que contienen al punto p. Es decir:

Pn
i=1 K(p, q(i))
Km (p) = (4.43)
n

[Link]. Funciones discriminantes

Las cuatro caracterı́sticas que acabamos de definir forman un espacio de cuatro

dimensiones que nos permiten realizar una clasificación atendiendo a una serie de
condiciones. Las condiciones que deben satisfacer cada uno de los puntos para ser asignados
a la correspondiente clase se esquematiza en la tabla condicional de la figura 4.19. Esta
tabla condicional, obtenida a partir de las definiciones gráficas de cada tipo de punto, nos
permite realizar una clasificación sin ninguna ambigüedad, como puede apreciarse al no
existir ninguna configuración idéntica. El único aspecto que queda por considerar es la
elección de las funciones de decisión o discriminantes. Dichas funciones van a consistir en
hiperplanos o hipersuperficies cuadráticas, como veremos a continuación, obteniéndose sus
parámetros mediante una serie de umbrales deducidos de forma automática atendiendo
a propiedades geométricas. Este aspecto es importante pues significa que no es necesario
ajustar los umbrales experimentalmente, con la consiguiente ganancia en flexibilidad.
Condición y umbral discriminante para mD. El umbral u mD correspondiente a la
caracterı́stica mD, lo definimos a partir del modelo geométrico de una esfera de radio R.
Consideramos que puntos situados a una distancia del extremo ecuatorial de una esfera
menor o igual que el paso entre puntos, s, tienen una pendiente mD considerablemente
elevada y por tanto son candidatos a bordes con discontinuidad (fig. 4.20a). El umbral
u mD se fija de esta forma:
4.3 Definición y generación de primitivas 191

√
Si una circunferencia de radio R obedece al modelo y = R2 − x2 , tenemos que la
pendiente en cada punto de una esfera viene dada por:
p
mD|esf era = dy/dx|esf era = x/ R2 − x2 (4.44)

Vamos a definir h como la fracción entre una distancia x y el radio R de la esfera.

h = x/R (4.45)

siendo x la distancia entre el centro de la esfera y la proyección sobre el eje de abcisas del
punto bajo estudio situado sobre la esfera.
De esta forma podemos definir mD|esf era en términos de h de la siguiente manera

p
mD|esf era (h) = h/ 1 − h2 (4.46)

Ası́, el valor de h que corresponde a un punto con proyección x que difiere de R en una
distancia igual al paso entre puntos viene dado por

x R−1·s
hu mD = = (4.47)
R R
y por tanto el umbral correspondiente u mD, que se utilizará para realizar la clasificación
de puntos, viene dado por

hu mD
u mD = mD|esf era (hu mD ) =q (4.48)
1 − h2u mD

Condición y umbral discriminante para dm<. De igual forma, la caracterı́stica dm<

nos permitirá discriminar una vez que deduzcamos su correspondiente umbral u dm<. Sin
embargo, en este caso no solamente se contemplará la influencia aislada de u dm< sino
que además serán considerados sus componentes grad3l y grad2l , para asegurar que el
incremento total es el resultado de la contribución de dos pendientes apreciables y con
signos diferentes. Esto se hace ası́ para asegurar la detección fiable de las concavidades
abruptas en el mapa de reflectancia, evitando elevados valores de dm< provocados por
simples transiciones entre superficies con diferentes reflectancias, las cuales son de tipo
escalón.
Ası́, la condición discriminante a satisfacer, relacionada con los incrementos de las
pendientes en el mapa de reflectancia, se traduce en

(dm< ≥ u dm<) Y (gradl3 > u dm</4) Y (−gradl2 > u dm</4) (4.49)

En relación al cálculo del umbral u dm<, si consideramos el modelo de una esfera, podemos
deducir que el ángulo θ que formarı́a un supuesto haz láser con respecto a la normal de la
superficie esférica sobre la que incide, viene dado por
192 Capı́tulo 4: Método de reconocimiento de objetos esféricos

−x
θ = arctan(dy/dx) = arctan( √ ) (4.50)
R2 − x2

De esta forma, utilizando el modelo ideal de interacción láser deducido en el capitulo 2 y

que viene dado por la ecuación 2.17, podemos expresar la reflectancia < en función de x
y R.

< = 80,9 log(cte1 · cosθ) =

h ³ p ´i
= cte2 − 80,9 log cos arctan(x/ R2 − x2 ) (4.51)

A partir de la expresión anterior, derivándola, podemos obtener la pendiente m< en el

mapa de reflectancia que le corresponde a un punto x de una esfera de radio R.

d<
m<|esf era (x) = |esf era =
dx ³ ´
2x 2x3
80,9 −0,5 R2 −x2
+ (R2 −x2 )2
³ √ ´ ³ ´1,5 = ...
ln(10) · cos tan−1 (x/ R2 − x2 ) 1+ x2
R2 −x2
80,9 x
(4.52)
ln(10) x − R2
2

Y expresándolo de forma normalizada utilizando el término h = x/R, tenemos

−80,9 h
m<|esf era (h) = (4.53)
ln(10) R · (1 − h2 )

En la figura 4.20b podemos ver en el mapa de reflectancia, la concavidad abrupta

correspondiente al contorno de una esfera. A ambos lados de este valle existen dos laderas
con pendientes pronunciadas. Denominaremos ladera interna aquella que está próxima al
centro de la esfera, y ladera externa a la que está más alejada. Si calculamos la pendiente
de la ladera interna utilizando máscaras 3 × 3, tenemos que la mejor estimación de esa
pendiente se obtiene dos puntos dentro del radio de la esfera. Por tanto el valor de h
correspondiente al umbral lı́mite viene dado por:

x R−2·s
hu dm< = = (4.54)
R R

La ladera externa de la concavidad también tiene una pendiente considerable aunque de

signo contrario. En términos absolutos dicha pendiente externa debe ser muy semejante a la
pendiente de la cara interna puesto que debe haber una recuperación de reflectancia rápida
asumiendo una superficie colindante con reflectividad tı́pica. Por tanto, el umbral utilizado
debe ser aproximadamente el doble de la pendiente en el punto de la esfera considerado,
4.3 Definición y generación de primitivas 193

a) D

R x=R-1*s
Concavidad o
b) valle de
reflectancia

x=R-2*s

Figura 4.20: Puntos crı́ticos sobre una esfera para el cálculo de los umbrales u mD y
u dm<: a) perfil en distancia, b) perfil de reflectancia.

aunque si aplicamos un margen de incertidumbre del 0.75 tenemos la siguiente frontera de

clasificación:
80,9 hu dm<
u dm< = 2 · 0,75 · m<|esf era (hu dm< ) = 1,5 (4.55)
ln(10) R(1 − h2u dm< )

Condición y umbral discriminante para m<. Como podemos apreciar en la tabla

condicional de la figura 4.19, la caracterı́stica m< es útil para distinguir entre los puntos
suaves y los bordes marca. Estos últimos se caracterizan por presentar una discontinuidad
en el mapa de reflectancia, mientras que los puntos suaves pertenecen a regiones continuas
tanto en distancia como en reflectancia. De una forma arbitraria vamos a definir como
bordes marcas a aquellos puntos que teniendo continuidad en distancias tienen una
discontinuidad en reflectancia mayor o igual a 2 en un intervalo de 1 milı́metro.
La anterior función discriminante permite clasificar correctamente las marcas cuando
entran en juego superficies planas. Sin embargo, no es adecuada para detectar marcas
en superficies con curvatura, puesto que en estos casos existe un gradiente en el mapa
de reflectancia. Sin embargo este gradiente no es debido a cambios de reflectividad de las
superficies sino a la variación gradual en reflectancia correspondiente a la ley del coseno
de Lambert. Por tanto, sobre regiones curvas es necesario añadir un término que evite
clasificar estos puntos curvos como marcas. Dicho término es una función que varı́a entre
0 e infinito y que permite elevar el umbral a medida que aumenta el gradiente en distancias.
El incremento aplicado corresponde al gradiente de reflectancia esperado suponiendo que
estuviésemos sobre un punto de una esfera para una determinada pendiente en distancias.
−80,9 h
u m< = 2 + m<|esf era = 2+ = (4.56)
ln(10) R(1 − h2 )
³ ´ 80,9 mD p
mD
como h = √1+mD 2
= 2+ 1 + mD2
ln(10) R
194 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Condición y umbral discriminante para km . La curvatura media Km es un parámetro

que se utiliza fundamentalmente para discriminar bordes cresta frente a otro tipo de
puntos sobre superficies continuas. Los bordes cresta se caracterizan por no presentar una
discontinuidad o salto en distancias, pero sin embargo manifiestan un punto de inflexión.
Esta inflexión puede ser detectada como un cambio en las normales a la superficie, y por
tanto, como un pico en un mapa de curvaturas. De esta forma evitamos contemplar estos
puntos como pertenecientes a regiones continuas.
El umbral que permite decidir si una curvatura es suficientemente grande como para
clasificar un punto como borde cresta, lo podemos definir teniendo en cuenta que la
curvatura correspondiente a la esfera media que se pretende detectar, esté suficientemente
alejada del umbral a elegir. En principio, para nuestro caso, denominamos borde cresta
a aquellos puntos que tengan una curvatura, tanto cóncava como convexa, superior a 3
veces la curvatura de la esfera media esperada que es 1/R.
u Km = 3/R (4.57)
|Km | > u Km (4.58)

[Link]. Clasificación de los puntos imagen

Una vez definidos los tipos de puntos a clasificar, las caracterı́sticas discriminantes y las
funciones de decisión, estamos en condiciones de aplicar el método de clasificación de
puntos a imágenes sintéticas y reales. Hay que destacar que este método de clasificación
realiza una integración de imágenes de reflectancia y distancia, y por tanto, el método
está restringido a aplicaciones donde se dispone de ambos tipos de información. La
selección de los umbrales de las fronteras de decisión depende del tipo de sensor láser
utilizado, sin embargo, en el caso de utilizar otro sensor basta obtener su modelo y a
partir de él se pueden derivar los nuevos umbrales siguiendo un procedimiento idéntico al
presentado en la subsección anterior.
En la figura 4.21 se puede ver el resultado de clasificar la pareja de imágenes sintéticas
de la columna de la izquierda. En la fig.4.21c vemos los puntos clasificados como bordes
esféricos, los cuales se corresponden con las primitivas puntuales contorno que utilizaremos
para generar indicios de esfericidad. En la figuras 4.21d,e,f se muestran los bordes marca,
otros bordes y los puntos suaves, respectivamente. En este caso no existe ningún borde
de tipo cresta. Para tener una idea de la distribución de los vectores de caracterı́sticas
asociados a cada pixel de la imagen, presentamos una muestra aleatoria de 30 puntos
de cada clase al proyectarlos sobre dos planos de caracterı́sticas: mD − dm< (fig.4.22) y
mD − m< (fig.4.23). Podemos apreciar que las agrupaciones no son siempre unimodales
y que tampoco siguen distribuciones gausianas. Se podrı́an haber aplicado otras técnicas
de clasificación, pero en este caso la detallada descripción geométrica de cada tipo de
pixel, permite obtener de una forma directa unos umbrales que son discriminantes, como
se mostró en la sección anterior. Además la carga computacional requerida para asignar
una etiqueta a cada punto, una vez extraı́das sus caracterı́sticas, es muy baja.
En la figura 4.24a,b,c podemos ver una escena de un árbol artificial con cuatro frutos y sus
4.3 Definición y generación de primitivas 195

a) c) e)

b) d) f)

Figura 4.21: Clasificación de puntos mediante el método propuesto: (a) y (b) imágenes
sintéticas en distancia y reflectancia, (c) bordes esféricos (primitivas puntuales contorno),
(d) bordes marca, (e) otros bordes y (f) puntos suaves.

Borde esférico Puntos suaves

Otros bordes Bordes marca
15

5 u_dm
dm

-5

-10
0 2 4 6 8 10 12
u_mD mD

Figura 4.22: Proyección sobre el plano mD − dm< de una muestra de puntos

correspondiente a la clasificación de la figura 4.21. Obsérvese como los umbrales definidos
permiten discriminar los bordes esféricos (primitivas contorno) del resto de bordes.
196 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Borde esférico Puntos suaves

Otros bordes Bordes marca
10

6
m

2
u_m
1

0
0 2 4 6 8 10 12
u_mD
mD

Figura 4.23: Proyección sobre el plano mD−m< de una muestra de puntos correspondiente
a la clasificación de la figura 4.21. Podemos observar como los umbrales deducidos permiten
discriminar entre los puntos suaves y los puntos marca.

correspondientes imágenes en distancia y en reflectancia, respectivamente. Si aplicamos

la clasificación de puntos a la pareja de imágenes distancia-reflectancia, obtenemos los
resultados mostrados en la figura 4.24d,e,f,g,h, donde se muestran los bordes esféricos,
cresta, marcas, otros bordes y puntos suaves, respectivamente. Podemos apreciar que de
estas cinco imágenes las dos más representativas a la hora de suministrar indicios de
esfericidad, son las correspondientes a bordes esféricos (cosa que era de esperar al ser
nuestras primitivas puntuales contorno), y a puntos suaves puesto que captan las regiones
continuas que existen sobre la superficie de las frutas. De hecho y como veremos más
adelante, este último tipo será utilizado para generar las primitivas regionales convexas y
reflectividad.

4.3.2. Primitivas puntuales corona

Las primitivas puntuales corona, al igual que las primitivas contorno presentadas
anteriormente, son otra forma de extraer indicios de esfericidad mediante la obtención
de arcos circulares. Con el hecho de utilizar más primitivas para detectar de nuevo arcos
esféricos se pretende complementar los indicios obtenidos anteriormente mediante las
primitivas contorno, es decir, estamos utilizando una técnica de detección basada en otros
principios de tal forma que las diversas circunstancias que puedan alejar nuestras imágenes
de los modelos ideales planteados afecten lo menos posible al proceso de reconocimiento.
Un fenómeno no contemplado hasta ahora y que puede afectar a la detección de las
primitivas contorno se puede dar si los objetos esféricos no son buenos difusores de la
luz, y cerca de sus contornos existen superficies orientadas de tal forma que cuando el haz
láser incide sobre el borde de una esfera estas superficies devuelven al sensor la energı́a
4.3 Definición y generación de primitivas 197

a) b) c)

d) e) f)

g) h)

Figura 4.24: Clasificación de puntos mediante el método propuesto correspondiente a una

imagen de un árbol frutal artificial: (a) fotografı́a de la escena en B/N, (b) y (c) imágenes
en distancia y reflectancia, (d) bordes esféricos (primitivas puntuales contorno), (e) bordes
cresta, (f) bordes marca, (g) otros bordes y (h) puntos suaves.
198 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Telémetro
láser
Distancia Reflectancia

Objeto
Esférico Real

Ideal

Figura 4.25: Situación anómala que provoca un alejamiento entre el modelo ideal y los
datos reales en la imagen de reflectancia y distancia.

reflejada especularmente sobre ellas (fig. 4.25). Este fenómeno hace que la amplitud de la
señal en los contornos de algunas esferas no sea tan débil como el modelo de reflectancia
indica. Esta circunstancia es un ejemplo de fenómenos que se pueden dar y que afectan a
la fiabilidad en la detección de primitivas, es por ello necesario complementar la extracción
de primitivas mediante otras estrategias que permitan generar más indicios de esfericidad
para obtener detecciones suficientemente robustas.
Una forma de obtener arcos circulares centrados sobre objetos esféricos se consigue al
marcar aquellos puntos que tienen igual pendiente en un mapa de distancias. El resultado
obtenido es una corona circular con un radio que es función de la pendiente seleccionada.
Esta corona circular, que podrı́a no ser cerrada si existen problemas de oclusión sobre las
esferas, permite generar indicios de esfericidad y por tanto se ha elegido como fundamento
para la obtención de las primitivas denominadas primitivas puntuales corona.
Para definir las primitivas corona primeramente necesitamos elegir la pendiente
correspondiente a la corona con mejor carácter discriminante. La corona más discriminante
será aquella con un alto número de puntos y que a la vez contenga un mı́nimo
número de puntos que correspondan a objetos no esféricos. Pero, ¿cómo determinar la
pendiente óptima para obtener las coronas más discriminantes?. En principio las siguientes
consideraciones se pueden aplicar:

No pendientes pequeñas. Las pendientes pequeñas generan coronas de radios

reducidos con lo cual al tener perı́metros pequeños se generan pocos indicios de
esfericidad. Por tanto son preferibles coronas con un radio lo mayor posible.

No pendientes máximas. Por el contrario, las coronas de máximo radio que son
aquellas que se corresponden con altas pendientes y por tanto captan bordes, no son
deseables precisamente por captar todos los bordes de forma indiscriminada, tal y
como lo hace un filtro de Sobel o Canny. La detección de forma discriminante de
los bordes que corresponden a esferas se trató en el apartado anterior al definir las
primitivas contorno.

Una pendiente intermedia. Por tanto la solución ideal se encuentra en una posición
intermedia entre las dos soluciones anteriores.
4.3 Definición y generación de primitivas 199

Eje Z
θ

R
x

Proyección sobre el plano X-Y

dx
x R

Figura 4.26: Esquema que muestra una corona sobre una esfera correspondiente a los
puntos con una pendiente tal que su normal forma un ángulo θ con el eje Z.

Para determinar esta pendiente óptima podemos aplicar una técnica de decisión estadı́stica
y elegir aquella pendiente que presente un máximo en la probabilidad de pertenecer a una
esfera. Por definición la función de densidad de probabilidad se corresponde con el cociente
entre el diferencial de la función de distribución de probabilidad dF y el diferencial de la
variable aleatoria considerada. Por tanto podemos plantear la función de densidad de
probabilidad condicional f (θ|esf era) tal y como la ecuación 4.59 indica. Suponiendo el
modelo de una esfera y un muestreo espacial uniforme sobre un plano, podemos desarrollar
dF a partir de F (x) y F (x+dx), donde las distribuciones de probabilidad F (x) y F (x+dx)
se obtienen al dividir el área de un cı́rculo de radio x y x + dx, respectivamente, entre el
área de uno de radio R (fig. 4.26 y ec. 4.60). De esta forma f (θ|esf era) queda definido
por la ecuación 4.61.

dF
f (θ|esf era) = (4.59)
dθ

πx2 π(x + dx)2

dF = F (x) − F (x + dx) = − '
πR2 πR2
2πxdx
= (x = R sin θ; dx = R cos θdθ)
πR2
2πR sin θR cos θdθ
= 2 sin θ cos θdθ
πR2
(4.60)

f (θ|esf era) = 2 sin θ cos θ (4.61)

Como puede verse en la figura 4.27a, la función densidad de probabilidad f (θ|esf era)
presenta un máximo en 0.78 radianes y se hace cero en 0 y π/2 radianes. Esto concuerda
200 Capı́tulo 4: Método de reconocimiento de objetos esféricos

1 1 1
0.9 0.9 0.9
0.8 0.8 0.8
P(plano|θ)=1-P(esfera|θ)
f(θ|esfera)

Probabilidad
f(θ|plano)
0.7 0.7 0.7
0.6 0.6 0.6
0.5 0.5 0.5
0.4

0.3
0.4

0.3
P(esfera|θ)
0.2 0.2 0.2
0.1 0.1 0.1
0 0 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

θ (rad) θ (rad) θ (rad)

a) b) c)

Figura 4.27: Función densidad de probabilidad condicional para: (a) una esfera y (b) un
plano. (c) Probabilidad de que un punto con normal θ pertenezca a un plano o una esfera.

con lo esperado ya que la probabilidad debe aumentar de una forma monótona al hacerlo
el radio puesto que el perı́metro de las coronas aumenta, sin embargo y debido a los efectos
del muestreo realizado en ejes paralelos al eje z, la zona visible para valores próximos a π/2
se reduce según el coseno de θ con lo cual la probabilidad de captar puntos con pendiente
π/2 se hace cero.
Supongamos que los objetos esféricos de interés se encuentran sobre un fondo de objetos
planos orientados aleatoriamente, si esta orientación es totalmente aleatoria se puede
demostrar que las normales a los planos presentan una distribución de probabilidad
idéntica al caso de una esfera (fig. 4.27b). Aplicando el teorema de Bayes (ec. 4.62) podemos
ver que la probabilidad de pertenecer a una esfera, de un punto cuya normal forma un
ángulo θ con el eje Z, es constante para cualquier valor de θ (fig. 4.27c). Es por ello que
no existe ningún valor concreto de θ que maximice dicha probabilidad y por tanto no hay
una pendiente óptima en el mapa de distancias que nos permita seleccionar la corona más
discriminante.

f (θ|esf era)P (esf era)

P (esf era|θ) = =
f (θ)
f (θ|esf era)P (esf era)
= =
f (θ|esf era)P (esf era) + f (θ|plano)P (plano)
P (esf era)
= (4.62)
P (esf era) + P (plano)

f (θ|plano)P (esf era)

P (plano|θ) = =
f (θ|esf era)P (esf era) + f (θ|plano)P (plano)
= 1 − P (esf era|θ) (4.63)

Sin embargo, en un caso real, el modelo de distribución de objetos con caras planas de
forma totalmente aleatoria siguiendo la función de densidad f (θ|plano) = 2 sin(θ) cos(θ),
no se llega a cumplir. Esto se debe a que en un caso no ideal existen ligaduras que restringen
la orientación aleatoria y uniforme de las normales sobre un casquete esférico, y como
4.3 Definición y generación de primitivas 201

1200 3000

0.9
1000 2500 P(hojas)=0.8
f(θ|naranjas)
0.8

0.7

f(θ|hojas)
800
P(hojas|θ)
2000
0.6
600 1500 0.5

400 1000
0.4
P(naranjas|θ)
0.3

0.2
P(naranjas)=0.2
200 500
0.1
0 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.5 1 1.5
θ(rad) θ(rad) θ(rad) θop=1.08 (hop=0.88)

a) b) c)

Figura 4.28: Función densidad de probabilidad condicional para: (a) naranjas y (b) hojas.
(c) Probabilidad de que un punto con normal θ pertenezca a una naranja o al fondo de
hojas.

consecuencia la distribución se limita a un subconjunto de las posibles direcciones. Un

ejemplo claro puede ser el de una caja cúbica colocada sobre el suelo. La normal de la cara
frontal de la caja, al estar siempre colocada sobre una superficie horizontal, puede variar
aleatoriamente pero limitada siempre a estar situada en un plano horizontal. El resultado
de este fenómeno hace que la probabilidad de encontrarnos con planos con θ próximas a
cero aumente considerablemente y se produzca un corrimiento del máximo ideal centrado
en 0.78 radianes en mayor o menor grado hacia 0 radianes.
Para ilustrar este fenómeno y para derivar un valor óptimo de θ para el caso concreto de
objetos planos orientados de forma aleatoria que forman parte del fondo de una escena
de árboles frutales, vamos a derivar de forma experimental las funciones de densidad de
probabilidad para el caso de hojas (planos) y naranjas (esferas). Hemos adquirido diversas
imágenes conteniendo de forma aislada una muestra de solo naranjas y de solo hojas;
se ha calculado el ángulo de sus normales con el eje de medición y se han representado
los correspondientes histogramas (4.28a y b). A continuación hemos ajustado los valores
experimentales por un polinomio, pudiéndose observar los resultados en las lı́neas continuas
de la misma figura. Puede observarse que la distribución de probabilidad para el caso de
las naranjas se corresponde de forma fiel a la distribución ideal de una esfera. Igualmente
en el caso de las hojas, se observa un corrimiento del modo central hacia la zona de menor
θ. El pico en los histogramas para valores de θ próximos a π/2 se corresponde al cálculo
de las discontinuidades existentes entre los objetos presentados y el fondo existente en
las imágenes, y por tanto al no ser propios del objeto correspondiente no supone ninguna
desviación respecto a lo esperado.
Aplicando de nuevo el teorema de Bayes obtenemos las probabilidades condicionales de
la figura 4.28c. Podemos ver que en este caso existe un valor de θ = 1,08 rad, para el
cual se maximiza la probabilidad de que un punto pertenezca a una naranja y por tanto
se minimiza la probabilidad de que corresponda al fondo. Las probabilidades a priori
utilizadas han sido de P (naranja) = 1/5 y de P (hoja) = 4/5, lo cual se deduce del estudio
de distribución espacial de naranjas en un árbol mediante el cual se encontraba que en una
ventana cuadrada de 500 × 500 mm el promedio de naranjas presentes era de 10. Debido a
que las probabilidades a priori son menores para el caso de una naranja que para las hojas,
202 Capı́tulo 4: Método de reconocimiento de objetos esféricos

con este valor óptimo de θop = 1,08 vamos a ser capaces de marcar una serie de puntos
en la imagen de los cuales una minorı́a de ellos pertenecerán a naranjas P (naranja|θop )
y la mayorı́a corresponderán a hojas P (hojas|θop ). Sin embargo, el cociente entre ambas
será máximo en ese punto óptimo, con lo cual la relación señal ruido también lo será.
A partir del valor óptimo de θ (θop = 1,08) podemos deducir la fracción h del radio de
una esfera en la que la superficie tiene una normal con una inclinación de θop radianes,
esta fracción resulta ser hop = 0,88. Si aceptamos que una corona debe tener una anchura
de al menos un punto para detectar una esfera, entonces aplicando un margen doble
de seguridad para que los factores de discretización se atenúen, las primitivas corona se
obtienen marcando aquellos puntos que estén en el intervalo [hop − Rs , hop + Rs ]; donde s
es la resolución espacial y R el radio de la esfera.
Expresando el rango de interés en función de la pendiente mD en el mapa de distancias,
h
que se relaciona con h mediante la relación mD = √1−h 2
, obtenemos la siguiente condición
a satisfacer por las primitivas corona:

s s
hop − R hop + R
q ≤ mD ≤ q (4.64)
s 2 s 2
1 − (hop − R) 1 − (hop + R)

Para mejorar la relación señal ruido, es necesario reducir el número de puntos marcados
como primitivas corona que realmente no pertenecen a superficies esféricas. Para ello
utilizaremos, a parte de las pendientes en los mapas de distancia mD, la información de
reflectancia disponible. Asumiendo superficies con reflectividad uniforme tenemos que los
objetos esféricos al tener una curvatura convexa, presentan una pendiente caracterı́stica en
−80,9 h
el mapa de reflectancia que viene definida por la expresión m<|esf era = ln(10) R(1−h2 )
. La
integración de la condición en el mapa de distancias (ec. 4.64) con la siguiente condición
para las pendientes en el mapa de reflectancia

hop − Rs 80,9 hop + Rs 80,9

≤ m< ≤ (4.65)
1 − (hop − Rs )2 R ln(10) 1 − (hop + Rs )2 R ln(10)

permite eliminar la mayorı́a de puntos que corresponden a planos que casualmente

presentaban una orientación igual a θop , ya que un plano con reflectancia uniforme presenta
siempre un m< igual a cero, independientemente de cual sea θ. Además, para mejorar
aun más la relación señal ruido exigimos que haya una igualdad de orientaciones en las
pendientes de ambos mapas, lo cual se expresa con la siguiente condición:

¯ ¯
¯ ¯
¯arctan( ∇Dy ) − arctan( ∇<y )¯ ≤ π/6 (4.66)
¯ ∇D ∇< ¯
x x

donde el rango angular permisible de π/6 no es crı́tico y fué seleccionado por ajuste
empı́rico.
Finalmente, en la figura 4.29 mostramos un ejemplo de una pareja de imágenes
distancia/reflectancia (a y b) de las cuales se han extraı́do las primitivas corona (c)
aplicando las tres condiciones que acabamos de exponer.
4.3 Definición y generación de primitivas 203

a) b) c)

Figura 4.29: Ejemplo de extracción de primitivas corona: (a) y (b) imágenes de distancia
y reflectancia, y (c) primitivas puntuales corona; apréciese los semiarcos que dan una clara
impresión visual de la ubicación de los cuatro frutos.

4.3.3. Primitivas regionales convexas

Las primitivas puntuales vistas con anterioridad (contorno y corona) centran su atención
sobre la periferia de los objetos esféricos. Al ser puntuales soportan altos grados de oclusión
del objeto, sin embargo cuando la periferia queda ocluida las regiones internas visibles no
generan ningún indicio referente a la presencia del objeto. El objetivo de las primitivas
regionales es la captura de indicios a partir de las regiones internas de la superficie de una
esfera. Una de las caracterı́sticas que nos da indicios de esfericidad es la existencia de una
superficie con curvatura negativa lo cual da evidencia de su convexidad. Este principio de
convexidad es el que va a ser utilizado para definir las primitivas denominadas primitivas
regionales convexas.
En primer lugar es necesario obtener las regiones sobre las cuales se ha de realizar
la caracterización. Los puntos suaves obtenidos en la etapa de clasificación de puntos
propuesta en la sección 4.3.1, serán la base para obtener cada uno de los segmentos
regionales. Estas son las etapas de procesamiento necesarias para obtener dichos segmentos
a partir de los puntos clasificados como suaves:

Erosión. Se realiza una erosión en la imagen de puntos suaves con el objeto de

separar puntos conectados que pertenecen a regiones de diferentes objetos.

Dilatación. Posteriormente se realiza una dilatación con preservación del número de

Euler para recuperar el área inicial pero sin volver a unir las regiones previamente
separadas.

Conexión de componentes. La conexión de componentes es un proceso de etiquetado

de cada punto de la imagen donde se asigna una misma etiqueta a aquellos puntos que
pertenecen a la misma región. Por cada región aislada adicional que se va encontrando
se utiliza una nueva etiqueta de tal forma que al final existen tantas etiquetas como
regiones encontradas.

Eliminación de regiones pequeñas. Aquellas regiones con un área inferior a un cierto

204 Capı́tulo 4: Método de reconocimiento de objetos esféricos

umbral (tı́picamente el 15 % del área de una esfera de radio R), son rechazadas por
no presentar un tamaño suficiente como para generar a partir de ellas estimaciones
paramétricas estables.

Una vez que tenemos las regiones perfectamente identificadas estimamos la curvatura
media K̂ y la desviación estándar de cada una de ellas σˆK . En el cómputo de la curvatura
se aplica el método definido en las ecuaciones 4.41 a 4.43 para cada punto de la región, y a
partir de estos, se estima el valor de curvatura medio y la varianza en la región. El cálculo
de los vectores unitarios normales a las superficies en el mapa de distancias (necesarios
para derivar la curvatura) lo hacemos a partir de las siguientes expresiones:

1 ∂f ∂f
~n = ~xu × ~xv = r (− , − , 1) (4.67)
∂f 2 ∂f 2 ∂x ∂y
1+ ∂x + ∂y

1
~n = √ (−a, −b, 1) (4.68)
1 + a2 + b2

donde a y b son los parámetros de un plano ajustado a una región de tamaño 3 × 3 que se
define mediante la ecuación f (x, y) = ax + by + c.
Aquellas regiones que tengan una convexidad próxima a la esperada y dicha convexidad
provenga de la integración de curvaturas puntuales con una dispersión acotada, pasarán
a la categorı́a de primitivas regionales convexas. La curvatura esperada K será igual al
inverso del radio medio esperado de las esferas a detectar, es decir, K = 1/R. Para evitar
considerar regiones casi planas o con alta convexidad, solamente aceptaremos regiones con
convexidad acotada entre −2K y −0,5K, con lo cual estamos permitiendo una variabilidad
del tamaño de las esferas de un 100 % en ambos sentidos. La restricción de baja dispersión
se consigue al exigir que debe haber una probabilidad casi nula de que haya puntos en la
región con caracterı́sticas de concavidad, lo cual se consigue exigiendo que σˆK ≤ |0,5K̂/3|.
Por tanto estas son las condiciones a satisfacer simultáneamente:

³ ´
(−2K ≤ K̂ ≤ −0,5K) Y σˆK ≤ |0,5K̂/3| (4.69)

4.3.4. Primitivas regionales reflectividad

Estas primitivas tratan de aportar indicios sin basarse en las formas, como se hacı́a en los
casos anteriores, sino basándose en propiedades ópticas superficiales como la reflectividad.
Si los objetos que queremos reconocer tienen unas propiedades ópticas que son separables
frente a la de los objetos del fondo, un análisis como el de reflectividad permitirá realizar
la clasificación de una forma muy directa.
Supongamos que conocemos un valor umbral de reflectividad ρu que nos permite separar
los objetos deseables del resto del fondo. Bastarı́a calcular la reflectividad ρ de cada una
de las regiones y evaluar a qué lado del umbral de reflectividad nos encontramos, con lo
4.3 Definición y generación de primitivas 205

xv z
dD0
xu ds0
ds1 n
dD1
D θ x
da0
da1 z'

a1 a0
y x'
y'

Figura 4.30: Esquema explicativo de la aproximación utilizada para el cálculo de θ.

cual determinarı́amos si una región pertenece al fondo o a una esfera. Para determinar
la reflectividad de una región realizamos el promedio de las reflectividades puntuales
correspondientes a cada punto de la región. Para ello aplicamos el modelo del láser deducido
en el capı́tulo 2, de donde despejando la reflectividad tenemos:

10</80,9 D2
ρ= (4.70)
cos θ α(D) AπFi

donde < es la reflectancia captada por el telémetro, D es la distancia, Fi es el flujo radiante

emitido (que es de 8 mW en nuestro caso), A es el área de la óptica de recepción, α(D)
es un término experimental que depende de la distancia y θ es el ángulo formado entre el
eje de emisión del haz láser y la normal de la superficie.
Para calcular θ utilizamos una aproximación válida para incrementos angulares pequeños,
que permite obtener θ trabajando directamente sobre el mapa de distancias en coordenadas
esféricas sin tener que hacer una transformada de coordenadas al sistema cartesiano XYZ.
Para ello utilizamos un sistema de coordenadas X’Y’Z’ solidario con el haz láser (fig.
4.30) que nos permite definir los vectores directores ~xu y ~xv de la superficie en términos
de incrementos en distancia dD0 , dD1 y diferenciales de desplazamiento ds0 , ds1 en las
direcciones X’ y Y’. A continuación presentamos la deducción de θ planteada como el
~ que define el punto de medida
producto escalar de la normal a la superficie ~n y el vector D
respecto al sistema de coordenadas X’,Y’,Z’.

~ = (0, 0, D)
D (4.71)

~ =D
|D| (4.72)
206 Capı́tulo 4: Método de reconocimiento de objetos esféricos

∂D ∂D ∂D ∂D
~n = ~xu × ~xv = (1, 0, ) × (0, 1, ) = (− ,− , 1) (4.73)
∂s0 ∂s1 ∂s0 ∂s1

s
µ ¶2 µ ¶2
∂D ∂D
|~n| = + +1 (4.74)
∂s0 ∂s1

~
~n · D D 1 1
cos θ = = = =q ' (4.75)
~
|~n||D| |~n|D |~n| ∂D 2
( ∂s ) + ( ∂D 2
) + 1
0 ∂s1

1
'q (4.76)
(mDx )2 + (mDy )2 + 1

Por tanto θ se calcula, a partir de las pendientes mDx y mDy en las direcciones x e y del
mapa de distancias, de esta forma:

 
1
θ ' arc cos  q  (4.77)
(mDx )2 + (mDy )2 + 1

Para el cálculo del valor umbral de reflectancia, ρu , que nos permite separar el fondo
de los objetos, utilizamos un proceso de aprendizaje automático que consiste en captar
dos imágenes diferentes, una conteniendo una muestra de los objetos de interés y otra
presentando una configuración tı́pica de fondo. Por cada una de estas imágenes se calcula
la reflectividad de cada punto y se parametriza una campana de Gauss mediante su valor
medio y su desviación estándar, obteniendo por tanto dos gaussianas cada una de ellas
representando la función de densidad de probabilidad para los objetos de interés y el fondo.
Dichas campanas se solaparán, y para algún valor de ρ se cumplirá la condición de igual
probabilidad de pertenecer a ambas clases. El cálculo del valor ρu que marca la frontera de
decisión de este clasificador bayesiano se obtiene igualando las funciones de probabilidad:

P (1) ρ−µ
−1/2( σ 1 )2
pdf1 (ρ) = √ ·e 1 (4.78)
2πσ1

P (2) ρ−µ
−1/2( σ 2 )2
pdf2 (ρ) = √ ·e 2 (4.79)
2πσ2

pdf1 (ρu ) = pdf2 (ρu ) (4.80)

tomando logaritmos neperianos tenemos,

P (1) 1 ρu − µ1 2 P (2) 1 ρu − µ2 2
ln( √ )− ( ) = ln( √ )− ( ) (4.81)
2πσ1 2 σ 1 2πσ2 2 σ2
Estimación de parámetros e indicios 207

P (1)σ2
(σ12 − σ22 ) ρ2u + 2(µ1 σ22 − µ2 σ12 ) ρu + µ22 σ12 − µ21 σ22 + σ22 σ12 2ln( )=0 (4.82)
| {z } | {z } P (2)σ1
A B | {z }
C

con lo cual el umbral de reflectancia se obtiene ası́:

 √
 −B± B 2 −4AC si σ1 6= σ2
2A
ρu = µ1 +µ2 σ 2 ln(P (1)/P (2)) (4.83)
 + si σ1 = σ2
2 µ1 −µ2

El aprendizaje o cálculo de ρu se hace con anterioridad a que el proceso de reconocimiento

comience (off-line). Este método permite realizar una clasificación de cada región
segmentada de una forma eficaz pues solamente es necesario hacer una comparación entre
la reflectividad de cada región ρregion y ρu , y no es necesario utilizar funciones de decisión
que operen continuamente con las funciones de densidad de probabilidad para realizar la
clasificación.
Como ejemplo en la figura 4.31 mostramos el resultado de realizar un aprendizaje del valor
umbral ρu , el cual se ha hecho captando una imagen con sólo naranjas (objetos deseables)
y otra con un fondo compuesto de hojas. En ambos casos los objetos utilizados no son
naturales y se corresponden a los frutos y hojas artificiales disponibles en el laboratorio. En
este caso el valor de reflectividad medio de las naranjas es de 0.254, mientras que las hojas
tienen una reflectividad media de 0.407, obteniéndose un valor umbral ρu = 0,28 para una
probabilidad a priori de las naranjas y hojas de P(1)=1/5 y P(2)=4/5, respectivamente.

4.4. Estimación de parámetros e indicios

Una vez obtenidas las diversas primitivas que captan indicios de esfericidad (en los tres
primeros tipos de primitivas) e indicios basados en propiedades ópticas (en las primitivas
reflectividad), el siguiente paso consiste en el cálculo de los parámetros que definen cada
esfera, es decir, el radio, su posición espacial y la reflectividad de su superficie. Este último
parámetro podrı́a ser interesante como información adicional para posteriores etapas
de clasificación atendiendo a propiedades ópticas, o incluso, para realizar recolecciones
selectivas de los frutos. El proceso de extracción de parámetros se hará de una forma
individual por cada tipo de primitivas puesto que cada una de ellas requiere un tratamiento
especial.
Una vez que se tenga la lista de los parámetros de las presuntas esferas, será también
necesario dar un grado de confianza a cada una de estas estimaciones indicando la certeza
que tenemos sobre esa estimación. Es decir, no se tendrá la misma confianza sobre los
parámetros estimados a partir de un número reducido de primitivas puntuales, que si estas
son muy numerosas y por tanto generan un alto número de indicios; en este último caso los
parámetros estimados serán mucho más fiables y el hecho de que esos datos provengan de
objetos realmente esféricos también será mayor. Por tanto, junto a los parámetros también
208 Capı́tulo 4: Método de reconocimiento de objetos esféricos

ρmedi a=0.254 σ=0.05337

0 0.2 0.4 ρ 0.6 0.8 1

ρmedia=0.407 σ=0.107 funciones densidad probabilidad

ρu

Fruta Hojas

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

b) c)

Figura 4.31: Selección del umbral de reflectividad ρu para objetos artificiales: (a) cálculo
de la reflectividad media y varianza de una muestra de naranjas, (b) el mismo cálculo
para una muestra de hojas, (c) funciones de densidad de probabilidad y el valor óptimo
de reflectividad que separa ambas clases.
Estimación de parámetros e indicios 209

generaremos los indicios acumulados, los cuales serán fundamentales en futuras etapas de
integración de las hipótesis parciales generadas a partir de cada tipo de primitiva.
Debido al carácter diferenciado de las primitivas puntuales (contorno y corona) frente a
las regionales (convexas y reflectividad), en la estimación de parámetros vamos a utilizar
dos procesos claramente diferenciados. En el primer caso se aplicará un proceso que utiliza
la transformada circular de Hough, y en el segundo, utilizaremos una técnica basada en
un ajuste por mı́nimos cuadrados. A continuación describimos ambos procesos.

4.4.1. Estimación con primitivas puntuales

Las primitivas puntuales presentadas captan arcos esféricos que delimitan el contorno de
una esfera. De una forma visual hemos visto en la sección anterior que efectivamente
cuando no hay alta oclusión este tipo de primitivas generan a un observador humano una
clara información para determinar la presencia de una esfera. Sin embargo, el volumen de
información susceptible de ser analizado ha disminuido drásticamente, ya que las primitivas
puntuales se corresponden simplemente con los “unos” de una imagen binaria y el fondo,
que es mayoritario y viene representado por “ceros”, no debe ser analizado. Por tanto,
mediante la utilización de primitivas puntuales el proceso se ha simplificado, pasando de
una detección de esferas tridimensionales en entornos altamente no estructurados, a la
detección de arcos esféricos en imágenes binarias con una relación señal ruido altamente
mejorada.
El método más evidente para detectar los arcos semiesféricos que generan las imágenes de
primitivas, es el del emparejamiento de plantillas (template matching) [172]. En este caso
bastarı́a realizar una correlación de un modelo de arco con diferentes radios e ir explorando
toda la imagen moviendo el modelo punto a punto por ella; los puntos de alta correlación
se corresponderı́an con presuntas esferas y sus parámetros serı́an los del modelo utilizado.
Sin embargo esta técnica no es muy eficiente ya que exige explorar todos los puntos de
la imagen. Plá [164], presenta un método de detección de contornos circulares ocluidos
utilizando una técnica de agrupamiento de puntos contiguos para formar segmentos de arco
que tienen una curvatura uniforme. Posteriormente agrupa estos segmentos por proximidad
y estima los parámetros mediante un ajuste por mı́nimos cuadrados. La debilidad de
esta técnica radica en que los puntos del contorno requeridos a la entrada del algoritmo
deben ser contiguos o estar formando contornos cerrados. Sin embargo, esta condición
no es siempre posible que se cumpla como sucede con nuestras primitivas puntuales.
Análogamente, Jacobs [94] también presenta resultados similares detectando grupos de
segmentos lineales convexos.
La técnica conocida como transformada de Hough [47, 120, 219, 91, 90, 92, 3] es un método
más eficiente de “template matching” ya que no recorre toda la imagen sino solo los puntos
activos de ella; en nuestro caso solo utilizarı́a las primitivas puntuales y el fondo no serı́a
explorado. Además es robusta en el sentido de que soporta ruido impulsional y no requiere
que los puntos que definen un contorno estén agregados y formen arcos continuos. Por ello
es una técnica muy adecuada a nuestro propósito.
210 Capı́tulo 4: Método de reconocimiento de objetos esféricos

r
cy
cy

r
cx cx

Figura 4.32: Proceso de votación mediante la transformada circular de Hough.

En la primera sección de este capı́tulo explicamos en qué consiste la transformada de

Hough para el caso de querer detectar lı́neas rectas, y también para arcos esféricos. En
el segundo caso, los parámetros a detectar son: el centro de la circunferencia (cx ,cy ) y su
radio r. Por tanto el espacio de parámetros a donde vamos a realizar la transformación
es un espacio tridimensional con coordenadas cx , cy y r. En la figura 4.32 se puede ver el
proceso de transformación o votación, de una imagen conteniendo una circunferencia, en
su espacio transformado. En este proceso por cada punto de la circunferencia se genera
un tronco de cono de votos que se acumula en el espacio de parámetros. Vemos que existe
un punto común de intersección donde se produce una alta votación que se corresponde
con los parámetros de la circunferencia que queremos detectar. Por tanto, mediante la
transformada circular de Hough, la detección de circunferencias se ha simplificado en la
detección de picos o máximos locales en el espacio transformado.
El principal problema de la transformada de Hough es el tamaño del espacio transformado,
el cual si es muy grande provoca problemas de reducción de eficiencia ya que el proceso
se basa en la votación y detección de picos en este espacio, y por tanto al crecer dicho
espacio, la complejidad de los algoritmos aumenta con el mismo orden de magnitud [91].
Para reducir la complejidad de los algoritmos hemos utilizado las siguientes técnicas de
optimización:

Discretización del espacio transformado. Para llevar a cabo el proceso de votación

sobre un computador digital, se recurre a la utilización de una matriz de
acumuladores que es una versión discreta del espacio transformado. Por simplicidad,
el espacio transformado lo hemos discretizado, en sus coordenadas cx y cy , de
igual forma que está discretizada la imagen sobre la cual queremos detectar los
arcos esféricos. Una discretización más grosera serı́a también adecuada ya que el
número de acumuladores se reducirı́a más, aumentándose la eficiencia, aunque en
contrapartida la precisión en la determinación de las coordenadas se verı́a reducida.
La discretización en r se hace centrada en torno al radio R esperado de las esferas,
con intervalos regulares correspondientes a la resolución espacial de paso entre puntos
de la imagen inicial.
Estimación de parámetros e indicios 211

Incorporación del parámetro distancia en la votación. Los tres parámetros cx , cy y r

que definen la circunferencia formada por las primitivas puntuales, también son parte
de las coordenadas tridimensionales del objeto esférico que estamos buscando, sin
embargo, para terminar de definir su posición tridimensional necesitamos conocer la
distancia d a la que se encuentra el centro de dicho objeto. Para obtener este cuarto
parámetro aprovechamos el proceso de votación de la transformada de Hough y por
cada acumulador, a parte de almacenar el número de votos, añadimos en promedio la
distancia Di,j de cada punto votante. Debido a que todas las primitivas puntuales que
contribuyen en la votación de cada esfera deben encontrarse a la misma distancia, el
promedio final obtenido es una buena estimación de la distancia a la que se encuentra
el objeto esférico. Además, la existencia de puntos votantes situados a una distancia
alejada del valor final, permite determinar aquellos puntos que no se deben considerar
para realizar votaciones, por provenir de otras superficies.

Votación reducida usando dirección del gradiente [120]. La transformada circular

de Hough realiza por cada punto imagen y para cada uno de los radios considerados,
una votación sobre una circunferencia en el plano cx − cy (fig. 4.32). Este proceso de
transformación de un punto a múltiples se puede optimizar conociendo la dirección
del gradiente de cada punto imagen, ya que el centro de una circunferencia siempre
está en la dirección opuesta a la del gradiente de un punto perteneciente al contorno
de una esfera. De esta forma es posible reducir la votación por cada punto, ya que
en vez de hacerlo sobre una circunferencia completa ahora solo se hace sobre un
arco de circunferencia. El rango angular de la votación depende de la incertidumbre
en la determinación de la dirección del gradiente, que idealmente deberı́a pasar por
el centro de la esfera que generó las primitivas puntuales. En nuestro caso hemos
trabajado con un rango angular de 300 con lo cual se consigue reducir el proceso de
votación en más de un orden de magnitud.

Retrotransformación [60]. La retrotransformación (Backtransform) se fundamenta

en repetir el proceso de votación de nuevo, pero a diferencia del primer paso,
en este segundo proceso se utiliza la información de la votación anterior para
depositar solamente un voto por cada punto imagen. La casilla del acumulador
elegida será aquella que presente el mayor número de votos de las casillas dentro del
ámbito de votación del punto imagen. El resultado que se obtiene es una acentuación
de los picos en el volumen de votación, por tanto se mejora la relación señal ruido
y se facilita la detección de picos, la cual se puede hacer aplicando un umbral. Para
eliminar la mayor parte del ruido y dejar los candidatos más votados aplicamos un
umbral que se corresponde a una votación de un arco circular de 300 .

Una vez efectuada la umbralización, realizamos un agrupamiento (clustering) de las

casillas que han superado el umbral de votación, de esta forma conseguimos obtener las
agrupaciones naturales existentes [54]. El algoritmo de agrupamiento se basa en la distancia
euclı́dea en el espacio transformado realizándose agrupaciones de las agregaciones más
compactas. Los grupos finalmente detectados determinan los parámetros de las esferas,
212 Capı́tulo 4: Método de reconocimiento de objetos esféricos

d d
dcorregido

e
rcorregido
h1 h2 h1 h2

a) b)

Figura 4.33: Correcciones en radio y distancia a efectuar después de aplicar la transformada

circular de Hough sobre las primitivas puntuales.

que se calculan promediando los parámetros de cada uno de los componentes agregados y
sumando el número de votos.
Debido a la posición de las primitivas sobre la esfera, existen correcciones que hacer a dos
de los cuatro parámetros obtenidos mediante la transformada circular de Hough:

El radio de la esfera. Tanto las primitivas contorno como corona forman

circunferencias de radio r menor que el de la esfera que las genera (fig. 4.33a),
por tanto, la corrección a aplicar es esta:
r
rcorregido = h1 +h2
(4.84)
2

La distancia a la esfera. La distancia d obtenida en la votación es inferior a

la distancia real al centro de la esfera, por ello, el error cometido e debe ser
compensado (fig. 4.33b):
s
h1 + h2 2
dcorregido = d + e = d + rcorregido 1 − ( ) (4.85)
2

Los indicios de esfericidad están directamente relacionados con el número total de

votaciones realizadas y con la proximidad entre el tamaño de la esfera esperada R y
la estimación de radio corregido rcorregido . Por tanto los indicios obtenidos a partir de las
primitivas puntuales los calculamos ası́:

votos grupo
Indicios = · exp−|rcorregido −R|/R (4.86)
π( Rs )2 (h2 − h1 )2

donde h2 y h1 son las fracciones de radio utilizadas para calcular las primitivas corona o
contorno, y s es la resolución espacial.
Estimación de parámetros e indicios 213

r=11 puntos r=11 puntos

Ind: 0.67

Ind: 0.19

a) b) c) d)

Figura 4.34: Estimación de parámetros e indicios a partir de primitivas puntuales

utilizando la transformada circular de Hough: (a) primitivas puntuales, (b) CHT, (c) CHT
después de aplicar backtransform, (d) parámetros e indicios estimados.

Como ejemplo ilustrativo del proceso de transformación y estimación de los parámetros

a partir de primitivas puntuales, en la figura 4.34 se muestran los resultados intermedios
de las diferentes etapas de procesamiento aplicadas. Las imágenes b) y c) de esta figura
muestran dos secciones del espacio transformado de Hough correspondiente a un radio r
de 11 puntos. La primera sección (4.34b) se corresponde a la primera votación optimizada
utilizando información de la dirección de los gradientes. Se puede apreciar ya un claro
agrupamiento de las votaciones. En la segunda sección (fig. 4.34c) se muestra la votación
después de aplicar la retrotransformación (backtransform). Se aprecia que los picos
anteriores no tienen tanta dispersión y quedan mejor localizados. Las restantes secciones
del espacio de Hough no han sido mostradas ya que no generan una acumulación de votos
significativa, y por tanto no suponen una contribución apreciable en la determinación de
los parámetros de la esfera.

4.4.2. Estimación con primitivas regionales

Una primitiva regional es un conjunto de puntos que pertenecen a una misma superficie
y que se formaron por generar indicios de esfericidad por su curvatura o indicios de
corresponder a la superficie del objeto buscado por tener una reflectividad tı́pica. Los
parámetros de la esfera se obtienen a partir de las primitivas regionales y la imagen de
distancias, ajustando la ecuación de una esfera sobre la región en el mapa de distancias
definida por cada una de las primitivas regionales. A continuación desarrollamos el proceso
de ajuste aplicado, en el cual xi , yi y zi son los datos o coordenadas de cada punto en la
región, y xc , yc , zc , r son los parámetros a determinar.

(xi − xc )2 + (yi − yc )2 + (zi − zc )2 = r2 (4.87)

x2i + yi2 + zi2 − 2xi xc − 2yi yc − 2zi zc + x2c + yc2 + zc2 − r2 = 0 (4.88)
| {z }
w

2xi xc + 2yi yc + 2zi zc − w = x2i + yi2 + zi2 (4.89)

214 Capı́tulo 4: Método de reconocimiento de objetos esféricos

Si la región contiene n puntos podemos plantear un sistema de ecuaciones que se puede

expresar de forma matricial de la siguiente forma:

   
2x1 2y1 2z1 −1 x21 + y12 + z12
     
 2x2
 2y2 2z2 −1 
  xc
 x22 + y22 + z22 
   y   
 :   c   : 
 · = 
(4.90)
 2xi −1    x2i + yi2 + zi2

 2yi 2zi   zc  



 :  w  : 
   
| {z }
2xn 2yn 2zn −1 p xn + yn2 + zn2
2
| {z } | {z }
A b

A·p=b (4.91)

Para realizar un ajuste por mı́nimos cuadrados la función de error e(p) a minimizar, que
depende del vector de parámetros a estimar p, es

e(p) = (Ap − b)T · (Ap − b) (4.92)

con lo cual realizando sus derivadas parciales e igualando a cero tenemos

2AT (Ap − b) = 0 (4.93)

cuya solución es:

p = (AT A)−1 AT b (4.94)

A este método de ajuste se le conoce como técnica de la seudoinversa [221], y permite

obtener mediante un cómputo directo los parámetros xc , yc , zc y r; este último después
p
de utilizar la relación r = x2c + yc2 + zc2 − w.
En cuanto a los indicios de que los parámetros obtenidos correspondan realmente al objeto
buscado, podemos decir en general que estos dependerán del tamaño de la primitiva
regional. Especı́ficamente para el caso de las primitivas regionales convexas, la similitud
entre el radio esperado y el obtenido, ası́ como el error obtenido en el ajuste a la esfera
serán otros factores relacionados con la confianza en la estimación. De esta forma hemos
utilizado la siguiente expresión para obtener la evidencia generada a partir de primitivas
convexas:
n Pn
− i=1 (zmodelo (xi ,yi )−zi )2 /n
Indicios = R exp exp−|r−R|/R (4.95)
π( s − 1)2

donde n es el número de puntos en la región, y zmodelo (xi , yi ) = zc −

p
r2 − (xi − xc )2 − (yi − yc )2 , representando el valor de distancia que corresponde al punto
(xi , yi ) según el modelo obtenido mediante el ajuste presentado.
En el caso de las primitivas regionales reflectividad, la proximidad entre el valor de
referencia aprendido para los objetos deseables y la reflectividad superficial estimada para
4.5 Generación de hipótesis finales y verificación 215

cada región, marcará igualmente el grado de confianza que podemos obtener a partir de
esta propiedad discriminante. Por tanto para las primitivas reflectividad utilizamos esta
expresión
|ρ−ρesf era |
n −0,5( σρ
)2
Indicios = R 2
exp esf era (4.96)
π( s − 1)

donde ρ es la reflectividad estimada en la región, ρesf era es la reflectividad aprendida

inicialmente, y σρesf era es la desviación estándar obtenida en el proceso de aprendizaje.

4.5. Generación de hipótesis finales y verificación

En la etapa anterior por cada tipo de primitiva éramos capaces de obtener unas
hipótesis parciales. Estas hipótesis consistı́an en el conjunto de parámetros definiendo
la posición, radio y reflectividad del objeto buscado. Cada hipótesis parcial se generaban
basándose solamente en el análisis de cada clase de primitivas. En esta última etapa
pretendemos integrar las cuatro fuentes de indicios en una única hipótesis global que sea
el resultado de la contribución de todas las fuentes de indicios. De esta forma aquellas
hipótesis parciales demasiado débiles, o con pocos indicios para ser consideradas hipótesis
globales consistentes, mediante la contribución de otros indicios provenientes de otras
primitivas, pueden convertirse en candidatos válidos. De esta forma, estamos realizando
una integración o fusión en la cual los cuatro métodos de análisis contribuyen en la
detección de los objetos, aportando cada uno la información necesaria para poder derivar
una decisión final.
La integración de las hipótesis parciales en las definitivas hipótesis globales, se realiza
agrupando aquellas que se encuentran suficientemente próximas, en términos de la
distancia euclı́dea, en el espacio que define su posición tridimensional. En concreto
integramos aquellas hipótesis locales cuya distancia entre centros sea inferior a 3 veces
la desviación estándar en la estimación de las coordenadas tridimensionales, que como
se verá en el siguiente capı́tulo es inferior a 3 mm. En este caso, es decir, cuando hay
integración entre dos o más hipótesis locales, los parámetros globales se obtienen haciendo
un promedio ponderado, donde los pesos son los cocientes entre los indicios parciales y
la suma total de indicios. Los indicios que acompañaran a la hipótesis global generada,
se obtiene sencillamente sumando las indicios correspondientes a las hipótesis parciales.
Finalmente, debe ser aplicado un umbral para eliminar aquellas hipótesis globales con
indicios insuficientes y por tanto con alta probabilidad de que puedan ser debidos a ruido
y ser causantes de que aparezcan detecciones falsas.
El umbral aplicado deberá ser seleccionado en función del nivel de ruido presente.
Normalmente interesará conseguir el máximo número de detecciones correctas y evitar
todas la detecciones falsas. En ese caso, y considerando imágenes de árboles frutales como
se verá en el siguiente capı́tulo, un umbral de indicios en torno a 0.15 es el más adecuado.
Nótese que en el caso de que las cuatro fuentes contribuyan de una forma total, al captar
todas las primitivas de una forma plena, los indicios máximos alcanzables son 4.0, por
216 Capı́tulo 4: Método de reconocimiento de objetos esféricos

tanto el umbral de 0.15 se corresponde a decir que con captar un 3.75 % de los máximos
indicios posibles se tiene evidencia o certeza sobre la existencia de una esfera.
Debido a que estamos especialmente interesados en eliminar al máximo las detecciones
indeseables, además de la umbralización basada en indicios también aplicamos una etapa
de verificación que elimina aquellas poco probables hipótesis finales que con suficientes
indicios no deben aceptarse, o bien por que no nos interesa su detección ([Link]. por ser
esferas con parámetros alejados de los deseados) o bien por que admitir su existencia
conduce a un resultado absurdo. Para eliminar esta circunstancia aplicamos una etapa
basada en reglas que aplica y comprueba que se cumplan las siguientes condiciones:

Distancia absoluta. Rechazamos cualquier hipótesis cuya posición espacial esté fuera
del alcance del robot manipulador y del sistema de captación. Es decir

1 m < Distancia < 4 m (4.97)

Tamaño esperado. Eliminamos aquellas posibles hipótesis que presenten radios de

la esfera r alejados del valor esperado R. En particular, debido a que la aplicación de
detección de frutos presenta una variabilidad acotada, el rango válido lo establecemos
entre el doble y la mitad del radio esperado R.

R/2 < r < 2R (4.98)

Opacidad. Rechazamos hipótesis que presenten puntos en su superficie que estén

situados a mayor distancia que la que les corresponderı́a atendiendo a su posición
espacial y su radio. Es decir, estamos eliminando presuntas esferas que en su
volumen presenten agujeros a través de los cuales se pueden ver superficies en planos
posteriores a la esfera.
q
{i, j|D(x + i, y + j) > distancia − r2 − i2 − j 2 , i2 + j 2 < r2 } = ∅ (4.99)

No Intersección. Debido a que dos esferas no pueden ocupar el mismo volumen al

mismo tiempo, dada una pareja de hipótesis rechazamos la de menor evidencia si los
volúmenes ocupados por ambas esferas interseccionan.
q
(xc1 − xc2 )2 + (yc1 − yc2 )2 + (d1 − d2 )2 > r1 + r2 (4.100)

4.6. Conclusiones

A lo largo de este capı́tulo los aspectos más destacables son los que a continuación se citan:

Hemos presentado una breve pero completa revisión de las técnicas más habituales en
la interpretación de imágenes, que tienen una relación directa con el reconocimiento
de patrones y que se fundamentan en la extracción de caracterı́sticas de cada patrón y
4.6 Conclusiones 217

su posterior clasificación. En el caso del procesamiento de imágenes vemos que existe

una etapa previa conocida como segmentación que trata de aislar cada objeto del
resto de la imagen. De esta forma estamos obteniendo el segmento correspondiente a
la entidad a clasificar, y por tanto a partir de aquı́ el procesamiento restante se centra
en la extracción de caracterı́sticas de cada segmento y en su posterior clasificación.

Hemos propuesto una estrategia de reconocimiento de objetos esféricos basada en

la acumulación de indicios generados mediante cuatro tipos de primitivas. Estos
indicios aparecen al extraer primitivas, tanto de carácter puntual como regional, que
han sido diseñadas especialmente para detectar propiedades discriminantes de los
objetos buscados.

Se han presentado nuevas primitivas puntuales, que integrando información de

distancia y reflectancia, permiten clasificar los puntos de la imagen en dos clases: 1)
puntos que corresponden a bordes de transición esférica (primitivas contorno) y 2)
puntos con pendientes de máxima probabilidad de pertenecer a la superficie de una
esfera (primitivas corona).

Planteamos la estimación de parámetros e indicios a partir de primitivas puntuales

y regionales. En el primer caso, se aplica una transformada circular de Hough
modificada en varios aspectos para optimizar su eficiencia, y en el segundo se aplica
un ajuste sobre las regiones definidas por las primitivas.

Finalmente, se presenta la integración de las diversas hipótesis parciales generando

hipótesis definitivas mediante el promedio ponderado de parámetros y acumulando
los indicios provenientes de diferentes fuentes. Como criterio adicional para evitar
posibles detecciones indeseables, se aplica un test basado en reglas que comprueba
varias condiciones que conducen a determinar que la esfera no es de interés o a un
absurdo sobre su existencia.
218 Capı́tulo 4: Método de reconocimiento de objetos esféricos
Capı́tulo 5

Evaluación conjunta del sistema y

los algoritmos propuestos en
condiciones simuladas y reales

Resumen. En este capı́tulo presentamos la evaluación conjunta de los algoritmos

de restauración y análisis propuestos en los capı́tulos 3 y 4 de la tesis, ası́ como el
comportamiento del sistema de exploración láser al operar en entornos naturales.
Los algoritmos desarrollados admiten como entrada una pareja de imágenes distancia-
reflectancia y generan una lista de hipótesis de objetos esféricos incluyendo la posición
tridimensional del objeto, su radio y reflectividad. Ahora se presenta su evaluación
utilizando datos simulados y empı́ricos. En la evaluación simulada utilizamos como
criterios para medir la calidad de los resultados la precisión y repetitividad de los
parámetros estimados, y los indicios de esfericidad generados. Dichos criterios son
analizados al variar diversos parámetros (nivel de ruido, oclusión, resolución, etc.)
afectando tanto a la degradación de las imágenes de entrada como a las referencias
ajustables del algoritmo, observándose una aceptable robustez y unos errores de estimación
subpuntuales. Ası́ mismo, analizamos la influencia que tiene el uso de diferentes etapas
de restauración, encontrándose que el uso del filtrado 3σ-MPF presentado en el capı́tulo
3, genera estimaciones más precisas e incrementa el número de indicios de esfericidad.
En la evaluación empı́rica utilizamos imágenes de árboles frutales tanto artificiales como
naturales. Analizando los porcentajes de detecciones correctas y falsas, encontramos
una solución de compromiso que con imágenes de 3 mm de resolución espacial y un
umbral de indicios de 0.15, es posible detectar un 80 % de los frutos presentes, no
encontrándose detecciones falsas. Las pruebas en campo ponen de manifiesto que los
frutos son distinguibles del fondo por reflectividad y que existen dos aspectos degradantes
adicionales que afectan a la calidad de las imágenes captadas; nos referimos al viento y a
la iluminación solar.

219
220 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

En el capı́tulo 3 presentamos una técnica nueva de restauración de imágenes, denominada

filtrado 3σ-MPF, con la cual podı́amos mejorar la calidad de las imágenes sin introducir
distorsiones. En el capı́tulo anterior, hemos presentado una estrategia de reconocimiento,
localización y caracterización de objetos esféricos; que trabajando a partir de una pareja
de imágenes distancia-reflectancia, permite generar hipótesis de objetos esféricos con
diferentes grados de confianza. Los algoritmos desarrollados en ambos capı́tulos, tras ser
encadenados forman un sistema completo de procesamiento y análisis de imágenes que
hemos aplicado a la detección de frutos con forma cuasi-esférica situados en entornos poco
estructurados como los agrı́colas. Sin embargo, teniendo en cuenta que estamos interesados
en que estos algoritmos se apliquen en dicho caso práctico, es imprescindible realizar
una evaluación del conjunto de los algoritmos, para analizar de forma pormenorizada sus
posibilidades y sus limitaciones.

5.1. Introducción a la evaluación de algoritmos

5.1.1. Consideraciones iniciales en la evaluación

Hace más de 10 años, se mencionaba que los trabajos desarrollados en el campo de la

visión artificial sufrı́an de una carencia en el desarrollo de trabajos teóricos [72]. Sin
embargo en los últimos años se ha reconocido que los desarrollos teóricos y algorı́tmicos,
no son útiles si no vienen acompañados de una evaluación utilizando datos empı́ricos
[99]. La importancia de una correcta evaluación es doble. Por un lado se facilita la
implantación de los algoritmos desarrollados en aplicaciones reales en las que existen
ciertos problemas, ya que gracias a una buena evaluación el posible usuario es capaz
de comprobar si los algoritmos presentados por el investigador van a operar correctamente
para el tipo de datos y restricciones prácticas que van a caracterizar el caso real. En
segundo lugar, la evaluación va a permitir comparar claramente diferentes algoritmos
que persiguen resultados similares, permitiendo determinar cual es mejor que otro y
bajo qué circunstancias. Ası́ mismo, se evita la necesidad de codificar los algoritmos
de otros investigadores para compararlos bajo los mismos criterios, lo cual no suele ser
posible debido a que en las publicaciones no siempre se muestran todos los detalles de los
desarrollos realizados.
En general podemos decir que no existen criterios comúnmente aceptados para evaluar, ni
una clara metodologı́a de prueba, y la experiencia en pruebas de otras áreas de la ingenierı́a
no ha llegado suficientemente a la investigación en visión artificial. Además existen otras
objeciones que disuaden a los investigadores de realizar y presentar evaluaciones en sus
trabajos. Estos son algunos de los argumentos esgrimidos para justificar la no evaluación
de algoritmos [53]:

“La evaluación depende de la tarea a realizar”. Sin embargo, si caracterizamos la

evaluación en función de diversos parámetros afectando a los datos de entrada y al
ajuste de los algoritmos, es posible juzgar la validez de los algoritmos para un amplio
rango de aplicaciones distintas sin tener que ejecutar los algoritmos en cada caso.
5.1 Introducción a la evaluación de algoritmos 221

“Las medidas de calidad no son comparables”. Efectivamente, si cada investigador

utiliza su propia métrica es difı́cil comparar unos algoritmos con otros, especialmente
en etapas de bajo nivel, pero utilizando medidas objetivas como las aportadas
por la estadı́stica (varianzas y probabilidades), es posible comparar fácilmente los
resultados y comprender el resultado de la evaluación.

“Hay muchos parámetros que ajustar en los algoritmos”. Es cierto, por tanto la
evaluación crece exponencialmente con el número de parámetros. Este problema
se puede reducir eligiendo solo aquellos parámetros que tienen un significado muy
definido y un interés claro.

“La evaluación no está reconocida”. Las pruebas requieren mucho tiempo, y de

forma aproximada se puede decir que la
relación de tiempos teorı́a:codificación:prueba tiene la distribución [Link]. Este
hecho hace que la evaluación quede marginada y se realicen publicaciones de teorı́as
no probadas o que funcionan para uno o dos ejemplos. Sin embargo, estamos viendo
que la evaluación es muy importante, es por ello que los trabajos en este campo
deben ser reconocidos por editoriales y organismos de ayuda a la investigación.

5.1.2. Conceptos fundamentales en la evaluación de algoritmos

La idea básica en la evaluación de un algoritmo consiste en mostrar la dependencia de

la calidad de los resultados del algoritmo con el tipo de entrada y de sus parámetros de
control [33]. Es decir evaluar consiste en obtener una relación del siguiente tipo:

Calidad resultados = f (datos entrada, parámetros control algoritmo) (5.1)

donde la relación, representada por f , puede venir dada mediante una tabla, una ecuación
o una gráfica.
La caracterización de los datos de entrada se puede hacer simplemente mostrando las
imágenes procesadas, especificando el proceso de generación de estas imágenes, ó en el
caso más habitual y útil, parametrizando las caracterı́sticas propias de la imagen. En este
último caso, se puede dar la magnitud del ruido que afecta a los datos, la distribución de
este ruido, la frecuencia de muestreo, etc.
Los parámetros de control de los algoritmos, evidentemente también afectan a los
resultados obtenidos. Estos parámetros, que normalmente tienen forma de umbrales
ajustables, deben representar una función claramente comprensible, de tal forma, que
sea fácil la interpretación de los resultados de la evaluación.
En cuanto a las medidas para caracterizar los resultados del algoritmo, estas deben ser
también simples e intuitivas. Cuando la salida del algoritmo es discreta ([Link] en un proceso
de clasificación) las medidas tı́picas pueden ser la probabilidad de detección correcta, de
no detección ó de detección falsa. En el caso de salidas continuas ([Link] propiedades de un
objeto como posición o tamaño), lo más conveniente es utilizar medidas estadı́sticas como
222 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

la media, varianza, errores medios, etc. Estas métricas tienen la propiedad de ser fácilmente
interpretables, pueden aplicarse en todo tipo de algoritmos, y por tanto, permiten una
comparación entre aquellos que hayan sido evaluados de esta misma manera. Otro tipo de
métricas de calidad más particulares, como la medida de fragmentación de segmentos
u otras métricas tan especı́ficas como esta, no son recomendables por ser demasiado
particulares y limitar el ámbito de la evaluación [181].
Bajo este concepto de evaluación, existen fundamentalmente tres tipos de estudios, que
se diferencian en la forma de generar la relación de dependencia entre la calidad de los
resultados, los datos de entrada y los parámetros de control del algoritmo:

Evaluación mediante análisis matemático. En este caso a partir de la expresión

matemática de los algoritmos, es posible propagar las caracterı́sticas de los datos
de entrada y obtener las métricas que caracterizan la calidad de los resultados.
Normalmente los datos de entrada se representan mediante funciones de distribución
de probabilidad o mediante matrices de covarianza, y mediante la propagación
de esta información a lo largo del algoritmo, es posible obtener las funciones de
distribución o covarianzas referidas a los resultados del algoritmo. La expresión
obtenida constituye una evaluación matemática del algoritmo, ya que estamos
relacionando caracterı́sticas de los resultados con caracterı́sticas de los datos de
entrada, apareciendo igualmente dependencias con los parámetros ajustables del
algoritmo. Este tipo de soluciones son válidas para algoritmos muy sencillos y
linealizables, encontrándose situaciones de difı́cil tratamiento al crecer ligeramente
la complejidad de los algoritmos [38, 211].

Evaluación mediante simulación con datos sintéticos. La evaluación utilizando datos

sintéticos con diferentes niveles de ruidos y degradaciones, es el método tradicional
de evaluación para algoritmos complejos. Como caracterı́stica positiva destacable
está la disponibilidad de los valores de referencia reales, con lo cual es posible
estudiar las desviaciones de los resultados del algoritmo frente a los valores ideales.
Las distribuciones de probabilidad o las covarianzas en los resultados se obtienen
a base de repetir la ejecución de los algoritmos con diferentes patrones de ruido y
promediando, lo cual hace que se necesiten largos tiempos de evaluación al ser un
proceso iterativo [211].

Evaluación empı́rica utilizando datos reales. Este método de evaluación se suele

utilizar para determinar la utilidad práctica en situaciones reales con datos y entornos
sin controlar. En este caso no se puede apreciar la desviación de los resultados frente
a las soluciones ideales, pues en muchos casos es desconocida, pero se puede evaluar
la capacidad de trabajo del algoritmo ante degradaciones, que siendo influyentes en
los resultados, no se contemplaron en la fase de evaluación simulada, usualmente
por desconocimiento de su existencia o por un incompleto conocimiento de su
comportamiento.

En nuestro caso, los algoritmos presentados son suficientemente complejos y ricos en no

linealidades, como para no considerar el primer tipo de evaluación como una alternativa
5.2 Evaluación mediante simulación 223

abordable de forma inmediata. Por tanto nos vamos a restringir a realizar la evaluación
mediante datos simulados y empı́ricos. En la siguiente sección presentamos la evaluación
simulada, y en la sección 5.3 mostraremos la evaluación empı́rica con imágenes captadas
con el sensor láser presentado en el capı́tulo 2.

5.2. Evaluación de los algoritmos propuestos mediante

simulación

En esta sección vamos a presentar tres tipos de evaluación utilizando imágenes simuladas.
Por un lado deduciremos la complejidad de los algoritmos, o dicho de otro modo el orden
de variación del tiempo de procesamiento en función del volumen de datos de entrada. En
segundo lugar, analizaremos la sensibilidad de los algoritmos a degradaciones en los datos
de entrada que podrı́an corresponder a perturbaciones reales, afectando de esta forma a
la calidad de las imágenes, y por tanto, a la capacidad de reconocimiento y localización
de los algoritmos. Finalmente, estudiaremos la influencia que tiene la fase de restauración
de imágenes presentada en el capı́tulo 3, sobre los resultados generados por el conjunto de
los algoritmos. Estos tres tipos de análisis se presentan en las siguientes subsecciones.

5.2.1. Complejidad algorı́tmica

El método estándar para analizar la calidad de un algoritmo, referida a los tiempos de

cálculo, se hace utilizando el concepto de órdenes de complejidad. Los tiempos absolutos
son importantes, pero no son tan significativos puesto que depende de otros factores,
como el tipo de sistema de cálculo utilizado, la herramienta de programación, etc. Al
medir la complejidad de los algoritmos lo que se analiza es cómo crece el tiempo de
ejecución al aumentar el número de datos en la entrada. De esta forma si N representa
el volumen de los datos de entrada es frecuente encontrarse con algoritmos cuyo tiempo
de ejecución depende de N mediante una función logarı́tmica, lineal, lineal-logarı́tmica,
cuadrática, cúbica, etc. En estos casos la representación utilizada es O(log N ), O(N ),
O(N log N ), O(N 2 ), O(N 3 ), respectivamente. Evidentemente cuanto menor sea su orden
de complejidad mejor resultará el algoritmo, especialmente para grandes volúmenes de
datos, si bien es cierto que también pueden existir algoritmos de complejidad alta, que
para un tamaño de datos limitado, tengan tiempos absolutos menores que otros de menor
complejidad.
En nuestro caso, los algoritmos elaborados básicamente realizan un número limitado de
visitas a cada punto de las imágenes, y por cada uno de estos puntos, en casi todos los
casos, analizamos un vecindario de tamaño 3×3 ó 5×5. Esto significa que si denominamos
N al número de puntos que contiene una imagen, la complejidad serı́a O(N × 3 × 3),
ó O(N × 5 × 5) considerando el peor caso. Sin embargo, como N suele ser muy grande
comparado con 5 (N = 10,000 para una imagen de 100 × 100 puntos) y además el tamaño
del vecindario es constante y no depende de la entrada, la complejidad final debe ser lineal
con los datos, es decir, O(N ). Este hecho lo podemos comprobar en la figura 5.1 donde
224 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

120

100

Tiempo cálculo (seg.)

0
0 0.5 1 1.5 2 2.5 3 3.5
Número de puntos en imagen 4
x 10

Figura 5.1: Dependencia del tiempo de ejecución con el tamaño de las imágenes.

se vé una clara relación lineal entre el tiempo de ejecución experimental y el número de
puntos en la imagen.
Hay que destacar que los tiempos absolutos obtenidos, se refieren a la ejecución de los
algoritmos sobre un computador Pentium 150 MHz, sin utilizar ningún tipo especial
de placa para procesamiento de imágenes y por tanto utilizando solamente el propio
microprocesador de la placa madre. Tiempos de 60 segundos para imágenes de 20.000
puntos no son excesivos teniendo en cuenta que los algoritmos no están optimizados
para velocidad, y como se ha comentado, no se utiliza ningún tipo de soporte fı́sico de
procesamiento especial. Cabe esperar mejoras entre un orden y dos órdenes de magnitud
en los tiempos absolutos de ejecución, cuando se realice una labor de ingenierı́a con el
objeto de alcanzar ciclos de trabajo en tiempo real.

5.2.2. Sensibilidad ante degradaciones

Los algoritmos de percepción propuestos, partiendo de una pareja de imágenes

distancia-reflectancia, generan hipótesis de detección de esferas, incluyendo la posición
tridimensional del centro de cada una de ellas, su radio y la reflectividad media
correspondiente a su superficie. Ası́ mismo, cada hipótesis generada viene acompañada
de los indicios totales acumulados mediante los cuatro métodos presentados de generación
de hipótesis parciales. Estos indicios totales están acotados entre los valores 0 y 4, y por
tanto cuanto más cerca estén de 4, mayor certeza sobre la existencia de la esfera existirá y
mayor fiabilidad tendrán los parámetros estimados.
La ventaja de la evaluación simulada consiste en que se conoce de una forma fiel los
parámetros reales que el algoritmo va a estimar. Por tanto, con este tipo de evaluación
estamos en condiciones de obtener los errores medios y las repetitividades en la estimación
de cada uno de los parámetros: posición 3-D, radio y reflectividad. Estos criterios de
5.2 Evaluación mediante simulación 225

Distancia Reflectancia

Figura 5.2: Pareja de imágenes sintéticas distancia-reflectancia generadas como base para
la evaluación simulada.

evaluación junto con los indicios de esfericidad serán los siete criterios de evaluación que
utilizaremos para analizar la calidad del resultado de los algoritmos.
En cuanto al tipo de entrada utilizada, vamos a usar una imagen sintética de una esfera
de radio 40 mm y con una reflectividad de 0.2, situada en el centro de una imagen con
un fondo uniforme. La figura 5.2 muestra la pareja de imágenes distancia-reflectancia
generadas sintéticamente y que serán la base a partir de la cual se generarán otras versiones
degradadas de éstas, que permitirán estudiar los resultados ante diferentes configuraciones
en la entrada del algoritmo. Los tipos de degradación introducidos a los datos son los
siguientes:

Ruido gausiano. Sobre la imagen de distancias añadiremos ruido con una

distribución gausiana con desviaciones estándar entre 0 y 6 mm, con lo cual
analizaremos el comportamiento del algoritmo no solo para los valores tı́picos de
nuestra aplicación, 1-2 mm, sino para otras circunstancias más desfavorables.

Ruido impulsivo. Un ruido impulsivo de ±300 mm de amplitud y diferentes

porcentajes de actuación se adicionarán a la imagen de distancias. El rango aplicado
variará entre un 0 % y un 50 % con lo cual podremos comprobar como varı́an los
resultados cuando pasamos de no degradar ningún punto de la imagen hasta que
la mitad de los puntos están alterados de forma impulsiva. Para la configuración
láser presentada en el capı́tulo 2, los valores tı́picos de presencia de ruido impulsivo
son prácticamente nulos, existiendo una cierta probabilidad (< 10 %) cuando las
frecuencias de muestreo se aproximan a 50 KHz.

Oclusión. La pareja de imágenes se irá ocluyendo paulatinamente de tal forma

que el área visible de la esfera se reduzca. El porcentaje de oclusión introducido se
define como la fracción entre el área no visible de la esfera y el área total del circulo
resultante de proyectar la esfera sin oclusión sobre el plano. En un plantación tı́pica
de naranjos es visible para un ser humano entre un 40 y un 50 % de la fruta existente,
y dentro de este grupo los frutos presentan una distribución uniforme en el rango de
oclusiones parciales [112].

Excentricidad. La excentricidad de las esferas sintéticas, que para el caso de una

226 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

esfera perfecta es 1 puesto que los valores de los ejes mayor y menor coinciden, se
irá incrementando hasta conseguir elipsoides representando un modelo degradado
de una esfera. De esta forma se podrá estudiar la sensibilidad del algoritmo ante
discrepancias entre un objeto elipsoidal y el modelo perfecto de esfera que asumen
los algoritmos. En un caso tı́pico de fruta como la naranja, el grado de excentricidad
de la fruta no suele ser superior a 1.1, lo cual indica que la longitud del eje mayor
no suele superar en más de 10-14 mm la longitud del eje menor.

Resolución espacial. La resolución espacial de muestreo de la imagen, dada por el

intervalo en milı́metros entre puntos, se variará para analizar su influencia en los
resultados finales. Este análisis es muy importante puesto que nos interesa trabajar
con la menor resolución posible para reducir tiempos de captura y procesamiento;
aunque habrá que buscar un compromiso de tal forma que las estimaciones de los
parámetros y la capacidad de captar indicios de esfericidad no se vea seriamente
afectada.

En cuanto a los parámetros ajustables del algoritmo, variaremos la diferencia relativa

entre el valor real de la esfera presente y el valor de referencia del radio esperado que se
introduce como parámetro al algoritmo. El algoritmo está diseñado para buscar esferas
de un determinado tamaño, lo cual se consigue al introducir el radio de referencia como
parámetro, si las esferas presentes son de otro radio los indicios deberán disminuir y los
parámetros estimados podrán verse afectados. Por tanto, junto a las cinco caracterı́sticas de
R −Rref e
los datos de entrada, la diferencia relativa de radios definida como | realRref e |, constituye
la sexta caracterı́stica con la cual vamos a realizar la evaluación sintética.
En la presente evaluación, para poder obtener valores de repetitividad, y a la vez hacer
que los resultados no dependan de configuraciones particulares del ruido, cada una de las
pruebas realizadas se repetirá 100 veces con lo cual debido a que hay seis caracterı́sticas
de degradación y vamos a emplear cinco valores discretos por cada una de ellas, tenemos
un total de 3000 ejecuciones del algoritmo de reconocimiento sobre otras tantas parejas
de imágenes que serán necesarias para poder obtener los resultados que a continuación
mostraremos.
Las figuras 5.3a y 5.3b muestran respectivamente la influencia del ruido gausiano, en
imágenes con 3 mm de resolución espacial, sobre los indicios medios de esfericidad captados
y la precisión en la estimación de los parámetros de la esfera. Podemos ver que un aumento
en el nivel de ruido provoca una reducción paulatina en los indicios, y por tanto en la
evidencia de esfericidad, y un aumento de los errores de las estimaciones. Los errores
de posición 3-D son siempre inferiores a 3 mm con una repetitividad menor de 1 mm,
por tanto se alcanzan precisiones subpuntuales. En cuanto al radio, la precisiones están
acotadas por 2 mm y la repetitividad es inferior al milı́metro. El error detectado en el
valor de reflectividad es menor siempre del 2,5 %, ya que el peor caso se da con errores de
0.005 para un valor real de 0.2.
Cabe destacar que el valor máximo de indicios teóricamente alcanzable, 4, no lo estamos
obteniendo utilizando la esfera libre de degradaciones, ya que la suma de indicios solamente
5.2 Evaluación mediante simulación 227

Resolución: 3 mm/punto
3.5

3 Indicios totales
(suma indicios parciales)

2.5

Indicios parciales
Indicios

2 Corona
Contorno
Convexidad
Reflectancia
1.5

0.5
0 1 2 3 4 5 6
Ruido gausiano (mm)

a)
1 3
Posición (mm)

Posición (mm)

2
0.5
1

0 0
0 2 4 6 0 2 4 6
Ruido gausiano (mm) Ruido gausiano (mm)
2
Repetitividad de:

0.5
Radio (mm)
Radio (mm)

Precisión de:

1.5

0 0.5
0 -3 2 4 6 0 -3 2 4 6
x 10 Ruido gausiano (mm) x 10 Ruido gausiano (mm)
3 6
Reflectividad

Reflectividad

2 4

1 2

0 0
0 2 4 6 0 2 4 6
b) Ruido gausiano (mm) Ruido gausiano (mm)

Figura 5.3: Influencia del nivel de ruido gausiano, en una imagen de distancias, sobre:
a) el conjunto de indicios de esfericidad captados por los algoritmos propuestos; b) la
repetitividad y precisión en la estimación de la posición tridimensional, el radio y la
reflectividad media de la esfera detectada.
228 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

alcanza 3.3. Este fenómeno se debe fundamentalmente al muestro espacial limitado que
en este caso es de 3 mm y que como veremos posteriormente en el análisis de resolución,
va mejorando paulatinamente al incrementar la resolución.
Las figuras 5.4a y 5.4b muestran respectivamente la influencia del ruido impulsivo, en
imágenes con 3 mm de resolución espacial, sobre los indicios de esfericidad captados y
sobre la precisión en la estimación de los parámetros de la esfera. En este caso podemos
ver que existe un nivel de ruido a partir del cual los indicios de esfericidad se hacen
nulos con lo cual no es posible detectar la esfera, y por tanto no se muestran los valores
de error para un ruido del 50 % puesto que en este caso no hay hipótesis generadas. El
comportamiento altamente robusto de los algoritmos ante este tipo de ruido, proviene
del filtrado 3σ-MPF que como vimos en el capı́tulo 3, trabajaba correctamente ante
niveles significativos de ruido impulsional. La tendencia general al aumentar el ruido es una
disminución progresiva del grado de evidencia y un aumento del mismo orden en los errores
de estimación de parámetros. Podrı́a parecer que existe una significativa sensibilidad a este
tipo de degradación, sin embargo el análisis realizado ha sido muy exigente y en la mayorı́a
de los casos este tipo de ruido no suele superar un 5 % o 10 %, con lo cual la influencia es
casi despreciable.
En las figuras 5.5a y 5.5b, podemos ver los resultados de la evaluación cuando el porcentaje
de oclusión varı́a, utilizando una imagen contaminada con ruido gausiano de desviación
estándar 1 mm y resolución espacial de 3 mm. Como era de esperar, a medida que el área
visible de la esfera disminuye, los indicios también lo hacen, alcanzándose un punto crı́tico
correspondiente a una oclusión del 75 % (25 % visible) en el cual los indicios de esfericidad
se hacen casi nulos y por tanto también su capacidad para detectar esferas. En cuanto a
los errores, la tendencia general es la de aumentar al incrementar la oclusión. Los errores
de posición están acotados en un rango de 4 mm y las discrepancias en la estimación del
radio son menores que 1 mm, aunque para oclusiones próximas al 75 % se pueden apreciar
repetitividades próximas a 3 mm. En el caso de la estimación de la reflectividad, los errores
son menores del 2.5 % salvo en el caso de la oclusión lı́mite, donde no se generan evidencias
a partir de primitivas regionales y por tanto no se genera ningún valor de reflectividad
para la esfera detectada, con lo cual el error es 0.2 (reflectividad de la esfera sintética
creada).
Como puede apreciarse en las figuras 5.6a y 5.6b, la influencia que tiene la variación del
grado de esfericidad respecto a un modelo ideal es significativa, aunque bastante limitada
en un rango de 1 a 1.2. Los errores absolutos de posición quedan acotados por 4 mm,
con repetitividades menores de 1 mm. Estos errores absolutos de posición que suponen
desviación relativamente alta al compararla con sus repetitividades, se deben a errores
acumulados en la coordenada de distancia de la posición tridimensional en coordenadas
esféricas. Los algoritmos al asumir esferas ideales y encontrarse con elipsoides con diferentes
radios de curvatura sobre su superficie, detectan el centro como una integración conjunta
de evidencias sobre todo el elipsoide, cuando en realidad solo deberı́an utilizar los puntos
del elipsoide con curvatura igual a la definida por el eje menor del elipsoide orientado
según el eje de medida del sensor. En cuanto a los errores absolutos en el radio y la
5.2 Evaluación mediante simulación 229

Resolución: 3 mm/punto
3.5

Indicios totales
3 (suma indicios parciales)

2.5

2
Indicios

1.5 Indicios parciales

Corona
Contorno
1 Convexidad
Reflectancia

0.5

Ruido impulsivo (%)

0
0 10 20 30 40 50

a)
1.5 3
Posición (mm)

Posición (mm)

1 2

0.5 1

0 0
0 20 40 60 0 20 40 60
1 Ruido impulsivo (%) 3 Ruido impulsivo (%)
Repetitividad de:

Radio (mm)
Radio (mm)

Precisión de:

2
0.5
1

0 0
0 -3 20 40 60 0 -3 20 40 60
x 10 Ruido impulsivo (%) x 10 Ruido impulsivo (%)
3 1.5
Reflectividad

Reflectividad

2 1

1 0.5

0 0
0 20 40 60 0 20 40 60
b) Ruido impulsivo (%) Ruido impulsivo (%)

Figura 5.4: Influencia del nivel de ruido impulsional, en una imagen de distancias, sobre:
(a) el conjunto de indicios de esfericidad captados por los algoritmos propuestos, (b)
la repetitividad y precisión en la estimación de la posición tridimensional, el radio y la
reflectividad media de la esfera detectada.
230 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

Resolución: 3 mm/punto
3.5

3 Indicios totales
(suma indicios parciales)
Indicios parciales
2.5
Corona
Contorno
Convexidad
Indicios

2 Reflectancia

1.5

0.5

Oclusión (%)
0
0 10 20 30 40 50 60 70 80

a)
4 3
Posición(mm)

Posición(mm)

2
2
1

0 0
0 20 40 60 80 0 20 40 60 80
Oclusión (%) Oclusión (%)
4
Repetitividad de:

Radio (mm)
Radio (mm)

Precisiónde:

2
2
1

0
0 -3 20 40 60 80 0 20 40 60 80
x 10 Oclusión (%) Oclusión (%)
1.5 0.2
Reflectividad

Reflectividad

1
0.1
0.5

0 0
0 20 40 60 80 0 20 40 60 80
b) Oclusión (%) Oclusión (%)

Figura 5.5: Influencia del grado de oclusión de una esfera sobre: (a) el conjunto de indicios
de esfericidad captados por los algoritmos propuestos, (b) la repetitividad y precisión en
la estimación de la posición tridimensional, el radio y la reflectividad media de la esfera
detectada.
5.2 Evaluación mediante simulación 231

reflectividad, vemos que están limitados por 3 mm y un 4 % del valor real de reflectividad,
con repetitividades menores de 1 mm y del 10 %, respectivamente.
La influencia que la resolución o el grado de muestreo de la imagen tiene sobre los
resultados del algoritmo, puede apreciarse en las figuras 5.7a y 5.7b. Podemos ver, como
indicamos antes, que un aumento en la resolución (muestreo mayor) hace que la esfera
tienda a ser realmente perfecta y por tanto los indicios totales de esfericidad tienden
a 4, que es el máximo número de indicios alcanzable con los algoritmos propuestos. Las
primitivas de tipo regional no se ven afectadas por una menor resolución alcanzando valores
de indicios parciales próximos a 1. Sin embargo y como es lógico las más sensibles son las
hipótesis generadas a partir de primitivas puntuales, puesto que en estos casos el carácter
local y puntual implı́cito deja de presentarse al trabajar con puntos de tamaño creciente,
y por tanto los cálculos quedan muy influenciados por los puntos del vecindario que ya no
se encuentran realmente próximos. Los errores absolutos en posición, radio y reflectividad
son siempre menores de 2 mm, 1.5 mm y 1 %; con lo cual vemos que la precisión es siempre
menor que el tamaño del punto. Igualmente, las repetitividades son menores que 1 mm,
0.5 mm y un 1 %, para posiciones, radios y reflectividades.
Finalmente, la sensibilidad del algoritmo a la búsqueda de esferas de radio diferente al
dado como referencia, se aprecia en las figuras 5.8a y 5.8b, las cuales contienen imágenes
degradadas con ruido gausiano de σ = 1 mm y una resolución de 3 mm por punto. Como se
vio en el capı́tulo anterior, los algoritmos fueron diseñados para penalizar aquellas esferas
detectadas con radios diferentes que la referencia buscada. Este hecho, que es adecuado
para restringir el ámbito de objetos a buscar, y por tanto para aumentar la eficiencia
de los algoritmos y reducir la probabilidad de encontrar detecciones falsas, hace que los
indicios de esfericidad captados se vean afectados, con lo cual disminuye paulatinamente
la capacidad de detectar esferas a medida que estas aumentan o disminuyen de tamaño
respecto al valor referencia. Vemos que la reducción de evidencia es menor del 50 % para
una diferencia relativa de radios de 0.3, lo cual posibilita la detección de esferas con una
variabilidad en radio mayor del ±30 %, siendo esto suficientemente flexible para un amplio
número de aplicaciones, entre las cuales también se encuentra la detección de frutos cuasi-
esféricos cuya variabilidad en radio para una misma especie no suele ser mayor que la
indicada [112].
En cuanto a los errores en la estimación de parámetros, estos son mı́nimos y no varı́an
apreciablemente al diferir los radios de referencia y real. Es decir, el grado de evidencia de
esfericidad disminuye pero no lo hace la fiabilidad de los parámetros estimados lo cual es
muy interesante. Los errores absolutos son menores de 2 mm en posición, 2 mm en radio
y 0.5 % en reflectividad, con unas repetitividades menores de 1 mm, 0.5 mm y 0.5 %.
La evaluación simulada que acabamos de hacer, nos da una idea clara de los lı́mites
que presenta el algoritmo al modificarse las caracterı́sticas de las imágenes de entrada
y al variar el radio de referencia pasado como parámetro al algoritmo. Hemos podido
ver que los errores en la estimación de los parámetros de la esfera están casi siempre
limitados por el muestreo de la imagen, posibilitando la utilización de estas estimaciones en
aplicaciones donde no se requieran altas precisiones y por el contrario sea más importante
232 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

Resolución: 3 mm/punto
3.5
Indicios totales
(suma indicios parciales)
3

2.5
Indicios

2
Indicios parciales
Corona
1.5 Contorno
Convexidad
Reflectancia
1

0.5

Esfericidad
0
1 1.05 1.1 1.15 1.2

a)
1 4
Posición(mm)
Posición(mm)

0.5 2

0 0
1 1.05 1.1 1.15 1.2 1 1.05 1.1 1.15 1.2
Esfericidad Esfericidad
1 3
Repetitividad de:

Radio (mm)
Precisiónde:

2
Radio (mm)

0.5
1

0 0
1 1.05 1.1 1.15 1.2 1 1.05 1.1 1.15 1.2
Esfericidad Esfericidad
0.04 0.01
Reflectividad

Reflectividad

0.02 0.005

0 0
1 1.05 1.1 1.15 1.2 1 1.05 1.1 1.15 1.2
b) Esfericidad Esfericidad

Figura 5.6: Influencia de la excentricidad de una esfera sobre: (a) el conjunto de indicios
de esfericidad captados por los algoritmos propuestos, (b) la repetitividad y precisión en
la estimación de la posición tridimensional, el radio y la reflectividad media de la esfera
detectada.
5.2 Evaluación mediante simulación 233

3.5

3 Indicios totales
(suma indicios parciales)

2.5
Indicios parciales
Indicios

2 Corona
Contorno
Convexidad
1.5 Reflectancia

0.5

Resolucion (mm)
0
1 2 3 4 5 6

a)
1 2
Posición (mm)

Posición (mm)

0.5 1

0 0
0 2 4 6 0 2 4 6
Resolucion (mm) Resolucion (mm)
1.5
Repetitividad de:

0.5
Radio (mm)
Precisión de:
Radio (mm)

0.5

0 0
0 -3 2 4 6 0 -3 2 4 6
x 10 Resolucion (mm) x 10 Resolucion (mm)
1.5 1.5
Reflectividad

Reflectividad

1 1

0.5 0.5

0 0
0 2 4 6 0 2 4 6
b) Resolucion (mm) Resolucion (mm)

Figura 5.7: Influencia de la resolución en el muestreo sobre: (a) el conjunto de indicios

de esfericidad captados por los algoritmos propuestos, (b) la repetitividad y precisión en
la estimación de la posición tridimensional, el radio y la reflectividad media de la esfera
detectada.
234 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

Resolución: 3 mm/punto
3.5

Indicios totales
3 (suma indicios parciales)

2.5

2 Indicios parciales
Indicios

Corona
Contorno
1.5 Convexidad
Reflectancia

0.5

Diferencia relativa radios

0
0 0.05 0.1 0.15 0.2 0.25 0.3

Rreal=40 mm Rreal=40 mm Rreal=40 mm

Rrefe=40 mm Rrefe=47mm Rrefe=57 mm

a)
1.5 2
Posición (mm)

Posición (mm)

1 1.5

0.5 1

0 0.5
0 0.1 0.2 0.3 0 0.1 0.2 0.3
Diferencia relativa radios Diferencia relativa radios
4
0.5
Repetitividad de:

Radio (mm)
Radio (mm)

Precisión de:

0 0
0 -4 0.1 0.2 0.3 0 -4 0.1 0.2 0.3
x 10 Diferencia relativa radios x 10 Diferencia relativa radios
7.5 8
Reflectividad

Reflectividad

7
7
6

6.5 5
0 0.1 0.2 0.3 0 0.1 0.2 0.3
b) Diferencia relativa radios Diferencia relativa radios

Figura 5.8: Influencia de la diferencia relativa entre el radio real de una esfera y el
radio referencia introducido al algoritmo, sobre: (a) el conjunto de indicios de esfericidad
captados por los algoritmos propuestos (b) la repetitividad y precisión en la estimación
de la posición tridimensional, el radio y la reflectividad media de la esfera detectada.
5.2 Evaluación mediante simulación 235

mantener la capacidad de reconocimiento de esferas utilizando imágenes de reducido

tamaño, favoreciendo ası́ la aceleración de su captura y procesamiento.
También hemos visto que los indicios totales disminuyen al aumentar cualquiera de las
degradaciones, sin embargo esta disminución del grado de evidencia no está linealmente
relacionada con una reducción en la capacidad de detección de esferas. Los indicios totales
son simplemente una medida del grado de certeza que tenemos en la formulación de una
hipótesis sobre la existencia de un objeto esférico. Sobre estos indicios se aplican umbrales
para finalmente generar las hipótesis globales válidas. Este umbral se deberá elegir para
que las detecciones falsas se minimicen y las detecciones correctas sean máximas. Un valor
tı́pico del umbral es 0.1, lo cual indica que todas aquellas hipótesis con indicios totales
entre 0.1 y 4 son aceptadas como esferas. Esto hace que la sensibilidad mostrada por los
algoritmos ante las degradaciones introducidas, no se refleje directamente en la capacidad
de detección de esferas, aunque sı́ en el grado de confianza con la que dicha afirmación se
hace.

5.2.3. Influencia de la restauración sobre los resultados

En el capı́tulo 3 presentamos el nuevo método de restauración que denominamos 3σ-MPF

y su evaluación utilizando la métrica GRI. Esta evaluación comparaba los resultados
generados por el filtro con la referencia ideal libre de ruido. La medida de calidad de
restauración captada por la métrica GRI valoraba positivamente aquellos filtros que
proporcionaban reconstrucciones fieles, minimizando el error absoluto, y a la vez generaban
superficies continuas con bajos niveles de rugosidad. Ante esta métrica, el filtro 3σ-MPF
resultó ser mejor que el resto de filtros con los que se realizó la comparación.
La cuestión no presentada hasta el momento, y que quedaba por clarificar, como
quedó indicado en el capı́tulo 3, consiste en ver si la utilización de este filtro supone
alguna mejora, desde un punto de vista práctico, a la hora de facilitar la labor a las
siguientes etapas de reconocimiento y localización; o por el contrario, la utilización de
cualquier otro filtro también permite obtener resultados similares. En este último caso la
utilización del filtro 3σ-MPF no tendrı́a ninguna utilidad de tipo práctico, al menos para la
configuración algorı́tmica que hemos presentado. Lo que cabe esperar, teniendo en cuenta
que los algoritmos se basan en modelos de esferas ideales, sin rugosidad superficial y sin
distorsiones, y que los algoritmos calculan magnitudes tales como gradientes, pendientes
y curvaturas, las cuales son muy sensibles a ruidos y deformaciones, es que la precisión
en los resultados y la capacidad de detección de objetos se incremente utilizando un filtro
como el 3σ-MPF.
Para comprobar este hecho, vamos a analizar de nuevo los indicios generados y los errores
absolutos y repetitividades cuando variamos el nivel de ruido gausiano sobre la imagen
sintética utilizada anteriormente. A diferencia de lo mostrado en la subsección anterior,
en este caso cambiaremos el tipo de filtrado utilizado. Los filtros que vamos a probar son
tres: nuestro filtro 3σ-MPF, el filtro óptimo de Wiener o MMSE y el filtro de orden de
la mediana. Además veremos lo que sucede cuando eliminamos por completo la etapa de
236 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

filtrado. En la figura 5.9 podemos ver cómo los máximos indicios se alcanzan utilizando
nuestro filtro, seguido muy de cerca por el filtro de Wiener y por el filtro de la mediana,
este último a más de 0.3 indicios de distancia para un ruido de 3 mm. En el caso de no
utilizar ningún filtro, se aprecia que a partir de pequeños niveles de ruido la degradación es
tal que la capacidad de detección de esferas se degrada fuertemente, con lo cual se justifica
claramente la necesidad de utilizar una etapa de restauración.
Debe hacerse notar, que los resultados obtenidos con los filtros MAS y DW-MTM, que
presentaban altos ı́ndices GRI en el estudio del capı́tulo 3, no se han presentado por
obtenerse resultados sensiblemente peores que en el caso del filtro de Wiener, con lo
cual este último fue elegido como representante de la familia de los mejores métodos de
filtrado, incluyéndose el filtro de la mediana como representante de los filtros con resultados
intermedios.
El hecho de que un filtro óptimo como el de Wiener ó MMSE, se vea superado por un filtro
no óptimo como es el nuestro, no debe resultar extraño. El filtro de Wiener es considerado
óptimo al filtrar una señal contaminada con ruido gausiano, ya que minimiza el error
cuadrático medio, pero solamente es óptimo en este sentido. Sin embargo, alcanzar este
mı́nimo no significa que la señal reconstruida vaya a ser más adecuada que otra para
obtener un determinado fin. En mucho casos, como en el nuestro, una señal con error
cuadrático mı́nimo no es la única condición recomendable para obtener buenos resultados.
Cualquier algoritmo que necesite realizar derivadas primeras y segundas, va a apreciar
también la ausencia de rugosidades sobre las superficies que en el caso ideal corresponderı́an
a áreas continuas y suavizadas. El filtro 3σ-MPF sin ser óptimo, ni minimizando errores
cuadráticos ni consiguiendo la máxima suavidad, sı́ obtiene soluciones muy próximas a las
óptimas en ambos aspectos, y esto es lo que provoca que se obtengan mejores soluciones
que en el caso óptimo del filtro de Wiener. Además la capacidad multiresolución del filtro
3σ-MPF favorece que en muchos casos se obtengan errores cuadráticos incluso menores
que en el caso de Wiener ya que este trabaja con ventanas fijas y el anterior utiliza ventanas
mayores en regiones continuas con lo cual puede llegar a generar errores absolutos menores
que en el diseño óptimo, como se pudo comprobar analizando la componente FI del ı́ndice
GRI (tabla 3.2).
Analizando los resultados obtenidos referentes a los errores cometidos en la estimación de
los parámetros: posición tridimensional, radio y reflectividad media (fig. 5.10), podemos
observar que también se obtiene una mejorı́a clara en los errores absolutos frente a las
estimaciones obtenidas utilizando los otros métodos de restauración. Los errores máximos
de posición son de 2 mm utilizando nuestro filtro, mientras que para el filtro Wiener y
mediana los errores máximos son próximos a 5 mm. En la estimación del radio, con el
filtro 3σ-MPF estamos siempre por debajo de los 2 mm de error mientras que en los otros
casos los errores máximos se aproximan a 3 mm. En la estimación de la reflectividad, las
diferencias son aún mas acusadas con errores del 2 % con nuestro filtro y errores máximos
superiores al 10 % en los otros casos. En el apartado de repetitividades no hay apenas
diferencias entre los tres tipos de filtrado y la única desviación negativa se debe al caso en
el que no se aplica filtrado.
5.2 Evaluación mediante simulación 237

Resolución: 3 mm/punto
3.5

2.5

2
Indicios

1.5

1
Filtrado 3σ-MPF
Filtrado MMSE (Wiener)
0.5 Filtrado Mediana
Sin restauración

0
0 1 2 3 4 5 6
Ruido gaus iano (mm)

Figura 5.9: Indicios generados al variar el ruido gausiano y utilizando diferentes tipos de
restauración.

Filtrado 3σ-MPF
Filtrado MMSE (Wiener)
Filtrado Mediana
Sin restauración
1.5 10
Posición (mm)

Posición (mm)

1
5
0.5

0 0
0 2 4 6 0 2 4 6
Ruidogausiano (mm) Ruidogausiano (mm)
1 3
Repetitividad de:

Precisión de:
Radio (mm)
Radio (mm)

2
0.5
1

0 0
0 2 4 6 0 2 4 6
Ruidogausiano (mm) Ruidogausiano (mm)
0.01 0.06
Reflectividad

Reflectividad

0.04
0.005
0.02

0 0
0 2 4 6 0 2 4 6
Ruidogausiano (mm) Ruidogausiano (mm)

Figura 5.10: Errores en la estimación de parámetros, al variar el ruido gausiano y utilizando

diferentes tipos de restauración.
238 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

5.3. Evaluación de los algoritmos propuestos utilizando

datos empı́ricos

Hasta ahora hemos analizado el comportamiento de los algoritmos diseñados utilizando

imágenes generadas sintéticamente e introduciendo diferentes factores degradantes con
la intención de ver de forma aislada la sensibilidad de los algoritmos a cada tipo de
degradación. En las escenas reales todos los factores degradantes, tanto los presentados en
la sección anterior como otros susceptibles de manifestarse y no modelados hasta ahora,
influyen, en mayor o menor grado, en la calidad de las imágenes. Para ver este efecto
degradante de forma conjunta vamos a realizar dos tipos de análisis con datos empı́ricos.
El primer análisis se basa en ensayos realizados en el laboratorio con escenas artificiales
dispuestas para que se aproximen en el mayor grado posible a una escena natural de
un árbol frutal conteniendo naranjas. El segundo análisis se realizó en una plantación
natural tratando de captar otros factores degradantes que no se pudieron reproducir en
la configuración de laboratorio, y que nos permitirá deducir cuales son las principales
limitaciones a la hora de aplicar la estrategia presentada en esta tesis en situaciones
prácticas. Los siguientes apartados presentan ambos análisis.

5.3.1. Evaluación de la capacidad de detección con imágenes de

laboratorio

En una evaluación empı́rica, y a diferencia de la evaluación simulada, las imágenes o datos

experimentales no están apenas controlados, es decir, los parámetros de degradación que
afectan a dichas imágenes son los propios de la escena y los introducidos por el sensor. La
posición de los objetos y sus radios o reflectividades, en principio son desconocidos, o al
menos, conocidos sin gran precisión. Por tanto en este caso, los criterios de evaluación
elegidos no van a ser errores de estimación de parámetros, sino los porcentajes de
detecciones correctas y falsas, lo cual sı́ puede ser determinado con absoluta certeza a partir
de unas imágenes reales. En concreto por detecciones correctas entendemos la relación entre
el número de esferas detectadas correctamente y el número de esferas visibles presentes
en la escena. Igualmente, por detecciones falsas se entiende la relación entre el número
de esferas detectadas, que realmente no lo son, y el número total de esferas detectadas,
incluyendo tanto las correctas como las falsas.
En cuanto a los datos de entrada, solamente vamos a considerar la resolución espacial de las
imágenes, ya que sobre este parámetro se puede actuar sin más que cambiar el muestreo
en la captación de los puntos que forman la imagen. En esta evaluación se utilizó un
conjunto de 45 imágenes de laboratorio captadas a diferentes resoluciones conteniendo
escenas de un árbol artificial con un total de 117 frutos de plástico, con colores tanto
rojizos como verdes, que se dispusieron de forma aleatoria y con diferentes grados de
oclusión sobre la periferia e interior del árbol. Una imagen del entorno de trabajo y del
árbol artificial utilizado se vé en la figura 5.11. Un subconjunto de las imágenes totales
utilizadas se muestra en el apéndice C y un ejemplo particular de una escena se adelanta
5.3 Evaluación empı́rica 239

Figura 5.11: Entorno de trabajo donde se muestra el árbol artificial utilizado y el sistema
de deflexión láser situado a unos 2-3 metros de este. Las imágenes obtenidas se utilizaron
para realizar la evaluación empı́rica de laboratorio.

en la figura 5.12. Las hipótesis finales generadas por los algoritmos, se indican marcando
los objetos esféricos detectados mediante un anillo circular centrado sobre la ubicación
estimada de los frutos. Los indicios generados correspondientes a las primitivas corona,
contorno, convexa y reflectividad, se incluyen en este orden en cada detección presentada
quedando etiquetadas como I1, I2, I3 e I4 respectivamente.
El parámetro configurable del algoritmo será el umbral de indicios. Sobre su cuantificación
no se ha dado ningún criterio de selección automática, y por tanto este estudio
permitirá analizar el valor óptimo. El umbral apropiado será aquel con el que se consigan
las máximas tasas de detección correctas y al mismo tiempo las detecciones falsas se
mantengan mı́nimas o nulas.
Los resultados obtenidos en esta evaluación experimental, utilizando resoluciones de 2, 3
y 4 milı́metros por punto, con umbrales de evidencia entre 0.05 y 0.2, pueden verse en
las gráficas 5.13, 5.14 y 5.15. La primera conclusión deducible es que la probabilidad de
240 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

I1: 0.033
I2: 0
I3: 0.15
I4: 0
I1: 0.44
I2: 0.67
I3: 0.29
I4: 0.28

I1: 0.055
I2: 0.14 I1: 0.13
I3: 0 I2: 0.18
I4: 0.13 I3: 0.11
I4: 0.25

b c d

Figura 5.12: Ejemplo de una de las imágenes capturadas en el laboratorio y de las

detecciones encontradas. (a) fotografı́a de la escena, (b) imagen de distancia, (c) imagen
de reflectancia y (d) detecciones encontradas superpuestas a la imagen de distancias e
indicios que permitieron la generación de estas hipótesis.

obtener detecciones falsas crece al disminuir el umbral de evidencia, como es lógico esperar,
y también aumenta al utilizar resoluciones menores. En este último caso las regiones
superficiales captadas son muy pequeñas y por tanto la estabilidad en las medidas decrece.
Por tanto, si lo que nos interesa es trabajar con cierta seguridad de no encontrar detecciones
falsas un umbral de 0.15 es el más recomendable, como se puede inferir de esta evaluación.
Con este umbral (0.15) las detecciones falsas son improbables y la tasa de detecciones
correctas ronda el 85 %, 80 % y 72.5 % para el conjunto de imágenes con resolución de 2, 3
y 4 milı́metros por pixel, respectivamente. Evidentemente, la tasa de detecciones correctas
también depende del umbral elegido y aumenta al disminuir este, pudiéndose alcanzar
detecciones próximas al 90 % utilizando un umbral de 0.05. Sin embargo, esto se consigue
a consta de correr el riesgo de aumentar el número de detecciones falsas.
Igualmente en las gráficas 5.13, 5.14 y 5.15 podemos apreciar, a través de las lı́neas
punteadas, el porcentaje de detecciones correctas que se obtendrı́an en el caso de utilizar
solamente uno de los métodos de reconocimiento, es decir, el basado en primitivas contorno,
corona, convexas o reflectividad. Podemos ver que no existe ningún método que predomine
sobre los demás, con lo que podrı́a dejar de tener sentido aplicar el resto de los métodos.
Vemos que los cuatro métodos por aislado contribuyen de una forma moderada a la
generación final de hipótesis correctas, rondando entre un 70 % y 40 %. Sin embargo la
integración de las hipótesis generadas por todos, permite obtener una clara mejorı́a en
las detecciones de fruta. Por tanto, se deduce que existe una clara complementariedad y
5.3 Evaluación empı́rica 241

Resolución:2 mm/punto
100

90 Detecciones correctas
Porcentaje detecciones corectas/falsas (%)

50
Detecciones correctas parciales
40
Corona
Contorno
30 Convexidad
Reflectancia
20

10
Detecciones falsas
0
0.05 0.1 0.15 0.2
Umbral de indicios

Figura 5.13: Tasa de detecciones correctas y falsas en los ensayos de laboratorio para
imágenes con una resolución de 2 mm/punto.

Resolución:3 mm/punto
100

90
Detecciones correctas
Porcentaje detecciones corectas/falsas (%)

50
Detecciones correctas parciales
40
Corona
Contorno
30 Convexidad
Reflectancia
20

10
Detecciones falsas
0
0.05 0.1 0.15 0.2
Umbral de indicios

Figura 5.14: Tasa de detecciones correctas y falsas en los ensayos de laboratorio para
imágenes con una resolución de 3 mm/punto.
242 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

Resolución:4 mm/punto
100

90
Detecciones correctas
Porcentaje detecciones corectas/falsas (%)
80

40
Detecciones correctas parciales
30
Corona
Contorno
20 Convexidad
Reflectancia
10
Detecciones falsas
0
0.05 0.1 0.15 0.2
Umbral de indicios

Figura 5.15: Tasa de detecciones correctas y falsas en los ensayos de laboratorio para
imágenes con una resolución de 4 mm/punto.

cooperación entre los cuatro métodos aplicados.

Igualmente nos podrı́amos preguntar si alguno de los métodos es prescindible. Trabajando
con tres primitivas a la vez y desactivando la otra, los resultados de detecciones correctas
son ligeramente inferiores al caso en que los cuatro métodos están activos. Esta disminución
indica que el cuarto método puede tener en determinadas circunstancias influencia positiva.
Como ejemplo de que no hay ningún método prescindible y que todos aportan indicios en
mayor o menor grado para llegar a la detección correcta, en la figura 5.16 se muestran casos
en los que existen detecciones correctas obtenidas gracias a la activación de solamente uno
de los cuatro métodos, con lo cual trabajar solo con las otras tres etapas provocarı́a una
detección correcta menos.
El hecho de que no haya ningún método introducido gratuitamente era de esperar
teniendo en cuenta que las primitivas puntuales y regionales fueron diseñadas para captar
propiedades diferentes de una esfera. Las primitivas corona permiten detectar esferas
cuando no son visibles los bordes ni el centro de la esfera pero sı́ una fracción de su
corona. Las primitivas contorno se centran en los bordes esféricos con lo cual una oclusión
de la mayor parte del área de la esfera, apareciendo visible solo parte del contorno esférico,
permite la detección. Las primitivas regionales tienen sentido cuando tanto los contornos
como las coronas están prácticamente ocultas y solo es visible la superficie central de la
esfera. En el caso de esferas detectables por reflectividad (esfera y fondo con diferentes
reflectividades) y si es visible una región significativa de su superficie, el método que opera
utilizando primitivas reflectividad generará hipótesis correctas. En el caso de que no haya
separabilidad por reflectividad, serán las primitivas convexas las que darán los indicios
5.3 Evaluación empı́rica 243

I1: 0.26
I1: 0.59
I2: 0
I2: 0.68
I3: 0
I1: 0.21 I3: 0.03
I4: 0
I2: 0.22 I4: 0.43

I3: 0.21
I1: 0.35
I4: 0.52
I2: 0.69
I3: 0.41
I4: 0.52

a
I1: 0.68
I2: 0.93
I3: 0.33
I4: 0.64

I1: 0.13 I1: 0

I2: 0.2
I2: 0
I3: 0
I3: 0
I4: 0
I4: 0.18

I1: 0.17
I2: 0.16
I3: 0
b I4: 0

I1: 0

I2: 0

I3: 0.13

I4: 0

I1: 0.14

I2: 0.12

I3: 0.14

I4: 0

I1: 0.38

I2: 0.75

I3: 0.38

I4: 0.36

I1: 0

I2: 0

I3: 0

I4: 0.28

Figura 5.16: Ejemplos donde se ve que ninguno de los cuatro métodos de detección es
prescindible.(a) la naranja de la izquierda es detectada por indicios corona, (b) la naranja
del centro a la derecha solo se detecta por indicios contorno, (c) la hipótesis superior se
genera a partir de indicios de convexidad, (d) la detección inferior se consigue por indicios
de reflectividad.
244 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

a b

Coro:0.48

Cont:0.21
Coro:0.15 Covx:0
Cont:0.36 Refl:0
Covx:0

Refl:0

Figura 5.17: Ejemplo de detección de esferas en una escena conteniendo objetos estándar.
(a) y (b) imagen de distancia y reflectancia respectivamente, (c) objetos esféricos
encontrados.

adecuados.
Considerando el modo de percepción mixto propuesto en el capı́tulo 2, los resultados
mostrados ponen de manifiesto que seleccionando un modo de trabajo con captura de
imágenes de 3 mm de resolución y un umbral de indicios de 0.15, el porcentaje de
detecciones en el modo automático serı́a del 80 % de la fruta visible, con lo cual solo
un 20 % de los frutos visibles quedarı́an en el árbol, pudiendo ser recogidos mediante el
modo de señalización asistida, lo que permitirı́a disminuir la actividad del operador en
cuatro quintas partes.
En cuanto a la generalidad de las soluciones propuestas, queremos subrayar que la
metodologı́a presentada en esta tesis, aunque está enfocada a solucionar un problema
particular como la detección y localización de fruta, ha sido planteada de una forma
genérica con lo cual puede aplicarse en la detección de objetos cuasi-esféricos en cualquier
tipo de entornos. Como ejemplo ilustrativo mostramos en las figuras 5.17 y 5.18 dos
imágenes tı́picas utilizadas en visión artificial compuestas de cubos, esferas, cilindros y
fondos planos. Como puede verse, los objetos esféricos son detectados perfectamente a
pesar de que existen oclusiones importantes.

5.3.2. Pruebas de detección en una plantación natural

Este segundo estudio con datos empı́ricos, a diferencia del anterior, utiliza imágenes
captadas en entornos naturales. Se pretende detectar posibles factores degradantes
importantes no modelados correctamente en el entorno artificial de laboratorio que se
5.3 Evaluación empı́rica 245

a b

Coro:0.31 Coro:0.097
Cont:0 Cont:0.11
Covx:0.18 Covx:0.38
Refl:0
Refl:0

Figura 5.18: Ejemplo de detección de esferas en una escena conteniendo objetos estándar.
(a) y (b) imagen de distancia y reflectancia respectivamente, (c) objetos esféricos
encontrados.

creó. No se ha hecho un estudio exhaustivo de la capacidad de detección de los algoritmos

en entornos reales, cosa que se deberá hacer en el futuro y que no deberı́a diferir mucho de
los resultados presentados en la subsección anterior, una vez que los factores degradantes
adicionales detectados en condiciones naturales que afectan a la calidad de las imágenes
sean solucionados.
El estudio se realizó en Valencia en una plantación de naranjos de la variedad “navelate”
en pleno estado de madurez. En la figura 5.19a se muestran imágenes del entorno en el
que se realizaron las pruebas, el equipo del robot Agribot utilizado (todos los módulos
excepto el propio brazo recolector) y un detalle del sistema de deflexión láser captando
una escena natural (fig. 5.19b). El resultado de uno de los procesos de barrido se muestra en
la figura 5.20 donde presentamos una fotografı́a en detalle de la zona explorada, la pareja
de imágenes distancia/reflectancia obtenida y los resultados de ese proceso de detección.
Los factores degradantes detectados en condiciones naturales, que se suman a los ya vistos
en los estudios simulados y artificiales, son fundamentalmente dos: 1) la iluminación intensa
del Sol, y 2) el viento que mueve los frutos. Estos factores perturbadores, que no se han
tratado en ningún estudio hasta la fecha, los vamos a analizar a continuación, ası́ como
también analizaremos la capacidad de discriminación entre las frutas y el fondo utilizando
información de reflectividad centrada a una longitud de onda de 780 nm.

[Link]. Discriminación por reflectividad

Tanto en el capı́tulo 4, cuando presentábamos las primitivas regionales reflectividad, como

en la subsección anterior veı́amos que en muchos casos la fruta se podı́a discriminar del
246 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

a b

Figura 5.19: Montaje y condiciones de trabajo en las pruebas de campo realizadas.

I1: 0.17
I2: 0.14
I3: 0.17
I1: 0.43 I1:I4:
0.30.29
I2: 0.17 I2: 0.59
I3: 0.47 I3: 0.28
I4: 0.57 I4: 0.6

I1: 0.44 I1: 0.39

I2: 0.53 I2: 0.2
I3: 0.36 I3: 0.27
I4: 0.73 I4: 0.54

b c d

Figura 5.20: Imagen natural captada y procesada correspondiente a la escena visible en la

figura 5.19b.
5.3 Evaluación empı́rica 247

a b

Hojas

Umbral de reflectividad

Fruta

c d0 0.2 0.4 0.6 0.8 1

Figura 5.21: (a) y (b) Imágenes de distancia y reflectancia de una escena natural para el
cálculo de reflectividades de fondo y fruta. (c) Imagen de reflectividad (λ = 780) calculada
a partir de las dos anteriores. (d) Funciones de densidad de probabilidad de la fruta y las
hojas.

fondo utilizando información de reflectividad. Este estudio se realizó en ambos casos con
el montaje artificial y por tanto utilizando fruta de plástico y hojas de tela. Veı́amos que
la reflectividad de las hojas era mayor que la de la fruta (0.407 frente a 0.254), y que esta
última tenı́a una cierta componente difusa de tipo especular que se podı́an apreciar como
picos de reflectancia en el centro de cada fruto.
La cuestión que nos planteamos ahora es ver si la capacidad de discriminación por
reflectividad se sigue conservando en los entornos naturales. En la figura 5.21c presentamos
una imagen de reflectividad que se calculó a partir de las imágenes de distancia y
reflectancia (figs.5.21a y 5.21b). Debido a que una mayor reflectividad se representa con
un nivel de gris más claro, podemos apreciar visualmente en esta figura que las regiones
correspondientes a las cinco naranjas tienen una reflectividad ligeramente mayor que la de
las regiones donde hay hojas. Cuantitativamente el valor medio de reflectividad de la fruta
es de 0.325 y el de las hojas es de 0.255, existiendo unas desviaciones estándar reducidas
de 0.02 y 0.03 respectivamente.
En comparación con el estudio realizado con la fruta y el árbol artificial, podemos
concluir que en el caso natural la fruta sigue siendo distinguible del fondo basándose en
reflectividad. Es cierto que el margen de separación entre los valores medios de reflectividad
es más reducido y por tanto podrı́a resultar más difı́cil discriminar entre ambas clases, sin
embargo la varianza en el caso natural también ha disminuido con lo cual las funciones
gausianas, que definen la densidad de probabilidad, no se solapan fuertemente. El valor
248 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

utilizado como umbral discriminante entre ambas clases, como se ve en la figura 5.21d, es
0.303.
Como también se comprobó en el estudio realizado en el CEMAGREF [170] (figs. 1.5 y
1.6), las manzanas son distinguibles de las hojas de los manzanos, trabajando a longitudes
de onda entre 700 y 900 nm. Sin embargo las frutas pertenecientes a distintas variedades
de manzana no son distinguibles entre sı́ trabajando en esa banda espectral infrarroja,
incluso aunque las frutas tengan colores diferentes. En nuestro caso, debido a que el sensor
infrarrojo es insensible a los colores, es de esperar igual comportamiento. Por tanto, las
naranjas de diferentes variedades o en diferentes estados de madurez son difı́cilmente
distinguibles trabajando con 780 nm. Esto conlleva a que si se desea realizar una recolección
selectiva basada en la reflectividad de la fruta, sea necesario utilizar una o varias lı́neas
espectrales en el visible. En concreto, para apreciar el cambio en el estado de madurez,
que normalmente pasa por un estado inicial con tonos verdes y finaliza en muchos casos
con colores amarillos, naranjas o rojos, se recomienda utilizar lı́neas espectrales entre 600
y 640 nm (rojo).

[Link]. Influencia del Sol

En los estudios realizados en el laboratorio, la iluminación ambiente utilizada es de tubos

fluorescentes, con niveles de iluminación tenues que tı́picamente tienen irradiancias de 1
W/m2 . En un entorno natural la iluminación de tipo solar, que llega a la superficie terrestre
a cielo despejado, tiene irradiancias de 1000 W/m2 . Sin embargo, el ser humano no suele
ser consciente de esta gran diferencia en tres ordenes de magnitud, ya que la energı́a
luminosa que entra en nuestro ojo está regulada por el iris de forma refleja y la respuesta
a la intensidad de luz es logarı́tmica. La luz solar tiene un amplio rango espectral que va
desde el ultravioleta al infrarrojo; por tanto también emite a 780 nm que es la frecuencia
del telémetro, aunque afortunadamente en esta banda espectral la atmósfera absorbe el
90 % de esta radiación. La irradiancia debida al haz láser infrarrojo que se genera después
de incidir sobre una superficie mate a un metro de distancia está en torno a 1 mW/m2 .
Esto significa que existe un solapamiento espectral entre ambas fuentes de luz con una
relación señal ruido muy baja. A pesar de que la radiación del telémetro está modulada
en amplitud y la ambiente no, la interacción aditiva entre ambas señales puede alterar
negativamente al proceso de medida, como de hecho se ha observado experimentalmente.
En la figura 5.22 se muestra la influencia del Sol en un caso práctico. Para obtener esta
imagen se comenzó explorando, de izquierda a derecha y verticalmente, la escena con el Sol
oculto por una nube (mitad izquierda de la imagen), y en el transcurso de la adquisición
el Sol se despejó repentinamente hasta que se acabó de adquirir el resto de la imagen
(mitad derecha). Se ve claramente que la reflectancia <, o nivel de señal válida captada
por el sensor, disminuye cuando la iluminación solar es mayor. Este fenómeno puede crear
variaciones de hasta un 20 % en la señal de reflectancia. Las consecuencias pueden ser
diversas:

Falseado de la reflectividad calculada. Al no estar modelada la influencia de los

5.3 Evaluación empı́rica 249

a b

Figura 5.22: Influencia de la iluminación Solar sobre la distancia y reflectancia captada por
el sensor. (a) y (b) imágenes de distancia y reflectancia de una escena natural. La parte
izquierda de la escena fue captada con el Sol ocluido por una nube (iluminación tenue) y
la parte derecha con el Sol sin ocluir (iluminación muy intensa).

cambios de iluminación sobre el nivel de señal válida que recibe el sensor, la presencia
de luz solar directa provoca que las reflectividades calculadas para una determinada
región sea inferior a la real. Este hecho puede hacer que las primitivas regionales
reflectividad dejen de ser discriminantes. La solución a este efecto podrı́a consistir
en utilizar un detector de iluminación ambiental y compensar adecuadamente los
valores de reflectividad ρ.

Aumento de la repetitividad en distancia. Como quedó modelado en el capı́tulo 2,

la repetitividad de la distancia depende de la señal de reflectancia < captada. Este
efecto no es muy importante ya que disminuciones de < del 20 % provocan que la
repetitividad se incremente en menos de 0.2 mm (si Dmax = 4000 y T = 1 · 10−3 s).

Aumento de la probabilidad de medidas de distancia falsas. En el capı́tulo 2 también

se explicó que reflectancias absolutas inferiores a 35 (para un rango tı́pico de
reflectancia entre 10 y 160) generan medidas de distancia falsas. La iluminación
solar por tanto, provoca que medidas que en condiciones de iluminación tenues
tenı́an reflectancias entre 40 y 45, ahora estén muy próximas a 35 y por tanto sus
correspondientes datos de rango sean falsos. En la franja vertical derecha de la figura
5.22a se pueden apreciar unos puntos negros que corresponden a medidas falsas en
distancia.

[Link]. Influencia del viento

El viento quizás pueda ser considerado como uno de los aspectos más degradantes
encontrados en los entornos naturales. Este factor crea oscilaciones tanto verticales como
horizontales de la fruta, con unas amplitudes que dependen de la fuerza del viento, de
la longitud del pedúnculo, de la posición y del tamaño del fruto. Las amplitudes tı́picas
encontradas en estos desplazamientos oscilantes están en torno a 10 y 30 mm para el viento
relativamente fuerte que pudimos experimentar (' 30 Km/h).
250 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

Con el sistema de adquisición por deflexión de haz actual, debido a que el tiempo de
adquisición es alto ('20 s para imágenes de 500 × 500 mm y 3 mm/punto de resolución),
el movimiento de la fruta en el árbol va a provocar una fuerte deformación en las imágenes,
con lo cual es de esperar también un pérdida sustancial en la capacidad de detección. En
la figura 5.23 se muestran tres tomas de una misma escena con diferentes intensidades del
viento, y por tanto diferentes grados de deformación. En esta figura, de arriba a abajo la
amplitud de viento se incrementa, y como se puede apreciar, las detecciones encontradas
disminuyen de 7 frutos correctamente detectados, para el caso con viento débil (fig. 5.23b),
a 5 y 3 frutos detectados cuando la intensidad del viento crece paulatinamente (figs. 5.23c
y 5.23d).
Observando las imágenes degradadas hemos podido determinar que la frecuencia de
oscilación de la fruta en el plano vertical está en torno a 1 Hz. En la figura 5.24 podemos
ver tres claros ejemplos donde se aprecian cuatro periodos de deformación completos, por
oscilaciones verticales en las naranjas de la esquina superior-derecha de la figura 5.24a y
5.24b, y la naranja de la esquina inferior-derecha de 5.24b. Como el tiempo necesario para
barrer una franja vertical con un ancho igual al de una naranja es de 20 ∗ 80/500 = 3,2
segundos, tenemos que la frecuencia de oscilación es de 1.25 Hz. Para eliminar este efecto
degradador, será necesario explorar esta franja de 80 mm de ancho a una velocidad superior
para que se produzca un efecto de “congelación”. Si consideramos que explorar esta franja
en π/4 del periodo de la oscilación es suficiente para que la degradación del viento solo
se manifieste como un ligero incremento en la excentricidad de la fruta, tenemos que la
franja debe se barrida completamente en 0.1 segundos y por tanto la imagen completa en
0,1 ∗ 500/80 = 0,625 segundos o a casi 2 Hz.
Debido a que el viento afecta a la capacidad de detección al deformar las imágenes con
la velocidad de barrido actual (tadquis ' 20 s; imagen 500 × 500 mm, 3 mm/punto);
tanto para permitir una operación en tiempo real (tadquis < 5 s) como para que se pueda
“congelar” la imagen (tadquis < 0,6 s), se deberı́a trabajar en un futuro con un sistema
mejorado de adquisición para captar una imagen de 500 × 500 mm en 0.6 segundos (' 2
Hz). Esta pretensión no debe afectar a otros parámetros caracterı́sticos esenciales del
sistema de medida como la potencia de emisión láser, el rango de medida, la precisión y
la repetitividad en distancia. Hoy en dı́a esto parece que puede estar fuera del alcance
de la tecnologı́a actual ya que no nos consta que exista ningún sistema telemétrico que
cumpla con los requisitos planteados en el capı́tulo 2 y a la vez capte imágenes con la
cadencia que acabamos de indicar (2 imágenes por segundo o 45.000 puntos por segundo).
Sin embargo, cada vez se está más próximo a estas especificaciones y es de esperar que en
breve tiempo sea posible disponer de sistemas telemétricos barriendo regiones grandes (5
metros), con precisiones y repetitividades elevadas (< 0,5 mm), con grandes velocidades
de medida (> 200,000 puntos/s) y con potencias de emisión contenidas (clase 3a, clase 3b
de menos de 10 mW o ligeramente mayores trabajando con longitudes de onda de más de
1500 nm).
5.3 Evaluación empı́rica 251

I1: 0.15
I2: 0
I1: 0.68 I3: 0
I2: 0.38 I1:00.31
I4:
I3: 0.33 I2: 0.37
I4: 0.31 I3: 0.16
I4: 0.35
I1: 0.13
I2: 0
I3: 0.056
I4: 0.11
I1: 0.43
I2: 0.5
I3: 0.41
I4: 0.41

I1: 0.43
I2: 0.23
I3: 0.2 I1: 0.16
I4: 0.38 I2: 0

b I3: 0.16
I4: 0.16

I1: 0.7
I2: 0.44 I1: 0.43
I3: 0.18 I2: 0.16
I4: 0 I3: 0.38
I4: 0

I1: 0.33
I2: 0.13
I3: 0.2
I4: 0

I1: 0.089
I2: 0
I3: 0.058 I1: 0
I4: 0 I2: 0
c I3: 0
I4: 0.27

I1: 0.49
I2: 0.17
I3: 0.15
I4: 0

I1: 0.033
I2: 0.32
I3: 0
I4: 0.41

I1: 0
I2: 0

d
I3: 0
I4: 0.24

Figura 5.23: a) Fotografı́a en B/N de una escena de un árbol natural que contiene 9
frutos visibles; En las filas b), c) y d) se muestran de izquierda a derecha, el mapa de
distancia, reflectancia y las detecciones encontradas, para diferentes tomas de la escena
con intensidad del viento creciente.
252 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

Figura 5.24: a) y b): Dos escenas diferentes captadas para apreciar la frecuencia de
oscilación de los frutos con el viento. En cada fila se muestra de izquierda a derecha,
una fotografı́a en B/N y las correspondientes imágenes de distancia y reflectancia.

5.4. Conclusiones

En este capı́tulo hemos evaluado los algoritmos presentados en la tesis de una forma
conjunta analizando la calidad de los resultados en función de diversos parámetros
degradantes. Las conclusiones más destacables son las siguientes:

Los algoritmos tienen un orden de complejidad lineal, O(N ), lo cual es muy

importante en percepción artificial por el gran volumen de datos tratados. Sin
embargo, los tiempos absolutos de procesamiento no corresponden a un sistema
de tiempo real ya que su optimización no se ha llegado a contemplar en esta tesis.

Los algoritmos elaborados se caracterizan por una alta robustez. Esta propiedad
surge del método redundante utilizado en el cual se trabaja con múltiples primitivas
para conseguir que el fallo de alguna de ellas afecte en la mı́nima medida al resto
del sistema. Es cierto también que los algoritmos son sensibles a las diferentes
degradaciones introducidas, pero los indicios de esfericidad disminuyen de una
forma controlada permitiendo generar hipótesis válidas en un amplio rango de
degradaciones; de ahı́ su robustez.

Hemos comprobado que el hecho de utilizar los cuatro métodos de generación de

hipótesis parciales, tiene un claro sentido ya que ninguno de los métodos por separado
obtiene los mismos resultados que integrando las cuatro fuentes de hipótesis. Es
5.4 Conclusiones 253

decir, existe una cooperación y complementariedad entre los métodos propuestos,

lo que permite mejorar de forma considerable las detecciones y la calidad de las
estimaciones.

La estimación de parámetros obtenida, tanto en la posición tridimensional como

en el radio de las esferas, presenta una buena precisión, con errores milimétricos,
casi siempre inferiores a la resolución utilizada para captar la imagen. Unos errores
máximos menores de 3 mm en posición y radio, son resultados perfectamente
adecuados para localizar objetos en situaciones complejas como presenta nuestra
aplicación.

Hemos comprobado que el filtro 3σ-MPF contribuye de una forma positiva y ayuda
tanto a las tareas de reconocimiento como a la estimación de los parámetros de las
esferas. Al haber presentado resultados sustituyendo nuestro filtro por otras etapas
de restauración, se han obtenido siempre resultados inferiores a los generados con el
filtro 3σ-MPF.

Mediante la evaluación experimental en el laboratorio hemos visto que en un caso

práctico de recolección de fruta, podemos conseguir detecciones correctas del orden
del 80 % de la fruta visible, y una probabilidad casi nula de detecciones falsas.
Estos resultados pueden ser incluso ajustados dependiendo de lo que interese más,
si detectar el máximo número de frutos a costa de aumentar la probabilidad de
encontrar detecciones falsas, ó detectar menos frutos pero teniendo certeza absoluta
de que son hipótesis correctas.

Mediante la evaluación experimental en campo, hemos detectado otros factores

degradantes no percibidos ni modelados hasta entonces. Estos factores perturbadores
son el viento y la iluminación solar directa. El último factor es significativo pero no
invalida el proceso de detección, sin embargo el factor viento nos obliga a adquirir
imágenes a una cadencia en torno a 2 Hz.

Hemos comprobado que en condiciones naturales la reflectividad, al igual que en el

montaje de laboratorio, nos permite distinguir las frutas del fondo de hojas, con lo
cual el método basado en primitivas reflectividad es efectivo.

Finalmente, y desde un punto de vista global, es necesario comparar los resultados que
hemos obtenido con los presentados en trabajos anteriores donde se pretendı́a automatizar
la detección de fruta. En el capı́tulo 1 se presentó de forma detallada las caracterı́sticas,
logros y problemas que se obtuvieron en cada una de las estrategias propuestas por otros
autores, las cuales se basaban en el uso de cámaras CCD en B/N o en color. Recordamos
que los mayores problemas utilizando cámaras eran las oclusiones, las sombras, la ausencia
de información de profundidad y las regiones confusas visibles a través del árbol que
generaban detecciones falsas. En la mayorı́a de los casos los métodos se limitan a distinguir
la fruta del fondo por color, con lo cual los algoritmos solo funcionan cuando la fruta
está madura. Cuando la fruta es distinguible del fondo por color, circunstancia que no
siempre se manifiesta pues en muchos casos la fruta se recoge antes de que madure del
254 Capı́tulo 5: Evaluación conjunta . . . simuladas y reales

todo, los mejores resultados muestran detecciones correctas de hasta el 90 % de la fruta

visible y detecciones falsas superiores al 5 % [112]. En los casos en que el sistema puede
detectar tanto fruta madura como verde, la mejor solución obtenida se encuentra en el
proyecto CITRUS [165] donde se dan tasas de detección correcta del 75 % y un 8 % de
fallos.
Nosotros, con un sistema telemétrico láser y utilizando una estrategia de preprocesamiento
y análisis de formas, reflectividades y distribuciones espaciales, hemos conseguido obtener
tasas de detección de fruta, independientemente de cual sea el estado de madurez, del
80 % de los frutos visibles; con unas detecciones falsas nulas o muy poco probables. El
problema de las sombras, la ausencia de información de profundidad para localizar al
fruto y la presencia de regiones visibles a través del árbol, han sido eliminados en nuestra
solución. Sin embargo aún existen factores limitantes como la oclusión parcial de la fruta
(aparte de la oclusión total de esta que puede llegar a ser del 50-60 % [112]), que hace que
frutos que son visibles en menos de un 20-25 % de su superficie sean difı́ciles de detectar.
Otros factores que actualmente restringen la aplicación de nuestro sistema, aunque son
problemas de ı́ndole tecnológica, son los tiempos de adquisición y de cómputo.
A pesar de las limitaciones mencionadas del sistema desarrollado, estimamos que
las metodologı́as elaboradas tienen una plena validez como estrategias generales
discriminantes para la detección de objetos. Se harı́a posible la resolución de la aplicación
real disponiendo en un futuro próximo de los componentes fı́sicos adecuados para poder
trabajar con menores limitaciones, captando imágenes a distancias medias (2-5 metros),
con alto nivel de detalle (< 1 milı́metro) y con altas velocidades (> 2 Hz), y procesándolas
en tiempos que no limiten el ciclo de recolección (< 1,5 s/fruto).
Conclusiones, aportaciones y
trabajos futuros

Una vez que el trabajo desarrollado ha sido presentado a lo largo de la memoria, ha

llegado el momento de recapitular lo que se pretendı́a hacer, lo que se ha conseguido, las
contribuciones novedosas que puedan suponer aportaciones útiles al resto de la comunidad
cientı́fica y los posibles trabajos que quedan abiertos en esta lı́nea para el futuro.

Conclusiones finales

El objetivo final de la tesis se centraba en estudiar la realización de un sistema automático

de reconocimiento y localización de frutos, que basado en técnicas diferentes a las ya
presentadas por otros investigadores que utilizan cámaras de visión, permita resolver
ciertos problemas encontrados por ellos y que fundamentalmente son las frecuentes
detecciones falsas, la limitada capacidad de detectar fruta con tonos de color próximos
a los del fondo y las dificultades para determinar la posición tridimensional de cada fruta
lo cual dificulta su recolección.
Las técnicas presentadas en esta tesis, han permitido desarrollar un sistema automático
de detección que no genera detecciones falsas, o al menos su probabilidad es muy baja,
manteniendo una tasa de detecciones superiores al 80 % de la fruta visible. De esta forma,
aplicando la estrategia de detección mixta que combina una fase de detección automática
seguida de una fase asistida, es posible detectar el 100 % de la fruta visible sin generar
detecciones falsas. La capacidad global de detección del sistema automático elaborado no
depende del hecho de que la fruta no sea siempre distinguible del fondo utilizando su color;
esto es ası́ ya que el parámetro color no es utilizado en el análisis de imágenes. Junto a
la detección del fruto se obtiene la posición tridimensional de su centro con unos errores
siempre menores de 3 mm, permitiendo que un robot se pueda dirigir a este punto siguiendo
la trayectoria que se crea más adecuada y no solamente la del eje de visión. Ası́ mismo,
cada una de las esferas detectadas queda parametrizada mediante su radio y reflectividad
superficial, con lo cual se podrı́a pensar en realizar recolecciones selectivas basadas en
alguno de estos parámetros. Esas caracterı́sticas que acabamos de resaltar hacen que el
sistema presentado tenga un comportamiento que mejora los resultados obtenidos en otros
trabajos previos, sin embargo también presenta ciertas limitaciones.

255
256 Conclusiones, aportaciones y trabajos futuros

Una de las principales limitaciones que presenta el sistema planteado, al igual que en
las técnicas tradicionales, son los problemas de detección ante la existencia de oclusiones
parciales del fruto por parte de las hojas, y que por supuesto utilizando sensores que
trabajen con radiación que no se transmite a través de las hojas no es posible solventar.
Sin embargo, el sistema planteado permite detectar correctamente esferas visibles en más
de un 20-25 %, con lo cual y dependiendo del tipo de árbol explorado, se obtienen casi
siempre detecciones superiores al 80 % de la fruta visible.
La limitación principal son los tiempos de captura y de procesamiento del prototipo de
sistema de detección presentado. En el proceso de adquisición de imágenes los tiempos
tı́picos requeridos para completar la exploración están en torno a los 20 segundos para
una imagen de 500 × 500 mm con una resolución de 3 mm/punto. Debido al ciclo de
trabajo requerido para la recolección de la fruta, y fundamentalmente al viento que
ocasiona deformaciones en las imágenes, se estima que deberı́a realizarse la adquisición
de este tipo de imágenes en 0.5 segundos (2 Hz). Conseguir esto es una tarea compleja,
ya que simplemente aumentar la velocidad de barrido utilizando espejos con múltiples
caras girando a velocidad constante, no es una solución posible si el propio sensor no es
capaz de medir con la cadencia requerida para conseguir el muestreo espacial deseado y
con la suficiente calidad de medida en la distancia. Este es un aspecto problemático que
probablemente el desarrollo tecnológico resolverá en un futuro muy próximo. En cuanto a
los tiempos de cálculo que se requieren para procesar y analizar una imagen, que son de
60-80 segundos utilizando un computador del tipo Pentium 150 MHz sin ningún soporte
fı́sico adicional para mejorar su rendimiento, tampoco son apropiados para una aplicación
en tiempo real. Para garantizar un ciclo de recolección de 1 fruto cada 1.5 segundos, y
debido a que en cada imagen hay una media de 10 frutos visibles, los tiempos de cálculo
estimados por cada imagen deben ser inferiores a una decena de segundos. Esto significa
que la mejora a realizar debe estar entre uno y dos órdenes de magnitud, lo cual se puede
hacer simplificando los algoritmos o añadiendo más unidades de procesamiento.
En cualquier caso, a parte de estas limitaciones de carácter fundamentalmente tecnológicas,
queremos resaltar la validez de los planteamientos algorı́tmicos presentados que permiten
dotar al sistema elaborado de una gran capacidad para realizar detecciones correctas
de objetos cuasi-esféricos, posibilitando la aplicación de la metodologı́a tanto en el caso
agrı́cola planteado como en otros campos en los que se contemplen labores de inspección,
detección o clasificación.

Aportaciones presentadas

A lo largo de los cinco capı́tulos de los que consta la tesis, en el apartado final de
conclusiones de cada uno de ellos se han citado los aspectos destacables presentados y las
aportaciones más relevantes. Fundamentalmente, podemos considerar que las aportaciones
principales de esta tesis son las siguientes:

Se ha realizado una revisión bibliográfica detallada de los trabajos de visión

257

orientados a la detección de frutos en el campo, ası́ como un repaso de técnicas

de medida de distancia, de restauración y de análisis de imágenes.

Se ha propuesto una estrategia de detección mixta que opera aplicando un modo

de detección automático seguido de uno asistido, permitiendo aunar las ventajas de
ambas estrategias.

Hemos propuesto basar el proceso de detección automático en la forma de los objetos,

en sus propiedades ópticas y en la distribución espacial de estos. Planteando la
necesidad de utilizar un sensor que capte distancia y reflectancia.

Hemos realizado un análisis de los sistemas de telemetrı́a láser actuales, definiendo

un ı́ndice de eficiencia tecnológico M que nos permite poner de manifiesto las
limitaciones actuales y las relaciones de compromiso entre los parámetros que
caracterizan un sistema láser de medida de distancias.

Presentamos un modelo matemático del telémetro que relaciona la señal de

reflectancia con otros parámetros que intervienen en el proceso de medida,
posibilitando la integración de la información de distancia con la de reflectancia.

Ası́ mismo, hemos modelado la repetitividad de la distancia mostrando la

dependencia de la reflectancia sobre la desviación estándar del ruido aditivo que
afecta a la medida de distancia, posibilitando una estimación del ruido para realizar
restauraciones adaptativas.

Se ha elaborado una nueva métrica para la medida de la calidad global de

restauración, GRI, la cual valora tanto la fidelidad como la suavidad en las
reconstrucciones.

Se ha elaborado una nueva técnica de restauración de imágenes denominada 3σ-

MPF que, utilizando una estrategia multiresolución y un criterio de fidelidad de
ajuste de planos, permite realizar restauraciones con alto grado de suavizado y a la
vez preservar discontinuidades sin introducir distorsiones significativas. Tanto por
criterios visuales, utilizándolo como una etapa de preprocesamiento en un sistema
de reconocimiento completo, como aplicando la métrica GRI, este filtro se comporta
mejor que los restantes tratados.

Hemos propuesto un método de reconocimiento, localización y caracterización de

objetos esféricos que se basa en la extracción de diversas primitivas que, utilizadas
como fuentes de indicios y tras una integración final de las hipótesis parciales
generadas, permite detectar objetos esféricos generando su posición tridimensional,
radio y reflectividad.

Hemos definido cuatro tipos de primitivas, dos de carácter puntual y dos de tipo
regional. Tres de ellas captan caracterı́sticas discriminantes en la forma de un objeto
esférico. La otra capta regiones con propiedades ópticas iguales a las del objeto
buscado. La utilización de las cuatro primitivas hace que el método de reconocimiento
258 Conclusiones, aportaciones y trabajos futuros

se base en la complementariedad aportada por cada una de ellas, lo cual le da un

carácter robusto ante oclusiones y degradaciones.

Finalmente, realizamos una evaluación simulada y empı́rica de los algoritmos,

parametrizando diversos tipos de entrada y diferentes ajustes internos del algoritmo,
con lo cual se comprueba la capacidad del sistema propuesto para detectar
correctamente frutos y objetos cuasi-esféricos, sin generar detecciones falsas, y con
mı́nimos errores en la estimación de sus parámetros. Ası́ mismo, esta evaluación
permite juzgar las posibilidades de utilizar las técnicas mostradas en este trabajo en
otros campos diferentes.

Trabajos futuros

Como ya apuntamos anteriormente en el apartado de conclusiones, se considera que la

estrategia planteada es adecuada, sin embargo existen limitaciones en los apartados de
tiempo de adquisición y análisis de imágenes. Por tanto, se deberı́a proporcionar al sistema
del soporte fı́sico que permita su evolución en tiempo real, para lo cual se deberá centrar
esfuerzos de desarrollo hacia la mejora de los tiempos de captura, desarrollando sistemas
de exploración telemétricos rápidos que generen imágenes de alta calidad, y por otro lado
mejorar los tiempos de procesamiento mediante nuevas arquitecturas de procesamiento o
simplificando los algoritmos.
Debido a que los algoritmos de procesamiento utilizan varios parámetros ajustables cuya
inapropiada elección provoca que el proceso no sea totalmente óptimo, serı́a interesante
disponer de un controlador que observando la evolución de los resultados intermedios y
finales del algoritmo, ajustase de forma adaptativa parámetros tales como el número de
primitivas utilizadas, la resolución espacial de las imágenes, la velocidad de barrido o el
umbral de indicios. De esta forma lo que se conseguirı́a es modificar la fase de adquisición y
procesamiento mediante una sintonı́a automática con el fin de que los resultados obtenidos
sean óptimos.
Ası́ mismo quedan abiertas a la investigación otras estrategias de captación totalmente
diferentes a las planteadas, que de alguna forma permitan captar las diferencias en las
propiedades volumétricas y de absorción de energı́a que presentan los frutos y las hojas, con
lo cual se estarı́a en condiciones de obtener unas seudo-imágenes en las cuales la oclusión
por parte de las hojas no estuviese presente y por tanto la detección fuese prácticamente
inmediata.
También serı́a de interés plantear la realización de una fusión entre dos sensores diferentes:
telémetros láser y cámaras ópticas. Este posible trabajo tiene sentido si se trata de
aprovechar las propiedades más ventajosas de ambos sensores. La ventaja en las cámaras
ópticas está en la rapidez de adquisición y en la información más rica de color al generar tres
componentes espectrales, lo cual permite realizar detecciones rápidas cuando los frutos son
distinguibles por color del fondo y a la vez se posibilita la clasificación de la fruta según su
grado de madurez. Los sistemas telemétricos actualmente son más lentos, sin embargo
259

tienen otras propiedades muy interesantes como la generación directa de la distancia

absoluta, la posibilidad de realizar un análisis basado en la forma sin problemas de
iluminación y la opción de analizar la distribución en el espacio de los objetos detectados.
Estos aspectos hacen que las estimaciones sean muy fiables y que las detecciones falsas
sean muy poco probables. En este sentido la integración de ambos sensores podrı́a resultar
interesante aunque también se incrementarı́a la complejidad del sistema a desarrollar.
260 Conclusiones, aportaciones y trabajos futuros
Apéndice A

Caracterı́sticas técnicas de los

componentes del sistema
telemétrico de exploración

En este apéndice presentamos los datos técnicos de los componentes utilizados en el sistema
de deflexión telemétrico que se presentó en el capı́tulo 2. Estos elementos son los motores,
tarjetas de control y etapas de potencia para dotar al sistema de los movimientos angulares
en acimut y elevación necesarios para realizar la exploración; los espejos deflexores y
monturas de alineamiento; el diodo láser apuntador y el propio telémetro láser junto con
su tarjeta de adquisición de alta velocidad. A continuación (figs. A.1-A.10) podemos ver
los detalles técnicos que los fabricantes proporcionan.

261
262 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración

Figura A.1: Telémetro láser AccuRange 4000-LIR (1/2).

263

Figura A.2: Telémetro láser AccuRange 4000-LIR (2/2).

264 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración

Figura A.3: Tarjeta de alta velocidad para comunicación con el telémetro láser.
265

Figura A.4: Diodo láser de 633 nm modelo LDM115G.

266 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración

Figura A.5: Generador de cruz láser acoplable a diodos de la serie LDM115.

267

Figura A.6: Caracterı́sticas de reflexión para recubrimientos dieléctricos de tipo BD.2

utilizados en el espejo móvil.
268 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración

Figura A.7: Caracterı́sticas de reflexión del “espejo caliente” utilizado para integrar el haz
visible (633 nm) con el invisible (780 nm).
269

Figura A.8: Monturas de ajuste fino utilizadas para soportar el diodo láser y el “espejo
caliente”.
270 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración

Figura A.9: Esquema de la tarjeta de control de motores utilizada que se basa en el

integrado LM629.
271

Figura A.10: Esquema electrónico de la etapa de potencia utilizada para amplificar la señal
que comanda los motores.
272 Apéndice A: Caracterı́sticas técnicas . . . sistema telemétrico de exploración
Apéndice B

Medidas experimentales para

modelar el telémetro láser

En el capı́tulo 2 (ec. 2.11), presentamos un modelo inicial mediante el cual se relacionaban

parámetros del proceso de medida, como la distancia al blanco D, el ángulo formado entre
el eje de medida con la normal a la superficie θ, la reflectividad propia de la superficie ρ, la
reflectancia captada < y otras constantes conocidas o sin determinar. Este era el modelo:

AFi ρ cos θ
< = cte1 log(cte2 ) (B.1)
π D2

Este modelo nos dá la relación general de dependencia que existe entre los parámetros
que intervienen en un proceso de medida utilizando telémetros operando mediante
principios equivalentes al nuestro. Para completar el modelo es aún necesario determinar
las constantes cte1 y cte2 que son desconocidas. Con este propósito se realizó un ajuste por
mı́nimos cuadrados con datos experimentales, que nos permitió derivar estas constantes y
a la vez comprobar que el modelo planteado es correcto. En este apéndice mostramos
el proceso de recogida de datos (fig. B.1), el cual consiste en una toma repetida de
valores de reflectancia, <, mientras se cambian los parámetros de medida. Los parámetros
considerados son D y θ, y han sido variados en un rango de 1 a 4 metros a pasos de 200
mm, para el caso de la distancia, y en un rango de 0 a 80 grados en pasos de 10 grados
en el caso de θ. Los datos obtenidos mediante este procedimiento se muestran en la tabla
B.1.
Igualmente, en este apéndice mostramos los datos experimentales obtenidos tomando
valores de repetitividad en distancia a diferentes valores de reflectancia, <, siendo obtenidos
estos últimos, variando de forma aleatoria el tipo de superficie, la distancia y el ángulo de
incidencia, hasta conseguir una muestra representativa en un amplio rango de <. La tabla
B.2 contiene los datos recogidos de esta forma. Gracias a estos datos y a los planteamientos
presentados en el capı́tulo 2, se pudo deducir que existı́a una clara relación entre < y la
repetitividad en distancia σD , que venı́a dada por la expresión:

273
274 Apéndice B: Medidas experimentales para modelar el telémetro láser

Rango de medidas angulares θ= 0º hasta 80º

(pasos de 10º)

Normal a la
gía θ superficie
ener e
ó l i d o de uperfici
s
n g ulo s a por la sensor
Á rsad or el Soporte giratorio
dispe turada p itid
o
de la superficie
y c a p
á s e r em difusora
l
Haz m
as ta 4
r mh
láse D =1
etro ia D
ém
Tel nc
ista mm)
nd 0
i das e de 20
e d sos
e m (pa
g od
Ran
(Reflectancia)
D (Distancia)

Figura B.1: Montaje experimental para la recogida de los datos que se muestran en la
tabla B.1

s
k Dmax 2
σD = +( ) (B.2)
T 10</80,9 9 × 107 T

donde la constante k quedó determinada aplicando un ajuste por mı́nimos cuadrados.

275

Ángulo (grados) Distancia (mm) Reflectancia

0 1000 145.5
0 1200 148
0 1400 150.5
0 1600 154
0 1800 154
0 2000 154
0 2200 154
0 2400 154
0 2600 153.5
0 2800 153
0 3000 152
0 3200 151
0 3400 149.5
0 3600 148
0 3800 146.5
0 4000 146
10 1000 144
10 1200 146.5
10 1400 150
10 1600 152
10 1800 152
10 2000 152.5
10 2200 153
10 2400 152.5
10 2600 152
10 2800 151.5
10 3000 151
10 3200 150
10 3400 148
10 3600 147
10 3800 145.5
10 4000 145
20 1000 140
20 1200 144
20 1400 147.5
20 1600 148
20 1800 148.5
20 2000 150
20 2200 149.5
20 2400 150
20 2600 149
20 2800 148
20 3000 147.5
20 3200 146.5
20 3400 145.5
20 3600 144
20 3800 142
20 4000 141
276 Apéndice B: Medidas experimentales para modelar el telémetro láser

Ángulo (grados) Distancia (mm) Reflectancia

30 1000 136
30 1200 140
30 1400 142
30 1600 145
30 1800 146
30 2000 145
30 2200 146
30 2400 146
30 2600 145
30 2800 145
30 3000 144
30 3200 142
30 3400 141.5
30 3600 140
30 3800 138.5
30 4000 138
40 1000 132
40 1200 135
40 1400 137
40 1600 140
40 1800 140
40 2000 140.5
40 2200 140.5
40 2400 141
40 2600 140.5
40 2800 139.5
40 3000 138
40 3200 138
40 3400 137
40 3600 136
40 3800 134
40 4000 133
50 1000 124.5
50 1200 127.5
50 1400 131.5
50 1600 133
50 1800 134
50 2000 134
50 2200 134
50 2400 134
50 2600 134
50 2800 133
50 3000 132
50 3200 132
50 3400 130
50 3600 129
50 3800 128
50 4000 126
277

Ángulo (grados) Distancia (mm) Reflectancia

60 1000 116
60 1200 119
60 1400 122.5
60 1600 125
60 1800 125
60 2000 126.5
60 2200 125.5
60 2400 126
60 2600 126
60 2800 125
60 3000 124
60 3200 124
60 3400 123
60 3600 122
60 3800 120
60 4000 119
70 1000 105
70 1200 107
70 1400 111
70 1600 112
70 1800 114
70 2000 114.5
70 2200 114
70 2400 114
70 2600 114
70 2800 113
70 3000 112
70 3200 112
70 3400 110.5
70 3600 110
70 3800 109
70 4000 106.5
80 1000 83
80 1200 84
80 1400 88
80 1600 92.5
80 1800 92
80 2000 92
80 2200 92.5
80 2400 92
80 2600 91
80 2800 91
80 3000 91
80 3200 91
80 3400 90.5
80 3600 88
80 3800 87
80 4000 86

Cuadro B.1: Datos experimentales para determinar la dependencia de la reflectancia con

las variaciones en la distancia de medida y el ángulo de incidencia con la normal a la
superficie.
278 Apéndice B: Medidas experimentales para modelar el telémetro láser

Reflectancia Desviación estándar (mm)

152 0.32
147 0.33
143 0.34
138 0.37
134 0.40
127 0.44
120 0.52
112 0.58
106 0.66
96 0.77
98 0.74
91 0.81
82 0.93
73 1.05
63 1.20
52 1.45
166 0.26
152 0.31
137 0.36
123 0.48
117 0.54
108 0.62
102 0.69
97 0.74
91 0.79
80 0.94
53 1.40
68 1.10
62 1.17
56 1.29
163 0.28
160 0.29
158 0.30
155 0.30
144 0.34
142 0.35
140 0.37
138 0.38
136 0.39
132 0.42
125 0.48
119 0.50
104 0.66

Cuadro B.2: Datos experimentales para captar la relación existente entre la reflectancia
captada por el sensor, <, y la desviación estándar en distancia, intentando de esta forma
parametrizar la repetitividad en la medida como función de <.
Apéndice C

Muestra de imágenes de
laboratorio distancia-reflectancia
utilizadas en la evaluación
empı́rica

En este apéndice mostramos un subconjunto de las imágenes de laboratorio utilizadas para

realizar la evaluación empı́rica presentada en el capı́tulo 5 (figs. C.1-C.12). Estas imágenes,
que fueron captadas con el sensor láser mostrado en el capı́tulo 2, vienen dadas en parejas
distancia-reflectancia ya que son los datos que genera el sensor y que a la vez requieren los
algoritmos de reconocimiento y localización presentados. Junto a cada pareja de imágenes
también mostramos las hipótesis de objetos esféricos generadas al analizar las imágenes,
incluyendo los indicios parciales que conducen a su formulación. La localización en el plano
imagen y la estimación del radio, se muestran superponiendo una circunferencia sobre el
mapa de distancias. Todos los resultados mostrados se obtuvieron utilizando un umbral
de indicios de 0.15 y un radio de referencia, R, de 40 mm.
La resolución con la que fueron muestreadas las escenas son de 2, 3 y 4 milı́metros por
punto, por tanto existen tantas versiones de la escena como resoluciones utilizadas para
obtener las imágenes distancia-reflectancia. Todas las imágenes se caracterizan porque los
objetos de interés están situados a una distancia entre 2000-3000 mm y tienen un diámetro
medio variable entre 73 y 82 mm, con excentricidades siempre menores de 1.05. En su
generación se utilizó una frecuencia de muestreo en el telémetro de 1500 Hz, con tiempos
de captura, de cada pareja de imágenes distancia-reflectancia, entre 10 y 20 segundos,
dependiendo del área explorada y de la resolución espacial. El ruido gausiano con el que
las imágenes de distancia están contaminadas depende de la reflectancia aparente captada
por el sensor, como se mostró al modelar el láser en el capı́tulo 2, y en estas imágenes
varı́a en un rango de 1 a 2 mm. El nivel de ruido impulsivo trabajando a estas frecuencias
relativamente bajas, y con estos tipos de superficies bastante difusoras, es prácticamente
inexistente como se puede apreciar.

279
280 Apéndice C: Muestra de imágenes . . . evaluación empı́rica

I1: 0.033
I2: 0
I3: 0.15
I4: 0
I1: 0.44
I2: 0.67
I3: 0.29
I4: 0.28

I1: 0.055
I2: 0.14 I1: 0.13
I3: 0 I2: 0.18
I4: 0.13 I3: 0.11
I4: 0.25

I1: 0.088
I2: 0.35
I3: 0.25
I4: 0
I1: 0.093
I2: 0.92
I3: 0.43
I4: 0.2

I1: 0.1
I2: 0.15 I1: 0.14
I3: 0 I2: 0
I4: 0 I3: 0
I4: 0.19

I1: 0
I2: 0.14
I3: 0.28
I4: 0
I1: 0.2
I2: 0.66
I3: 0.55
I4: 0.19

I1: 0.059
I2: 0.015
I3: 0
I4: 0.13

Figura C.1: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
281

a
I1: 0
I2: 0.61
I3: 0
I4: 0

I1: 0.32
I2: 0.81
I1: 0.1
I3: 0.41
I2: 0
I4: 0.48
I3: 0.019
I1: 0.2 I4: 0.18
I2: 0.61
I3: 0.22
I4: 0.34

b
I1: 0
I2: 0.45
I3: 0
I4: 0

I1: 0.31
I1: 0.078
I2: 0.57
I3: 0.47 I2: 0
I4: 0.48 I3: 0.099
I1: 0.14 I4: 0.08
I2: 0.51
I3: 0.18
I4: 0.31

c
I1: 0
I2: 0.36
I3: 0
I4: 0

I1: 0.32
I2: 0.44
I3: 0.49
I4: 0.42

I1: 0.24
I2: 0.44
I3: 0.078
I4: 0.29

Figura C.2: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
282 Apéndice C: Muestra de imágenes . . . evaluación empı́rica

I1: 0.14
I2: 0.22
I3: 0
I4: 0.19

I1: 0.26
I2: 0.37
I3: 0.37 I1: 0.15 I1: 0.3
I4: 0.52 I2: 0.5 I2: 0.52
I3: 0.25 I3: 0.35
I4: 0.28 I4: 0.41

b
I1: 0.19
I2: 0.25
I3: 0
I4: 0.2

I1: 0.27
I2: 0.46
I1: 0.2 I1: 0.32
I3: 0
I2: 0.35 I2: 0.43
I4: 0
I3: 0.3
I3: 0.25
I4: 0.41
I4: 0.17

I1: 0
I2: 0.31
I3: 0
I4: 0.16

I1: 0.41
I2: 0.38
I3: 0 I1: 0.11 I1: 0.21
I4: 0 I2: 0.44 I2: 0.44
I3: 0.16 I3: 0.34
I4: 0.1 I4: 0.32

Figura C.3: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
283

I1: 0.26
I1: 0.59
I2: 0
I2: 0.68
I3: 0
I1: 0.21 I3: 0.03
I4: 0
I2: 0.22 I4: 0.43

I3: 0.21
I1: 0.35
I4: 0.52
I2: 0.69
I3: 0.41
I4: 0.52

I1: 0.37
I2: 0.52
I1: 0.17 I3: 0.02
I2: 0.012 I4: 0.34

I3: 0.33
I1: 0.36
I4: 0.39
I2: 0.63
I3: 0.46
I4: 0.42

I1: 0.23
I2: 0 I1: 0.48
I2: 0.76
I3: 0
I1: 0.097 I3: 0
I4: 0
I2: 0 I4: 0

I3: 0.36 I1: 0.3

I4: 0.25 I2: 0.57
I3: 0.43
I4: 0.39

Figura C.4: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
284 Apéndice C: Muestra de imágenes . . . evaluación empı́rica

a
I1: 0.68
I2: 0.93
I3: 0.33
I4: 0.64

I1: 0.13 I1: 0

I2: 0.2
I2: 0
I3: 0
I3: 0
I4: 0
I4: 0.18

I1: 0.17
I2: 0.16
I3: 0
b I4: 0

I1: 0.54
I2: 1
I3: 0.47
I4: 0.57

I1: 0.23
I2: 0.19
I3: 0
c I4: 0

I1: 0.54
I2: 1
I3: 0.58
I4: 0.54

I1: 0.18
I2: 0.16
I3: 0
d I4: 0

Figura C.5: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
285

a
I1: 0.31
I2: 0.47
I3: 0.37
I4: 0.43 I1: 0.24
I2: 0.54
I3: 0.2
I4: 0.23

I1: 0.45
I2: 0.68
I3: 0.34
I4: 0.34
I1: 0.15
I2: 0.58
I3: 0
I4: 0

b
I1: 0.21
I2: 0.45
I3: 0.45
I4: 0.37 I1: 0.22
I2: 0.49
I3: 0.13
I4: 0.16

I1: 0.4
I2: 0.8
I3: 0
I4: 0
I1: 0.08
I2: 0.53
I3: 0
I4: 0

c
I1: 0.2
I2: 0.35
I3: 0.47
I4: 0.3 I1: 0.28
I2: 0.59
I3: 0
I4: 0.13

I1: 0.33
I2: 0.85
I3: 0.12
I4: 0.38

I1: 0
I2: 0.45
I3: 0
I4: 0

Figura C.6: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
286 Apéndice C: Muestra de imágenes . . . evaluación empı́rica

I1: 0.035
I2: 0.24

I3: 0
I4: 0 I1: 0.13
I2: 0.51

I3: 0
I4: 0

b
I1: 0.18
I2: 0.22
I3: 0
I4: 0

I1: 0
I2: 0.21

I3: 0
I4: 0 I1: 0.15
I2: 0.61

I3: 0.17
I4: 0

c
I1: 0.21

I2: 0.16

I3: 0

I4: 0

I1: 0.011
I2: 0.14

I3: 0
I4: 0 I1: 0.11
I2: 0.5

I3: 0
I4: 0

Figura C.7: a) Fotografı́a en B/N de árbol artificial con cuatro frutos. b),c) y d) Imágenes
con resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha:
mapa de distancia, reflectancia y detecciones encontradas); se indica posición y radio
estimados mediante anillos superpuestos en mapa de distancia con indicios parciales corona
(I1), contorno (I2), convexo (I3) y reflectividad (I4).
287

I1: 0.34

I1: 0.18 I2: 0.33

I2: 0.33 I3: 0.43

I3: 0.089 I4: 0.57
I4: 0.15

I1: 0.25

I1: 0.074 I2: 0.46

I2: 0.48
I3: 0.24
I3: 0
I4: 0.7
I4: 0

I1: 0.35

I1: 0.17 I2: 0.28

I2: 0.48
I3: 0.35
I3: 0
I4: 0.76
I4: 0

Figura C.8: a) Fotografı́a en B/N de árbol artificial con tres frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
288 Apéndice C: Muestra de imágenes . . . evaluación empı́rica

I1: 0.38

I2: 0.75

I3: 0.38

I4: 0.36

I1: 0

I2: 0

I3: 0

I4: 0.28

I1: 0.33

I2: 0.8

I3: 0.4

I4: 0.35

I1: 0.3

I2: 0.68

I3: 0.19

I4: 0.18

Figura C.9: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
289

I1: 0.18

I2: 0.37

I3: 0

I4: 0.16

I1: 0

I2: 0

I3: 0

I4: 0.16

I1: 0.13

I2: 0.35

I3: 0

I4: 0

I1: 0.048

I2: 0.28

I3: 0

I4: 0

I1: 0
I2: 0
I3: 0
I4: 0.21

Figura C.10: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
290 Apéndice C: Muestra de imágenes . . . evaluación empı́rica

a
I1: 0.66

I2: 1

I3: 0.51

I4: 0.39

I1: 0.3

I2: 0.35

I3: 0.18

I4: 0.38

b
I1: 0.67

I2: 1

I3: 0.61

I4: 0.41

I1: 0.19

I2: 0.5

I3: 0.15

I4: 0.22

c
I1: 0.6

I2: 1

I3: 0.68

I4: 0.29

I1: 0.36

I2: 0.27

I3: 0

I4: 0.13

Figura C.11: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
291

I1: 0.45

I2: 0.45

I3: 0.48
I1: 0.24
I4: 0.65
I2: 0.5

I3: 0.27

I4: 0.35

I1: 0.57

I2: 0.45

I3: 0.57
I1: 0.2
I4: 0.62
I2: 0.46

I3: 0.31

I4: 0.38

I1: 0.47

I2: 0.49

I3: 0.53
I1:I4:
0.17
0.56
I2: 0.39

I3: 0.27

I4: 0.32

Figura C.12: a) Fotografı́a en B/N de árbol artificial con dos frutos. b),c) y d) Imágenes con
resolución espacial de 2, 3 y 4 mm/puntos respectivamente (de izquierda a derecha: mapa
de distancia, reflectancia y detecciones encontradas); se indica posición y radio estimados
mediante anillos superpuestos en mapa de distancia con indicios parciales corona (I1),
contorno (I2), convexo (I3) y reflectividad (I4).
292 Apéndice C: Muestra de imágenes . . . evaluación empı́rica
Bibliografı́a

[1] L. Agapito. Estrategias de correspondencia jerárqica y métodos directos de

autocalibración para un sistema estereoscópico binocular. Tesis doctoral. Univ.
Complutense de Madrid., 1996.

[2] E. Al-Hujazi and A. Sood. Range image segmentation with applications to robot
bin-picking using vacuum gripper. IEEE Trans on Pattern Analysis and Machine
Intelligence, 20(6):1313–1324, 1990.

[3] I. Amir. Algorithm for finding the center of circular fiducials. Computer Vision,
Graphics and Image Processing, 49:398–406, 1990.

[4] M.C. Ayuso, F.J. Bravo, M. Ruiz-Altisent, and P. Barreiro. Sensing colour stability
and mixtures of powder paprika using optical reflectance and image analysis.
AgENG96-Paper 96F-049, 1996.

[5] R. Bajcsy. Active perception versus passive perception. Proceedings Third IEEE
Workshop on Vision, pages 55–59, 1985.

[6] D.H. Ballard. Generalizing the hough transform to detect arbitrary shapes. Pattern
Recognition, 13(2):111–122, 1991.

[7] R. Baribeau, M. Rioux, and G. Godin. Color reflectance modeling using a

polychromatic laser range sensor. IEEE Trans. Pattern Analysis and Machine
Intelligence, 14(2):263–269, 1992.

[8] J.M. Beaulieu and [Link]. Segmentation of range images by piecewise

approximaion with shape constraints. Proc. of Vision Interface 88, pages 19–24,
1988.

[9] P. Beckmann and A. Spizzichino. The scattering of electromagnetic waves from

rough surfaces. MacMillan, New York, pages 1–33,70–98, 1963.

[10] M. Benady and G.E. Miles. Locating melons for robotic harvesting using structured
light. Paper ASAE No.:92-7021, 1992.

[11] J.V. Benlloch, T. Heisel, S. Christensen, and A. Rodas. Image processing techniques
for determination of weeds in cereal. Bio-Robotics-97. International Workshop on
robotics and automated machinery for bio-productions, pages 195–200, 1997.

293
294 Bibliografı́a

[12] J. Berkmann and [Link]. Computation of surface geometry and segmentation using
covariance techniques. IEEE Trans. Pattern Analysis and Machine Intelligence,
16(11):1114–1116, 1994.

[13] P.J. Besl. Active optical range imagining sensors. Machine Vision and Applications,
1, See also: Advances in Machine Vision: Architectures and Applications, ([Link],
Ed.),Springer-Verlag, New York, pages 127–153, 1988.

[14] P.J. Besl. Surfaces in range image understanding. Springer New York (N.V.), 1988.

[15] P.J. Besl. and R.C. Jain. Segmentation through variable-order surface fitting. IEEE
Transactions Pattern Analysis Machine Intelligence, 10(2), 1988.

[16] J. Billingley and M. Schoenfisch. Automatic guiadance of agricultural vehicles. Proc.

National Conf. Australian Robot Assoc., Sydney, pages 25–32, 1995.

[17] G. Blandini. First approaches to robot utilisation for automatic citrus harvesting.
Land and Water Use, Dodd Grace (eds.). Balkema, Rotterdam, 1989.

[18] G. Blandini, E. Cerruto, and G. Manetto. Evaluation of the bruising of citrus

fruits during post-harvest processing throught the use of computerized equiment.
AgENG96-Paper 96F-045, 1996.

[19] A. Bourely. Rosal, a grafting robot for woody plants. pages 145–152, 1995.

[20] J.R. Brandon, S.W. Searcy, and R.J. Babowicz. Distributed control for vision based
tractor guidance. International Summer Meeting of the ASAE, 89-7517, 1989.

[21] P.N. Brett and R.S. Stone. A tactile sensing technique for automatic gripping of
compact shaped non-rigid materials. IEE Colloquium on Intelligent automation for
processing non-rigid products, pages 1–5, 1994.

[22] J.R. Brodie, A.C. Hansen, and J.F. Reid. Size assesment of stacked logs via the
hough transform. Transactions of the ASAE, 37(1):303–310, 1994.

[23] F. Buemi, G.M. Calvini, M. Massa, and G. Sandini. Quality control of agro-food
products using colour and shape parameters. pages 23–35, 1995.

[24] F. Buemi, M. Massa, and G. Sandini. Agrobot: a robotic system for greenhouse
operations. 4th Workshop on robotics in Agriculture, IARP, Tolouse, pages 172–
184, 1995.

[25] L. Calderón. Sensor ultrasónico adaptativo de medida de distancias. aplicación en

el campo de la robótica. Tesis doctoral. Universidad complutense de Madrid., 1984.

[26] Canny. A computational approach to edge detection. IEEE Trans on Pattern

Analysis and Machine Intelligence, 8:679–698, 1986.

[27] M. Cardenas, A. Hetzroni, and G.E. Miles. Machine vision to locate melons and
guide robotic harvesting. Paper ASAE No. 91-7006, 1991.
295

[28] M.A. Castillo and A. Martı́nez. Foliage shaker to harvest valencia oranges in cuba.
AgENG96-Paper 96A-077, 1996.

[29] R. Ceres. La automatización en el sector agroalimentario. Tercer congreso de la

asociación española de robótica AER, pages 453–461, 1993.

[30] R. Ceres, J.L. Pons, A.R. Jiménez, J.M. Martı́n, and L. Calderón. Agribot: A robot
for aided fruit harvesting. AgENG96-Paper 96A-107, 1996.

[31] F. Chaumette, S. Boukir, P. Bouthemy, and D. Juvin. Structure from controlled

motion. IEEE Transactions on Pattern analysis and machine intelligence, 18
(5):492–504, 1996.

[32] K. Choi, G. Lee, Y.J. Han, and J.M. Bunn. Tomato maturity evaluation using color
image analysis. Transactions of the ASAE, 38(1):171–176, 1995.

[33] H.I. Christensen and S.W. Frstner. Performance characteristics of vision algorithms.
Machine vision and applications, 9:215–218, 1997.

[34] P.M. Clarkson and G.A. Williamson. Order statistics and adaptive filtering. Signal
processing methods for audio, images and telecomunication, pages 109–141, 1995.

[35] R.R. Coifman and D. Donoho. Translation-invariant de-noising. Wavelets and

Statistics, pages 125–150, 1995.

[36] R.L. Cook and K.E. Torrance. A reflectance model for computer graphics. ACM
Transactions on Graphics, 1(1):7–24, 1982.

[37] G.E. Coppock, D.B. Churchill, and S.L. Hedden. Shaker stroke affects selective
removal of valencia oranges. Transactions of the ASAE, 28:1094–1096, 1985.

[38] P. Courtney, N. Thacker, and A. Clark. Algorithmic modeling for performance

evaluation. Workshop on Performance Characteristics of Vision Algorithms. Robin
College, Cambridge, April 19, 1996.

[39] K.C. Cox, G.C. Roman, W.E. Ball, and A.F. Laine. Rapid search for spherical
objects in aereal photographs. IEEE Computer society on Computer Vision and
Pattern Recognition, pages 905–909, 1988.

[40] R.L. Cromwell. Sensors and processors enable robots to see and understand. Laser
focus world, pages 67–78, 1993.

[41] T.G. Crowe and M.J. Delwiche. Real-time defect detection in fruit- part i: Design
concepts and development of prototype hardware. Transactions of the ASAE,
39(6):2299–2308, 1996.

[42] T.G. Crowe and M.J. Delwiche. A system for fruit defect detection in real-time.
AgENG96-Paper 96G-023, 1996.
296 Bibliografı́a

[43] P. Dario, M. Bergamasco, and A. Fiorillo. Force and tactile sensing for robots.
NATO ASI Series, Vol F43. Sensors and Sensory Systems for Advanced Robots,
pages 153–185, 1988.

[44] P. Dario, A. Bicchi, A. Fiorillo, G. Buttazzo, and R. Francesconi. A sensorised

scenario for basic investigation on active touch. Robot sensors: Tactile and non-
vision, 2:237–245, 1986.

[45] A.G. D’Esnon, G. Rabatel, and R. Pellenc. Magali: A self-propeled robot to pick
apples. ASAE paper 87-1037, ASAE, St Joseph, MI 49085-9659, 1987.

[46] Y. Dobrousin and Y. Edan. Real-time image processing for robotic melon harvesting.
Paper ASAE No.:92-3515, 1992.

[47] R.O. Duda and P.E. Hart. Use of the hough transformation to detect lines and
curves in pictures. Comunications of the ACM, 15(1):11–15, 1972.

[48] R.O. Duda, D.Ñitzan, and [Link]. Use of range and reflectance data to find planar
surface regions. IEEE Pattern analysis and Machine intelligence, 1(3):259–271, 1979.

[49] C.S. Dyson, N. Yauilla, and E.S. Kolesar. Object imaging with a piezoelectric robotic
tactile sensor. Proc. of NAECON, 1:41–47, 1993.

[50] H.R. Everett. Sensors for mobile robots. Theory and applications. A.K. Peters, Ltd.
Wellesley, Massachusetts, 1995.

[51] O. Fagueras. Three-Dimensional computer Vision: A geometric viewpoint. The MIT

Press, 1993.

[52] S. Felici, J. Pelegri, G. Sánchez, and J. Pelechano. Virtual centralized control system
for intelligent irrigation in distributed agrarian exploitations. Bio-Robotics-97.
International Workshop on robotics and automated machinery for bio-productions,
pages 213–216, 1997.

[53] W. Forstner. 10 pros and cons against performance characterization of vision

algorithms. Workshop on Performance Characteristics of Vision Algorithms. Robin
College, Cambridge, April 19, 1996.

[54] H. Frigui and R. Krishnapuram. Clustering by competitive agglomeration. Pattern

Recognition, 30(7):1109–1119, 1997.

[55] T. Fujiura, J. Yamashita, and N. Kondo. Agricultural robots: Vision sensing system.
Paper N0. 92 3517, pages 1–7, 1992.

[56] J.J. Gaffney. Reflectance properties of citrus fruit. Transactions of the ASAE,
16(2):310–314, 1969.

[57] M. Galindo, J.A. López, L.A. Contreras, and L.M. Tomás. Defects modeling through
artificial vision techniques, applied to satsuma and tangerine slices quality control.
Bio-Robotics-97. International Workshop on robotics and automated machinery for
bio-productions, pages 89–94, 1997.
297

[58] M.C. Garcı́a-Alegre, J. Enciso, A. Ribeiro, and D. Guinea. To an automatic visual

inspection of egg-shell defects. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 51–56, 1997.

[59] M.C. Garcı́a-Alegre and D. Guinea. Building an architecture for a farming robot.
Bio-Robotics-97. International Workshop on robotics and automated machinery for
bio-productions, pages 255–260, 1997.

[60] G. Gering. Linking image-space and acumulator-space: A new approach for object
recognition. 1st IEEE Int. Conf. On Computer Vision, London, pages 112–117,
1987.

[61] A. Ghazanfari and J. Irudayaraj. Classification of pistachio nuts using a string

matching technique. Transactions of the ASAE, 39(3):1197–1202, 1996.

[62] A. Ghazanfari, J. Irudayaraj, A. Kusalik, and M. Romaniuk. Machine vision grading

of pistachio nuts using fourier descriptors. Jounal of Agricultural Engng Res., 68:247–
252, 1997.

[63] S. Ghosal and R. Mehrotra. Range image segmentation using zernike moment-
based generlized edge detector. IEEE international conference on Robotics and
Automation. Nice, France, pages 1584–1589, 1992.

[64] B. Gil, A. Mitiche, and J.K. Aggarwal. Experiments in combining intensity and
range edge maps. Computer Vision Graphics and Image Processing, 21(3), 1983.

[65] J. Gómez, F.J. Dı́az, and J. López. An approach for determining bidirectional
reflectance parameters from range and brightness data. Proc. of the IEEE Int.
Conf. On Image Processing. Lausanne (Switzerland), 1:41–44, 1996.

[66] J. Gómez, F.J. Dı́az, and J. López. Obtención conjunta de las informaciones
tridimensional y cromática. primera aproximación a la caracterización óptica de
superficies. Informática y Automática, 30(3):19–33, 1997.

[67] F.E. Goodwin. Coherent laser radar 3-d vision sensor. SME. Society of
Manufacturing Engineers. MS85-1005, page 15, 1985.

[68] A.R. Grahn and L. Astle. Robotic ultrasonic force sensor arrays. Robot sensors:
Tactile and non-vision, 2:297–315, 1986.

[69] D. Greenhill and E.R. Davies. Relative effectiveness of neural networks for image
noise suppression. Pattern recognition in Practice, 4:367–378, 1994.

[70] W.E.L. Grimson. Discontinuity detection for visual surface reconstruction.

Computer vision, Graphics and Image Processing, 30:316–330, 1985.

[71] T. Hague and N.D. Tillet. Navigation and control of an autonomous horticultural
robot. Mechatronics, 6(2):165–180, 1996.
298 Bibliografı́a

[72] R.M. Haralick. Computer vision theory: the lack thereof. Computer Vision:
Representation and Control, pages 113–121, 1985.

[73] R.M. Haralick and L.G. Shapiro. Computer and robot vision, volume 1. Addison
Wesley, 1992.

[74] R.M. Haralick and L. Watson. A facet model for image data. Computer Graphics
Image Proccesing, 15:113–129, 1981.

[75] R.C. Harrell. Economic analysis of robotic citrus harvesting in florida. Transactions
of the ASAE, pages 298–304, 1987.

[76] R.C. Harrell, D.C. Slaughter, and P.D. Adsit. A fruit-tracking system for robotic
harvesting. Machine Vision and Aplications, 2:69–80, 1989.

[77] R. Harries. Sensing down on the farm. Sensor review, Abril, pages 102–104, 1983.

[78] K. Hatou, T. Morimoto, J. De Jager, and Y. Hashimoto. Measurement and

recognition of 3-d body in intelligent plant factory. AgENG96-Paper 96F-027, 1996.

[79] K. Hatou, T. Sugiyama, and Y. Hashimoto. Three-dimensional measurement of

small crops for bio-technological applications. Proc. Int. Conf. on Virtual Systems
and Multimedia, pages 284–289, 1995.

[80] F.V. Hatzivasiliou and S.G. Tzafestas. Analysis and design of anew piezoresistive
tactile sensor system for robotic applications. Jounal of Intelligent and Robotic
Systems, 10:243–256, 1994.

[81] F. Heijden. Edge and line feature extraction based on covariance models. IEEE
Trans. Pattern Analysis and Machine Intelligence, 17(1):16–33, 1995.

[82] R. Hoffman and A.K. Jain. Segmentation and classification of range images. IEEE
Transactions on pattern analysis and machine intelligence, 9(5):608–620, 1987.

[83] A. Hoover. An experimental comparison of range image segmentation algorithms.

IEEE Trans on Pattern Analysis and Machine Intelligence, 18(7):673–689, 1996.

[84] B.K.P. Horn. Understanding image intensities. IEEE Computer Society Press.
Computer Vision: Principles, pages 10–35, 1991.

[85] R.D. Howe. Tactile sensing and control of robotic manipulation. Advanced Robotics,
8(3):245–261, 1994.

[86] J.N. Huddleston and J. Ben-aire. Grouping edgels into structural entities
using circular symmetry, the distributed hough transform, and probabilistic non-
accidentalness. CVGIP: Image Understanding, 57-2:227–242, 1993.

[87] H. Hwang, S.C. Kim, J.H. Chang, and K.D. Ko. Development of automatic grafting
system for fruit vegetables. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 13–19, 1997.
299

[88] H. Hwang, S.C. Kim, C.H. Lee, and C.K. An. Real-time on-line implementation
of automatic grading and sorting of dried oak mushrooms- 2nd prototype. Bio-
Robotics-97. International Workshop on robotics and automated machinery for bio-
productions, pages 223–228, 1997.

[89] IEC-1984. Radiation safety of laser products, equipment classification, requirements

and user’s guide. International electrotechnical commision. IEC Standard, 825:1–137,
1984.

[90] J. Illingworth and [Link]. A survey of the hough transform. Computer Vision,
Graphics and Image Processing, 44:87–116, 1988.

[91] J. Illingworth and J. Kittler. The adaptive hough transform. IEEE Trans on Pattern
Analysis and Machine Intelligence, 9(5):690–697, 1987.

[92] J. Illingworth, J. Kittler, and J. Princen. Shape detection using the adaptive hough
transform. NATO ASI Series, Sensors devices and Systems for Robotics, 42:119–142,
1988.

[93] K. Inoue, K. Otsuka, M. Sugimoto, and N. Murakami. Estimation of place of

tractor and adaptive control method of autonomus tractor using ins and gps. Bio-
Robotics-97. International Workshop on robotics and automated machinery for bio-
productions, pages 27–32, 1997.

[94] D.W. Jacobs. Robust and efficient detection of salient convex groups. IEEE Trans.
Pattern Analysis and Machine Intelligence, 18(1):23–37, 1996.

[95] J. Jager, K. Hatou, T. morimoto, and Y. Hashimoto. Recognition of damaged

apples based on 3-dimensional range image. Proc. of 6th Int. Congress for Computer
Technology in Agriculture, pages 562–566, 1996.

[96] A.K. Jain and P. Flynn. Three-dimensional Object Recognition Systems. Elsevier,
1993.

[97] A.K. Jain and P.J. Flynn. Image segmentation using clustering. IEEE Image
understanding, pages 65–83, 1996.

[98] A.K. Jain, T.Ñewman, and M. Goulish. Range-intensity histogram for segmenting
ladar images. Pattern Recognition Letters, 13:41–56, 1992.

[99] R.C. Jain and T.O. Bindford. Ignorance, myopia, and naivete in computer vision
systems. CVGIP: Image Understanding, 53:112–117, 1991.

[100] R.C. Jain and A.K. Jain. Analysis and interpretation of range images. Springer New
York (N.V.), 1990.

[101] R.A. Jarvis. A laser time-of-flight range scanner for robotic vision. IEEE Trans.
Pattern Analysis and Machine Intelligence, 5(5):505–512, 1983.
300 Bibliografı́a

[102] R.A. Jarvis. A perspective on range finding techniques for computer vision. Trans.
IEEE Pattern Analysis and Machine inteligence, 5(2):122–139, 1983.

[103] B.V. Jayawant, M.A. Onori, and J.D. Watson. Robot tactile sensing: a new array
sensor. Robot sensors: Tactile and non-vision, 2:199–205, 1986.

[104] X. Jiang and H. Bunke. Robust edge detection in range images based on scan line
approximation. Proc. 4th Asian Conference on Computer Vision, 1997.

[105] X.Y. Jiang, U. Meier, and H. Bunke. Fast range image segmentation using high-level
segmentation primitives. Proc. 3rd IEEE Workshop on Applications of Computer
Vision. WACV. Sarasota, Florida, pages 83–88, 1996.

[106] F.J. Jimeno and J.J. López. An artificial vision system for quality control and
sorting in citric industry. Bio-Robotics-97. International Workshop on robotics and
automated machinery for bio-productions, pages 95–100, 1997.

[107] A.R. Jiménez, R. Ceres, and J.L. Pons. Featureless classification of tactile contacts
in a gripper using neural networks. Sensors and Actuators, A, 62:488–491, 1997.

[108] A.R. Jiménez, R. Ceres, and J.L. Pons. Shape-based methods for fruit recognition
and localization using a laser range-finder. Bio-Robotics-97. International Workshop
on robotics and automated machinery for bio-productions, 1997.

[109] A.R. Jiménez, R. Ceres, and J.L. Pons. A new adaptive filter and a quality evaluation
index for image restoration. Informe interno 001-SAM. IAI-CSIC (submitted to
Computer Vision and Image Understanding), 1:1–30, 1998.

[110] G. Johnson. Development of a practical scanninig laser radar sensor for robotic
bin-picking, autonomous guiadance, and other difficult image analysis tasks. 22nd
International Symposium on Industrial Robots. Detroit, Michigan, USA, pages
21/55–21/71, 1991.

[111] F. Juste. Memoria de actividades 1993/1994. Instituto Valenciano Investigaciones

Agrarias. IVIA, 1994.

[112] F. Juste, I. Fornes, F. Plá, E. Molto, and F. Blay. Primeros resultados en campo de
un prototipo de brazo robotizado para la recolección de cı́tricos. CIMA91, 23 Conf.
Int. Maquinaria Agrı́cola, Zaragoza, pages 433–440, 1991.

[113] F. Juste, [Link], and F. Plá. An approach to robotic harvesting of citrus in spain.
VII Int. Citrus Congress, Acineale, Italia, 1992.

[114] F. Juste and F. Sevila. Citrus: A european project to study the robotic harvesting of
oranges. Proccedings of the 3rd International Symposium on Fruit, Nut and Vegetable
Harvesting Mechanization. Denmark-Sweden-Norway, 1991.

[115] A.C. Kak and J.L. Edwards. Experimental state of the art in 3d object recognition
and localization using range data. Proc. Workshop on Vision for Robots in IROS’95
Conference, Pittsburgh, 1995.
301

[116] H. Kalviainen and P. Hirvonen. An extension to the randomized hough transform

exploiting connectivity. Pattern Recognition Letters, 18:77–85, 1997.

[117] L. Kassay. Hungarian robotic apple harvester. Paper ASAE No. 92-7042 St. Joseph,
MI 49085, pages 1–14, 1992.

[118] S. Kaveti, K. Teoh, and H. Wang. Second-order implicit polynomials for

segmentation of range images. Pattern Recognition, 29(6):937–949, 1996.

[119] N. Kawamura, N. Kiyoshi, [Link], and U. Motonobu. Study of fruit harvesting

robot and its application on others works. Proceedings Int. Symp. on Agricultural
Mech. and Int. Coop. in High Tech. Era, Japanese Society of Agricultural Machinery,
1987.

[120] C. Kimme, D.H. Ballard, and J. Sklansky. Finding circles by an array of accumulator.
Comunications of the ACM, 18(2):120–122, 1975.

[121] N. Kondo, M. Monta, and K.C. Ting. Harvesting robot for inverted single truss
tomato production systems. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 149–154, 1997.

[122] E. Krotkov and R. Hoffman. Terrain mapping for a walking planetary rover. IEEE
Transactions on Robotics and Automation, 10(6):728–740, 1994.

[123] P.J. Kyberd and P.H. Chappell. A force sensor for automatic manipulation based
the hall effect. Meas. Sci. Technol., 4:281–287, 1993.

[124] W.C.Y. Lam and S.Y. Yuen. Efficient technique for circle detection using hypothesis
filtering and hough transform. IEE Proc. Vis. Image Signal Process., 143-5:292–300,
1996.

[125] C. Lee, R. Haralick, and K. Deguchi. Estimation of curvature from sampled noisy
data. CVPR’93. New York City, June 15-17, pages 536–541, 1993.

[126] J.S. Lee. Digital image enhacement and noise filtering by use local statistics. IEEE
Trans. on Pattern Recognition and Machine Intelligence, 2:165–168, 1980.

[127] J.S. Lee. Refined filtering of image noise using local statistics. Computer graphics
and image processing, 15:380–389, 1981.

[128] J.S. Lee. Digital image smoothing and the sigma filter. Computer Vision, Graphics
and Image proceesing, 24:255–269, 1983.

[129] M. Lefebvre, T. Zimmerman, and C. Baur. Potato operation: automatic detection

of potato diseases. Proceedings of SPIE 2345, pages 2–9, 1994.

[130] P. Levi, R. Falla, and R. Pappalardo. Image controled robotics applied to citrus
fruit harvesting. Procedures ROVISEC-VII, Zurich, 1988.
302 Bibliografı́a

[131] Y. Li and W.C.K. Wong. An efficient and robust method to detect object centre.
Pattern Recognition, 30-5:659–671, 1997.

[132] F.R. Livingstone, L. King, J-A. Beraldin, and M. Rioux. Development of a real-time
laser scanning for object recognition, inspection, and robot control. SPIE Vol. 2057,
pages 254–461, 1993.

[133] L.C. Lynnworth. Ultrasonic measurements for process control. Theory, techniques
and Applications. Academic Press, Inc. Harcourt Brace Jovanovich, 1989.

[134] A. Mandow, J. Gomez, A. Ollero, and J.l. Martinez. Geenhouse operation with the
aurora mobile robot. pages 185–191, 1995.

[135] C. Maraval. Reconocimiento de formas y visión artificial. Ra-ma, 1993.

[136] J.A. Marchant, T. Hague, N. Tillet, and J.M. Sanchiz. Research on an autonomous
vehicle for precise plant treatments. Bio-Robotics-97. International Workshop on
robotics and automated machinery for bio-productions, pages 237–242, 1997.

[137] J.A. Marchant, C.M. Onyango, and M.J. Street. Computer vision for potato
inspection without singulation. Computers and electronics in Agriculture, 4:235–
244, 1990.

[138] B. Marx. Laser and electro-optic based sensors. Sensor review, 16(3):12–15, 1996.

[139] J. Matas, Z. Shao, and J. Kittler. Estimation of curvature and tangent direction by
median filtered differencing. 8th int. Conf. On Image Analysis and Processing, San
Remo 13-15 Sept., 1995.

[140] P. Meer, R. Park, and K. Cho. Multiresolution adaptive image smoothing. CVGIP:
Graphical Models and Image processing, 56(2):140–148, 1994.

[141] D. Mintz. Robust consensus based edge detection. CVGIP: Image Understanding,
9(2):137–153, 1994.

[142] A. Misiti. Neural Network Toolbox User Guide. The Math Works, 1996.

[143] A. Mitiche and Aggarwal J.K. Detection of edges using range information. Trans.
IEEE Pattern Analysis and Machine Intelligence, 5(2):174–178, 1983.

[144] E. Moltó, N. Aleixos, L.A. Ruiz, J. Vazquez, and F. Juste. An artificial vision system
for fruit quality assessment. AgENG96-Paper 96F-078, 1996.

[145] E. Moltó, S. Castillo, and J. Juste. Estudios sobre sistemas para la recolección
automática de cı́tricos. Fruticultura Profesional, 24:35–41, 1987.

[146] S. Monchaud. Contribution to range finding techniques for third generation

robots. intelligent autonomous systems. An International conference, Amsterdam,
Netherlands, 8-11 December, pages 459–469, 1986.
303

[147] J. Monfort, F. Plá, J. Calpe, and D. Gallego. Reliable low-cost vision system for
fruit grading. pages 39–45, 1995.

[148] N. Murakami, K. Otsuka, K. Inoue, and Sugimoto. Robotic cabbage harvester.

Bio-Robotics-97. International Workshop on robotics and automated machinery for
bio-productions, pages 131–136, 1997.

[149] H.R. Myler and A.R. Weeks. The pocket handbook of image processing algorithms
in C. Prentice Hall, 1993.

[150] S.G. Nadabar and A.K. Jain. Edge detection and labeling by fusion of intensity and
range images. SPIE Proc. On Applications of artificial Intelligence Machine Vision
and Robotics. Orlando, 1992.

[151] Y.Ñagasaka, R. Otani, K. Shigeta, and K. Taniwaki. Automated operation in paddy

fields with fiber optic gyro sensor and gps. Bio-Robotics-97. International Workshop
on robotics and automated machinery for bio-productions, pages 21–26, 1997.

[152] T.Ñagata and H.B. Zha. Determining orientation, location and size of primitive
surfaces by a modified hough transform technique. Pattern Recognition, 21:481–491,
1988.

[153] L.Ñajman and M. Schmitt. Geodesic saliency of watershed contours and hierarchical
segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence,
18(12):1163–1173, 1996.

[154] S.K. Nayar, M. Watanabe, and M.Ñoguchi. Real-time focus range sensor. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 18(12):1186–1197, 1996.

[155] D.Ñitzan, A.E. Brain, and R.O. Duda. The measurement and use of registered
reflectance and range data in scene analysis. Proc. IEEE, 65:206–220, 1977.

[156] N.Ñoguchi, K. Ishii, and H. Terao. Development of agricultural mobile robot using
geomagnetic direction sensor and image sensors. AgENG96-Paper 96G-040, 1996.

[157] A. Ollero, J.L. Martı́nez, and A. Simón. The autonomous robot for spraying: Aurora.
Fourth Workshop on Robotics in Agriculture and the Food Industry, IARP, Toulouse,
pages 193–198, 1995.

[158] C.F. Olson. Decomposition of the hough transform: Curve detection with
efficient error propagation. Computer Vision ECCV’96. Proceedings 4th European
Conference on Computer Vision. Cambridge, U.K., 1:263–272, 1996.

[159] D.C. Pao, H.F. Li, and R. Jayakumar. Shapes recognition using the straight line
hough transform: Theory and generalization. IEEE Trans. Pattern Analysis and
Machine Intelligence. Vol. 14.n11, pages 1076–1089, 1992.

[160] E. Parrish and A.K. Goksel. Pictorial pattern recognition applied to fruit harvesting.
Transactions of the ASAE, 20:822–827, 1977.
304 Bibliografı́a

[161] K. Peleg. Sorting fruits and vegetables by firmness and maturity. Bio-Robotics-97.
International Workshop on robotics and automated machinery for bio-productions,
pages 57–64, 1997.

[162] P. Perona and J. Malik. Scale space and edge detection using anisotropic diffusion.
IEEE Trans. Int. Conf. PAMI, 12:629–639, 1990.

[163] D.L. Peterson and G.K. Brown. Mechanical harvester for fresh market quality
blueberries. Transactions of the ASAE, 39(3):823–827, 1996.

[164] F. Plá. Recognition of partial circular shapes from segmented contours. CVGIP:
Computer Vision and Image Understanding, 63(2):334–343, 1996.

[165] F. Plá, F. Juste, and F. Ferri. Feature extraction of spherical objects in image
analisys: an application to robotic citrus harvesting. Computers and Electronics in
Agriculture, 8:57–72, 1993.

[166] J.L. Pons. Sistema asistido de localización tridimensional de blancos mediante

telemetrı́a láser. Máster en tecnologı́as de la Inf. en Fabricación. Universidad
Politécnica de Madrid, Enero, 1995.

[167] J.L. Pons. Metodologı́as y estrategias de compensación activa para la mejora del
comportamiento cinemático y dinámico de robots especı́ficos. Aplicación al recolector
Agribot. Tesis doctoral. Departamento de Fı́sica Aplicada III. F.C.C. Fı́sicas.
Universidad Complutense de Madrid, 1996.

[168] J.L. Pons, R. Ceres, and A.R. Jiménez. Mechanical design of a fruit picking
manipulator: Improvement of dinamic behavior. IEEE international conference on
Robotics and Automation, pages 969–974, 1996.

[169] W. K. Pratt. Digital Image processing. Wiley, 1991.

[170] G. Rabatel. A vision sistem for magali, the fruit picking robot. Paper 88293,
AGENG88, Int. Conf. Agricultural Engineering, Paris, 1988.

[171] P. Radeva, J. Serrat, and E. Martı́. A snake for model-based segmentation.

Proceedings 5th Int. Conf. On Computer Vision (ICCV’95), MIT, USA, 1995.

[172] K.R. Rao and J. Ben-Aire. Non-orthogonal expansion for template matching and
edge detection. Signal Processing Method for audio, images and telecommunications.
A.P. Edt. Clarkson & H. Stark, pages 299–331, 1995.

[173] J. Rebman and K.A. Morris. A tactile sensor with electrooptical transduction. Robot
sensors: Tactile and non-vision, 2:145–155, 1986.

[174] B.E. Roberston and A.J. Walkden. Tactile sensor system for robotics. Robot Sensors:
Tactile and non-vision, 2:89–97, 1986.
305

[175] J.M. Roger, E. Moltó, G. Rabatel, and J. Blasco. Design of a robotized, non-chemical
weed controller. Bio-Robotics-97. International Workshop on robotics and automated
machinery for bio-productions, pages 229–236, 1997.

[176] L.A. Ruiz, E. Moltó, F. Juste, [Link]́, and R. Valiente. Location and characterization
of the stem-calyx area on oranges by computer vision. Journal Agricultural
Engineering Research, 64:165–172, 1996.

[177] R.A. Russell. Robot tactile sensing. Depart. of Elec. Eng., Monash Univ., Australia.
Prentice Hall, 1990.

[178] P. Saint-Marc, J. Chen, and G. Medioni. Adaptative smoothing: A general tool

for early vision. IEEE Transactions on pattern Analysis and Machine Intelligence,
13(6):514–529, 1991.

[179] P. Saint-Marc, J.L. Jezonin, and Medioni. A versatile pc-based range finding system.
IEEE Transactions on Robotics and Automation, 7(2), 1991.

[180] C.A. Salinas. Control digital de tres ejes y módulos de potencia de motores de
corriente continua. Máster en tecnologı́as de la información. Universidad Politécnica
de Madrid, 1994.

[181] M. Salotti, F.B. Garbay, and C. Garbay. Evaluation of edge detectors: Critics and
proposal. Workshop on Performance Characteristics of Vision Algorithms. Robin
College, Cambridge, April 19, 1996.

[182] Y. Sarig. Robotics of fruit harvesting: A state-of-the-art review. Journal Agricultural

Engineering Research, 54:265–280, 1993.

[183] Y. Sato and M. Otsuki. Three-dimensional shape reconstruction by active

rangefinder. Proceedings of IEEE Conference on Computer Vision and Pattern
Recognition, New York, NY, USA, 15-17 June, pages 142–147, 1993.

[184] C.E. Schertz and G.K. Brown. Basic considerations in mechanizing citrus harvest.
Transactions of the ASAE, pages 343–346, 1968.

[185] P. Seitz. The robust recognition of object primitives using local axes of symmetry.
Signal Processing, pages 89–108, 1989.

[186] Y. Shirai. Application of laser range finder to robot vision. NATO ASI Series, Vol
F52. Sensors devices and Systems for Robotics, pages 313–322, 1989.

[187] A. Sites and M.J. Delwiche. Computer vision to locate fruit on a tree. ASAE paper
85-3039, ASAE, St Joseph, MI 49085, 1988.

[188] D. Slaughter and R.C. Harrel. Color vision in robotic fruit harvesting. Transactions
of the ASAE, 30(4):1144–1148, 1987.

[189] D. Slaughter and R.C. Harrel. Discriminating fruit for robotic harvest using color
in natural outdoor scenes. Transactions of the ASAE, 32(2):757–763, 1989.
306 Bibliografı́a

[190] C. Steger. Extracting curvilinear structures: a differential geometric approach. Proc.

4th European Conference on Computer Vision. ECCV’96, 1, 1996.

[191] V. Stepanov. Mobile and manipulation robots for agriculture. pages 137–143, 1995.

[192] T. W. Sze and Y. H. Yang. A simple contour matching algorithm. IEEE Trans.
Pattern Analysis and Machine Intelligence, 3(6):676–678, 1981.

[193] H.D. Tagare and R.J.P. DeFigueiredo. A framework for the construction of
reflectance maps for machine vision. CVGIP: Computer Vision and Image
Understanding, 57(3):265–282, 1993.

[194] K. Tanie, K. Komoriya, M. Kaneko, S. Tachi, and A. Fujikawa. A high-resolution

tactile sensor. Robot sensors: Tactile and non-vision, 2:189–205, 1986.

[195] Y. Tao, P.H. Heinemann, and Z. Varghese. Machine vision for color inspection of
potatoes and apples. Transactions of the ASAE, 38(5):1555–1561, 1995.

[196] Y. Tao, C.T. Morrow, P.H. Heinemann, and H.J. Sommer. Fourier-based separation
technique for shape grading of potatoes using machine vision. Transactions of the
ASAE, 38(3):949–957, 1995.

[197] K. Tate and Z. Li. Depth map construction from range-guided multiresolution stereo
matching. IEEE Transactions on Systems, Man and Cybernetics., vol.24, no. 1,
pages 134–144, 1994.

[198] C. Thorpe, M.H. Hebert, T. Kanade, and S.A. Shafer. Vision and navigation for
the carnegie-mellon navlab. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 10(3):362–373, 1988.

[199] R.D. Tillett. Image analysis for agricultural processes: A review of potential
opportunities. Journal Agricultural Engineering Research, 50:247–258, 1991.

[200] T. Torii, T. Kanuma, T. Okamoto, and O. Kinati. Image analysis of crop row for
agricultural mobile robot. AgENG96-Paper 96G-038, 1996.

[201] K.E. Torrance and E.M. Sparrow. Theory for off-specular reflection from roughened
surfaces. Journal Optical Society, 57:1105–1114, 1967.

[202] E. Trucco. On shape-preserving boundary conditions for diffusion smoothing. IEEE

International conference on Robotics and Automation. Nice, France, pages 1690–
1694, 1992.

[203] E. Trucco and R.B. Fisher. Experiments in curvature-based segmentation of range

data. IEEE Trans. Pattern Analysis and Machine Intelligence, 17(2):177–181, 1995.

[204] M. Umasuthan and A.M. Wallace. Outlier removal and discontinuity preserving
smoothing of range data. IEE Proceeding Vis. Image Signal Process., 143(3):191–
200, 1996.
307

[205] P. Uthaisombut. Detecting defects in cherries using machine vision. Master of

science. Dept. Computer Science, Michigan State University, 1996.

[206] J. Valente and C. Couto. intelligent soil moisture employing thermal and capacitive
methods for irrigation control. Bio-Robotics-97. International Workshop on robotics
and automated machinery for bio-productions, pages 177–182, 1997.

[207] L.M. van Kollengburg, P. Wennekes, and C. Wekhoven. Developement of a

mechatronic system for automatic harvesting of cucumbers. Bio-Robotics-97.
International Workshop on robotics and automated machinery for bio-productions,
pages 143–148, 1997.

[208] Z. Varghese, C.T. Morrow, and P.H. Heinemann. Automated inspection of golden
delicious apples using color computer vision. ASAE paper 91-7002, ASAE, St Joseph,
MI, 1991.

[209] D. Varona. Diseño de un sistema prensor para el desprendimiento de frutos. Máster

en Tecnologı́as de la Inf. en Fabricación. Universidad Politécnica de Madrid, Enero,
1997.

[210] J. Varona and J.J. Villanueva. Neural networks as spatial filters for image processing:
Neurofilters. CVC Tech. Report no. 007, pages 1–11, 1996.

[211] G. Vosselman and R.M. Haralick. Performance analysis of line and circle fitting
in digital images. Workshop on Performance Characteristics of Vision Algorithms.
Robin College, Cambridge, April 19, 1996.

[212] M.A. Wani and [Link]. Edge-region-based segmentation of range images.

IEEE Trans. Pattern Analysis and Machine Intelligence, 16(3):314–319, 1994.

[213] Whittaker, Miles, Mitchell, and Gaultney. Fruit location in a partially ocluded
image. Transactions of the ASAE, 30, pages 591–597, 1987.

[214] P.M. Will and K.S. Pennington. Grid coding: A preprocessing technique for robot
and machine vision. Proc. 2nd Int. Joint Conf. Pattern recognition, pages 66–68,
1971.

[215] A.P. Witkin. Scale-space filtering. IEEE Computer Society Press. Computer Vision:
Principles, pages 108–111, 1991.

[216] M. Worring and A.W.M. Smeulders. Digital curvature estimation. CVGIP: Image
understanding, 58:366–382, 1993.

[217] Q. Yang. Finding stalk and calyx of apples using structured lighting. Computers
and electronics in Agriculture, 8:31–42, 1993.

[218] X. Yu, D. Bui, and A. Krzyzak. Robust estimation for range image segmentation and
reconstruction. IEEE Trans. Pattern Analysis and Machine Intelligence, 16(5):530–
537, 1994.
View publication stats

308 Bibliografı́a

[219] P.C. Yuen and G.C. Feng. A novel method for parameter estimation of digital arc.
Pattern Recognition Letters, 17:929–938, 1996.

[220] G. Zhang and A. Wallace. Physical modeling and combination of range and intensity
edge data. CVGIP: Image Understanding, 58(2):191–220, 1993.

[221] Z. Zhang. Parameter estimation techniques: a tutorial with application to conic

fitting. Image and Vision Computing, 15:59–76, 1997.

También podría gustarte

Roman Chik 1
Aún no hay calificaciones
Roman Chik 1
317 páginas
Visión Artificial para Clasificar Chirimoyas
100% (1)
Visión Artificial para Clasificar Chirimoyas
81 páginas
Bitacora MP - Velez
Aún no hay calificaciones
Bitacora MP - Velez
18 páginas
Sistema de Vigilancia Agrícola con Fog y LoRa
Aún no hay calificaciones
Sistema de Vigilancia Agrícola con Fog y LoRa
93 páginas
IR Aereas Agricultura Presicion
Aún no hay calificaciones
IR Aereas Agricultura Presicion
82 páginas
CHilario TesisDoctoral PDF
Aún no hay calificaciones
CHilario TesisDoctoral PDF
245 páginas
Proyecto 1
Aún no hay calificaciones
Proyecto 1
17 páginas
Sistema Automatizado de Clasificación de Jitomate Por Medio de Visión Artificial
Aún no hay calificaciones
Sistema Automatizado de Clasificación de Jitomate Por Medio de Visión Artificial
47 páginas
TFG Angel Acevedo Sanchez
Aún no hay calificaciones
TFG Angel Acevedo Sanchez
92 páginas
Control Visual de UAVs Autónomos
Aún no hay calificaciones
Control Visual de UAVs Autónomos
248 páginas
Sistema de Visión Artificial para Clasificación de Jitomate
Aún no hay calificaciones
Sistema de Visión Artificial para Clasificación de Jitomate
13 páginas
Entrega Previa 1 - Escenario 3
Aún no hay calificaciones
Entrega Previa 1 - Escenario 3
8 páginas
Tesis Seguidor Solar
Aún no hay calificaciones
Tesis Seguidor Solar
132 páginas
Innovación en Ingeniería y Tecnología
Aún no hay calificaciones
Innovación en Ingeniería y Tecnología
266 páginas
Teledeteccion Con Drones
Aún no hay calificaciones
Teledeteccion Con Drones
229 páginas
12 - Clasificación de Naranja (Citrus X Sinensis) Madura y Verde Utilizando Visión Artificial
Aún no hay calificaciones
12 - Clasificación de Naranja (Citrus X Sinensis) Madura y Verde Utilizando Visión Artificial
7 páginas
Vehículo Motocultor Autónomo
Aún no hay calificaciones
Vehículo Motocultor Autónomo
120 páginas
Diseño M
Aún no hay calificaciones
Diseño M
5 páginas
Sensores en La Técnica de Fabricación
Aún no hay calificaciones
Sensores en La Técnica de Fabricación
134 páginas
3151 11544 1 PB00
Aún no hay calificaciones
3151 11544 1 PB00
7 páginas
Biomecahnics
Aún no hay calificaciones
Biomecahnics
4 páginas
Sen Sores
Aún no hay calificaciones
Sen Sores
135 páginas
Io Tcon Agricultura
Aún no hay calificaciones
Io Tcon Agricultura
81 páginas
Proyecto Prototipado
Aún no hay calificaciones
Proyecto Prototipado
2 páginas
Ebook Tecnologias Aplicadas A La Ingenieria PDF
100% (1)
Ebook Tecnologias Aplicadas A La Ingenieria PDF
317 páginas
Trabajo Integración Curricular Auto
Aún no hay calificaciones
Trabajo Integración Curricular Auto
23 páginas
Uso Del Efecto Doppler para Detección de Obstáculos en Desplazamiento Peatonal
Aún no hay calificaciones
Uso Del Efecto Doppler para Detección de Obstáculos en Desplazamiento Peatonal
111 páginas
Modelado de Mesoescala en Baterías
Aún no hay calificaciones
Modelado de Mesoescala en Baterías
50 páginas
Universidad Autonoma de Ciudad Juarez
Aún no hay calificaciones
Universidad Autonoma de Ciudad Juarez
15 páginas
Marco Teorico Nuevo
Aún no hay calificaciones
Marco Teorico Nuevo
9 páginas
Diseño de Transporte Autónomo
Aún no hay calificaciones
Diseño de Transporte Autónomo
41 páginas
Tesina Invernadero Automatizado
Aún no hay calificaciones
Tesina Invernadero Automatizado
51 páginas
Tesis UPV3808
Aún no hay calificaciones
Tesis UPV3808
212 páginas
IoT: Drones para Control de Plagas
Aún no hay calificaciones
IoT: Drones para Control de Plagas
12 páginas
Sistemas optoelectrónicos en agricultura
Aún no hay calificaciones
Sistemas optoelectrónicos en agricultura
29 páginas
BIOTECNOLOGIAENCOLORES
Aún no hay calificaciones
BIOTECNOLOGIAENCOLORES
30 páginas
Mesa Multi-touch: Diseño e Implementación
Aún no hay calificaciones
Mesa Multi-touch: Diseño e Implementación
110 páginas
Visión Computacional para Domótica
Aún no hay calificaciones
Visión Computacional para Domótica
12 páginas
Optimización GMB en Torreón
Aún no hay calificaciones
Optimización GMB en Torreón
10 páginas
Extracción de Los Modelos Digitales y Reconocimiento de Formas en Datos LiDar
Aún no hay calificaciones
Extracción de Los Modelos Digitales y Reconocimiento de Formas en Datos LiDar
119 páginas
Diseño de Sistema de Grabación Automático para La Detección, Seguimiento y Conteo de Peatones en Intersecciones Semaforizadas
Aún no hay calificaciones
Diseño de Sistema de Grabación Automático para La Detección, Seguimiento y Conteo de Peatones en Intersecciones Semaforizadas
146 páginas
Robot Móvil para Detección de Plagas
Aún no hay calificaciones
Robot Móvil para Detección de Plagas
17 páginas
CGR Tesis
Aún no hay calificaciones
CGR Tesis
141 páginas
Informe
Aún no hay calificaciones
Informe
2 páginas
Actuador Robótico para Cosecha de Tomates
Aún no hay calificaciones
Actuador Robótico para Cosecha de Tomates
26 páginas
Sensores Con Inteligencia Artificial: Trabajo Fin de Máster
Aún no hay calificaciones
Sensores Con Inteligencia Artificial: Trabajo Fin de Máster
65 páginas
Paper Review
Aún no hay calificaciones
Paper Review
15 páginas
Diseño de Un Sistema Automático de Clasificación de Cebollas Utilizando Vision Artificial PDF
Aún no hay calificaciones
Diseño de Un Sistema Automático de Clasificación de Cebollas Utilizando Vision Artificial PDF
91 páginas
Tesis Agisoft
Aún no hay calificaciones
Tesis Agisoft
67 páginas
Berenice Montalvo Lezama
Aún no hay calificaciones
Berenice Montalvo Lezama
88 páginas
Articulo Lora y Telemetria Agricola
Aún no hay calificaciones
Articulo Lora y Telemetria Agricola
2 páginas
Proyecto Dron
Aún no hay calificaciones
Proyecto Dron
36 páginas
Proyecto Fernando Lombera Trejo Copyright
Aún no hay calificaciones
Proyecto Fernando Lombera Trejo Copyright
23 páginas
Article
Aún no hay calificaciones
Article
8 páginas
Libro 109 Rafa 2024 v2
Aún no hay calificaciones
Libro 109 Rafa 2024 v2
1 página
Implementación ArduPilot en Quadrotor
Aún no hay calificaciones
Implementación ArduPilot en Quadrotor
84 páginas
Proyecto Integrador Escrito
Aún no hay calificaciones
Proyecto Integrador Escrito
31 páginas
Trabajo de Grado
Aún no hay calificaciones
Trabajo de Grado
68 páginas
TEST CONS - JUN23 - A15c16b17c18x19a20c
Aún no hay calificaciones
TEST CONS - JUN23 - A15c16b17c18x19a20c
5 páginas
Test sobre Consumidores y Usuarios 1/2007
Aún no hay calificaciones
Test sobre Consumidores y Usuarios 1/2007
5 páginas
Complementando A Metrica
Aún no hay calificaciones
Complementando A Metrica
12 páginas
TEST CONS - PEC14 - c15c6b17c18b19b20c
Aún no hay calificaciones
TEST CONS - PEC14 - c15c6b17c18b19b20c
3 páginas
Guía WELMEC 7.2: Software en Metrología
Aún no hay calificaciones
Guía WELMEC 7.2: Software en Metrología
111 páginas
Novedades Orden ICT/155/2020 Metrología
Aún no hay calificaciones
Novedades Orden ICT/155/2020 Metrología
21 páginas
Informe Mensual City Center Abril 2017
Aún no hay calificaciones
Informe Mensual City Center Abril 2017
30 páginas
Un Hilito de Agua
Aún no hay calificaciones
Un Hilito de Agua
5 páginas
Sencico: Control Operacional de Trabajos en Altura E Izaje
Aún no hay calificaciones
Sencico: Control Operacional de Trabajos en Altura E Izaje
22 páginas
Hoja de Problemas #03 Estática
Aún no hay calificaciones
Hoja de Problemas #03 Estática
6 páginas
Planificación Sistema Óseo y Articular 1
Aún no hay calificaciones
Planificación Sistema Óseo y Articular 1
2 páginas
Informe Psicológico
Aún no hay calificaciones
Informe Psicológico
7 páginas
Respuesta Sistémica A La Lesión
Aún no hay calificaciones
Respuesta Sistémica A La Lesión
339 páginas
Construcción de Un Telescopio Reflector Newtoniano de 15 CM: Construction of A Newtonian Reflector Telescope of 15 CM
Aún no hay calificaciones
Construcción de Un Telescopio Reflector Newtoniano de 15 CM: Construction of A Newtonian Reflector Telescope of 15 CM
6 páginas
Actividad de Evaluación 3 - Revisión Del Intento
Aún no hay calificaciones
Actividad de Evaluación 3 - Revisión Del Intento
3 páginas
Plan SMG 02
Aún no hay calificaciones
Plan SMG 02
2 páginas
El Mayate: Masculinidad y Memes LGBTTTIQ
Aún no hay calificaciones
El Mayate: Masculinidad y Memes LGBTTTIQ
4 páginas
Prestaciones Econòmicas
Aún no hay calificaciones
Prestaciones Econòmicas
27 páginas
IE3041 - Lab 8, Guía
Aún no hay calificaciones
IE3041 - Lab 8, Guía
3 páginas
Caso de Esquizofrenia
Aún no hay calificaciones
Caso de Esquizofrenia
18 páginas
Actividades 1er Lapso Orientacion 5to Año
100% (2)
Actividades 1er Lapso Orientacion 5to Año
6 páginas
Cake Zanahoria Chai con Frosting Queso
Aún no hay calificaciones
Cake Zanahoria Chai con Frosting Queso
2 páginas
Green Modern Minimalist Agrifarm Company Presentation
Aún no hay calificaciones
Green Modern Minimalist Agrifarm Company Presentation
10 páginas
Ejercicios para Trabajar Déficit de Atención
Aún no hay calificaciones
Ejercicios para Trabajar Déficit de Atención
20 páginas
Resultados de Exámenes de Procesos y Calidad
80% (5)
Resultados de Exámenes de Procesos y Calidad
13 páginas
APOCALIPSIS 20 Explicacion
Aún no hay calificaciones
APOCALIPSIS 20 Explicacion
4 páginas
Taller Repaso Transcripción Transcripción Traducción 2130
Aún no hay calificaciones
Taller Repaso Transcripción Transcripción Traducción 2130
5 páginas
Componentes Electrónicos: Tiristores y Diodos
Aún no hay calificaciones
Componentes Electrónicos: Tiristores y Diodos
5 páginas
Nacionalismo
Aún no hay calificaciones
Nacionalismo
2 páginas
Clase 11
Aún no hay calificaciones
Clase 11
8 páginas
Calles Peatonales
Aún no hay calificaciones
Calles Peatonales
4 páginas
PPDU 2017 D1SD01 Chapultepec Norte
Aún no hay calificaciones
PPDU 2017 D1SD01 Chapultepec Norte
270 páginas
Ej. 4.2.4
Aún no hay calificaciones
Ej. 4.2.4
1 página
Plan de Contingencia CETPRO DMS 2020
Aún no hay calificaciones
Plan de Contingencia CETPRO DMS 2020
18 páginas
17 - Taller 2 - Equilibrio de La Partícula en El Espacio
Aún no hay calificaciones
17 - Taller 2 - Equilibrio de La Partícula en El Espacio
5 páginas
Int-Ga-001 Control Operacional de Derrames
Aún no hay calificaciones
Int-Ga-001 Control Operacional de Derrames
6 páginas