Técnicas de Reconocimiento Facial
Técnicas de Reconocimiento Facial
Pgina 2
Agradecimientos
Me gustara agradecer a mi familia y mi pareja el apoyo que me han dado durante todos estos aos, al Dr. Ramon Morros sus consejos y guiado durante todo este
proyecto, sin el no habra sido posible, y a Albert Gil que siempre estuvo ah para ayudarme con el entorno de trabajo del departamento y los problemas de cdigo.
Pgina 3
Pgina 4
0 ndice
0 1 2 NDICE ........................................................................................................ 5 INTRODUCCIN ........................................................................................ 7 ESTADO DEL ARTE ................................................................................ 15 2.1 2.2 RECONOCIMIENTO DE IMGENES FIJAS ................................................... 17 DESCRIPCIN DE LAS PRINCIPALES TCNICAS ......................................... 19
2.2.1 PCA (Principal Component Analysis) ............................................. 19 2.2.2 LDA (Linear Discriminant Analysis) ................................................ 22 2.2.3 LPP (Locality Preserving Projections) ............................................ 24 2.2.4 DCT (Discrete Cosine Transform) .................................................. 26 2.2.5 DCT por Bloques ............................................................................ 28 3 ARQUITECTURA DEL SISTEMA ............................................................ 31 3.1 3.2 ANLISIS LINEAL ................................................................................... 32 PCA.................................................................................................... 33
3.4.1 Creacin de la matriz de proyeccin .............................................. 36 3.4.2 Reconocimiento.............................................................................. 39 4 BASES DE DATOS .................................................................................. 41 4.1 4.2 4.3 4.4 5 BASE DE DATOS OLIVETTI (ORL DATABASE)........................................... 41 BASE DE DATOS XM2VTS..................................................................... 42 BASE DE DATOS BANCA....................................................................... 42 BASE DE DATOS YALE.......................................................................... 44
RESULTADOS ......................................................................................... 45 5.1 5.2 FUNCIONAMIENTO DEL SISTEMA EN UN ENTORNO CONTROLADO ................ 46 INFLUENCIA DEL NMERO DE INDIVIDUOS EN EL SISTEMA .......................... 49
Pgina 5
5.3
5.3.1 Normalizacin................................................................................. 53 5.3.2 Descarte de coeficientes ................................................................ 55 5.4 5.5 5.6 EFECTO DE LA VARIACIN DEL ASPECTO DE LAS CARAS ............................ 58 INFLUENCIA DE ENTRENAR EL SISTEMA CON IMGENES DISTINTAS ............. 60 EVALUACIN DE UN ENTORNO REAL........................................................ 64
5.6.1 Entrenamiento con imgenes parecidas al set de referencia ......... 65 5.6.2 Entrenamiento con imgenes parecidas al set de test ................... 68 5.7 6 7 8 9 EFICIENCIA COMPUTACIONAL ................................................................. 71
APLICACIN I. QUERY BY EXAMPLE ................................................... 73 APLICACIN II. SISTEMA DE RECONOCIMIENTO EN TIEMPO REAL 75 CONCLUSIONES Y TRABAJO FUTURO................................................ 79 BIBLIOGRAFA ........................................................................................ 83
Pgina 6
1 Introduccin
Durante los ltimos aos, el reconocimiento facial se ha convertido en uno de las aplicaciones ms estudiadas en campos como la biometra, el procesado de imagen o el reconocimiento de patrones. Una de las razones que ha llevado a este crecimiento son las necesidades cada vez mayores de aplicaciones de seguridad y vigilancia utilizadas en diferentes mbitos.
El creciente inters en el reconocimiento facial y los sistemas biomtricos, lo podemos ver reflejado de 3 maneras distintas:
En primer lugar, se puede ver en la comunidad cientfica donde por ejemplo se pas de la publicacin de unos 140 artculos en 2007, relacionados con el reconocimiento y diferentes herramientas para llevarlo a cabo, a travs de publicaciones en diferentes organismos como el IEEE, a unos 180 en 2008, incluyendo conferencias como el IEEE internacional conference on automatic face and gesture recognition (IEEE FG 2008).
En segundo lugar, se puede observar en el aumento en el nmero de soluciones comerciales y el crecimiento de este mercado. Ejemplo de ello son los sistemas basados en el reconocimiento para identificacin civil/criminal y los sistemas de video vigilancia desarrollados por empresas como Cognitec [1], Eyematic [2], Viisaje [3] y Identix [4] (tabla 1). Desde el punto de vista econmico [5], los beneficios asociados a la industria dedicada al reconocimiento facial, crecieron de 50 millones de dlares en 2003 a 802 millones en 2008 y se espera que abarque un 17% del mercado dedicado a sistemas biomtricos (figura 1 y figura 2).
En tercer y ltimo lugar, se ve reflejado este aumento en la industria del reconocimiento facial desde el punto de vista de los clientes, los cuales cada vez ms solicitan productos funcionales basados en esta tecnologa.
Pgina 7
Descripcin del proyecto Manchester, NH. Visaje Cognitec, 'Smart Gate' Aeropuerto de Sydney Vigilancia playa de Virginia Aeropuerto de Berln
Situacin US-NH
Empresa Viisage
Descripcin adicional 4th US solucin para aeropuerto Basado en lectura de pasaporte Base de datos de 600 imgenes, 10 sujetos Terminal de reconocimiento facial, muestra guardada en CS Imagen a la vez que se introduce la tarjeta y prevenir 2x aplic. tarjeta y prevenir 2x aplic. Deteccin de inscripcin duplicada Sistema de la polica de Zurich, usado para encontrar inmigrantes ilegales de [Link], Asia y [Link] Sistema integrado con la base de datos del servicio 911
Australia
Cognitec
Acceso
US-YA
Identix
Aplicacin Ley
Identificacin Criminal
Vigilancia
Germany
ZN
viajes y transportes
ACC/T&A
Acceso
US-MA
Viisage
Gobierno
Identificacin civil
Identificacin
CODL
US-CO
Identix
Gobierno
Identificacin civil
DL
Suiza
C-VIS
viajes y transportes
Vigilancia/Seguimi ento
Seguimiento
US-CA
Imagis
Cumplimient o Ley
Identificacin Criminal
Forense
Figura 1. Desglose del porcentaje que ocupa cada tcnica biomtrica dentro del mercado.
Pgina 8
Estos sistemas en su objetivo de determinar la identidad de una persona, pueden tener en cuenta o analizar muchas caractersticas. Estas
caractersticas pueden ser tanto fsicas, como sera el caso de las pupilas, la cara, el iris, etc., o se puede tratar de caractersticas psicolgicas como seran los gestos. Todas estas propiedades, presentan sus propias peculiaridades, las cuales pueden ser analizadas siguiendo entre otros, los siguientes criterios:
Universalidad, indica como de comn es encontrar esta caracterstica en todas las personas u objetos a reconocer. Carcter distintivo, indica si dicha propiedad, es suficientemente diferente entre un conjunto de personas u objetos diferentes. Permanencia, indica la estabilidad en el tiempo de dicha caracterstica. Colectividad, indica si la caracterstica es fcilmente adquirida y medida por el sistema. Rendimiento, indica la precisin, velocidad y coste (recursos) necesarios para llevar a cabo el reconocimiento. Aceptabilidad, indica en que medida est la gente preparada para aceptar el uso de esta tcnica. Elusin, indica la respuesta del sistema cuando alguien est tratando de engaarlo.
Gracias a estas propiedades que se han enumerado, se puede describir bien las caractersticas que va a utilizar el sistema y as poder ver si es adecuado o no para este tipo de aplicaciones. Se pueden encontrar otros modos de evaluar estas caractersticas, uno de ellos es el anlisis de Zephyr [5] gracias al cual se pueden clasificar diferentes indicadores biomtricos segn su carcter intrusivo, precisin, coste y dificultad (figura 3). Segn otras escalas [6], considerando 6 parmetros biomtricos, las caractersticas faciales obtienen la mayor puntuacin para sistemas de lectura de documentacin de viaje MRTD [6] (figura 4).
Segn todos estos criterios que se acaban de ver, el reconocimiento facial destaca por ser una tcnica con una alta capacidad de respuesta frente a
Pgina 9
mltiples caractersticas biomtricas y una buena aceptacin lo cual hace de los sistemas basados en estos indicadores tiles para el desarrollo de aplicaciones no intrusivas.
Por otro lado, las aplicaciones basadas en el reconocimiento facial, presentan algunas limitaciones o inconvenientes como pueden ser:
Orientacin del rostro. Ruido. Iluminacin (incluyendo interior / exterior). Expresin facial. Oclusin debido a objetos o accesorios tales como gafas de sol, sombreros Vello facial. Envejecimiento.
Pgina 10
Aun as algunas de estas barreras, se puede solucionar de una forma eficaz como seria el caso del envejecimiento. Para ello bastara con una actualizacin peridica de la base de datos de la aplicacin. Un ejemplo de imgenes de un mismo individuo para evaluar el sistema frente a estas limitaciones, lo podemos ver en la figura 5 y figura 6.
Figura 5. Ejemplo de 10 imgenes de un individuo de la base de datos Yale [7] con diferente iluminacin, expresin y postura.
Debido a que las aplicaciones basadas en el reconocimiento facial [26], [27] no necesitan de la interaccin del individuo, son aplicaciones de mucho inters para el entorno de video vigilancia, aeropuertos, comisaras, etc. De igual modo son aplicaciones necesarias y de utilidad en entornos controlados donde por ejemplo se pueda llevar a cabo el testeo de las aplicaciones antes de salir al mercado.
En toda aplicacin de reconocimiento facial, se debe tener en cuenta diferentes etapas. Una de ellas es la etapa de deteccin facial, la cual en multitud de ocasiones se trata de manera conjunta con el reconocimiento. En este proyecto se tratarn por separado estos 2 pasos, en concreto se centrar en la etapa de
Pgina 11
reconocimiento. De este modo el sistema de reconocimiento recibir como entrada un conjunto de imgenes cara, ya detectadas dentro de una imagen en diferentes posiciones y condiciones ambientales, las cuales sern procesadas por nuestro sistema para despus hacer el reconocimiento (figura 7).
Finalmente se puede decir que estamos ante un problema de reconocimiento de patrones, pues el objetivo ser el de clasificar y reconocer imgenes cara dependiendo de sus caractersticas. Dentro de esta rama se pueden encontrar 2 grandes categoras, sistemas supervisados y no supervisados. La diferencia entre ambos casos reside en que el caso supervisado conoce con antelacin a quien pertenece cada imagen y asigna una etiqueta identificatoria a cada imagen, mientras que los no supervisados no lo hacen. En el caso de este proyecto estaremos frente a un caso no supervisado, pero cuando se hable de LPP (Locality Preserving Projections), si se tendr la posibilidad de hacer uso de cierto etiquetado de las imgenes en el entrenamiento del sistema.
Por lo tanto en este proyecto se estudiarn diferentes tcnicas de extraccin de caractersticas en una imagen de una cara. Las tareas que desarrollaremos se pueden enumerar cronolgicamente del siguiente modo:
Estudio de las bases de reconocimiento de patrones. Estudio del entorno de trabajo. Estudio de las diferentes tcnicas de seleccin de caractersticas, prestando especial atencin a PCA (Principal Component Analisys), DCT (Discrete Cosine Transform) y LPP.
Evaluacin de los principales problemas como pueden ser los cambios en la iluminacin y en la expresin o posicin de la cara.
Pgina 12
Implementacin del algoritmo en C++ de forma coherente con el entorno de trabajo proporcionado por las libreras del departamento de imagen de la universidad, ImaGeplus.
Testeo de todo el sistema utilizando imgenes pertenecientes a diferentes bases de datos para simular diferentes situaciones. Creacin de aplicaciones para ver el funcionamiento del sistema.
Durante este proyecto se compararn diferentes tcnicas de reduccin dimensional y clasificacin de las imgenes utilizadas para el reconocimiento facial. Estos resultados sern tiles como punto de partida para estudios que se realicen posteriormente. Otro objetivo que se tendr es el de crear un software modular usando la plataforma ImaGeplus del Grupo de Procesado de Imagen y Video de la UPC, el cual contiene diferentes libreras con multitud de herramientas. Esta plataforma est constantemente actualizada con nuevas contribuciones de otros miembros del grupo de imagen de la UPC, de manera que al final de este proyecto, ciertas partes del cdigo que se desarrolle formar parte de esta plataforma.
estudiar el estado del arte relacionado con tcnicas de reconocimiento facial. Despus en el captulo 3 se detallar como funcionan los mtodos que se han seleccionado para la comparativa. En el captulo 4 se har una breve descripcin de las diferentes bases de datos que se han utilizado. En el captulo 5 se mostrarn los resultados obtenidos frente a diferentes situaciones. En el captulo 6 y 7 se presentarn dos aplicaciones haciendo uso de los algoritmos estudiados. Finalmente, en el captulo 8, se mostrarn las conclusiones y se enfocar el trabajo futuro.
Pgina 13
Pgina 14
Hay dos familias de tcnicas de reconocimiento facial: tcnicas basadas en la apariencia y tcnicas basadas en modelos [8]. En cada una de estas familias, se encuentran varios mtodos para caracterizar la imagen, aunque en este estudio solo se tratarn algunos de los mtodos basados en la apariencia (figura 8).
Los sistemas basados en la apariencia se utilizan directamente sobre las imgenes sin hacer uso de modelos 3D. Estos tipos de sistemas representan un objeto en funcin de diferentes vistas del mismo. En estos sistemas cada imagen se representa como un punto en un subespacio vectorial, de forma que la comparacin entre la imagen de test y las imgenes de referencia se realiza en el subespacio vectorial caras. El objetivo de estos algoritmos es clasificar las diferentes caras en el nuevo subespacio, pero para ello ser necesario entrenar previamente el sistema con imgenes de diferentes caras con diferentes vistas. Estas tcnicas sern explicadas con ms detalles en el captulo 2.2 donde se expondrn los mtodos de clasificacin basados en la apariencia que se han utilizado.
Pgina 15
Por otro lado estn los sistemas basados en modelos (figura 9), los cuales intentan construir un modelo lo ms descriptivo posible de la cara humana capaz de detectar con precisin las variaciones faciales.
Estos sistemas tratan de obtener caractersticas biomtricas de las imgenes para realizar el reconocimiento (distancia entre ojos (figura 10), grosor de la nariz). Habitualmente estas tcnicas requieren de imgenes de gran resolucin. Cuando se utilizan estos sistemas, el algoritmo sabe con antelacin el objeto que ha de representar y lo que intenta hacer es que corresponda la cara real con el modelo. El proceso que se suele seguir cuando se usan estas tcnicas est formado por tres pasos [9]:
o Construccin del modelo. o Ajustar el modelo a la imagen de test. o Utilizar los parmetros del modelo ajustado para calcular la similitud entre la imagen de test y las imgenes de referencia para realizar el reconocimiento.
Figura 10. Deteccin de la posicin y distancia de los ojos a travs del mtodo de convolucin
Algunas de las ventajas e inconvenientes de los sistemas basados en la apariencia frente a los basados en modelos son las siguientes:
Ventajas: o Ms rpidos.
Pgina 16
o Requieren de un menor tamao de las imgenes. o Menor complejidad. o No requieren de un conocimiento previo de las imgenes. Inconvenientes: o Ms afectados por cambios en la orientacin o expresin de la cara. o Ms dificultades frente a cambios en la iluminacin.
A continuacin se har una pequea descripcin de la literatura que existe sobre algunos de los mtodos ms relevantes de reconocimiento facial y una pequea explicacin de cmo se va a realizar el reconocimiento de las imgenes.
Imgenes de entrada
Preprocesado imgenes
Decisin
Resultado
Para realizar los diferentes experimentos que se realizan en este estudio el sistema hace uso de los siguientes conjuntos de imgenes:
Imgenes de referencia: son las que estn almacenadas y son conocidas por el sistema y son utilizadas para saber si una imagen de entrada pertenece o no a algn sujeto registrado en el sistema.
Pgina 17
Imgenes de test: son las que recibiremos en el sistema y se tienen que reconocer. Imgenes de entrenamiento: son utilizadas en los mtodos PCA y LPP para conseguir las matrices de proyeccin.
Los pasos que se llevan a cabo para este reconocimiento, sin tener en cuenta el preprocesado previo de las imgenes, son los que se detallan a continuacin [34]:
1) El sistema necesita de un set de imgenes de referencia las cuales son procesadas y proyectadas (y = Wx) en el nuevo subespacio para despus ser utilizadas para conocer si una imagen pertenece o no a un individuo registrado en el sistema (figura 12).
Figura 12. Esquema de proyeccin de una imagen de referencia al nuevo subespacio [34].
2) Cuando las imgenes de referencia estn correctamente proyectadas, se realiza el mismo procedimiento con las imgenes de test (figura 13). Estas pueden pertenecer a personas que estaban incluidas entre las imgenes de referencia pero mostrando diferentes expresiones faciales o diferentes condiciones del entorno.
Pgina 18
3) Finalmente se dir que ha habido reconocimiento si se cumple alguna condicin, en general se considera que hay un reconocimiento positivo si se cumple una condicin:
En concreto para el caso de este estudio, una imagen de test pertenece a otra del conjunto de imgenes de referencia si es la que cumple distancia mnima de manera que siempre se tiene que asignar un sujeto a una imagen de entrada.
PCA esta basado en la Transformada de Karhunen-Loeve (KLT) [10], que consiste en la representacin de un proceso estocstico no peridico a travs de una base de vectores obtenidos completamente del proceso en s mismo, es decir, PCA permite representar una imagen de una cara usando una base que se ha conseguido a partir de muchas observaciones de diferentes caras.
Pgina 19
El objetivo de este mtodo consiste en representar una imagen en trminos de un sistema de coordenadas ptimo reduciendo el nmero final de componentes que tendr la imagen. Un ejemplo de PCA lo podemos ver en la figura 14.
Figura 14. Componentes principales de un conjunto de puntos bidimensional. La primera componente ofrece una reduccin lineal ptima de dimensin de 2D a 1D en cuanto a error cuadrtico medio se refiere.
Esta base de transformacin depende de las observaciones y se forma a partir de los d autovalores ms significativos de la matriz de covarianza, los cuales representan las componentes principales que son ms comunes en imgenes de diferentes caras.
La reduccin dimensional realizada por PCA es equivalente al nmero de autovectores que se utilicen. Por lo tanto la imagen proyectada por PCA tendr una dimensin de valor d, como se puede ver en la figura 15.
Estos autovectores representan las componentes principales que son ms comunes en imgenes de diferentes caras, otra forma de verlo, es que son los
Pgina 20
ejes del subespacio donde proyectaremos las imgenes de caras humanas los cuales se corresponden con las direcciones de mxima varianza de los datos. La matriz de transformacin, esta formada por los autovectores
correspondientes a los d autovalores ms significativos. En la figura 16 se muestran los primeros 7 autovectores que derivan del uso de la base de datos ORL [18]. La imagen media correspondiente a estos 7 autovectores la podemos ver en la figura 17 y en la figura 18 podemos ver las imgenes correspondientes a los 7 autovalores ms bajos. Estos ltimos se corresponden con autovalores muy pequeos y son considerados como ruido de manera que no se tienen en cuenta para el reconocimiento.
Figura 16. Autovectores correspondientes a los 7 mayores autovalores mostrados como imgenes pxp = n (Obtenidos de la base de datos de caras ORL [18]).
Figura 17. Cara media de los 7 primeros autovectores (Obtenidos de la base de datos de caras ORL [18]).
Figura 18. Autovectores correspondientes a los 7 menores autovalores mostrados como imgenes pxp = n (Obtenidos de la base de datos de caras ORL [18]).
Otra de las cualidades de PCA, es que realiza una discriminacin entre clases, es decir, todas las caras correspondientes a un mismo individuo estn cerca entre si, mientras que las imgenes correspondientes a individuos diferentes estn ms alejadas. Esta propiedad es ms destacable en las primeras componentes de las imgenes proyectadas. En la figura 19 se muestra un
Pgina 21
Figura 19. Representacin de diferentes componentes de tres imgenes de individuos distintos proyectadas.
A diferencia de PCA, que es un mtodo de reduccin dimensional sin supervisin, LDA si que es supervisado y utiliza informacin de los datos. Para ello lo que se hace es maximizar la siguiente expresin: wT S B w J ( w) = wT SW w
(2)
Pgina 22
Donde SB es la matriz de dispersin entre clases mientras que SW es la matriz de dispersin intra clase y se definen como: S B = N c ( x) ( c x)T
c
SW = ( xi c ) ( xi c )T
c ic
c =
x=
1 xi N c ic
(3)
1 1 xi = N c c N i N c
y NC es el nmero de casos dentro de la clase c. Una vez esta resuelto este problema, se obtiene la matriz de proyeccin que permite pasar de un problema de alta dimensionalidad a uno de baja. Cada una de las columnas que forman esta matriz sern las bases del nuevo subespacio, las cuales se conocen como FisherFaces (figura 20). Estas bases son aquellas que garantizan una mxima discriminacin entre clases por encima de ser las que mejor describen los datos, a diferencia de PCA [17] (figura 21).
Una de las limitaciones que tiene LDA, es que se requiere de matrices de dispersin no-singulares. Esto en aplicaciones de reconocimiento facial es complicado debido a que en muchas ocasiones la alta dimensionalidad de las imgenes es mucho mayor que el nmero de imgenes lo que desemboca en un problema de matrices singulares, algo que como se ver ms adelante tambin puede suceder en LPP, conocido como undersampled o singularity problem. Para evitar este efecto, se utilizan diferentes aproximaciones como pseudo-inverse LDA [16], que utiliza la pseudo-inversa de la matriz de covarianza en lugar de su inversa, y PCA + LDA [16], que realiza un reduccin previa de los datos utilizando PCA.
Pgina 23
Una de las propiedades que lo diferencian de PCA es que en lugar de conservar la estructura global de lo datos, conserva la estructura local (figura 22). De este modo los vecinos para un dato en concreto sern los mismos en el espacio original, de alta dimensionalidad, y en el nuevo subespacio de baja dimensionalidad [13]. Al conservarse la estructura local de los datos, las imgenes pertenecientes a un mismo individuo estarn cercanas entre si y alejadas de las de otros individuos, es decir, hay una discriminacin entre clases (figura 23).
Pgina 24
Para conservar la estructura local de los datos se hace uso de un grafo de adyacencias que incluye informacin de la estructura de los datos. Este grafo, como se ver con ms detalle en el apartado 3.4.1, consiste en la creacin de una matriz de tamao NxN, donde N es el nmero de imgenes, que tiene asignados unos pesos dependiendo de si los elementos i y j son vecinos o no. En el momento de crear este grafo cabe la opcin de crearlo de manera automtica (caso no supervisado), utilizando mtodos de bsqueda de vecinos como K nearest neighbors o -neighborhoods, o hacerlo de manera manual (caso supervisado) asignando manualmente quienes son o no vecinos. Todas estas configuraciones sern vistas con ms detalle en el apartado 3.4.
Figura 22. En esta imagen podemos ver como a diferencia de PCA, en LPP se conserva la estructura local de los datos.
Este mtodo presenta algunos inconvenientes. Uno de ellos, aunque para el caso de este estudio no afecta, es la dificultad de recuperar los datos originales a partir de los datos proyectados al nuevo subespacio, esto se debe al hecho de hacer uso de bases no ortogonales.
Otro inconveniente que se puede dar es el de las matrices singulares, que veremos con ms detalle en el apartado 3.4.1, el cual se produce cuando la dimensionalidad de los datos es mucho ms elevada que el nmero de muestras (n >> N). Para solucionar este problema se hace uso de tcnicas de reduccin dimensional de los datos antes de utilizarlos de manera que n = N o n > N.
Los mapas estn diseados para minimizar algn criterio objetivo procedente de las tcnicas lineales clsicas.
Pgina 25
Como LPP preserva la estructura local de los datos, el sistema tendr los mismos vecinos en el espacio de baja dimensionalidad que en el de alta.
LPP es un mtodo lineal, lo que hace que sea rpido y conveniente para aplicaciones prcticas. LPP esta definida para todos los casos, a diferencia de las tcnicas de reduccin no lineales que solo estn definidos para el conjunto de datos de entrenamiento, de manera que al tener un nuevo dato LPP es capaz de representarlo en el nuevo subespacio sin tener que recalcularse las matrices de proyeccin.
Figura 23. Representacin de la estructura de los datos en el nuevo subespacio. Este ejemplo esta formado por 5 personas y cuatro imgenes por persona.
Pgina 26
En este trabajo, la DCT ser utilizada para obtener caractersticas de la imagen y luego usarlas para poderlas clasificar, como se hace con PCA [12]. A diferencia de PCA, este mtodo no necesita ser entrenado con imgenes del mismo tipo a las que se van a usar sino que simplemente se transforman directamente las imgenes, es decir, la base de la transformacin es independiente de las imgenes. Otra de sus ventajas es su bajo coste computacional en relacin con PCA [12].
Se definen 8 variantes de DCT, de las cuales las ms relevantes son: DCT-I, DCT-II, DCT-III y DCT-IV. En lo que se refiere al reconocimiento facial, la transformacin ms utilizada es DCT-II, que se define como:
( 2 n + 1) k1 ( 2 m + 1) k2 N 1 M 1 v ( k1 , k2 ) = ( k1 ) ( k2 ) n=0 m=0 u(n, m) cos cos 2 N 2 M (4) 0 k1 N 1 0 k2 M 1
(0) =
1 , N M
( k1 ) =
2 , (k 2 ) = N
2 M
1 k1 N 1, 1 k2 M 1
(5)
Si la interpretacin de esta formula es que la entrada al sistema es una imagen u y la DCT es la matriz de transformacin para obtener W, se tiene una expresin como la expuesta en el captulo 2.1 donde W = c(k, ) = c(k1,n) c(k2,m) y k y son las filas y columnas:
De esta manera se puede tratar este algoritmo del mismo modo que PCA o LPP, es decir, como un sistema que tiene una matriz de proyeccin (en este
Pgina 27
caso nica para cada imagen) gracias a la cual se puede proyectar las imgenes a un subespacio de baja dimensionalidad de igual modo que se hace en PCA (figura 15).
Lo que se hace es aplicar DCT-II sobre bloques de 8x8 pxeles de la imagen [19]. Una vez calculada la DCT sobre cada uno de estos bloques de 8x8 pxeles, se selecciona un determinado nmero de coeficientes por bloque con el fin de crear la nueva representacin de la imagen (figura 24).
Imagen
8 pxeles 8 pxeles c(n) c(0)
c(0) c(1)
d elementos
c(0)
c(n)
c(d)
Este sistema hace uso parcial de los sistemas basados en modelos porque requiere de la localizacin de alguna caracterstica facial. En este caso para el buen funcionamiento del sistema se necesita que las imgenes estn recortadas y totalmente alineadas [12]. Por esta razn previamente a aplicar el algoritmo, se debe detectar la posicin de los ojos y alinear la imagen segn un criterio (figura 25). En caso de que no se realice esta alineacin previa de las imgenes, el sistema no funcionar correctamente. En la figura 26 se puede ver el efecto causado al no realizar una correcta alineacin de las caras.
Pgina 28
Figura 25. Alineacin de las caras usando DCT por bloques [12].
Pgina 29
Pgina 30
En este captulo se darn a conocer los diferentes procedimientos que se han realizado para hacer uso de cada uno de los algoritmos as como del tratamiento previo que se har sobre las imgenes.
Durante el resto de este documento, se tratarn todas las imgenes de manera similar al protocolo FERET [35], pero en nuestro caso las imgenes no se alinean previamente ni se enmascaran, es decir, dada una imagen (matriz de NxM valores) se concatenarn las filas formando un vector de NM elementos con los valores de los pxeles (en escala de grises de 256 niveles). En general se usa un conjunto de imgenes de golpe, por lo que el procedimiento ser el siguiente.
Se tiene X = {x1, x2, , xi, , xN} que representa la matriz de datos n x N donde cada xi es un vector cara de dimensin n que ha sido construido a partir de la imagen original de tamao p x q (n = p x q). En este caso n representa el total de pxeles que contenan las imgenes originales, mientras que N se corresponde con el nmero de imgenes que vamos a utilizar.
Como se ha dicho en la introduccin, en este proyecto se har una comparacin de diferentes mtodos de reconocimiento basados en la apariencia. El esquema correspondiente al sistema utilizado durante el anlisis de las diferentes capacidades de los mtodos, es el siguiente (figura 27):
Imgenes de test
Preprocesado imgenes
Mtodo de clasificacin
Imgenes de entrenamiento
Imgenes de referencia
Preprocesado imgenes
Mtodo de clasificacin
Pgina 31
Al proyectar las imgenes de test en el nuevo espacio vectorial, se utilizan los coeficientes de dichas proyecciones como la nueva representacin de cada una de las imgenes. Para determinar si una imagen pertenece o no a un individuo en concreto de la base de datos, se aplica algn mtodo de medidas (por ejemplo, la distancia Eucldea) sobre estas imgenes proyectadas.
Todas estas representaciones son consideradas como transformaciones lineales del vector imagen original a un vector proyectado de caractersticas: y =W x
T
(7)
Donde y es el vector de caractersticas (imagen proyectada) de dimensin d, d se corresponde con el nmero de componentes que se tendrn en cuenta para el reconocimiento, W es la matriz de transformacin que se usar para cada caso, sea PCA, DCT o LPP y x es la imagen de entrada.
Pgina 32
3.2 PCA
PCA es un proceso que permite realizar una reduccin dimensional, de manera que nuestro anlisis se reduce a unas pocas componentes. Para ello se necesita tener la matriz de proyeccin PCA. A continuacin se detallarn los pasos a seguir para preparar esta matriz y el procedimiento a seguir para el reconocimiento.
El procedimiento que se realiza para calcular W (matriz de proyeccin) consta de los siguientes pasos:
= xi
i =1
(8)
ST = ( xi ) ( xi )T
i =1
(9)
3) Calcular los autovectores y autovalores de ST y generar W de forma que sus columnas son los autovectores correspondientes a los autovalores ms significativos (con mayor energa):
ST W = (e1 e2 eM )
(10)
Pgina 33
3.2.2 Reconocimiento
Cuando se tiene una nueva imagen de test en el sistema, el procedimiento que se realiza es el siguiente:
1) Primero se redimensionan la imagen de test al tamao que se ha utilizado para la creacin de la matriz de proyeccin PCA (este valor esta almacenado conjuntamente con toda la informacin referente a la clase PCA). Despus de analizar diferentes estudios, se ha decidido utilizar
imgenes de tamao 32 x 32 pxeles [33]. 2) Se normaliza en media 0 y norma 1. 3) Se quita la media de la clase PCA por filas.
Una vez realizados estos tres pasos la imagen est lista para ser proyectada al nuevo subespacio. En este procedimiento toda imagen de entrada al sistema x (imagen facial), es proyectada al subespacio caras por el mtodo de PCA, tal como hemos visto en la ecuacin 7, donde W es la matriz de proyeccin PCA, y es la imagen proyectada en el nuevo subespacio de baja dimensionalidad y x es la imagen de entrada. Despus de realizar esta proyeccin, el vector (imagen) n-dimensional de entrada se reducir a un vector d-dimensional en el subespacio caras (figura 15). Este nuevo tamao del vector depender del nmero de componentes principales que se utilicen.
3.3 DCT
DCT puede ser utilizada como otro sistema de clasificacin basado en la apariencia, aunque en este caso la matriz de transformacin es fija e independiente de la imagen. A diferencia de PCA, este mtodo no necesita de un entrenamiento previo del sistema con otras imgenes.
Pgina 34
3.3.1 Reconocimiento
Cuando el sistema recibe una nueva imagen de test se realizan los siguientes pasos para llevar a cabo el reconocimiento:
1) Se escala la imagen a un cierto tamao predefinido, en este sistema se ha seleccionado un tamao de 32 x 32 pxeles [33]. 2) Se calcula la DCT-II de la imagen original escalada (figura 28).
3) Se seleccionan en zig-zag los d coeficientes que se utilizaran para el reconocimiento y se forma un vector columna (figura 29). Para hacer esta seleccin, no se tiene en cuenta (0) que representa la componente continua y se pueden descartar los primeros coeficientes para tener ms control sobre los cambios de luminosidad ya que estos son los que atesoran una mayor energa y son los que se ven ms afectados por los cambios de iluminacin. El efecto de descartar estos primeros coeficientes lo podremos ver en el apartado 5.2.2. Como suceda con las ltimas componentes principales de PCA, los ltimos coeficientes obtenidos de aplicar la DCT, tampoco son muy relevantes.
Pgina 35
4) Se compara la imagen de test con la imagen de referencia y se decide. Para ello se vuelve a utilizar un criterio de distancias, en este caso la distancia Eucldea. Nuevamente el criterio de decisin ser el de distancia mnima.
3.4 LPP
Este mtodo realiza una reduccin dimensional y requiere, como PCA, de un entrenamiento previo del sistema con otras imgenes de caras para crear una matriz de proyeccin.
1) Se preprocesan las imgenes del mismo modo que se hace para PCA en la etapa de reconocimiento (pasos 1, 2 y 3 del captulo 3.2.2). 2) Se proyectan las imgenes haciendo uso de la matriz de proyeccin PCA para evitar las matrices singulares. 3) Una vez se tienen proyectadas las imgenes mediante PCA, se construye un grafo de adyacencia. Este grafo se forma de manera que las imgenes consideradas como vecinas tienen un conector entre ellas. Se pueden diferenciar dos casos: a. -neighborhoods. (El parmetro pertenece a R) Los nodos i y j estn conectados si ||xi xj||2 < , donde la norma es la norma Eucldea usual en Rn. b. K-nearest neighbors. (k pertenece a N). Los nodos i y j estn conectados entre si en el caso en que i sea de los k vecinos ms cercanos a j o j sea de los k vecinos ms cercanos de i.
Pgina 36
Se debe tener en cuenta que tambin es posible asignar de forma manual estos conectores en el grafo, caso supervisado, si se dispone de esta informacin con anterioridad, entonces se asignar un conector entre las imgenes que pertenezcan a mismos individuos. En el caso concreto de este proyecto se hace uso de esta variante supervisada para la creacin del grafo de adyacencia.
4) Escoger los pesos. Hay 2 mtodos para asignar estos pesos. La matriz que se crea, W, es una matriz simtrica de d x d elementos que tendr un valor, dependiendo del mtodo que se utilice, si hay una conexin entre los elementos i y j en el grafo de adyacencia o cero en caso de no conexin. Los mtodos que se usan son:
a. Heat kernel. Necesita de un parmetro t que dar el usuario. En caso de que los nodos i y j estn conectados se asigna a ese elemento el valor:
Wij = e
xi x j t
2
(11)
b. Simple-minded. Este sera el caso binario, es decir, si hay conexin entre los nodos i y j entonces se asigna un 1 a ese elemento (W ij), 0 en caso contrario (figura 30). Como se ver en el captulo 5 este es el mtodo utilizado para la realizacin del estudio.
X1 X2 X3 X4 X5 X6 X7 X8 X9
0 1 1 1 0 0 0 0 0
1 0 1 1
1 1
1 1
0 X1 0 X2 0 X3 0 X4 1 X5 0 0 0 1 X6 0 X7 1 X8 0 X9
0 1 Simtrica 1 0 0
* Pesos Simple-minded
Figura 30. Ejemplo de matriz de pesos utilizando mtodo Simple-minded.
Pgina 37
5) Solucionar la ecuacin de autovalores. Se calculan los autovectores y autovalores correspondientes a la solucin de la ecuacin general de autovectores. Para ello se hace uso de una matriz diagonal (D), que indica la relevancia que tendr el dato yi, formada a partir de la suma por columnas de W, o por filas al ser W simtrica, y de la matriz Laplaciana (L). Una vez solucionada la ecuacin, se obtienen los autovectores a0,,al-1 ordenados de menos a mayor autovalor ( 0 < < l 1 ), como es posible observar a diferencia de PCA se utilizarn los autovectores correspondientes a los menores autovalores.
Dii = W ji
j
(12) (13)
L = D W
X L X T a = X D XT a
(14)
(15)
Como ya se explic brevemente en el estado del arte, captulo 2.2.3, en LPP existen algunos inconvenientes. El principal inconveniente que se puede encontrar es el de las matrices singulares [20]. Las matrices singulares se forman cuando al intentar resolver la solucin mnima de autovalores la dimensionalidad de los datos es mucho mayor al nmero de muestras (imgenes), es decir n >> N. Algunas soluciones a este problema, son kernelbased LPP [21] [22], two-dimensional LPP [23] y orthogonal LPP [24]. Para evitar esta situacin, todos estos mtodos realizan una reduccin del vector imagen de forma que n > N, o n = N. En el caso de este estudio, tambin se realiza esta reduccin, y se hace como hemos explicado haciendo uso de PCA.
Pgina 38
3.4.2 Reconocimiento
Para realizar el reconocimiento de imgenes con LPP se realizan unos pasos muy parecidos a los que se siguen con el mtodo PCA. Para una nueva imagen de test en el sistema el procedimiento a seguir es el siguiente:
1) Se realiza el mismo preprocesado que en PCA (pasos 1, 2 y 3 del captulo 3.2.2). 2) Se proyectan las imgenes. Para realizar este paso, se hace uso de la matriz de proyeccin de PCA y de la de LPP de manera que la imagen en el nuevo subespacio sigue la siguiente expresin:
y = WPCA i ALPP
) x
T
(16)
3) Se aplica un mtodo de decisin. En el caso de este estudio, del mismo modo que en los otros mtodos, se aplicar el criterio de distancia mnima.
Pgina 39
Pgina 40
4 Bases de datos
En este apartado se van a mostrar y comentar las propiedades de las bases de datos de imgenes que se han utilizado durante este proyecto. Cada una de estas bases de datos est tomada bajo condiciones diferentes. Por otra parte, cada una de estas bases de datos, est formada por un nmero distinto de imgenes y de sujetos.
Como es posible observar en la figura 31, en esta base de datos se pueden encontrar imgenes con diferentes posiciones y expresiones faciales (ojos abiertos/cerrados, sonriendo o no,), lo cual ser una dificultad aadida para el sistema. Del mismo modo se puede observar como en algunos sujetos, se tendrn imgenes con distintos detalles faciales (gafas o no, bigote o no,). Por ltimo decir que todas estas fotos han estado tomadas bajo unas condiciones de iluminacin y de fondo de imagen controladas. El tamao de todas estas imgenes es de 92x112 pxeles, con 256 niveles en la escala de grises para cada pxel.
Pgina 41
Como se observa en la figura 32, se trata de imgenes tomadas en un entorno controlado, bajo condiciones estables de iluminacin y con una variacin en la posicin facial y de expresin muy leves.
Las imgenes tomadas en entorno controlado, que en adelante se describirn como imgenes de la base BANCA Controlled (figura 33), presentan unas
Pgina 42
condiciones de iluminacin constantes a la vez que los cambios de posicin y expresin facial son pequeos.
Las imgenes pertenecientes al conjunto no controlado, en adelante BANCA Degraded (figura 34), presentan unas condiciones de iluminacin variable. En cuanto a la posicin de las caras se refiere, estas siguen siendo bastante frontales y con pequeos cambios en la expresin.
Como es posible observar en la figura 33 y 34, todas las imgenes han sido previamente convertidas a escala de grises y recortadas de modo que las imgenes solo contengan la cara.
Pgina 43
Estas imgenes son muy cambiantes y presentan situaciones de todo tipo como pueden ser cambios en la expresin facial, presencia o no de vello facial, gafas y cambios en la iluminacin no uniformes (figura 35).
Pgina 44
5 Resultados
En este captulo, se realizarn experimentos para evaluar el rendimiento de los mtodos de reconocimiento facial que se han estudiado en este proyecto. Cada uno de estos experimentos utilizar una determinada base de datos ya que cada una de stas presenta unas caractersticas diferentes que sern tiles para tener una idea ms clara y global del funcionamiento de cada uno de los mtodos de reconocimiento facial frente a diferentes condiciones.
Del mismo modo que sern evaluadas diferentes bases de datos, se tendr en cuenta la capacidad de las diferentes tcnicas que hacen uso de matrices de proyeccin para funcionar con unos buenos resultados si se utilizan matrices creadas con imgenes diferentes a las que se utilizaran para el reconocimiento.
Durante los siguientes resultados y para el caso concreto del mtodo LPP, se va a utilizar la siguiente configuracin ya que los resultados aunque son bastante similares para todos los casos, son levemente mejores utilizando estos parmetros (figura 36):
Mtodo de eleccin de los pesos Simple-minded. Construccin del grfico de adyacencia de manera supervisada. Parmetro t no tiene efecto al no utilizar Heat-Kernel.
De entre los experimentos que se realizarn, los habr enfocados a evaluar el tiempo necesario para el reconocimiento o la capacidad de cada una de las tcnicas de funcionar frente a condiciones adversas como son los cambios de luminosidad o los cambios en la posicin de las imgenes. Para evaluar cada una de estas situaciones se har uso de una determinada base de datos, de las expuestas en el captulo 4, utilizando una seleccin de imgenes como imgenes de entrenamiento y el resto, en general, como imgenes de referencia y test al mismo tiempo, aunque nunca se comparar una imagen con ella misma. En todos estos experimentos se realizar identificacin de las
Pgina 45
imgenes utilizando el criterio de distancia mnima [36], slo una imagen es la correcta.
Figura 36. Tasa de identificacin correcta obtenida para diferentes configuraciones en la creacin de la matriz de pesos LPP, utilizando pesos simple-minded y Heatkernel con diferentes valores de t, para el caso de utilizar imgenes de la base de datos ORL.
A la finalizacin de cada experimento se mostrar una tabla resumen con los resultados obtenidos mostrando el nmero de componentes para el que se obtiene la mxima tasa de reconocimiento, la tasa de reconocimiento mxima, y la tasa de reconocimiento para el nmero componentes escogido en las conclusiones como valor ptimo para una aplicacin general.
Para este experimento se har uso de las bases de datos XM2VTS y BANCA Controlled ya que se trata de conjuntos de imgenes tomadas bajo unas condiciones de iluminacin y fondo controladas a la vez que presentan pequeas variaciones en cuanto a la posicin de la cara y las expresiones faciales se refiere.
Pgina 46
Los parmetros que se van a utilizar para la realizacin de este experimento, son:
Base de datos XM2VTS, con 590 imgenes (2 imgenes por persona y 295 individuos) y la base de datos BANCA Controlled, con 1223 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo).
Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA, LPP y DCT. Matrices de proyeccin creadas con imgenes de la misma base de datos (590 para XM2VTS y 832 para BANCA Controlled) para los mtodos PCA y LPP.
Distancia Eucldea.
Como es posible observar en la figura 37, los resultados en el caso de utilizar las imgenes BANCA Controlled son muy elevados como ya esperbamos por la poca variabilidad de las imgenes pertenecientes a esta base de datos. La tasa de identificacin es muy alta para todos los mtodos, aunque cada mtodo presenta su respuesta particular al sistema. Una razn para este alto rendimiento es que tenemos unas 23 imgenes por individuo lo cual hace ms fcil para el sistema reconocer una imagen de entrada, ya que al tener muchas imgenes por individuo es ms sencillo que una de ellas cumpla la condicin.
El mtodo LPP es el que ofrece unos mejores resultados cuando se utilizan pocas componentes para el reconocimiento, mientras que los otros dos aumentan su rendimiento con el nmero de componentes hasta estabilizarse para un cierto valor.
Para el caso de utilizar las imgenes XM2VTS, los resultados se pueden ver en la figura 38. Como se puede observar, la tasa de identificacin correcta es muy inferior a la obtenida para el caso anterior. Esto es debido en gran medida a que el experimento es ms complejo para el sistema ya que se tienen muchos ms individuos tanto en el set de referencia como en el de test y adems ahora
Pgina 47
solo hay 2 imgenes representando a cada individuo de manera que una imagen de entrada solo podr corresponderse con otra del set de referencia. Esto afecta de una manera muy importante ya que cuantas ms imgenes de un mismo individuo tengamos, ms fcil es para el sistema decidir cual es la imagen correcta. Las imgenes que componen esta base de datos estn afectadas por pequeas variaciones de posicin, expresin e iluminacin, pero al ser estos prcticamente despreciables no se consideran un factor relevante para el bajo rendimiento del sistema.
Figura 37. Tasa de identificacin correcta para la base de datos BANCA Controlled
Nuevamente
LPP
ofrece
unos
mejores
resultados
para
nmero
de
componentes bajo mientras que los otros dos mtodos mejoran cuantas ms
Pgina 48
componentes se utilizan. En este caso LPP ofrece la mejor tasa de identificacin correcta.
Como conclusin de este primer experimento, se puede decir que el uso de un nmero reducido de imgenes por sujeto, en bases de datos muy grandes, puede afectar negativamente al sistema, es decir, el funcionamiento del sistema se incrementar cuanto mayor sea el ratio entre imgenes totales y el nmero de sujetos, esto lo veremos con ms detalle en el siguiente apartado (5.2).
BANCA Controlled
Mtodo PCA DCT LPP Nmero de componentes max. Rendimiento 44 29 23 Tasa de reconocimiento (%) 100 99,9182 99,8365 Tasa de reconocimiento (Nmero componentes) 100% (55) 99.8365% (80) 99.6729% (40)
XM2VTS
Mtodo PCA DCT LPP Nmero de componentes max. Rendimiento 97 100 49 Tasa de reconocimiento (%) 45,4237 45,2542 48,6441 Tasa de reconocimiento (Nmero componentes) 43.7288% (55) 41.8644% (80) 47.9661% (40)
Tabla 2. Detalle de resultados Captulo 5.1. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Los parmetros del sistema que se van a utilizar son los siguientes
Base de datos XM2VTS, con 590 imgenes (2 imgenes por persona y 295 individuos), de esta base se utilizarn diferentes configuraciones con diferente nmero de individuos (50, 100, 200, 295).
Pgina 49
Los sistemas de reconocimiento PCA, DCT y LPP. Matrices de proyeccin creadas con imgenes de la misma base de datos (590). Distancia Eucldea.
Como es posible observar en las figuras 39a, 39b, 39c y 39d, la tasa de identificacin correcta mejora a medida que se utilizan menos individuos para el reconocimiento obteniendo su mejor rendimiento para 50 individuos. De este modo se verifica la conclusin del apartado anterior donde se dijo que el funcionamiento del sistema mejora cuanto mayor es el ratio entre nmero de imgenes y el nmero de sujetos en las imgenes de referencia. Con esto se obtiene que cuando se haga uso de muchos individuos en el set de referencia el sistema requerir muchas imgenes por cada uno de ellos, de no ser as el rendimiento se ver afectado.
Pgina 50
Los resultados obtenidos son parecidos a los del apartado anterior, es decir, LPP obtiene una tasa de identificacin mayor para un nmero de componentes bajo y a partir de un cierto punto se ve superado por los otros mtodos.
XM2VTS 50 individuos
Mtodo PCA DCT LPP Nmero de componentes Tasa de Tasa de reconocimiento max. rendimiento reconocimiento (%) (Nmero componentes) 73 94 57 68,6275 68,6275 70,5882 63.72.55% (55) 64.7059% (80) 65.6863% (40)
Tabla 3.1. Detalle de resultados Captulo 5.2. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Pgina 51
Tabla 3.2. Detalle de resultados Captulo 5.2. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Se va a contemplar dos casos, uno en el que se intentar minimizar los problemas producidos por los cambios en la iluminacin normalizando las imgenes en la etapa de preprocesado (procedimiento utilizado en el experimento anterior), y otro caso en el que lo que se har ser descartar las primeras componentes de las imgenes proyectadas, que son las que ms se ven afectadas por los cambios de iluminacin en PCA y DCT, para ver como afecta a LPP. En el caso de DCT nunca realizamos esta normalizacin previa de las imgenes sino que se descarta el primer coeficiente correspondiente a la componente continua, como consecuencia, al analizar el primer caso, normalizacin, se mostrarn los resultados obtenidos de descartar el primer coeficiente.
Se har uso de la base de datos BANCA Degraded, para ver el efecto de cambios en la iluminacin uniformes, y YALE, para ver como responde el sistema cuando estos cambios de iluminacin no son uniformes.
Pgina 52
5.3.1 Normalizacin
El procedimiento consiste en normalizar las imgenes en la etapa de preprocesado de modo que se atenen los efectos de los cambios de iluminacin. Este preprocesado se ha explicado en los captulos 3.2 y 3.4.
BANCA Degraded, con 1158 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo) y YALE, con 45 imgenes (15 individuos y 3 imgenes por persona).
Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA, LPP y DCT. Matrices de proyeccin creadas con imgenes de la misma base de datos para los mtodos PCA y LPP (770 para BANCA Degraded y 105 para YALE).
Distancia Eucldea.
Los resultados obtenidos, para cambios de iluminacin uniformes, son los que se pueden ver en la figura 40, donde se puede observar que aunque se estn usando imgenes tomadas en un entorno no controlado, la tasa de identificacin correcta es muy elevada. Las razones por las que se tiene un rendimiento tan alto del sistema, son varias.
En primer lugar, est el hecho de que nuevamente, igual que con BANCA Controlled, se utilizan muchas imgenes de referencia para cada individuo haciendo as ms fcil para el sistema el reconocimiento.
En segundo lugar, aunque son imgenes tomadas en un entorno no controlado, la iluminacin solo cambia de individuo a individuo y no entre imgenes de un mismo individuo, y estos cambios de iluminacin son uniformes.
Pgina 53
En tercer y ltimo lugar, se debe tener en cuenta que las imgenes utilizadas son de buena calidad y con pocos cambios de expresin y posicin facial a pesar de ser tomadas en un entorno no controlado.
Los resultados obtenidos para todos los mtodos son parecidos y ninguno destaca sobre los dems.
Figura 40. Tasa de identificacin correcta para el caso de cambios de iluminacin uniformes utilizando normalizacin.
Cuando los cambios de iluminacin no son uniformes, figura 41, la tasa de identificacin correcta del sistema se ve ms afectada y los resultados son inferiores a los obtenidos para los experimentos anteriores. Como es posible observar en el grfico, DCT mejora su rendimiento cuanto mayor es el nmero de componentes utilizado hasta estabilizarse entorno a las 60 componentes. En el caso PCA y LPP se obtienen las mejores tasas de identificacin correcta para un nmero de componentes bajo y a medida que ste aumenta su rendimiento se ve reducido. La mejor tasa de reconocimiento la tenemos utilizando el mtodo LPP.
Pgina 54
Figura 41. Tasa de identificacin correcta para el caso de cambios de iluminacin no uniformes utilizando normalizacin.
BANCA Degraded
Mtodo PCA DCT LPP Nmero de componentes max. rendimiento 65 100 73 Tasa de reconocimiento (%) 96,3731 96,7185 95,6822 Tasa de reconocimiento (Nmero componentes) 96.0276% (55) 96.5458% (80) 95.1641% (40)
YALE
Mtodo PCA DCT LPP Nmero de componentes max. rendimiento 14 29 17 Tasa de reconocimiento (%) 84.4444 84.4444 86.6667 Tasa de reconocimiento (Nmero componentes) 80% (55) 80% (80) 77.7778% (40)
Tabla 4. Detalle de resultados captulo 5.3.1. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Se van a analizar tres casos que se corresponden con el nmero de componentes descartados en cada caso (1, 3 y 5 componentes), de manera que podamos ver bien el efecto de este procedimiento.
Los parmetros que se van a utilizar para la realizacin de este experimento, son los mismos que en el apartado anterior. Al descartar 1 coeficiente, los
Pgina 55
resultados utilizando DCT son los mismos que en el caso de normalizar las imgenes ya que en DCT siempre se descarta el primer coeficiente en lugar de hacer una normalizacin. Los parmetros utilizados son:
BANCA Degraded, con 1158 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo) y YALE, con 45 imgenes (15 individuos y 3 imgenes por persona).
Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA, LPP y DCT. Matrices de proyeccin creadas con imgenes de la misma base de datos para los mtodos PCA y LPP (770 para el caso de utilizar la base BANCA Degraded y 105 en el caso de YALE).
Distancia Eucldea.
En la figura 42, se pueden observar los resultados de los experimentos para el caso de cambios de iluminacin uniformes. Como es posible observar, los resultados para el caso de descartar 1 coeficiente, sin tener en cuenta DCT, son parecidos a los del caso normalizado aunque levemente por debajo. En los otros dos casos los resultados son inferiores respecto utilizar normalizacin en la etapa de preprocesado.
El efecto de este procedimiento sobre cada mtodo es distinto, se puede ver que el mtodo LPP se ve ligeramente ms afectado que los otros dos. Esto puede deberse a que los coeficientes utilizados en LPP son los obtenidos de proyectar las imgenes con los autovectores correspondientes a los autovalores ms bajos y stos estn menos afectados por estos cambios de iluminacin.
En el caso de tener cambios de iluminacin no uniformes, figura 43, el efecto es parecido al caso anterior. La mejor tasa de reconocimiento se vuelve a obtener en el caso de descartar un solo coeficiente pero a diferencia del caso anterior, la tasa de reconocimiento no se ve reducida al descartar 1 coeficiente e incluso obtenemos un mejor rendimiento para LPP. A medida que vamos
Pgina 56
descartando ms coeficientes la tasa de reconocimiento se reduce de manera muy notoria para LPP, de manera suave para PCA y prcticamente nada en el caso de DCT.
Como conclusin de este apartado se puede decir que el mtodo con el que funciona mejor esta tcnica es con DCT, mientras que para el caso LPP este procedimiento afecta de manera muy negativa en los resultados sobretodo si descartamos ms de 1 coeficiente.
Figura 42. Tasa de identificacin correcta para el caso de cambios de iluminacin uniformes descartando coeficientes.
Figura 43. Tasa de identificacin correcta para el caso de cambios de iluminacin no uniformes descartando coeficientes.
Pgina 57
Tabla 5. Detalle de resultados Captulo 5.3.2. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Pgina 58
Los parmetros que se van a utilizar para la realizacin de este experimento, son los siguientes:
Base de datos Olivetti, 200 imgenes (5 imgenes por persona y 40 individuos). Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA, LPP y DCT. Matrices de proyeccin creadas con imgenes de la misma base de datos (200 imgenes). Distancia Eucldea.
Como es posible ver en los resultados de la figura 44, la respuesta obtenida para cada mtodo es distinta.
Para PCA, el sistema mejora su tasa de identificacin correcta a medida que aumentamos el nmero de componentes hasta que el sistema se estabiliza. Este mtodo es el que ofrece la menor tasa de identificacin correcta.
En segundo lugar, DCT se comporta de una manera muy parecida a PCA pero obteniendo unos niveles de funcionamiento alrededor al 3% mejores. Como sucede con PCA el sistema aumenta su rendimiento hasta estabilizarse.
Por ltimo, LPP es el mtodo que ofrece un rendimiento ms alto al utilizar imgenes que presentan una alta variabilidad en el aspecto. La tasa de identificacin correcta, como ya suceda en el apartado 5.3.2 con cambios de iluminacin no uniformes y variacin en el aspecto de las caras (YALE), es ms elevada para un nmero de componentes bajo y luego a partir de unas 45 se reduce. Esto puede ser interesante para aplicaciones que requieran de un reconocimiento muy rpido ya que como menor es el nmero de componentes, menor es el tiempo de respuesta del sistema.
Como conclusin de este apartado, podemos decir que LPP es el mtodo que mejor funciona frente a variaciones en el aspecto de las caras. Los otros
Pgina 59
mtodos tambin ofrecen una tasa de identificacin elevada an tratndose de imgenes con cambios de posicin facial bastante destacables, pero se debe tener en cuenta que las imgenes de referencia solo contienen a 40 individuos con 5 imgenes para cada uno de ellos, echo que hace que sea mas fcil el reconocimiento que por ejemplo en el caso de usar la base de datos XM2VTS.
Figura 44. Tasa de identificacin correcta para imgenes con variaciones en el aspecto de las caras.
Olivetti (ORL)
Mtodo PCA DCT LPP Nmero de componentes max. rendimiento 41 27 25 Tasa de reconocimiento (%) 89,5 93 96 Tasa de reconocimiento (Nmero componentes) 89% (55) 91.5% (80) 96% (40)
Tabla 6. Detalle de resultados Captulo 5.4. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Pgina 60
Se realizarn tres tipos de entrenamiento. Primero se entrenar el sistema con imgenes de una base de datos totalmente distinta a la que se utilizar en el reconocimiento (ORL para el reconocimiento y BANCA Degraded para el entrenamiento). En el segundo caso, se utilizarn imgenes de los mismos individuos pero tomadas bajo unas condiciones diferentes (BANCA Controlled para el reconocimiento y BANCA Degraded para el entrenamiento). Por ltimo, se realizar el entrenamiento con todas las imgenes utilizadas para tal efecto de todas las bases de datos (2393 imgenes) para poder ver el funcionamiento de estos mtodos con una matriz de proyeccin generalizada.
Tericamente, la utilizacin de imgenes distintas para el entrenamiento, debera implicar un reto para estos mtodos ya que la matriz de proyeccin que se utilizar no definir bien el nuevo subespacio.
Para este experimento, se han utilizado los siguientes parmetros del sistema:
Base de datos Olivetti para el reconocimiento, formada por 200 imgenes (5 imgenes por persona con 40 individuos) y base de datos BANCA Controlled, formada por 1223 imgenes (52 individuos distintos con aproximadamente 23 imgenes por sujeto).
Base de datos BANCA Degraded para el entrenamiento del sistema (770 imgenes) y conjunto de imgenes de todas las bases (2393 imgenes). Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA y LPP. Distancia Eucldea.
Los resultados obtenidos son los de la figura 45, para el caso de utilizar las imgenes de la base de datos Olivetti para el reconocimiento, la figura 46 para el caso BANCA Controlled y la figura 47 y 48 para el caso de utilizar la matriz de proyeccin generalizada.
Como se puede observar en las grficas, los resultados para el segundo caso son muy parecidos a los obtenidos en el captulo 5.1 cuando se entrenaba el
Pgina 61
sistema con imgenes tomadas bajo las mismas condiciones, mientras que para el primer caso el rendimiento ha variado por completo.
Figura 45. Tasa de identificacin correcta obtenida utilizando para el reconocimiento imgenes de la base de datos ORL y entrenando el sistema con imgenes de la base de datos BANCA Degraded.
En el primer caso, a diferencia del apartado 5.4, LPP incrementa su tasa de identificacin con el nmero de componentes utilizado hasta estabilizarse obteniendo una tasa mxima inferior mientras que PCA sigue mejorando su tasa de identificacin cuantas ms componentes se utilizan pero en este caso mejora su tasa mxima de identificacin.
Figura 46. Tasa de identificacin correcta obtenida utilizando para el reconocimiento imgenes de la base de datos BANCA Controlled y entrenando el sistema con imgenes de la base de datos BANCA Degraded.
En el segundo caso, utilizando BANCA Controlled para el reconocimiento, los resultados son muy parecidos a los obtenidos en el apartado 5.1. La nica diferencia es una leve disminucin en la tasa de identificacin correcta para
Pgina 62
ambos casos pero esta es poco apreciable al ser el funcionamiento del sistema para este caso casi perfecto.
En el tercer caso, utilizando una matriz de proyeccin generalizada, la tasa de reconocimiento se ve reducida considerablemente para las imgenes ORL mientras que para BANCA Controlled los resultados son prcticamente los mismos. La diferencia entre un caso y el otro es que aunque se hace uso de imgenes de todas las bases de datos para el entrenamiento, el nmero de imgenes utilizadas de cada una es distinto, y mientras ORL aporta 200 imgenes, BANCA Controlled junto BANCA Degraded, los dos grupos son imgenes de los mismos sujetos, aportan 1600. Esto har que el sistema este mejor definido para las bases de datos que aporten ms imgenes al entrenamiento.
Como conclusin de este apartado se puede decir que el mtodo LPP se ve ms afectado al ser entrenado con imgenes de distintas personas a las que se van a reconocer, mientras que PCA lo que realmente necesita es un elevado nmero de imgenes para el entrenamiento sean o no de las mismas personas. En caso de utilizar una matriz de proyeccin generalizada, se ha observado que el funcionamiento del sistema se ve reducido si los sujetos que se van a reconocer no aportan un nmero de imgenes predominante en la fase de entrenamiento.
Figura 47. Tasa de identificacin correcta obtenida utilizando para el reconocimiento imgenes de la base de datos ORL y entrenando el sistema con imgenes de todas las bases de datos.
Pgina 63
Figura 48. Tasa de identificacin correcta obtenida utilizando para el reconocimiento imgenes de la base de datos BANCA Controlled y entrenando el sistema con imgenes de todas las bases de datos
Tabla 7. Detalle de resultados Captulo 5.5. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Pgina 64
en el de test, no presentarn unas mismas condiciones de iluminacin del mismo modo que sucedera utilizando este tipo de sistemas en la calle o un entorno no controlado.
Para la realizacin de este experimento, se van a utilizar nuevamente las imgenes de la base de datos BANCA. En concreto se utilizarn o bien imgenes del grupo Controlled como set de referencia y las del grupo Degraded en el de test o a la inversa.
Se contemplan 2 situaciones posibles, una primera en la que se har uso de un conjunto de imgenes de la misma base de datos que el set de referencia para el entrenamiento del sistema, y otra en la que se utilizarn imgenes de la misma base de datos que el set de test. Cuando se presenten estas 2 situaciones, en el primer caso se mostrarn y compararn los resultados de los tres mtodos (PCA, DCT y LPP), pero en el segundo ya no se comparan los referentes a DCT ya que cambiar las imgenes que se utilicen para entrenar el sistema no variar los resultados de este caso.
Para este experimento, se han utilizado los siguientes parmetros del sistema:
Base de datos BANCA Controlled, con 1223 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo).
Pgina 65
Base de datos BANCA Degraded, con 1158 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo). Imgenes de la base de referencia para el entrenamiento (832 para el caso Controlled y 770 para el caso Degraded). Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA, DCT y LPP. Distancia Eucldea.
Se estudiarn dos situaciones, una en el que se utilizarn las imgenes con condiciones de luz controladas (BANCA Controlled) como set de referencia y las imgenes con condiciones de luz no controladas (BANCA Degraded) como set de test (figura 49), y otra en el que se har a la inversa (figura 50).
La primera situacin es la configuracin ideal para una aplicacin futura ya que utiliza como set de referencia imgenes tomadas bajo condiciones controladas y imgenes bajo las mismas condiciones para entrenar el sistema, mientras que como imgenes de test se tienen las no controladas, que sern ms parecidas a las que recibe el sistema en una situacin prctica.
Como resultado a destacar, LPP es el que presenta unos mejores resultados hasta 80 componentes, aunque su mxima tasa de identificacin correcta no se ve superada por ninguno de los otros mtodos. Su mejor rendimiento se obtiene para un nmero de componentes bajo.
Los otros dos mtodos tienen un rendimiento muy discreto. En el caso de DCT, es comprensible que frente a cambios en las condiciones de iluminacin, entre las imgenes del set de test y referencia, su rendimiento empeore cualitativamente ya que es un mtodo sin entrenamiento previo. PCA tiene una tasa de identificacin ligeramente superior a DCT pero muy inferior a LPP.
En el segundo caso se observa como afecta al sistema utilizar como referencia imgenes tomadas bajo condiciones no controladas. El comportamiento del sistema para este caso es algo inferior que para el caso anterior. En la figura
Pgina 66
50 se ve como de nuevo el sistema obtiene su mejor tasa de identificacin utilizando LPP. A diferencia de antes LPP tiene una mejor tasa de reconocimiento para cualquier nmero de componentes. PCA y DCT presentan nuevamente un rendimiento muy inferior a LPP, y si se compara con el caso anterior este es inferior, perdiendo aproximadamente un 10% en la tasa de identificacin correcta.
Figura 49. Tasa de identificacin correcta obtenida utilizando la base de datos BANCA Controlled (referencia), Degraded (test) y entrenando el sistema con imgenes del grupo Controlled para los diferentes mtodos de estudio.
Figura 50. Tasa de identificacin correcta obtenida utilizando la base de datos BANCA Degraded (referencia), Controlled (test) y entrenando el sistema con imgenes del grupo Degraded para los diferentes mtodos de estudio.
Pgina 67
Durante este apartado, como se dijo al principio, no se compararn los resultados obtenidos con DCT, aunque se mostraran en los grficos como referencia, ya que estos no se ven afectados por el entrenamiento.
Base de datos BANCA Controlled, con 1223 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo). Base de datos BANCA Degraded, con 1158 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo). Imgenes de la base de test para el entrenamiento (832 para el caso Controlled y 770 para el caso Degraded). Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA y LPP. Distancia Eucldea.
Los resultados que hemos obtenido, son los que se pueden ver en las figuras 51 y 52. Como se puede observar, los resultados son inferiores a los obtenidos cuando se entrenaba al sistema con imgenes de la base de datos utilizada como set de referencia.
En la primera grfica, figura 51, en la que se utiliza como set de referencia imgenes del grupo Controlled, la tasa de identificacin correcta es algo
inferior para LPP y superior para PCA que en el segundo caso (figura 52). LPP
Pgina 68
sigue mostrando una mejor tasa de identificacin para casi cualquier nmero de componentes vindose esta ligeramente reducida en comparacin al apartado anterior mientras que PCA presenta prcticamente los mismos resultados no vindose afectado por el nuevo entrenamiento.
La segunda grfica, figura 52, LPP presenta unos resultados inferiores a los obtenidos en el segundo caso del apartado 5.6.1 mientras que para PCA son prcticamente los mismos. Nuevamente LPP es el mtodo que presenta una mejor tasa de identificacin correcta.
Figura 51. Tasa de identificacin correcta obtenida utilizando la base de datos BANCA Controlled (referencia), Degraded (test) y entrenando el sistema con imgenes del grupo Degraded para los diferentes mtodos de estudio.
Figura 52. Tasa de identificacin correcta obtenida utilizando la base de datos BANCA Degraded (referencia), Controlled (test) y entrenando el sistema con imgenes del grupo Controlled para los diferentes mtodos de estudio.
Pgina 69
Como conclusin de este apartado hemos podido ver que el sistema tiene su mejor rendimiento si se utilizan como set de referencia imgenes con buena calidad y tomadas en un entorno controlado a la vez que se utilicen imgenes tomadas bajo las mismas condiciones para realizar el entrenamiento del sistema. Por otro lado, hemos podido ver que el mtodo que ofrece unos mejores resultados para este tipo de situaciones es LPP.
Tabla 8. Detalle de resultados Captulo 5.6 y resultados de los captulos 5.1 y 5.3.1. En la primera columna: nmero de componentes mxima tasa de identificacin, segunda columna: mxima tasa de identificacin, tercera columna: tasa de identificacin para el nmero de componentes elegido para el caso general.
Pgina 70
Para la realizacin de este experimento no se tendr en cuenta la utilizacin de una u otra base de datos ya que el tiempo necesario para la ejecucin del sistema no depender del conjunto de imgenes utilizado sino del nmero de componentes y los diferentes procedimientos que se realizan sobre las imgenes en cada uno de los casos. En concreto para este experimento se ha optado por utilizar las imgenes ORL.
Los parmetros del sistema utilizados para este experimento son los siguientes:
Base de datos Olivetti, formada por 400 imgenes (10 imgenes por persona con 40 individuos). Nmero de componentes variable de 10 a 100 componentes. Los sistemas de reconocimiento PCA, LPP y DCT.
No se tendr en cuenta la preparacin previa que requiera cada sistema, en caso de que la necesite. Esto es debido a que una vez instalado el sistema estos procedimientos no se debern realizar de nuevo y para el usuario esa preparacin previa ser transparente pues no se ver reflejada en su funcionamiento.
Se va a ver el tiempo necesario para realizar un reconocimiento individual. Como se puede ver en la figura 53, todos los mtodos tienen unos requisitos de tiempo parecidos ya que bsicamente se trata de comparar 2 vectores de un tamao determinado. La diferencia de tiempos entre un mtodo y otro radica en el preprocesado que se debe realizar a las imgenes antes de calcular la distancia. Mientras que en el caso de DCT lo nico que se debe hacer es
Pgina 71
calcular la transformada en cuestin, los otros dos mtodos adems deben normalizar y preparar las imgenes previamente para ser proyectadas en los nuevos subespacios. Aun as el tiempo necesario no se incrementa de una manera destacable.
Otra cosa que se puede observar es que, como es lgico el tiempo necesario para hacer el reconocimiento aumenta con el nmero de componentes utilizadas. En este aspecto podemos ver como tanto PCA como LPP incrementan el tiempo necesario de una manera parecida, casi lineal ( t= iti ) mientras que en DCT este incremento es poco notable.
Figura 53. Grfico de la eficiencia computacional para un reconocimiento individual en funcin del nmero de componentes utilizado.
Como conclusin, se puede decir que el mtodo DCT es el ms rpido para el reconocimiento de una imagen. Una de las razones principales por las cuales es el mtodo ms rpido es que no requiere de una matriz de proyeccin sino que lo que se hace es una transformacin directa de la imagen. Aun as, todos los mtodos serian adecuados para un sistema de reconocimiento en tiempo real ya que todos ellos requieren de tiempos parecidos y reducidos.
Pgina 72
Una vez analizado el funcionamiento de cada uno de los mtodos para diferentes situaciones, se ha implementado una aplicacin Query By Example, que es muy parecida a la que ofrecen los programas picasa de Google e iPhoto de Apple. Dada una imagen de test, esta aplicacin, realiza el reconocimiento y devuelve las 5 imgenes que tienen una menor distancia, en el nuevo subespacio, con la imagen de entrada una vez proyectada. En la ejecucin de la aplicacin se puede seleccionar cuales sern los parmetros utilizados para el reconocimiento (imgenes de test, imgenes de referencia, mtodo a utilizar, nmero de componentes, matriz de proyeccin utilizada).
Para poder evaluar el funcionamiento de esta aplicacin frente a una situacin lo ms real posible, se va a utilizar con las condiciones reproducidas en el apartado 5.6.1 y en concreto para el caso ms favorable en que se utilizan las imgenes tomadas bajo condiciones controladas como referencia. En cuanto a la eleccin del nmero de componentes utilizado, se han escogido los valores que daban un mximo rendimiento en ese experimento en particular, aunque estos valores puedan no ser los ms adecuados en otras condiciones. Los parmetros utilizados son:
Base de datos BANCA Controlled, con 1223 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo), como imgenes de referencia.
Base de datos BANCA Degraded, con 1158 imgenes (52 individuos distintos y con aproximadamente 23 imgenes para cada individuo), como imgenes de test.
Imgenes de la base de referencia para el entrenamiento (BANCA Controlled 832). Nmero de componentes variable segn el mtodo (95 PCA, 99 DCT, 31 LPP). Los sistemas de reconocimiento PCA, DCT y LPP.
Pgina 73
Distancia Eucldea.
Los resultados obtenidos para la imagen de entrada de la figura 54, son los que se pueden observar en la figura 55. Como es posible observar en la imagen, se verifican los resultados obtenidos en el apartado 5.6.1, el sistema funciona correctamente para el caso de LPP obteniendo 5 resultados correctos de entre los primeros 5, mientras que en los otros casos el sistema no tiene un correcto funcionamiento. De los mtodos PCA y DCT, en ninguna ocasin, tenemos un reconocimiento correcto de entre los 5 primeros.
Figura 54. Imagen que hemos utilizado para la entrada del sistema.
Figura 55. Resultados para cada uno de los mtodos (primera fila PCA, segunda DCT y tercera LPP). De izquierda a derecha resultados de la primera a la quinta posicin.
Pgina 74
Consiste en una aplicacin en tiempo real para ver el rendimiento del sistema en un entorno de funcionamiento prctico. Para la realizacin de esta aplicacin se ha utilizado partes de cdigo ya existentes en la plataforma ImaGeplus del Grupo de Procesado de Imagen y Video de la UPC las cuales han sido modificadas para que funcionen con LPP. La aplicacin se ha utilizado en el entorno de la smart room de la UPC y consiste en detectar y reconocer los individuos que entran en la sala.
Esta aplicacin se ha ejecutado haciendo uso de un video ya obtenido de dicha sala y se ha ejecutado toda en un hilo, sin hacer uso de diferentes procesadores ni ejecuciones en paralelo, de manera que para la creacin del video final, que se adjunta con el CD del proyecto, no se ejecuta en tiempo real propiamente dicha aunque se podra configurar para tal caso.
Esta aplicacin realiza reconocimiento facial basado en video con fusin de los resultados individuales [33], es decir, no se muestran los reconocimientos instantneos sino que se hace uso del resultado acumulado de las ltimas N imgenes (N=10). De este modo, el resultado mostrado en el video es ms estable y se evita que vare constantemente en caso de reconocimiento incorrecto. Para realizar este reconocimiento, aunque se hace uso de modelos para identificar a los individuos, seguimos empleando el criterio de distancia mnima aunque en este caso se utiliza la distancia Manhattan.
Las imgenes utilizadas para esta aplicacin, son sin recortar y presentan caras en diferentes posiciones y expresiones. Sobre estas imgenes se detectarn las caras frontales y laterales haciendo uso del detector facial ViolaJones. Esta deteccin puede no ser siempre correcta o puede no poderse realizar, en este caso no se muestra ningn resultado.
Pgina 75
Los mtodos utilizados para la ejecucin de esta aplicacin han sido DCT y LPP. El nmero de componentes utilizado para el reconocimiento en cada caso ha sido el que se ha determinado como ms adecuado para un sistema general.
Imgenes obtenidas del video de la sala como set de test (se trata de 2706 imgenes no recortadas con 12 individuos diferentes). Modelos creados a partir de las imgenes de entrenamiento usados como set de referencia (aproximadamente disponemos de unas 200 imgenes recortadas para cada individuo).
Entrenamiento realizado con las imgenes utilizadas para la creacin de modelos (un total de 3252 imgenes). Nmero de componentes variable segn el mtodo (80 DCT, 40 LPP). Los sistemas de reconocimiento DCT y LPP. Distancia Manhattan
Los resultados obtenidos del uso de esta aplicacin son los que se pueden ver en los videos adjuntos en el CD final del proyecto, y para ver de manera exacta el funcionamiento se muestran en la tabla 10 las tasas de reconocimiento instantneo para cada cara detectada y el acumulado de cada 10 imgenes.
Como se puede observar en la tabla los resultados instantneos, los referentes al reconocimiento en cada imagen donde se detecta una cara, son muy parecidos en los dos mtodos. En este punto debe tenerse en cuenta que se reconocen imgenes de muy baja calidad (justo cuando la persona entra por la puerta) provenientes de un video entrelazado que inducen fcilmente a error.
Pgina 76
Tambin se ha de tener en cuenta que se han utilizado los parmetros escogidos para el caso general y aunque para DCT a partir de cierto nmero de componentes su funcionamiento es bastante estable, para LPP en situaciones muy extremas, vase apartados 5.3 y 5.4, tiene su mejor funcionamiento para un nmero de componentes muy bajo, y en este caso las imgenes son con orientaciones muy variables.
En la segunda columna de la tabla se puede ver la tasa de reconocimiento acumulada, la cual es el indicador ms importante en esta aplicacin ya que se asigna una etiqueta a un individuo en concreto mediante este parmetro. Se puede observar que LPP supera con claridad a DCT en este parmetro an teniendo peor tasa de reconocimiento instantnea. Esto indica que LPP es capaz de reconocer de forma constante a prcticamente todos los individuos mientras que DCT para algunos individuos no es capaz de realizar un buen reconocimiento.
Pgina 77
Pgina 78
Una vez se ha evaluado el funcionamiento de cada uno de los tres mtodos de estudio frente a diferentes situaciones, se ha podido obtener informacin sobre el tipo de entrenamiento que requieren los sistemas o el nmero de componentes necesarios para obtener unos valores de reconocimiento aceptables.
Como se ha explicado durante este documento, los mtodos PCA y LPP requieren de un entrenamiento previo del sistema. La manera de realizar este entrenamiento, como se ha podido ver en el captulo 5.5, afecta de manera distinta en cada caso. Mientras que para el caso de PCA es muy importante el nmero de imgenes utilizado, an siendo estas ligeramente diferentes a las que se usarn para el reconocimiento o con mucha variedad de individuos, mientras que en el caso de LPP se debe tener en cuenta de utilizar conjuntos de imgenes que contengan un elevado nmero de imgenes por individuo ya que de esta manera el sistema ofrece unos mejores resultados.
En cuanto al nmero de componentes utilizado para el reconocimiento, se ha podido ver que cada uno de los mtodos requiere un nmero de componentes diferente para obtener su mejor rendimiento. Al mismo tiempo se ha observado que el tipo de situacin en el que se va a utilizar el sistema afecta tambin a este nmero de componentes. A la hora de hacer una eleccin de este parmetro, se debe buscar un compromiso entre respuesta del sistema, entorno de uso y el tiempo necesario para el reconocimiento. A la finalizacin de este proyecto se han escogido cuales son los valores ptimos a usar en el caso de una aplicacin general, es decir, una aplicacin que puede enfrentarse a todas las situaciones contempladas en el captulo 5 con un funcionamiento correcto. Los valores han sido 55 componentes para PCA, 80 para DCT y 40 para LPP (los resultados obtenidos para estos valores se muestran en las tablas resumen de cada uno de los experimentos realizados) aunque estos pueden modificarse en caso de utilizar el sistema bajo unas condiciones muy
Pgina 79
concretas y conocidas con anterioridad. De los resultados obtenidos se ha llegado a la conclusin de que el sistema en un entorno controlado, con un correcto entrenamiento y con una buena base de imgenes de referencia, puede funcionar hasta con 20 componentes menos que las seleccionadas para caso general, mientras que para condiciones no controladas como cambios de orientacin de los rostros y cambios de iluminacin uniformes, el sistema tendr un rendimiento algo superior utilizando entre 10 y 20 componentes ms que las seleccionadas. En el caso de tener imgenes en condiciones extremas (iluminacin no uniforme y cambios de orientacin y expresin considerables) el sistema ofrece sus mejores resultados, utilizando LPP, para valores del nmero de componentes muy reducidos (10-30 componentes), como se puede ver en los captulos 5.3 y 5.4, ya que las primeras componentes son las que se ven menos afectadas por los cambios de iluminacin en este mtodo. Los casos de entrenamientos incorrectos o de bases de referencia que no cumplan un buen ratio entre el nmero total de imgenes y el nmero de individuos no se tienen en cuenta para la eleccin de estos valores ya que se presupone que al preparar un sistema de este tipo estos pasos se realizarn correctamente.
Despus de analizar el efecto de los cambios de iluminacin, los cambios en la posicin de los rostros y el tipo de imgenes utilizado como referencia, se puede decir que el mtodo ms consistente y que ofrece un mayor ndice de identificacin correcta es LPP, el cual adems es el ms eficaz frente a situaciones adversas para el sistema. Estas caractersticas mostradas por LPP seran muy apropiadas para sistemas de reconocimiento facial no intrusivos, como podran ser sistemas de vdeo vigilancia, ya que estos sistemas funcionan con imgenes que pueden presentar iluminacin variable y las imgenes no presentan una posicin frontal de las caras, situaciones en las que LPP ofrece mejor respuesta que los otros mtodos.
Como ya se dijo en la introduccin, este proyecto se ha centrado en la comparativa de diferentes mtodos de reconocimiento con el fin de escoger cual sera el ms apropiado para futuros trabajos o para futuras aplicaciones. La decisin que se tomara, a la vista de los resultados, sera la de utilizar el
Pgina 80
algoritmo LPP para el reconocimiento, aunque en futuros trabajos este sistema puede ser mejorado.
Algunas de las proposiciones que se realizan para trabajos futuros son utilizar pequeas variaciones del mtodo LPP original y hacer uso de otras tcnicas en la etapa de decisin. Es por ello que para futuros trabajos se recomienda el estudio de los mtodos derivados de LPP como son OLPP (Orthogonal laplacianfaces) [30] [32], ONPP (Orthogonal Neighborhood Preserving
Projections) [31] o DLPP Discriminant Locality Preserving Projections [29], a la vez que se implementen sistemas de decisin ms complejos que permitan hacer uso de modelos y hagan uso de imgenes en diferentes posiciones, teniendo en cuenta imgenes frontales y de perfil, para realizar el reconocimiento.
Por otro lado, ya que LPP preserva la estructura local de los datos y presenta un buen rendimiento frente a situaciones adversas, como cambios en la orientacin y expresiones faciales, se podra estudiar la posibilidad de utilizar este mtodo para el reconocimiento de expresiones faciales o estados de nimo (sonrisa, felicidad, tristeza). Tambin puede ser interesante ver si utilizar mtodos no supervisados para el entrenamiento de LPP puede ayudar a que el sistema tenga un mejor funcionamiento al ser entrenado con imgenes de individuos distintos a los que se tengan en el sistema.
Por ltimo y no solamente para el mtodo LPP se puede estudiar las ventajas de utilizar imgenes en color para mejorar las tasas de identificacin y otros mtodos de compensacin de los cambios de iluminacin.
Pgina 81
Pgina 82
9 Bibliografa
[1] Cognitec Systems GmbH, <[Link] [2] Eyematic Interfaces Inc., <[Link] [3] Viisage, Littleton, MA, <[Link] [4] Identix, Minnetonka, MN, <[Link] [5] International Biometric Group, <[Link] [6] [Link],Biometric identification promises fast and secure processing airline passengers, The Intl Civil Aviation Organitation Journal, vol. 55, no. 9, pp. 10-11, 2000. [7] Yale University face database, <[Link] Athinodoros Georghiades, Peter Belhumeur, and David Kriegman's paper, "From Few to Many: Illumination Cone Models for Face Recognition under Variable Lighting and Pose", PAMI, 2001. [8] Xiaoguang Lu, Image analisis for FACE Recognition, Department of Computer Science & Engineering, Michigan State University, May 2003. [9] Xiaoguang Lu, Dirk Colbry, and Anil K. Jain, Three-Dimensional Model Based Face Recognition, ICPR August 2004. [10] M. Kirby and L. Sirovich, Application of the Karhunen-Loeve procedure for the characterization of human faces IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 12, no. 1, pp. 103108, Jan. 1990. [11] Abdallah S. Abdallah, A. Lynn Abbott, and Mohamad Abou El-Nasr. A New Face Detection Technique using 2D DCT and Self Organizing Feature Map. Proceedings of World Academy of Science, Engineering and technology Vol. 21 May 2007 ISSN 1307-6884 [12] Ziad M. Hafed and Martin D. Levine. Face Recognition Using the Discrete Cosine Transform. International Journal of Computer Vision 43(3), 167188, 2001. [13] Yong Xu and David Zhang. A New Solution Scheme of Unsupervised Locality Preserving Projection Method for the SSS Problem, SSPR08
Pgina 83
(International Workshop on Structural, Syntactic, and Statistical Pattern Recognition ),775-781. [14] Xiaofei He & Partha Niyogi. Locality Preserving Projections, NIPS03 volume 16. [15] Duda R.,Hart P., Stork D.. Pattern Classification Captulo 4. [16] Jieping Ye, Ravi Janardan, Qi Li. Two-Dimensional Linear Discriminant Analysis, NIPS04 [17] Naotoshi Seo. Eigenfaces and Fisherfaces. University of Maryland [18] ORL face database <[Link] Ferdinando Samaria, Andy Harter, Parameterisation of a Stochastic Model for Human Face Identification, Proceedings of 2nd IEEE Workshop on Applications of Computer Vision, Sarasota FL, December 1994. [19] Hazim Kemal Ekenel, Rainer Stiefelhagen Local appearance based face recognition using discrete cosinus transform, 13th European Signal Processing Conference (EUSIPCO 2005). [20] Yong Xu and David Zhang. A New Solution Scheme of Unsupervised Locality Preserving Projection Method for the SSS Problem, SSPR08 (International Workshop on Structural, Syntactic, and Statistical Pattern Recognition ),775-781. [21] Cheng J., Liu Q., Lu H. Supervised kernel locality preserving projections for face recognition, Neurocomputing 67, 443449 (2005). [22] Feng G., Hu D., Zhang D., Zhou Z., An alternative formulation of kernel LPP with application to image recognition, Neurocomputing 69(13-15), 1733 1738 (2006). [23] Hu D., Feng, G., Zhou Z. Two-dimensional locality preserving projections (2DLPP) with its application to palmprint recognition, Pattern Recognition 40(1), 339342 (2007) [24] Cai, D., He, X. Orthogonal locality preserving indexing, SIGIR 2005, pp. 310 (2005) [25] XM2VTS face database <[Link] K. Messer, J. Matas, J. Kittler, XM2VTSDB: The extended M2VTS Database, AVBPA99. [26] Biometric Source information website, <[Link] [27] Face Recognition Homepage, <[Link]
Pgina 84
[28] BANCA face database, <[Link] K. Messer, J Kittler, M. Sadeghi, Face Authentifacacion Competition on th BANCA Database, ICPR04. [29] Weiwei Yu, Xiaolong Teng, and Chongqing Liu, Discriminant Locality Preserving Projections: A New Method to Face Representation and Recognition, Proceedings 2nd Joint IEEE International Workshop on VS-PETS, Beijing, October 15-16, 2005. [30] Zhonglong Zheng, Jianmin Zhao, Locality Preserving Projection in Orthogonal Domain, 2008 Congress on Image and Signal Processing. [31] E. Kokiopoulou and Y. Saad, Orthogonal Neighborhood Preserving Projections, IEEE Int. Conf. on Data Mining (ICDM) 2005. [32] D. Cai, X. He, J. Han, and H. Zhang, "Orthogonal Laplacianfaces for Face Recognition", IEEE Transactions on Image Processing, vol. 15, no. 11, pp. 3608-3614, November, 2006. [33] PFC Edison Cristfani Video-based face recognition using multiple face orientations, Department of Signal Theory and comunications UPC. [34] PFC Claudi Martnez FACE recognition in the context of Smart Rooms, Department of Signal Theory and comunications UPC. [35] P. J. Phillips, H. Moon, S. A. Rizvi, and P. J. Rauss, The FERET evaluation methodology for face-recognition algorithms, IEEE Trans. Pattern Anal. Mach. Intell., vol. 22, no. 10, pp. 10901104, Oct. 2000. [36] J. Wang, K. N. Plataniotis, J. Lu, and A. N. Venetsanopoulos, On solving the face recognition problem with one training sample per subject, Pattern Recognit., vol. 39, no. 6, pp. 17461762, Sep. 2006.
Pgina 85
Pgina 86