0% encontró este documento útil (0 votos)
17 vistas12 páginas

Resumen Computer Visión (0, 1, 2)

Cargado por

brunolongopsico
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
17 vistas12 páginas

Resumen Computer Visión (0, 1, 2)

Cargado por

brunolongopsico
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Repaso:

Tecnología de pantalla RGB: en las pantallas, un píxel es un conjunto de tres su píxeles:


rojo, verde y azul.

Manipulación digital de img: ajustar los valores de las componentes de los píxeles (0 a 255).

Img como numpy arrays: en python OpenCv, almacena en memoria como arrays
multidimensionales.

Almacenamiento de img en memoria: imagen como matriz de píxeles, con color e


intensidad. En escala de grises, un valor de intensidad.

Representación con numpy: tupla de enteros positivos


- Escala de grises: array 2D, shape (alto, ancho)
- A color: array 3D, shape (alto, ancho, canales)

Tipo de dato: cada píxel en un entero sin signo de 8 bits.

Escala de grises: ventajas


- Simplifica la información: reduce la complejidad de los datos, acelerando el
procesamiento.
- Reducción del procesamiento computacional
- Mejora en el análisis de img: simplifica los algoritmos sin comprometer su eficacia.
- Conservación de la luminancia (brillo)

Fórmula: OpenCv pondera los colores según como el ojo humano percibe el brillo de cada
uno.

Unidad 1: Dispositivos para la captura de imágenes

Arquitectura de dispositivos para la captura de imágenes

Cámara: dispositivo de detección remota que captura y almacena o transmite imágenes. La


luz se recoge y enfoca a través de un sistema óptico sobre un sensor que convierte la luz en
información mediante procesos químicos o electrónicos.

Cámara oscura: caja o habitación oscura con un agujero que deja entrar luz, que se enfoca
en la pared opuesta, que se captura con un material fotosensible.

Avances tecnológicos:
- Dispositivos de carga acoplada (CCD): inician y detienen la exposición de todos los
píxeles al mismo tiempo (obturador global), luego transfiere la carga de exposición al
registro de desplazamiento horizontal (para ser le leídas como voltajes), que se
envía al amplificador de difusión flotante.

- Alta eficiencia cuántica (sensible a la luz).


- Alta uniformidad de píxeles.Baja velocidad de transferencia de carga
(<20fps).

- Tecnología Sensores Semiconductores Complementarios de Óxido Metálico


(CMOS):
- Antes tenían obturador de rodadura (detienen la exposición de una fila de
píxeles), ahora global.
- Usan convertidores analógicos-digitales (ADC), lo que permite velocidades
de fotogramas más altas y adquisición de regiones de interés (ROI).
- Más propenso al ruido por los transistores de lectura y al ruido de patrón fijo.
- Sensor de imagen: tiene un paquete de almohadillas que lo conectan a la
PCB (placa de circuito impreso).
- Chip: array de píxeles (elementos sensibles a la luz).
- Conectores: conectan los pixeles para comunicar con el resto de la
electrónica del chip para traducir la info que se captura con señales eléctricas
y luego pasa a info digital

Características del sensor

Tamaño del sensor: indica las dimensiones de la imagen (pulgadas). Más grande el tamaño
de los píxeles más captación de luz.

Resolución espacial: número de elementos activos (píxeles). Más resolución menos tamaño
de píxeles (menos sensibles a la luz, más ruido).
Sensores monocromático y color (de luz visible):
- Color tiene una capa debajo de la micro lente (filtro de color) que absorve las
longitudes de onda de color no deseadas, para que cada pixel sea sensible a una
longitud de onda específica.

Tipos de obturador

Obturador global: todos los píxeles comienzan y terminan la exposición al mismo tiempo, la
lectura se realiza línea por línea.
- Imágenes sin distorsión, sin vibraciones ni deformaciones.
- Imágenes de objetos en movimiento a alta velocidad

Obturador de rodadura: el tiempo de exposición es diferente línea por línea, con el reinicio y
la lectura en tiempos desplazados.
- Produce una distorsión en la imagen si está en movimiento.
- Muy sensible al movimiento.

Lentes

Distancia focal: (f) distancia entre el centro óptico de la lente y el foco.

Distancia de trabajo: (s)


Función: enfocar la luz procedente de un objeto para formar una imagen nítida.

Lente convergente:
- Convexa
- Enfocar los rayos de luz que inciden hacia un punto focal.
- Distancia focal positiva.

Campo de visión (FOV)


FOV: alcance observable.
- El FOV puede ser ajustado modificando la f de la lente, menos f FOV más amplio (se
ve más de la escena pero con menor detalle).

Dimensiones: Beta: plano horizontal. Alpha: plano vertical. Omega: plano diagonal al sensor.
Formados por los rayos de luz que pasan desde los bordes del sensor hasta el punto focal
de la lente, extendiéndose hacia la escena observada. Determinan cuánta área de la
escena frente a la cámara puede ser capturada por la imágen.

Cálculo de la distancia focal de una lente: f mide la capacidad de un sistema óptico para
converger (enfocar) o diverger la luz, se expresa en mm. Si f>0 los rayos de luz serán
convergidos y f<0 serán divergidos.

Sistemas ópticos:
- Lentes varifocales: el usuario cambia la distancia focal en un rango predeterminado.

Diafragma: dispositivo que provee al objetivo la capacidad de regular la cantidad de luz que
entra en la cámara. Las variaciones de abertura se llaman apertura y se especifican
mediante el número f o f-stop (relación entre la longitud focal y el diámetro de abertura)
(f-stop bajo más apertura).
Profundidad de campo (DoF)
Zona entre el punto más cercano y más lejano que sea aceptable en cuanto a nitidez.

Círculo de Confusión (CoC): medida de cuánto se desenfoca un punto cuando un rayo de


luz pasa a través de una lente y llega al sensor. Cuando está perfectamente enfocado se
captura como un punto.

Panel de la Apertura: una apertura chica (f-stop alto) hace que los rayos de luz entren en la
lente en un ángulo más estrecho, lo que aumenta la profundidad de campo. Incluso si la
fuente puntual de luz está fuera del plano de enfoque, los rayos convergen y divergen sobre
un área menor en el sensor, creando un círculo de confusión más pequeño y un desenfoque
menos perceptible.
Efectos de la Longitud Focal f sobre la profundidad de campo (DoF):
- + f, - DoF
- f, + DoF
- Magnificación: una lente con f largo magnifica la imagen más que una lente con f
corto.
- Distancia al sujeto: una lente con f más larga, está más lejos del sujeto. A medida
que aumenta la distancia del sujeto, la profundidad del campo se reduce.
- Ángulo de la luz: f más larga, la luz que entra en la lente en un rango más estrecho
de ángulos y estos hacen que la luz se disperse más después de pasar a través de
la lente.

Filtros ópticos: sólo permite el paso a través de él de luz con ciertas propiedades.
- IR-CUR: bloquea la luz infrarroja y permite que la luz visible pase y alcance el sensor
de imagen. Mejora la calidad, el contraste y la precisión del color en las imágenes.
Se puede retirar físicamente.

Unidad 2: Modelos de visión y aplicaciones


1. Feature detection and matching

Clasificación de características:

- Bordes: cambio abrupto o discontinuidad en la intensidad de la imagen o niveles de


gris. (Sobel, Prewitt, Canny, Laplace)
- Esquinas: dos o más bordes, cambio significativo en la detección del borde. (FAST,
Harris, Shi-Tomasi)
- Manchas: región de la imagen que difiere en propiedades como la intensidad o el
color en comparación con las áreas circundantes. (Laplacian of Gaussian, Difference
of Gaussians, blob de determinante de matriz Hessian).
- Crestas: máximos locales en una dirección específica dentro de una imágen, en la
dirección perpendicular a la orientación de la cresta. Para identificarla, se buscan
puntos que sean máximos locales en al menos una dirección, perpendicular a la
orientación de la característica. (Canny, Harris, Laplaciano, etc).
Descriptores y puntos clave
Vectores numéricos que describen de manera cuantitativa las características de la imágen
en y alrededor de cada keypoint. Capturan la apariencia de la imagen en los keypoint.
- Descriptor Local: captura la info en los alrededores más inmediatos del keypoint.
- Descriptor Global: Captura la imagen como un todo

Aplicaciones: Reconocimiento de objetos, emparejamiento de imágenes, seguimiento de


objetos.

Panoramas (solapar imágenes)

2. Motion Detection

Diferencia de fotograma: cámara fija, frame anterior - frame actual.


Optical flow (flujo óptico): movimiento de objetos entre cuadros consecutivos de una
secuencia, causado por el movimiento relativo entre el objeto y la cámara.
- Disperso: calculado para una pequeña cantidad de píxeles (puntos de interés),
algoritmos más simples y rápidos.
- Denso: calcula para cada píxel de una imágen.

Sustracción de fondo: detectar objetos en movimiento en una secuencia de fotogramas


capturados por una cámara estática. Permite extraer el primer plano (objeto en movimiento)
y el fondo (objeto estacionario) para su procesamiento. Los modelos tienen dos pasos: 1)
inicialización del fondo (modelo inicial de fondo), 2) actualización de fondo (actualización
para adaptarse a cambios en la escena).

3. Clasificación de imágenes
Historia:
- Redes neuronales (1950-1980): perceptrón de una sola capa.
- Retropropagación (1980-1990): limitado por gradiente desvaneciente y sobre ajuste.
- LeNet-5 (1998): CNN reconoce dígitos escritos a mano.
- Resurgimiento (2010): limitación en conjuntos grandes.
- AlexNet (2012): CNN profunda con múltiples capas convolucionales.
- VGGNet (2014): mejor rendimiento, arquitecturas más profundas.
- GoogLenet (2014): módulos de inception, mayor profundidad.
- ResNet (2015): conexiones residuales.
- DenseNet (2017): patrones de conectividad densa, reutilizando características.
- EfficientNet (2019): Arquitectura escalable, rendimiento con menos parámetros.
- Transformers in Visión (2020)

4. Object Detection:

Identificar y localizar varios objetos, definiendo regiones rectangulares usando coordenadas


y asociándolas con un vector de clasificación y probabilidad. El desafío es cuando los
objetos se superponen y se usa NMS (supresión de no máximos).
Los algoritmos se dividen en dos categorías:
- De dos etapas:
- Generan propuestas de regiones de interés potencial de contener objetos
(Selective search).
- Clasifican y refinan las propuestas, para determinar si contiene un objeto y de
qué categoría es. Las regiones propuestas se alimentan a una CNN que
extrae las características detalladas para clasificar y el ajuste del bounding
box. Puede incluir supresión de no máximos para eliminar superposiciones.
- R-CNN, FAST R-CNN

- De una etapa: clasificación y locación en un solo paso, más rápido, menos preciso
(YOLO). Funcionamiento:
- Entrada de la imágen
- Extracción de características: usando red backbone (ResNet, MobileNet)
- Predicción simultánea de clases y localización: filtros para detectar objetos,
divide la imagen en cuadrícula y predice para cada celda bounding box y las
probabilidades de clase.
- Bounding Box y clasificación: cada celda produce predicciones de bounding
box con un puntaje de confianza y las coordenadas.
- Supresión de no máximos: elimina las cajas redundantes.
- Salida: conjunto de bounding box, etiqueta de clase y puntaje de confianza.

Modelos One Stage:


- Backbone: extracción de características, serie de capas convolucionales que
procesan la imagen de entrada, produce un conjunto de mapas de características a
alto nivel.
- Neck: procesa y refina las características extraídas por el backbone.
- Head: clasificación y localización de objetos.

Aplicaciones: Soporte para vehículos autónomos, Seguridad, Imágenes médicas,


Inspección de calidad en industrias.
5. Segmentación avanzada:

Dividir una imágen en partes o regiones. Grupos de métodos:


- Métodos clásicos: técnicas que no involucran AA. Dependen de detección de
bordes, umbrales, crecimientos de regiones, para identificar y separar las regiones
de interés de una imágen (Canny).
- Métodos basados en Deep Learning: Tipos principales:
- Segmentación semántica: asigna una etiqueta de clase a cada pixel de la
imágen, no distingue entre diferentes instancias del mismo tipo de objeto.
- Segmentación de instancias: categoriza cada pixel, diferencia entre
distintas instancias del mismo tipo de objeto.
- Segmentación panóptica: asigna a cada píxel una etiqueta de clase y para
las clases de cosas distingue diferentes instancias.

Aplicaciones: Vehículos autónomos, Agricultura de precisión

6. Object Tracking (seguimiento de objetos):

involucra la detección inicial del objeto, la predicción de su movimiento y cambio de estado y


la actualización de su posición.
Tracking basado en centroides: usa la distancia euclidiana entre los centroides de los
objetos detectados entre dos cuadros consecutivos en un video.
- Ventajas: simplicidad, eficiencia computacional, buen rendimiento en escenarios
simples.
- Desventaja: Sensible a colusiones, dependencia a la detección, dificultades con la
variación de forma y tamaño, limitaciones en escenarios complejos.
- Métricas:
- MOTA: precisión de seguimiento de múltiples objetos, evalúa la exactitud,
cuenta la acumulación de errores.
- IDF1: enfatiza la precisión de la asociación.
- MOTP: métrica usada para evaluar si la posición del objeto está posicionada
con precisión.

Aplicaciones: Vigilancia y seguridad, Análisis deportivo

7. Face Detection y recognition


- Detección de rostros: determinar si hay caras y donde están.
- Reconocimiento de rostros: pipeline
1) Detección de rostros: identifica áreas que contengan caras y las separa.
2) Pre procesamiento: mejora calidad y reduce variaciones por iluminación,
orientación y expresión facial.
3) Extracción de características distintivas del rostro.
4) Comparación y reconocimiento
5) Verificación o identificación

Aplicaciones: Seguridad y vigilancia, Autenticación biométrica


8. Facial Expression Recognition
Métodos de reconocimiento de expresiones: 1) detección de cara y componentes faciales,
2) extracción de características, 3) clasificación de expresión. Aplicaciones: Análisis de
publicidad, interacción humano computadora.

9. Human Pose Estimation


La estimación de pose puede dividirse en bidimensionales 2D (localizan las coordenadas de
los ejes X e Y de las articulaciones) y tridimensionales 3D (agregan un eje adicional para
estimar la posición de las articulaciones).

Desafío: ambigüedad de perspectiva (múltiples poses 3D corresponden a la misma pose


2D).

Enfoque de los métodos:


- Top-Down Approach:
1) Detección de personas: se identifican las personas de la imagen con cajas
delimitadoras.
2) Estimación de Pose por Persona: modelo de estimación para cada caja
individualmente.
Ventajas: Precisión y flexibilidad.

- Bottom-Up Approach:
1) Detección de partes del cuerpo: se detectan las partes del cuerpo o puntos clave
sin saber a qué persona pertenece.
2) Agrupación de partes en poses: agrupa las partes en conjuntos que corresponden
a poses completas de personas.
Ventajas: eficiencia, robustez ante oclusiones.

Modelado del cuerpo humano

- Cinemático: captura las relaciones entre las partes del cuerpo, limitaciones en la
representación de textura o forma.
- Plano: apariencia y forma del cuerpo humano.
- Volumétrico: estimación 3D

Aplicaciones: detección de caídas humanas, seguimiento de movimiento para consolas.

10. Marker Detection


Sistema que consiste en marcadores, un algoritmo de detección y un sistema de
codificación. Ejemplo QR

11. Color Quantization


Reduce el número de colores distintos en una imágen para que el almacenamiento y el
procesamiento sea más eficiente.

Modelo HSV: separa la info de color (tono) de la luminancia (valor). Ventajas: tonos bien
diferenciados (identificar y extraer colores basados en su tono), flexibilidad en variaciones
de iluminación, ajuste de saturación (distingue entre intensidades del color).

Reducción de colores: mapear los colores de una imagen digital a una paleta más chica de
colores representativos. Ventajas: reducción de almacenamiento, visualización en
dispositivos con capacidad limitada, compresión de imágenes, simplificación de imágenes
para análisis.
Clustering: agrupan píxeles o características similares para simplificar el contenido visual,
facilitando su interpretación y análisis.

Aplicaciones: análisis de imágenes médicas, agricultura de precisión.

12. Image captioning:


Describir el contenido de una imagen en palabras.

Componentes clave:
1) Extracción de características de la imagen: CNN
2) Generación de texto: red neuronal recurrente para generar texto descriptivo.

Marco codificador-decodificador: imagen de entrada se codifica en una representación


intermedia y luego se decodifica en una secuencia de texto descriptivo.

Enfoques basados en aprendizaje profundo:


1) Basado en la recuperación para la descripción de imágenes: busca imágenes con
descripciones similares en el conjunto de datos y ajusta la descripción final según las
encontradas.
2) Enfoque basado en plantillas para la descripción de imágenes: genera las
descripciones usando solamente palabras encontradas en imágenes similares.
3) Enfoque de aprendizaje de extremo a extremo para la descripción de imágenes:
se realiza directamente a través del entrenamiento.

Aplicaciones: asistencia a personas con discapacidad visual, automatización de bibliotecas


de fotos.

13. Image embeddings:


Representaciones numéricas de imágenes, que condensan información visual relevante en
vectores de dimensiones más reducidas. La creación de embeddings implica transformar los
píxeles brutos en un espacio vectorial donde las distancias entre los puntos reflejan alguna
forma de similitud semántica entre las imágenes.
Modelos:
- CNN: eficaces para extraer características.
- Autoencoders: se entrenan para reconstruir sus entradas.
- Redes Siamesas y triplete Networks: generan embeddings que reflejan la similitud
semántica entre imágenes, se toman dos img como entrada y se entrenan para ver
si son similares (distancia).
- Redes generativas adversarias: dos componentes, un generador y un discriminador.
- Visual Transformers: capturan relaciones de largo alcance entre diferentes partes de
la img.

Aplicaciones: reconocimiento facial, clasificación automática de imágenes.

También podría gustarte