2008-2010

RECONOCIMIENTO INVARIANTE DE OBJETOS COMPLEJOS

Responsable: Dr. Josué Alvarez Borrego

El reconocimiento de patrones es algo inherente a la vida humana, ya que desde que el ser humano nace, empieza su entrenamiento en la identificación de patrones, éste comienza a detectar formas y colores, primero un tanto simples como figuras geométricas o colores, después con el paso del tiempo formas más y más complejas. Los procesos de la vida diaria dependen de la identificación continua de distintos objetos, que hasta hace poco tiempo, esta tarea recaía enteramente en la percepción humana.

Actualmente la automatización de los procesos es cada vez más importante, ya que los requerimientos de calidad de los consumidores son cada vez mayores, de hecho no se habla de encontrar defectos en un producto dentro de miles, si no un producto defectuoso dentro de millones, lo cual ha empujado más y más a los fabricantes a buscar alternativas, pues como sabemos no hay ser humano que pueda repetir la misma actividad millones de veces sin cometer un error; aquí es donde entra la automatización de los procesos, primeramente de actividades que no requieren la toma de decisiones “inteligentes”, como sería decidir si un producto es defectuoso o no, si en un campo de batalla lo que se tiene en un monitor es un tanque enemigo o amigo, decidir si alguna muestra biológica se encuentra contaminada o no, etc. Hoy en día se busca el también automatizar este tipo de decisiones.

El reconocimiento de patrones por medio de la correlación está basada en la selección o diseño de una señal de referencia para después determinar el grado de similitud entre la señal de referencia y el objeto bajo examinación.

El grado de similitud entre las señales es una simple estadística cuyas decisiones se basan en el conocimiento que se tenga sobre el objeto.

Por medio de la correlación se podría determinar a qué clase pertenece un objeto, o mejor aún, podríamos tener un sistema correlador con invariancias que identifique al objeto sin importar el punto de vista en que se observa al objeto (puede presentar desplazamientos laterales, rotaciones, escalamientos, etc.).

Los algoritmos de correlación diseñan o crean señales de referencia tales que su correlación con el objeto produce estadísticas con la información de estas cuestiones.

Una de las fortalezas principales del reconocimiento de patrones es la robustez inherente que resulta de evaluar la señal completa en un mismo tiempo, es decir no se requiere de ningún tipo de preprocesamiento.

Gracias al recurso del algoritmo de la transformada rápida de Fourier (FFT) y a los procesadores digitales de altas velocidades, hoy en día la correlación entre imágenes se puede usar efectivamente en implementaciones digitales.

Cuando se habla de reconocimiento de patrones existen dos caminos fundamentales a seguir: el procesamiento óptico o el digital, cada uno de estos con sus ventajas y desventajas.

Procesamiento óptico

El procesado óptico de imágenes consiste en utilizar los fundamentos teóricos de la óptica de Fourier, donde se utiliza la luz y sus propiedades para describir su propagación. La idea básica es la posibilidad de obtener la transformada de Fourier de imágenes, para después trabajar con ellas multiplicando, convolucionando, y filtrándolas para lograr el reconocimiento o extracción de algún elemento de la imagen. La principal ventaja de este método de reconocimiento, es la velocidad a la que se realizan las operaciones (velocidad de los moduladores) sin importar la cantidad de datos de entrada, lo cual es una grandísima ventaja si se requiere que el proceso entero funcione en tiempo real. Sus principales desventajas son la complejidad del arreglo, costo elevado y su inestabilidad, es decir es muy sensible a ruido ambiental.

Procesamiento digital.

La visión por computadora es algo análogo al procesado óptico, ya que las operaciones realizadas sobre las imágenes, simplemente son “simulaciones digitales” de su equivalente óptico. El funcionamiento básico consiste de adquirir una imagen en una computadora, por medio de una cámara digital (aunque la imagen también puede provenir de algún otro tipo de dispositivo), procesamiento (filtrado), clasificación y reconocimiento de patrones. Este último paso no es algo tan trivial como podría parecer, existen algunos algoritmos básicos y algunos muy poderosos y bastante complejos capaces de asistir en esta tarea, sin embargo es un área de investigación activa con una gran cantidad de artículos publicados al año con respecto a este tema. Sus ventajas y desventajas son inversas a las del procesado óptico, ya que el implementar un sistema digital resulta, mas barato y mas simple, sin embargo, a pesar de los grandes avances en cuanto a velocidad de cómputo, el costo computacional siempre es algo que se debe tener en mente especialmente si se manejara una gran cantidad de datos, ya que el tiempo de procesado aumenta significativamente cuando aumenta la cantidad de datos de entrada, es decir el método digital siempre será mas lento que el óptico.

La automatización del reconocimiento de patrones es una herramienta que auxilia en la toma de decisiones, de aquí su gran importancia, sin embargo las aplicaciones de la visión por computadora no están limitadas a lo mencionado anteriormente, su campo de aplicación es grandísimo, tal como seria la seguridad, auxilio en análisis de datos experimentales, industria automotriz, análisis militar, por mencionar algunos.

Objetivo General

Utilización de filtros lineales y no lineales para el reconocimiento y localización de objetos y estructuras microscópicas así como macro con diferente escala, rotación, iluminación y ruido. Como medidas de desempeño se utilizarán: la capacidad de discriminación y errores de localización del objetivo.

Desarrollo de nuevos algoritmos de autoenfoque y fusión para obtener una mejor calidad de las imágenes.

Objetivos particulares:

Desarrollo de nuevas teorías matemáticas para el reconocimiento de objetos complejos.
Estudio del comportamiento de filtros lineales y no lineales en ausencia y presencia de ruido
Implementación de filtros compuestos no lineales para el reconocimiento invariante a posición, rotación, escala e iluminación.
Desarrollo de filtros firmas para el reconocimiento automático de objetos. Estudio de firmas haciendo uso de distancias Euclideanas, Pearson, Spearman, correlación de fase, etc., que permitan el reconocimiento de patrones de manera efectiva.
Desarrollo de máscaras matemáticas para realizar la correlación invariante a rotación de objetos complejos.
Estudio y análisis de las transformaciones matemáticas invariantes en el proceso de correlación que nos evite perder información. Simplificar distorsiones.
Desarrollo de nueva teoría matemática para aumentar la calidad de las imágenes.
Aplicaciones de estos nuevos filtros para el reconocimiento de imágenes reales, tales como organismos y estructuras microscópicas así como de objetos grandes.

Metodología

Para llevar a cabo este proyecto se proponen por inicio varias metodologías que a continuación presento:

Mi primer propuesta es :

Obtención de filtros firmas mediante transformaciones tipo Fourier-Mellin y Escala.

Desde la década de los setentas, la comunidad científica en el área de óptica, han utilizado la Transformada de Fourier-Mellin (TFM) para reconocimiento de patrones, y de manera reciente ha sido utilizada como una herramienta para el procesamiento digital de señales e imágenes, aprovechando que su espectro resultante es invariante a la rotación, translación y escala.

La Transformada de Fourier (TF) es invariante a la translación en coordenadas cartesianas y haciendo una conversión a coordenadas polares es invariante a la rotación.

Además se ha demostrado que la transformada de Mellin es invariante a escala.

Descripción Matemática:

A la función $F(w)$ se le llama transformada de Fourier de $f(t)$ y se denota por $F$, es decir $$ \mathcal{F}[f(t)] = F(\omega) = \int_{-\infty}^{\infty} f(t) e^{-j\omega t} dt $$

En forma similar, a la expresión que nos permite obtener $f(t)$ a partir de $F(w)$ se le llama transformada inversa de Fourier y se denota por $F –1$, es decir

$$ \mathcal{F}^{-1}[F(\omega)] = f(t) = \frac{1}{2\pi} \int_{-\infty}^{\infty} F(\omega) e^{j\omega t} d\omega $$

Teorema de correlación

Tanto la integral de correlación como la de convolución son de suma importancia en aplicaciones teóricas y prácticas. La correlación para funciones reales se define por:

$$ f(x,y) \otimes g(x,y) = \int^{\infty}{- \infty}\int^{\infty}{- \infty} f(x',y' )g(x'-x,y'-y)dx'dy'. $$

algunos autores prefieren denotar la correlacion por:

$$ f(x,y) \otimes g(x,y) = \int^{\infty}{- \infty}\int^{\infty}{- \infty} f(x',y')g^*(x'+x, y' + y)dx'dy' , $$

aunque las 2 funciones son equivalentes para funciones reales.

El teorema de correlación indica que

$$ \mathcal{F}{f(x,y) \otimes g(x,y) } = F(u,v)G^(u,v) \ \mathcal{F}{f(x,y) g^(x,y) } = F(u,v)G \otimes (u,v) $$

Por lo tanto la correlación se puede calcular por:

$$ f(x,y) \otimes g(x,y) = \mathcal{F}^{-1} {F(u,v)G^*(u,v)} $$

donde el súper índice * indica el complejo conjugado.

La transformada de Mellin es especialmente útil por ser invariante a la escala (Bracewell, 1978). Ésta se ha aplicado en la restauración de imágenes espacialmente variantes (Sawchuk, 1974) y en el análisis de redes que varían con el tiempo (Gerardi, 1959), entre otras. La transformada de Mellin en dos dimensiones de una función a lo largo del eje imaginario, se define por (Casasent y Psaltis, 1976)