Guía 4 - Redes convolucionales

Las redes neuronales convolucionales (CNN) se han aplicado en el campo del procesamiento de imágenes durante décadas. ¿Cuál de las siguientes NO es una aplicación importante o un avance de las CNN en el procesamiento de imágenes? a. Extracción de características y clasificación de imágenes b. Transferencia de estilo de imagen c. Reconstrucción de imágenes en 3D d. Juegos de realidad aumentada
Explique brevemente qué es la operación de convolución y qué papel desempeña en las CNN.
- La convolución es una operación matemática en la que un filtro o kernel recorre una imagen, multiplicando y sumando los valores de los píxeles para crear un nuevo mapa de características. Esta operación permite a las CNN extraer patrones y características importantes, como bordes y formas, lo que ayuda a la red a reconocer y clasificar las imágenes.
Dibuje una arquitectura de CNN simple y explique sus componentes, especialmente el papel de la función de activación.

En una arquitectura de CNN simple, los componentes principales son:
1. Capa de entrada (Input Layer): La imagen de entrada, generalmente en formato de píxeles (como una matriz 2D de valores de intensidad), se pasa a la red.
2. Capa de convolución (Convolutional Layer): Aplica filtros (kernels) a la imagen para extraer características locales, como bordes, texturas y patrones. Cada filtro genera un "mapa de características" que representa una combinación de características detectadas en la imagen.
3. Capa de activación (Activation Layer): Después de la operación de convolución, se aplica una función de activación (como ReLU) a los valores del mapa de características. La función de activación introduce no linealidad en el modelo, lo que permite que la red aprenda representaciones más complejas y patrones más sofisticados en los datos. Sin la activación, la red solo aprendería combinaciones lineales de los datos, limitando su capacidad para aprender patrones complejos.
4. Capa de agrupamiento (Pooling Layer): Reduce la resolución espacial de las características, conservando la información más importante. El "max pooling" es común, donde se selecciona el valor máximo de una región de la imagen, ayudando a reducir la dimensionalidad y mejorar la eficiencia del modelo.
5. Capa completamente conectada (Fully Connected Layer): Después de varias capas de convolución y pooling, las características extraídas se aplana (flatten) y se pasan a través de una o más capas completamente conectadas, que son redes neuronales tradicionales para hacer la clasificación final.
6. Capa de salida (Output Layer): Produce la salida final, como la probabilidad de que una imagen pertenezca a una clase específica.
Papel de la función de activación:

La función de activación (como ReLU o sigmoide) se aplica a los resultados de la convolución para introducir no linealidad en el modelo. Sin esta no linealidad, la red no podría aprender representaciones complejas de los datos, limitándose solo a combinaciones lineales. La activación permite que la red aprenda patrones más ricos y sea capaz de realizar tareas más complejas como la clasificación de imágenes.
Dada la siguiente imagen, representada por el color rojo de sus pixels, aplique el proceso de convolución, detector y pooling, utilizando 3 características de contorno (Tips: use los kernels sobel). El proceso se debe hacerse manualmente (en papel), utilizando un factor de reducción de 2 x 2, 2 x 2 de zancada, average pooling. Debe mostrar como resultado las matrices aplanadas, es decir, la entrada a la red neuronal.

matriz aplanada ejemplo: