Diseño y evaluación de un modelo basado en una red de cápsulas de matrices con em routing utilizando una red convolucional densa
Fecha
2020Autor
Bernal Rios, Paul Theo
Blas Huaman, Washington
Metadatos
Mostrar el registro completo del ítemResumen
Actualmente la arquitectura de Aprendizaje Profundo (Deep Learning) con mayor éxito y más usado en reconocimiento y clasificación de imágenes, visión computacional, conducción automática de vehículos; es la Red Neuronal Convolucional (Convolutional Neural Network o CNN). Sin embargo las CNNs presentan limitaciones ya que no son robustas cuando existen transformaciones en el objeto evaluado, es decir un ligero cambio de la posición del objeto provocará que las CNNs modifiquen su predicción. Aunque este problema puede ser reducido incrementando el conjunto de datos durante el entrenamiento, esto no garantiza que la red sea robusta para una nueva modificación en la posición que pueda estar presente en el conjunto de datos de prueba. Para superar estos inconvenientes surgen las Redes de Cápsulas (Capsule Network o CapsNet), que mejoran la clasificación de imágenes cuando estos presentan rotación, inclinación u otra orientación diferente, facilitando la obtención de información en la verificación de sus posiciones relativas con un menor número de datos. Por otro lado las redes de Cápsulas Matriciales con Enrutamiento EM, que son una mejora de las redes de Cápsulas con Enrutamiento Dinámico, presentan cápsulas donde cada cápsula está conformada por una unidad de activación que representan la presencia de un objeto y una matriz de pose de 4x4 que aprende a representar la relación espacial entre el objeto y el espectador, obteniendo así información más precisa. Ambas arquitecturas de redes de cápsulas presentan como primera capa de entrada una red de convolución estándar, pero un problema inherente a una (CNN) es cuando tiende a perder información a medida que la red se hace más profunda debido a la anulación del gradiente (vanishing gradient), es decir el gradiente tiende a ser igual a cero durante el proceso de aprendizaje cuando una red tiene muchas capas. Como una alternativa se tiene la arquitectura de Red Convolucional Densamente Conectado (DenseNet) que resuelve este problema asegurando un flujo máximo de información, donde para cada capa, las características obtenidas en todas las capas anteriores se utilizan como entradas, y sus propias características obtenidas se utilizan como entradas en todas las capas posteriores, esto conduce a un mejor flujo de gradiente en comparación con las capas de convolución apiladas directamente. Por tanto, en este trabajo se diseña y evalúa una arquitectura de Cápsulas Matriciales con Enrutamiento EM, reemplazando su primera capa de red convolucional simple (ReLU Conv1) por una red convolucional densa (DenseNet), para mostrar una mejora en el tiempo y precisión de entrenamiento frente al modelo base de redes de Cápsulas Matriciales con Enrutamiento EM, utilizando el conjunto de datos SmallNORB que está destinado a experimentos de reconocimiento de imágenes de objetos en 3D.
Colecciones
- Tesis [92]