Los investigadores mejoran la visión periférica de los modelos de IA
La visión periférica permite a los humanos ver formas que no están directamente en nuestra línea de visión, aunque con menos detalle. Esta capacidad amplía nuestro campo de visión y puede ser útil en muchas situaciones, como detectar un vehículo que se acerca a nuestro coche por el lateral.
A diferencia de los humanos, la IA no tiene visión periférica. Dotar a los modelos de visión artificial de esta capacidad podría ayudarles a detectar más eficazmente los peligros que se aproximan o a predecir si un conductor humano se daría cuenta de un objeto que se aproxima.
Dando un paso en esta dirección, investigadores del MIT desarrollaron un conjunto de datos de imágenes que permite simular la visión periférica en modelos de aprendizaje automático. Descubrieron que el entrenamiento de modelos con este conjunto de datos mejoraba la capacidad de los modelos para detectar objetos en la periferia visual, aunque los modelos seguían obteniendo peores resultados que los humanos.
Sus resultados también revelaron que, a diferencia de los humanos, ni el tamaño de los objetos ni la cantidad de desorden visual en una escena tenían un gran impacto en el rendimiento de la IA.
"Aquí ocurre algo fundamental. Hemos probado muchos modelos distintos e incluso cuando los entrenamos mejoran un poco, pero no son exactamente como los humanos. Así que la pregunta es: ¿qué les falta a estos modelos?", dice Vasha DuTell, postdoctorado y coautor de un artículo que detalla este estudio.
Responder a esta pregunta podría ayudar a los investigadores a crear modelos de aprendizaje automático capaces de ver el mundo como lo hacen los humanos. Además de mejorar la seguridad de los conductores, estos modelos podrían utilizarse para desarrollar pantallas más fáciles de ver.
Además, un conocimiento más profundo de la visión periférica en los modelos de IA podría ayudar a los investigadores a predecir mejor el comportamiento humano, añade la autora principal Anne Harrington MEng '23.
"Modelar la visión periférica, si realmente podemos captar la esencia de lo que se representa en la periferia, puede ayudarnos a entender las características de una escena visual que hacen que nuestros ojos se muevan para recoger más información", explica.
Entre sus coautores figuran Mark Hamilton, estudiante de postgrado de Ingeniería Eléctrica e Informática; Ayush Tewari, postdoctorando; Simon Stent, director de investigación del Instituto de Investigación Toyota; y los autores principales William T. Freeman, catedrático Thomas y Gerd Perkins de Ingeniería Eléctrica e Informática y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y Ruth Rosenholtz, investigadora científica principal del Departamento de Ciencias Cognitivas y del Cerebro y miembro del CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje de Representaciones.
"Cuando un ser humano interactúa con una máquina (un coche, un robot, una interfaz de usuario), es muy importante saber qué puede ver esa persona. La visión periférica desempeña un papel fundamental en esa comprensión", afirma Rosenholtz.
Simular la visión periférica
Extienda el brazo hacia delante y levante el pulgar: la pequeña zona alrededor de la uña del pulgar es la que ve la fóvea, la pequeña depresión en el centro de la retina que proporciona la visión más nítida. Todo lo demás está en la periferia visual. El córtex visual representa una escena con menos detalle y fiabilidad a medida que se aleja de ese punto de enfoque nítido.
Muchas de las aproximaciones existentes para modelar la visión periférica en IA representan este deterioro del detalle difuminando los bordes de las imágenes, pero la pérdida de información que se produce en el nervio óptico y el córtex visual es mucho más compleja.
Para lograr un enfoque más preciso, los investigadores del MIT partieron de una técnica utilizada para modelar la visión periférica en humanos. Este método, conocido como modelo de mosaico de texturas, transforma imágenes para representar la pérdida de información visual del ser humano.
Modificaron este modelo para que pudiera transformar las imágenes de forma similar, pero de una manera más flexible que no requiriera saber de antemano hacia dónde apuntarían los ojos la persona o la IA.
"Eso nos permitió modelar fielmente la visión periférica del mismo modo que se hace en la investigación de la visión humana", afirma Harrington.
Los investigadores utilizaron esta técnica modificada para generar un enorme conjunto de datos de imágenes transformadas que aparecen más texturizadas en determinadas zonas, para representar la pérdida de detalle que se produce cuando un ser humano mira más hacia la periferia.
A continuación, utilizaron el conjunto de datos para entrenar varios modelos de visión por ordenador y compararon su rendimiento con el de los humanos en una tarea de detección de objetos.
"Tuvimos que ser muy inteligentes a la hora de configurar el experimento para poder probarlo también en los modelos de aprendizaje automático. No queríamos tener que volver a entrenar los modelos en una tarea de juguete que no debían hacer", explica.
Rendimiento peculiar
A los humanos y a los modelos se les mostraron pares de imágenes transformadas que eran idénticas, salvo que una de las imágenes tenía un objeto objetivo situado en la periferia. A continuación, se pidió a cada participante que eligiera la imagen con el objeto objetivo.
"Una cosa que realmente nos sorprendió fue lo buena que era la gente detectando objetos en la periferia. Pasamos por al menos 10 conjuntos diferentes de imágenes que eran demasiado fáciles. Teníamos que utilizar objetos cada vez más pequeños", añade Harrington.
Los investigadores descubrieron que entrenar modelos desde cero con su conjunto de datos era lo que más aumentaba el rendimiento y mejoraba la capacidad de detectar y reconocer objetos. El perfeccionamiento de un modelo con su conjunto de datos, un proceso que consiste en ajustar un modelo preentrenado para que pueda realizar una nueva tarea, dio lugar a menores aumentos de rendimiento.
Pero en todos los casos, las máquinas no eran tan buenas como los humanos, y eran especialmente malas detectando objetos en la periferia lejana. Su rendimiento tampoco siguió los mismos patrones que el de los humanos.
"Eso podría sugerir que los modelos no están utilizando el contexto de la misma forma que los humanos para realizar estas tareas de detección. La estrategia de los modelos podría ser diferente", afirma Harrington.
Los investigadores planean seguir explorando estas diferencias con el objetivo de encontrar un modelo que pueda predecir el rendimiento humano en la periferia visual. Esto podría permitir, por ejemplo, que los sistemas de inteligencia artificial alertaran a los conductores de peligros que podrían no ver. También esperan inspirar a otros investigadores para que realicen más estudios de visión por ordenador con su conjunto de datos de acceso público.
Este trabajo ha sido financiado, en parte, por el Instituto de Investigación Toyota y la beca MIT CSAIL METEOR.
###
Escrito por Adam Zewe, MIT News
Articulos Electrónica Relacionados
- Vicor presentará cómo acelerar... Vicor mostrará su experiencia en 48V del 26 al 29 de junio impartiendo dos sesiones en la Automotive HV Power Supply Systems Conference de Munich. Tras el anunc...
- El inversor de carburo de sili... Al igual que los Beatles en los años 60, Tesla ha logrado la hazaña de ser simultáneamente el mejor y el más popular en lo que hace. Según el informe de IDTechE...
- Proyecto europeo cloud SmartCL... ¿Cómo se pueden implementar soluciones en la nube de forma rápida, operar de forma segura y expandirse fácilmente? CONTACT Software, la Fundación Eclipse y otro...
- Fujitsu y el Centro de Cerebro... Fujitsu Limited y el Centro de Cerebros, Mentes y Máquinas (CBMM, siglas en inglés), con sede en el Massachusetts Institute of Technology (MIT), han logrado un ...
- Alternativas de soldadura para... La fijación de componentes electrónicos, como los circuitos integrados y los LED, a los sustratos es un aspecto esencial de la fabricación de productos electrón...
- Plataforma con tecnología euro... Mediante la combinación de un sistema en chip multinúcleo creado por Cobham Gaisler junto con XtratuM, el hypervisor de fentISS cualificado para el espacio, De...
- Proyecto InPercept para impuls... Ficosa lidera InPercept (Percepción Inteligente para Vehículos Conectados y Autónomos), un proyecto pionero que nace para revolucionar la implementación de la c...
- Fuente alternativa de materias... El centro tecnológico Eurecat coordina el proyecto Salema, que propone un modelo de economía circular utilizando restos y chatarra como una fuente alternativa d...
- APIX ya es estándar de-facto S... Inova Semiconductors anuncia que ya se han implementado 50 millones de dispositivos basados en su tecnología APIX. APIX es utilizada por diez de los pr...
- Tecnologías avanzadas de ánodo... Las baterías de iones de litio están empezando a alcanzar su techo de rendimiento, especialmente en lo que respecta a la densidad energética. Sin embargo, un ca...
- Nuevos avances en la integraci... La integración de la electrónica en molde IME (In Mold Electronics) es una nueva forma revolucionaria de integrar la electrónica en los plásticos durante el pro...
- Tecnología vestible: una mina ... En 2025 se gastarán más de 25.000 millones en formulaciones y materiales intermedios para tecnología vestible (wearables), según las previsiones de los analista...