Tecnología

Los investigadores mejoran la visión periférica de los modelos de IA

Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 

La visión periférica permite a los humanos ver formas que no están directamente en nuestra línea de visión, aunque con menos detalle. Esta capacidad amplía nuestro campo de visión y puede ser útil en muchas situaciones, como detectar un vehículo que se acerca a nuestro coche por el lateral.

A diferencia de los humanos, la IA no tiene visión periférica. Dotar a los modelos de visión artificial de esta capacidad podría ayudarles a detectar más eficazmente los peligros que se aproximan o a predecir si un conductor humano se daría cuenta de un objeto que se aproxima.

Dando un paso en esta dirección, investigadores del MIT desarrollaron un conjunto de datos de imágenes que permite simular la visión periférica en modelos de aprendizaje automático. Descubrieron que el entrenamiento de modelos con este conjunto de datos mejoraba la capacidad de los modelos para detectar objetos en la periferia visual, aunque los modelos seguían obteniendo peores resultados que los humanos.

Sus resultados también revelaron que, a diferencia de los humanos, ni el tamaño de los objetos ni la cantidad de desorden visual en una escena tenían un gran impacto en el rendimiento de la IA.

"Aquí ocurre algo fundamental. Hemos probado muchos modelos distintos e incluso cuando los entrenamos mejoran un poco, pero no son exactamente como los humanos. Así que la pregunta es: ¿qué les falta a estos modelos?", dice Vasha DuTell, postdoctorado y coautor de un artículo que detalla este estudio.

Responder a esta pregunta podría ayudar a los investigadores a crear modelos de aprendizaje automático capaces de ver el mundo como lo hacen los humanos. Además de mejorar la seguridad de los conductores, estos modelos podrían utilizarse para desarrollar pantallas más fáciles de ver.

Además, un conocimiento más profundo de la visión periférica en los modelos de IA podría ayudar a los investigadores a predecir mejor el comportamiento humano, añade la autora principal Anne Harrington MEng '23.

"Modelar la visión periférica, si realmente podemos captar la esencia de lo que se representa en la periferia, puede ayudarnos a entender las características de una escena visual que hacen que nuestros ojos se muevan para recoger más información", explica.

Entre sus coautores figuran Mark Hamilton, estudiante de postgrado de Ingeniería Eléctrica e Informática; Ayush Tewari, postdoctorando; Simon Stent, director de investigación del Instituto de Investigación Toyota; y los autores principales William T. Freeman, catedrático Thomas y Gerd Perkins de Ingeniería Eléctrica e Informática y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y Ruth Rosenholtz, investigadora científica principal del Departamento de Ciencias Cognitivas y del Cerebro y miembro del CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje de Representaciones.

"Cuando un ser humano interactúa con una máquina (un coche, un robot, una interfaz de usuario), es muy importante saber qué puede ver esa persona. La visión periférica desempeña un papel fundamental en esa comprensión", afirma Rosenholtz.


Simular la visión periférica

Extienda el brazo hacia delante y levante el pulgar: la pequeña zona alrededor de la uña del pulgar es la que ve la fóvea, la pequeña depresión en el centro de la retina que proporciona la visión más nítida. Todo lo demás está en la periferia visual. El córtex visual representa una escena con menos detalle y fiabilidad a medida que se aleja de ese punto de enfoque nítido.

Muchas de las aproximaciones existentes para modelar la visión periférica en IA representan este deterioro del detalle difuminando los bordes de las imágenes, pero la pérdida de información que se produce en el nervio óptico y el córtex visual es mucho más compleja.

Para lograr un enfoque más preciso, los investigadores del MIT partieron de una técnica utilizada para modelar la visión periférica en humanos. Este método, conocido como modelo de mosaico de texturas, transforma imágenes para representar la pérdida de información visual del ser humano.

Modificaron este modelo para que pudiera transformar las imágenes de forma similar, pero de una manera más flexible que no requiriera saber de antemano hacia dónde apuntarían los ojos la persona o la IA.

"Eso nos permitió modelar fielmente la visión periférica del mismo modo que se hace en la investigación de la visión humana", afirma Harrington.

Los investigadores utilizaron esta técnica modificada para generar un enorme conjunto de datos de imágenes transformadas que aparecen más texturizadas en determinadas zonas, para representar la pérdida de detalle que se produce cuando un ser humano mira más hacia la periferia.

A continuación, utilizaron el conjunto de datos para entrenar varios modelos de visión por ordenador y compararon su rendimiento con el de los humanos en una tarea de detección de objetos.

"Tuvimos que ser muy inteligentes a la hora de configurar el experimento para poder probarlo también en los modelos de aprendizaje automático. No queríamos tener que volver a entrenar los modelos en una tarea de juguete que no debían hacer", explica.

Rendimiento peculiar

A los humanos y a los modelos se les mostraron pares de imágenes transformadas que eran idénticas, salvo que una de las imágenes tenía un objeto objetivo situado en la periferia. A continuación, se pidió a cada participante que eligiera la imagen con el objeto objetivo.

"Una cosa que realmente nos sorprendió fue lo buena que era la gente detectando objetos en la periferia. Pasamos por al menos 10 conjuntos diferentes de imágenes que eran demasiado fáciles. Teníamos que utilizar objetos cada vez más pequeños", añade Harrington.

Los investigadores descubrieron que entrenar modelos desde cero con su conjunto de datos era lo que más aumentaba el rendimiento y mejoraba la capacidad de detectar y reconocer objetos. El perfeccionamiento de un modelo con su conjunto de datos, un proceso que consiste en ajustar un modelo preentrenado para que pueda realizar una nueva tarea, dio lugar a menores aumentos de rendimiento.

Pero en todos los casos, las máquinas no eran tan buenas como los humanos, y eran especialmente malas detectando objetos en la periferia lejana. Su rendimiento tampoco siguió los mismos patrones que el de los humanos.

"Eso podría sugerir que los modelos no están utilizando el contexto de la misma forma que los humanos para realizar estas tareas de detección. La estrategia de los modelos podría ser diferente", afirma Harrington.

Los investigadores planean seguir explorando estas diferencias con el objetivo de encontrar un modelo que pueda predecir el rendimiento humano en la periferia visual. Esto podría permitir, por ejemplo, que los sistemas de inteligencia artificial alertaran a los conductores de peligros que podrían no ver. También esperan inspirar a otros investigadores para que realicen más estudios de visión por ordenador con su conjunto de datos de acceso público.

Este trabajo ha sido financiado, en parte, por el Instituto de Investigación Toyota y la beca MIT CSAIL METEOR.

###

Escrito por Adam Zewe, MIT News

 

Articulos Electrónica Relacionados

Redes Sociales

Edicion Revista Impresa

1ww   

Para recibir la edición impresa o en PDF durante 1 año (10 ediciones)

Suscripción papel: 180,00.- €  (IVA inc.)

Suscripción PDF: 60,00.- € (IVA inc)

Noticias Populares Electrónica

Más allá del Convenio de Estocolmo: nueva normativa sobre sustancias químicas para siempre

La firma del Convenio de Estocolmo sobre Contaminantes Orgánicos Persistentes (COP) en 2001 marcó un momento histórico, ya que fue el primer tratado mundial...

Chip para salvaguardar los datos de los usuarios y computación eficiente en un smartphone

Las aplicaciones de seguimiento de la salud pueden ayudar a las personas a controlar enfermedades crónicas o a mantenerse en forma sin más ayuda que...

La unión híbrida 3D Cu-Cu en la alimentación de los futuros productos de HPC e IA

El encapsulado de semiconductores ha evolucionado desde los tradicionales niveles 1D de las placas de circuito impreso hasta la unión híbrida 3D de...

Potencial de las proyecciones holográficas en los Heads-Up Displays de automoción

Las pantallas de visualización frontal (HUD) para automóviles están siendo recibidas con gran entusiasmo. El aumento del uso de la tecnología...

Noticias Electrónica Profesional

Noticias Fuentes de Alimentación

Cooperación tecnológica por el bienestar y la protecció

Cuando pensamos en cargadores de baterías nos vienen a la cabeza muchas aplicaciones posibles:...

Gestión térmica en 2020

La gestión térmica es una consideración crítica para muchas tecnologías y mercados, desde los...

¿Cambiar a tecnología de baterías de estado sólido?

Se espera que los vehículos eléctricos incluyan baterías de estado sólido como un enfoque...

Actualidad Electrónica Profesionales

Cooperación tecnológica por el bienestar y la protecció

Cuando pensamos en cargadores de baterías nos vienen a la cabeza muchas aplicaciones posibles:...

Gestión térmica en 2020

La gestión térmica es una consideración crítica para muchas tecnologías y mercados, desde los...

¿Cambiar a tecnología de baterías de estado sólido?

Se espera que los vehículos eléctricos incluyan baterías de estado sólido como un enfoque...

Convertronic

Revista © Convertronic Electrónica Profesional Española.Todos los derechos reservados GM2 Publicaciones Técnicas, S.L.
Tel.: +34 91 706 56 69
Poema Sinfónico, 27. Esc B. Planta 1 Pta 5
28054 (Madrid - SPAIN)
e-mail: gm2@gm2publicacionestecnicas.com ó consultas@convertronic.net

Suscríbete a nuestro boletín de noticias

Revista Española de electrónica. Impresa desde hace más de 25 años.

España - Madrid - Todos los derechos reservados Revista © Convertronic Electrónica Profesional Española.

Search