Tecnología

Un modelo de IA acelera la visión por ordenador de alta resolución

Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 

Un vehículo autónomo debe reconocer con rapidez y precisión los objetos que encuentra, desde un camión de reparto aparcado en la esquina hasta un ciclista que se acerca a toda velocidad a un cruce. Para ello, el vehículo podría utilizar un potente modelo de visión por ordenador para clasificar cada píxel de una imagen de alta resolución de esta escena, de modo que no pierda de vista objetos que podrían quedar ocultos en una imagen de menor calidad. Pero esta tarea, conocida como segmentación semántica, es compleja y requiere una enorme cantidad de cálculo cuando la imagen tiene alta resolución.

Investigadores del MIT, el MIT-IBM Watson AI Lab y otros centros han desarrollado un modelo de visión por ordenador más eficiente que reduce enormemente la complejidad computacional de esta tarea. Su modelo puede realizar la segmentación semántica con precisión en tiempo real en un dispositivo con recursos de hardware limitados, como los ordenadores de a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.

Los modelos de segmentación semántica más recientes aprenden directamente la interacción entre cada par de píxeles de una imagen, por lo que sus cálculos crecen cuadráticamente a medida que aumenta la resolución de la imagen. Por eso, aunque estos modelos son precisos, resultan demasiado lentos para procesar imágenes de alta resolución en tiempo real en un dispositivo periférico como un sensor o un teléfono móvil.

Los investigadores del MIT diseñaron un nuevo bloque de construcción para modelos de segmentación semántica que consigue las mismas capacidades que estos modelos de última generación, pero con una complejidad computacional sólo lineal y operaciones eficientes desde el punto de vista del hardware.

El resultado es una nueva serie de modelos de visión por ordenador de alta resolución que funcionan hasta nueve veces más rápido que los modelos anteriores cuando se implementan en un dispositivo móvil. Y lo que es más importante, esta nueva serie de modelos presenta una precisión igual o superior a la de los modelos alternativos.

Esta técnica no sólo podría utilizarse para ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficacia de otras tareas de visión por ordenador de alta resolución, como la segmentación de imágenes médicas.

"Aunque los investigadores llevan mucho tiempo utilizando transformadores de visión tradicionales, y dan resultados asombrosos, queremos que la gente preste atención también al aspecto de la eficiencia de estos modelos. Nuestro trabajo demuestra que es posible reducir drásticamente el cálculo para que la segmentación de imágenes en tiempo real pueda realizarse localmente en un dispositivo", afirma Song Han, profesor asociado del Departamento de Ingeniería Eléctrica e Informática (EECS), miembro del Laboratorio de Inteligencia Artificial MIT-IBM Watson y autor principal del artículo que describe el nuevo modelo.

Le acompañan en el artículo Han Cai, estudiante de postgrado de EECS; Junyan Li, estudiante de la Universidad de Zhejiang; Muyan Hu, estudiante de la Universidad de Tsinghua; y Chuang Gan, investigador principal del Laboratorio de Inteligencia Artificial MIT-IBM Watson. La investigación se presentará en la Conferencia Internacional sobre Visión por Ordenador.

Una solución simplificada

Categorizar cada píxel de una imagen de alta resolución que puede tener millones de píxeles es una tarea difícil para un modelo de aprendizaje automático. Recientemente se ha utilizado con eficacia un nuevo y potente tipo de modelo, conocido como transformador de visión.

Los transformadores se desarrollaron originalmente para el procesamiento del lenguaje natural. En ese contexto, codifican cada palabra de una frase como un token y luego generan un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al modelo a entender el contexto cuando hace predicciones.

Utilizando el mismo concepto, un transformador de visión trocea una imagen en parches de píxeles y codifica cada pequeño parche en un token antes de generar un mapa de atención. Al generar este mapa de atención, el modelo utiliza una función de similitud que aprende directamente la interacción entre cada par de píxeles. De este modo, el modelo desarrolla lo que se conoce como campo receptivo global, lo que significa que puede acceder a todas las partes relevantes de la imagen.

Dado que una imagen de alta resolución puede contener millones de píxeles, divididos en miles de parches, el mapa de atención se vuelve rápidamente enorme. Por eso, la cantidad de cálculo crece cuadráticamente a medida que aumenta la resolución de la imagen.

En su nueva serie de modelos, denominada EfficientViT, los investigadores del MIT utilizan un mecanismo más sencillo para construir el mapa de atención: sustituyen la función de similitud no lineal por una función de similitud lineal. De este modo, pueden reorganizar el orden de las operaciones para reducir el total de cálculos sin cambiar la funcionalidad ni perder el campo receptivo global. Con su modelo, la cantidad de cálculos necesarios para una predicción crece linealmente a medida que aumenta la resolución de la imagen.

"Pero no hay almuerzo gratis. La atención lineal sólo capta el contexto global de la imagen y pierde información local, lo que empeora la precisión", explica Han.

Para compensar esa pérdida de precisión, los investigadores incluyeron dos componentes adicionales en su modelo, cada uno de los cuales añade sólo una pequeña cantidad de cálculo.

Uno de esos elementos ayuda al modelo a captar las interacciones de las características locales, mitigando la debilidad de la función lineal en la extracción de información local. El segundo, un módulo que permite el aprendizaje multiescala, ayuda al modelo a reconocer objetos grandes y pequeños.

"Lo más importante es equilibrar cuidadosamente el rendimiento y la eficiencia", afirma Cai.

Diseñaron EfficientViT con una arquitectura adaptada al hardware, para que fuera más fácil de ejecutar en distintos tipos de dispositivos, como auriculares de realidad virtual u ordenadores de borde de vehículos autónomos. Su modelo también podría aplicarse a otras tareas de visión por ordenador, como la clasificación de imágenes.

Racionalización de la segmentación semántica

Cuando probaron su modelo en conjuntos de datos utilizados para la segmentación semántica, descubrieron que funcionaba hasta nueve veces más rápido en una unidad de procesamiento gráfico (GPU) Nvidia que otros modelos populares de transformadores de visión, con la misma o mejor precisión.

"Ahora podemos obtener lo mejor de los dos mundos y reducir la computación para hacerlo lo suficientemente rápido como para poder ejecutarlo en dispositivos móviles y en la nube", afirma Han.

A partir de estos resultados, los investigadores quieren aplicar esta técnica para acelerar los modelos de aprendizaje automático generativo, como los que se utilizan para generar nuevas imágenes. También quieren seguir ampliando EfficientViT para otras tareas de visión.

"La compresión de modelos y el diseño de modelos ligeros son temas de investigación cruciales para lograr una computación eficiente de la IA, especialmente en el contexto de los modelos de grandes bases. El grupo del profesor Song Han ha mostrado un progreso notable comprimiendo y acelerando modelos modernos de aprendizaje profundo, en particular transformadores de visión", añade Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en esta investigación. "Oracle Cloud Infrastructure ha estado apoyando a su equipo para avanzar en esta línea de investigación impactante hacia una IA eficiente y ecológica".

###

Escrito por Adam Zewe, MIT News

Articulos Electrónica Relacionados

Redes Sociales

Edicion Revista Impresa

1ww   

Para recibir la edición impresa o en PDF durante 1 año (10 ediciones)

Suscripción papel: 180,00.- €  (IVA inc.)

Suscripción PDF: 60,00.- € (IVA inc)

Noticias Populares Electrónica

Más allá del Convenio de Estocolmo: nueva normativa sobre sustancias químicas para siempre

La firma del Convenio de Estocolmo sobre Contaminantes Orgánicos Persistentes (COP) en 2001 marcó un momento histórico, ya que fue el primer tratado mundial...

Chip para salvaguardar los datos de los usuarios y computación eficiente en un smartphone

Las aplicaciones de seguimiento de la salud pueden ayudar a las personas a controlar enfermedades crónicas o a mantenerse en forma sin más ayuda que...

La unión híbrida 3D Cu-Cu en la alimentación de los futuros productos de HPC e IA

El encapsulado de semiconductores ha evolucionado desde los tradicionales niveles 1D de las placas de circuito impreso hasta la unión híbrida 3D de...

Potencial de las proyecciones holográficas en los Heads-Up Displays de automoción

Las pantallas de visualización frontal (HUD) para automóviles están siendo recibidas con gran entusiasmo. El aumento del uso de la tecnología...

Noticias Electrónica Profesional

Noticias Fuentes de Alimentación

Cooperación tecnológica por el bienestar y la protecció

Cuando pensamos en cargadores de baterías nos vienen a la cabeza muchas aplicaciones posibles:...

Gestión térmica en 2020

La gestión térmica es una consideración crítica para muchas tecnologías y mercados, desde los...

¿Cambiar a tecnología de baterías de estado sólido?

Se espera que los vehículos eléctricos incluyan baterías de estado sólido como un enfoque...

Actualidad Electrónica Profesionales

Cooperación tecnológica por el bienestar y la protecció

Cuando pensamos en cargadores de baterías nos vienen a la cabeza muchas aplicaciones posibles:...

Gestión térmica en 2020

La gestión térmica es una consideración crítica para muchas tecnologías y mercados, desde los...

¿Cambiar a tecnología de baterías de estado sólido?

Se espera que los vehículos eléctricos incluyan baterías de estado sólido como un enfoque...

Convertronic

Revista © Convertronic Electrónica Profesional Española.Todos los derechos reservados GM2 Publicaciones Técnicas, S.L.
Tel.: +34 91 706 56 69
Poema Sinfónico, 27. Esc B. Planta 1 Pta 5
28054 (Madrid - SPAIN)
e-mail: gm2@gm2publicacionestecnicas.com ó consultas@convertronic.net

Suscríbete a nuestro boletín de noticias

Revista Española de electrónica. Impresa desde hace más de 25 años.

España - Madrid - Todos los derechos reservados Revista © Convertronic Electrónica Profesional Española.

Search