Un modelo de IA acelera la visión por ordenador de alta resolución
Un vehículo autónomo debe reconocer con rapidez y precisión los objetos que encuentra, desde un camión de reparto aparcado en la esquina hasta un ciclista que se acerca a toda velocidad a un cruce. Para ello, el vehículo podría utilizar un potente modelo de visión por ordenador para clasificar cada píxel de una imagen de alta resolución de esta escena, de modo que no pierda de vista objetos que podrían quedar ocultos en una imagen de menor calidad. Pero esta tarea, conocida como segmentación semántica, es compleja y requiere una enorme cantidad de cálculo cuando la imagen tiene alta resolución.
Investigadores del MIT, el MIT-IBM Watson AI Lab y otros centros han desarrollado un modelo de visión por ordenador más eficiente que reduce enormemente la complejidad computacional de esta tarea. Su modelo puede realizar la segmentación semántica con precisión en tiempo real en un dispositivo con recursos de hardware limitados, como los ordenadores de a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.
Los modelos de segmentación semántica más recientes aprenden directamente la interacción entre cada par de píxeles de una imagen, por lo que sus cálculos crecen cuadráticamente a medida que aumenta la resolución de la imagen. Por eso, aunque estos modelos son precisos, resultan demasiado lentos para procesar imágenes de alta resolución en tiempo real en un dispositivo periférico como un sensor o un teléfono móvil.
Los investigadores del MIT diseñaron un nuevo bloque de construcción para modelos de segmentación semántica que consigue las mismas capacidades que estos modelos de última generación, pero con una complejidad computacional sólo lineal y operaciones eficientes desde el punto de vista del hardware.
El resultado es una nueva serie de modelos de visión por ordenador de alta resolución que funcionan hasta nueve veces más rápido que los modelos anteriores cuando se implementan en un dispositivo móvil. Y lo que es más importante, esta nueva serie de modelos presenta una precisión igual o superior a la de los modelos alternativos.
Esta técnica no sólo podría utilizarse para ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficacia de otras tareas de visión por ordenador de alta resolución, como la segmentación de imágenes médicas.
"Aunque los investigadores llevan mucho tiempo utilizando transformadores de visión tradicionales, y dan resultados asombrosos, queremos que la gente preste atención también al aspecto de la eficiencia de estos modelos. Nuestro trabajo demuestra que es posible reducir drásticamente el cálculo para que la segmentación de imágenes en tiempo real pueda realizarse localmente en un dispositivo", afirma Song Han, profesor asociado del Departamento de Ingeniería Eléctrica e Informática (EECS), miembro del Laboratorio de Inteligencia Artificial MIT-IBM Watson y autor principal del artículo que describe el nuevo modelo.
Le acompañan en el artículo Han Cai, estudiante de postgrado de EECS; Junyan Li, estudiante de la Universidad de Zhejiang; Muyan Hu, estudiante de la Universidad de Tsinghua; y Chuang Gan, investigador principal del Laboratorio de Inteligencia Artificial MIT-IBM Watson. La investigación se presentará en la Conferencia Internacional sobre Visión por Ordenador.
Una solución simplificada
Categorizar cada píxel de una imagen de alta resolución que puede tener millones de píxeles es una tarea difícil para un modelo de aprendizaje automático. Recientemente se ha utilizado con eficacia un nuevo y potente tipo de modelo, conocido como transformador de visión.
Los transformadores se desarrollaron originalmente para el procesamiento del lenguaje natural. En ese contexto, codifican cada palabra de una frase como un token y luego generan un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al modelo a entender el contexto cuando hace predicciones.
Utilizando el mismo concepto, un transformador de visión trocea una imagen en parches de píxeles y codifica cada pequeño parche en un token antes de generar un mapa de atención. Al generar este mapa de atención, el modelo utiliza una función de similitud que aprende directamente la interacción entre cada par de píxeles. De este modo, el modelo desarrolla lo que se conoce como campo receptivo global, lo que significa que puede acceder a todas las partes relevantes de la imagen.
Dado que una imagen de alta resolución puede contener millones de píxeles, divididos en miles de parches, el mapa de atención se vuelve rápidamente enorme. Por eso, la cantidad de cálculo crece cuadráticamente a medida que aumenta la resolución de la imagen.
En su nueva serie de modelos, denominada EfficientViT, los investigadores del MIT utilizan un mecanismo más sencillo para construir el mapa de atención: sustituyen la función de similitud no lineal por una función de similitud lineal. De este modo, pueden reorganizar el orden de las operaciones para reducir el total de cálculos sin cambiar la funcionalidad ni perder el campo receptivo global. Con su modelo, la cantidad de cálculos necesarios para una predicción crece linealmente a medida que aumenta la resolución de la imagen.
"Pero no hay almuerzo gratis. La atención lineal sólo capta el contexto global de la imagen y pierde información local, lo que empeora la precisión", explica Han.
Para compensar esa pérdida de precisión, los investigadores incluyeron dos componentes adicionales en su modelo, cada uno de los cuales añade sólo una pequeña cantidad de cálculo.
Uno de esos elementos ayuda al modelo a captar las interacciones de las características locales, mitigando la debilidad de la función lineal en la extracción de información local. El segundo, un módulo que permite el aprendizaje multiescala, ayuda al modelo a reconocer objetos grandes y pequeños.
"Lo más importante es equilibrar cuidadosamente el rendimiento y la eficiencia", afirma Cai.
Diseñaron EfficientViT con una arquitectura adaptada al hardware, para que fuera más fácil de ejecutar en distintos tipos de dispositivos, como auriculares de realidad virtual u ordenadores de borde de vehículos autónomos. Su modelo también podría aplicarse a otras tareas de visión por ordenador, como la clasificación de imágenes.
Racionalización de la segmentación semántica
Cuando probaron su modelo en conjuntos de datos utilizados para la segmentación semántica, descubrieron que funcionaba hasta nueve veces más rápido en una unidad de procesamiento gráfico (GPU) Nvidia que otros modelos populares de transformadores de visión, con la misma o mejor precisión.
"Ahora podemos obtener lo mejor de los dos mundos y reducir la computación para hacerlo lo suficientemente rápido como para poder ejecutarlo en dispositivos móviles y en la nube", afirma Han.
A partir de estos resultados, los investigadores quieren aplicar esta técnica para acelerar los modelos de aprendizaje automático generativo, como los que se utilizan para generar nuevas imágenes. También quieren seguir ampliando EfficientViT para otras tareas de visión.
"La compresión de modelos y el diseño de modelos ligeros son temas de investigación cruciales para lograr una computación eficiente de la IA, especialmente en el contexto de los modelos de grandes bases. El grupo del profesor Song Han ha mostrado un progreso notable comprimiendo y acelerando modelos modernos de aprendizaje profundo, en particular transformadores de visión", añade Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en esta investigación. "Oracle Cloud Infrastructure ha estado apoyando a su equipo para avanzar en esta línea de investigación impactante hacia una IA eficiente y ecológica".
###
Escrito por Adam Zewe, MIT News
Articulos Electrónica Relacionados
- Chip de propósito especial que... La mayoría de las transacciones web sensibles están protegidas por criptografía de clave pública, un tipo de encriptación que...
- CIRCE obtiene la patente de un... El centro tecnológico CIRCE ha conseguido la patente de un dispositivo de acople inductivo y transformador electrónico que hace uso del mismo que permite transm...
- El creciente mercado de fuente... El mercado de las fuentes de alimentación utilizadas para aplicaciones de iluminación por diodos emisores de luz (LED) se expandirá hasta los 9.000 millones de ...
- Los ordenadores aprenden a rec... En los últimos años, los ordenadores han conseguido reconocer el habla y las imágenes de una forma notable: Piense en el software de dictad...
- Prototipo basado en la integra... Expertos del Barcelona Supercomputing Center (BSC), miembros del consorcio del proyecto europeo ExaNoDe, han participado en la evaluación de un innovador protot...
- Tres nuevas tendencias en tecn... IDTechEx ha identificado tres nuevas megatendencias en el mundo de la tecnología:• Electrónica estructural (SE)• Electrónica impr...
- Optoelectrónica, Sensores / Ac... En 2018, una bolsa mixta de precios más altos, escasez y nuevas aplicaciones de imagen está aumentando las ventas totales de O-S-D en un 11% y se ...
- Proyecto SELFY para proteger l... Ficosa participa en el consorcio de SELFY, un nuevo proyecto que nace para mejorar la resiliencia de los vehículos autónomos y conectados frente a ciberataques ...
- Beneficios de coste y eficienc... La capacidad de proporcionar una mayor eficiencia energética y control de movimiento preciso están impulsando la adopción de los accionamientos eléctricos en in...
- Schneider Electric y Wärtsilä ... Schneider Electric y Wärtsilä han firmado un acuerdo de colaboración para crear una solución de energía sostenible ininterrumpida para alimentar las minas de li...
- Tecnología de fuente de alimen... ROHM anuncia el desarrollo de la tecnología de fuente de alimentación Nano Cap™ que asegura un control estable de los circuitos de fuente de alimentación en los...
- Un nuevo método de IA capta la... En biomedicina, la segmentación consiste en anotar los píxeles de una estructura importante en una imagen médica, como un órgano o una célula. Los modelos de in...