Un modelo de IA acelera la visión por ordenador de alta resolución
Un vehículo autónomo debe reconocer con rapidez y precisión los objetos que encuentra, desde un camión de reparto aparcado en la esquina hasta un ciclista que se acerca a toda velocidad a un cruce. Para ello, el vehículo podría utilizar un potente modelo de visión por ordenador para clasificar cada píxel de una imagen de alta resolución de esta escena, de modo que no pierda de vista objetos que podrían quedar ocultos en una imagen de menor calidad. Pero esta tarea, conocida como segmentación semántica, es compleja y requiere una enorme cantidad de cálculo cuando la imagen tiene alta resolución.
Investigadores del MIT, el MIT-IBM Watson AI Lab y otros centros han desarrollado un modelo de visión por ordenador más eficiente que reduce enormemente la complejidad computacional de esta tarea. Su modelo puede realizar la segmentación semántica con precisión en tiempo real en un dispositivo con recursos de hardware limitados, como los ordenadores de a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.
Los modelos de segmentación semántica más recientes aprenden directamente la interacción entre cada par de píxeles de una imagen, por lo que sus cálculos crecen cuadráticamente a medida que aumenta la resolución de la imagen. Por eso, aunque estos modelos son precisos, resultan demasiado lentos para procesar imágenes de alta resolución en tiempo real en un dispositivo periférico como un sensor o un teléfono móvil.
Los investigadores del MIT diseñaron un nuevo bloque de construcción para modelos de segmentación semántica que consigue las mismas capacidades que estos modelos de última generación, pero con una complejidad computacional sólo lineal y operaciones eficientes desde el punto de vista del hardware.
El resultado es una nueva serie de modelos de visión por ordenador de alta resolución que funcionan hasta nueve veces más rápido que los modelos anteriores cuando se implementan en un dispositivo móvil. Y lo que es más importante, esta nueva serie de modelos presenta una precisión igual o superior a la de los modelos alternativos.
Esta técnica no sólo podría utilizarse para ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficacia de otras tareas de visión por ordenador de alta resolución, como la segmentación de imágenes médicas.
"Aunque los investigadores llevan mucho tiempo utilizando transformadores de visión tradicionales, y dan resultados asombrosos, queremos que la gente preste atención también al aspecto de la eficiencia de estos modelos. Nuestro trabajo demuestra que es posible reducir drásticamente el cálculo para que la segmentación de imágenes en tiempo real pueda realizarse localmente en un dispositivo", afirma Song Han, profesor asociado del Departamento de Ingeniería Eléctrica e Informática (EECS), miembro del Laboratorio de Inteligencia Artificial MIT-IBM Watson y autor principal del artículo que describe el nuevo modelo.
Le acompañan en el artículo Han Cai, estudiante de postgrado de EECS; Junyan Li, estudiante de la Universidad de Zhejiang; Muyan Hu, estudiante de la Universidad de Tsinghua; y Chuang Gan, investigador principal del Laboratorio de Inteligencia Artificial MIT-IBM Watson. La investigación se presentará en la Conferencia Internacional sobre Visión por Ordenador.
Una solución simplificada
Categorizar cada píxel de una imagen de alta resolución que puede tener millones de píxeles es una tarea difícil para un modelo de aprendizaje automático. Recientemente se ha utilizado con eficacia un nuevo y potente tipo de modelo, conocido como transformador de visión.
Los transformadores se desarrollaron originalmente para el procesamiento del lenguaje natural. En ese contexto, codifican cada palabra de una frase como un token y luego generan un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al modelo a entender el contexto cuando hace predicciones.
Utilizando el mismo concepto, un transformador de visión trocea una imagen en parches de píxeles y codifica cada pequeño parche en un token antes de generar un mapa de atención. Al generar este mapa de atención, el modelo utiliza una función de similitud que aprende directamente la interacción entre cada par de píxeles. De este modo, el modelo desarrolla lo que se conoce como campo receptivo global, lo que significa que puede acceder a todas las partes relevantes de la imagen.
Dado que una imagen de alta resolución puede contener millones de píxeles, divididos en miles de parches, el mapa de atención se vuelve rápidamente enorme. Por eso, la cantidad de cálculo crece cuadráticamente a medida que aumenta la resolución de la imagen.
En su nueva serie de modelos, denominada EfficientViT, los investigadores del MIT utilizan un mecanismo más sencillo para construir el mapa de atención: sustituyen la función de similitud no lineal por una función de similitud lineal. De este modo, pueden reorganizar el orden de las operaciones para reducir el total de cálculos sin cambiar la funcionalidad ni perder el campo receptivo global. Con su modelo, la cantidad de cálculos necesarios para una predicción crece linealmente a medida que aumenta la resolución de la imagen.
"Pero no hay almuerzo gratis. La atención lineal sólo capta el contexto global de la imagen y pierde información local, lo que empeora la precisión", explica Han.
Para compensar esa pérdida de precisión, los investigadores incluyeron dos componentes adicionales en su modelo, cada uno de los cuales añade sólo una pequeña cantidad de cálculo.
Uno de esos elementos ayuda al modelo a captar las interacciones de las características locales, mitigando la debilidad de la función lineal en la extracción de información local. El segundo, un módulo que permite el aprendizaje multiescala, ayuda al modelo a reconocer objetos grandes y pequeños.
"Lo más importante es equilibrar cuidadosamente el rendimiento y la eficiencia", afirma Cai.
Diseñaron EfficientViT con una arquitectura adaptada al hardware, para que fuera más fácil de ejecutar en distintos tipos de dispositivos, como auriculares de realidad virtual u ordenadores de borde de vehículos autónomos. Su modelo también podría aplicarse a otras tareas de visión por ordenador, como la clasificación de imágenes.
Racionalización de la segmentación semántica
Cuando probaron su modelo en conjuntos de datos utilizados para la segmentación semántica, descubrieron que funcionaba hasta nueve veces más rápido en una unidad de procesamiento gráfico (GPU) Nvidia que otros modelos populares de transformadores de visión, con la misma o mejor precisión.
"Ahora podemos obtener lo mejor de los dos mundos y reducir la computación para hacerlo lo suficientemente rápido como para poder ejecutarlo en dispositivos móviles y en la nube", afirma Han.
A partir de estos resultados, los investigadores quieren aplicar esta técnica para acelerar los modelos de aprendizaje automático generativo, como los que se utilizan para generar nuevas imágenes. También quieren seguir ampliando EfficientViT para otras tareas de visión.
"La compresión de modelos y el diseño de modelos ligeros son temas de investigación cruciales para lograr una computación eficiente de la IA, especialmente en el contexto de los modelos de grandes bases. El grupo del profesor Song Han ha mostrado un progreso notable comprimiendo y acelerando modelos modernos de aprendizaje profundo, en particular transformadores de visión", añade Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en esta investigación. "Oracle Cloud Infrastructure ha estado apoyando a su equipo para avanzar en esta línea de investigación impactante hacia una IA eficiente y ecológica".
###
Escrito por Adam Zewe, MIT News
Articulos Electrónica Relacionados
- Optoelectrónica, Sensores / Ac... En 2018, una bolsa mixta de precios más altos, escasez y nuevas aplicaciones de imagen está aumentando las ventas totales de O-S-D en un 11% y se ...
- Tecnologías avanzadas de encap... Las tecnologías avanzadas de envasado de semiconductores son cruciales debido a la ralentización de la ley de Moore y al aumento de los costes de desarrollo y f...
- Impresión 3D de pilas de combu... Las celdas de combustible capaces de convertir hidrógeno en electricidad están llamadas a desempeñar un papel importante en la transición energética hacia un fu...
- Litio extraído En nuestros smartphones, nuestros ordenadores y en nuestros coches eléctricos: Utilizamos baterías recargables de iones de litio en todas partes. Pero su capaci...
- Composites reciclables para el... En línea con su misión de dar respuesta a retos sociales como el de la movilidad sostenible, AIMPLAS, Instituto Tecnológico del Plástico, ha coordinado el proye...
- Un circuito que reduce la fuga... Este año en el Consumer Electronics Show en Las Vegas, el gran tema fue el "Internet de las cosas" - la idea de que todo en el medio ambiente humano, desde los ...
- Propulsor eléctrico para camio... En 2021, Nikola Motor Company lanzará al mercado el Nikola One and Two, una línea de camiones de hidrógeno de clase 8 que ofrecerá m...
- Calidad en grandes programas d... Con aproximadamente 770 gigavatios (GW) de potencia fotovoltaica instalada en el mundo al concluir 2020, la mayoría concentrada en grandes plantas solares para ...
- La Universidad Carlos III de M... Científicos de la Universidad Carlos III de Madrid (UC3M) estudian cómo mejorar el desarrollo de sistemas de computación avanzados para con...
- Robot que facilita la telepres... La Universitat de Lleida (UdL) ha presentado esta un prototipo de Asistente Personal Robótico (APR), diseñado y desarrollado para facilitar la &ld...
- El primer campeonato mundial d... El Campeonato Británico de Turismos (BTCC) se ha convertido en toda una tradición ya que se celebra desde 1958 y es un gran espectáculo con más de 30 turismos d...
- Fabricantes europeos de autobu... Los fabricantes europeos de autobuses Irizar, Solaris, VDL y Volvo han llegado a un acuerdo para garantizar la interoperabilidad de los autobuses eléctri...