Un modelo de IA acelera la visión por ordenador de alta resolución
Un vehículo autónomo debe reconocer con rapidez y precisión los objetos que encuentra, desde un camión de reparto aparcado en la esquina hasta un ciclista que se acerca a toda velocidad a un cruce. Para ello, el vehículo podría utilizar un potente modelo de visión por ordenador para clasificar cada píxel de una imagen de alta resolución de esta escena, de modo que no pierda de vista objetos que podrían quedar ocultos en una imagen de menor calidad. Pero esta tarea, conocida como segmentación semántica, es compleja y requiere una enorme cantidad de cálculo cuando la imagen tiene alta resolución.
Investigadores del MIT, el MIT-IBM Watson AI Lab y otros centros han desarrollado un modelo de visión por ordenador más eficiente que reduce enormemente la complejidad computacional de esta tarea. Su modelo puede realizar la segmentación semántica con precisión en tiempo real en un dispositivo con recursos de hardware limitados, como los ordenadores de a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.
Los modelos de segmentación semántica más recientes aprenden directamente la interacción entre cada par de píxeles de una imagen, por lo que sus cálculos crecen cuadráticamente a medida que aumenta la resolución de la imagen. Por eso, aunque estos modelos son precisos, resultan demasiado lentos para procesar imágenes de alta resolución en tiempo real en un dispositivo periférico como un sensor o un teléfono móvil.
Los investigadores del MIT diseñaron un nuevo bloque de construcción para modelos de segmentación semántica que consigue las mismas capacidades que estos modelos de última generación, pero con una complejidad computacional sólo lineal y operaciones eficientes desde el punto de vista del hardware.
El resultado es una nueva serie de modelos de visión por ordenador de alta resolución que funcionan hasta nueve veces más rápido que los modelos anteriores cuando se implementan en un dispositivo móvil. Y lo que es más importante, esta nueva serie de modelos presenta una precisión igual o superior a la de los modelos alternativos.
Esta técnica no sólo podría utilizarse para ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficacia de otras tareas de visión por ordenador de alta resolución, como la segmentación de imágenes médicas.
"Aunque los investigadores llevan mucho tiempo utilizando transformadores de visión tradicionales, y dan resultados asombrosos, queremos que la gente preste atención también al aspecto de la eficiencia de estos modelos. Nuestro trabajo demuestra que es posible reducir drásticamente el cálculo para que la segmentación de imágenes en tiempo real pueda realizarse localmente en un dispositivo", afirma Song Han, profesor asociado del Departamento de Ingeniería Eléctrica e Informática (EECS), miembro del Laboratorio de Inteligencia Artificial MIT-IBM Watson y autor principal del artículo que describe el nuevo modelo.
Le acompañan en el artículo Han Cai, estudiante de postgrado de EECS; Junyan Li, estudiante de la Universidad de Zhejiang; Muyan Hu, estudiante de la Universidad de Tsinghua; y Chuang Gan, investigador principal del Laboratorio de Inteligencia Artificial MIT-IBM Watson. La investigación se presentará en la Conferencia Internacional sobre Visión por Ordenador.
Una solución simplificada
Categorizar cada píxel de una imagen de alta resolución que puede tener millones de píxeles es una tarea difícil para un modelo de aprendizaje automático. Recientemente se ha utilizado con eficacia un nuevo y potente tipo de modelo, conocido como transformador de visión.
Los transformadores se desarrollaron originalmente para el procesamiento del lenguaje natural. En ese contexto, codifican cada palabra de una frase como un token y luego generan un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al modelo a entender el contexto cuando hace predicciones.
Utilizando el mismo concepto, un transformador de visión trocea una imagen en parches de píxeles y codifica cada pequeño parche en un token antes de generar un mapa de atención. Al generar este mapa de atención, el modelo utiliza una función de similitud que aprende directamente la interacción entre cada par de píxeles. De este modo, el modelo desarrolla lo que se conoce como campo receptivo global, lo que significa que puede acceder a todas las partes relevantes de la imagen.
Dado que una imagen de alta resolución puede contener millones de píxeles, divididos en miles de parches, el mapa de atención se vuelve rápidamente enorme. Por eso, la cantidad de cálculo crece cuadráticamente a medida que aumenta la resolución de la imagen.
En su nueva serie de modelos, denominada EfficientViT, los investigadores del MIT utilizan un mecanismo más sencillo para construir el mapa de atención: sustituyen la función de similitud no lineal por una función de similitud lineal. De este modo, pueden reorganizar el orden de las operaciones para reducir el total de cálculos sin cambiar la funcionalidad ni perder el campo receptivo global. Con su modelo, la cantidad de cálculos necesarios para una predicción crece linealmente a medida que aumenta la resolución de la imagen.
"Pero no hay almuerzo gratis. La atención lineal sólo capta el contexto global de la imagen y pierde información local, lo que empeora la precisión", explica Han.
Para compensar esa pérdida de precisión, los investigadores incluyeron dos componentes adicionales en su modelo, cada uno de los cuales añade sólo una pequeña cantidad de cálculo.
Uno de esos elementos ayuda al modelo a captar las interacciones de las características locales, mitigando la debilidad de la función lineal en la extracción de información local. El segundo, un módulo que permite el aprendizaje multiescala, ayuda al modelo a reconocer objetos grandes y pequeños.
"Lo más importante es equilibrar cuidadosamente el rendimiento y la eficiencia", afirma Cai.
Diseñaron EfficientViT con una arquitectura adaptada al hardware, para que fuera más fácil de ejecutar en distintos tipos de dispositivos, como auriculares de realidad virtual u ordenadores de borde de vehículos autónomos. Su modelo también podría aplicarse a otras tareas de visión por ordenador, como la clasificación de imágenes.
Racionalización de la segmentación semántica
Cuando probaron su modelo en conjuntos de datos utilizados para la segmentación semántica, descubrieron que funcionaba hasta nueve veces más rápido en una unidad de procesamiento gráfico (GPU) Nvidia que otros modelos populares de transformadores de visión, con la misma o mejor precisión.
"Ahora podemos obtener lo mejor de los dos mundos y reducir la computación para hacerlo lo suficientemente rápido como para poder ejecutarlo en dispositivos móviles y en la nube", afirma Han.
A partir de estos resultados, los investigadores quieren aplicar esta técnica para acelerar los modelos de aprendizaje automático generativo, como los que se utilizan para generar nuevas imágenes. También quieren seguir ampliando EfficientViT para otras tareas de visión.
"La compresión de modelos y el diseño de modelos ligeros son temas de investigación cruciales para lograr una computación eficiente de la IA, especialmente en el contexto de los modelos de grandes bases. El grupo del profesor Song Han ha mostrado un progreso notable comprimiendo y acelerando modelos modernos de aprendizaje profundo, en particular transformadores de visión", añade Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en esta investigación. "Oracle Cloud Infrastructure ha estado apoyando a su equipo para avanzar en esta línea de investigación impactante hacia una IA eficiente y ecológica".
###
Escrito por Adam Zewe, MIT News
Articulos Electrónica Relacionados
- El proyecto NOU-EXTRUSIÓ permi... El sector del plástico desarrolla continuamente nuevos materiales con propiedades mejoradas, nuevas funcionalidades y más sostenibles. Sin embargo...
- ¿Cuál es la diferencia en la a... Desde la ratificación de la primera norma PoE en 2003, el uso de PoE ha aumentado de forma espectacular y se ha abierto paso en nuevas aplicaciones. PoE proporc...
- Las ventas de Sensores / Actua... Después de varios años de tasas de crecimiento bajas e incoherentes, debido principalmente a la intensa presión de precios, el mercado de s...
- La Universidad de Deusto incor... La Universidad de Deusto ha puesto en marcha un nuevo Grado en Ciencia de Datos e Inteligencia Artificial (GCDIA), dirigido a crear perfiles profesionales llama...
- Mouser Electronics y Grant Ima... Mouser Electronics Inc. se une por cuarto año consecutivo con el famoso ingeniero Grant Imahara para la última edición de su popular progra...
- Una investigación coordinada p... La computación heterogénea en paralelo combina varios elementos de procesamiento de distintas características que comparten un único...
- Impresión con nanopartículas d... Xaar plc y Lawter, junto con su compañía matriz Harima Chemicals Group (HCG), anuncia una colaboración para optimizar el rendimiento de una...
- Un proyecto de investigación r... En la Universidad de Birmingham se ha puesto en marcha un nuevo proyecto de investigación destinado a mejorar la tecnología de navegación ferroviaria en un esfu...
- Los robots rastrean objetos en... El sistema usa etiquetas RFID para ubicarse en los objetivos; Podría beneficiar la fabricación robótica, drones colaborativos y otras aplicaciones. Un nuevo sis...
- Electrónica en molde: oportuni... La electrónica en molde (IME) promete permitir la producción de alto volumen de electrónica estructural en la que el circuito electrónico y la funcionalidad son...
- El consorcio AZKARGA desarroll... La Viceconsejera de Tecnología, Innovación y Competitividad del Gobierno Vasco, Estíbaliz Hernáez, presidió la inauguraci&oac...
- Entrada en vigor de la directi... El 20 de abril de 2016 entró en vigor la nueva Directiva ATEX 2014/34/UE.ATEX proviene de la expresión francesa "ATmosphère EXplosibles". L...