Los ordenadores aprenden a reconocer sonidos viendo videos
En los últimos años, los ordenadores han conseguido reconocer el habla y las imágenes de una forma notable: Piense en el software de dictado en la mayoría de los teléfonos móviles, o en los algoritmos que identifican automáticamente a las personas en fotos publicadas en Facebook.
Pero el reconocimiento de los sonidos naturales, como las multitudes que animan o las olas que rompen, se ha quedado rezagado. Esto se debe a que la mayoría de los sistemas de reconocimiento automatizados, ya sea que procesen información de audio o visual, son el resultado del aprendizaje automático, en el que los ordenadores buscan patrones en enormes compendios de datos de entrenamiento. Normalmente, los datos de entrenamiento tienen que ser anotados primero manualmente, lo que es prohibitivamente costoso para todas las aplicaciones excepto las de mayor demanda.
Sin embargo, el reconocimiento del sonido puede estar recuperándose, gracias a los investigadores del Laboratorio de Informática e Inteligencia Artificial (CSAIL) del MIT. En la pasada conferencia de Sistemas de Procesamiento de Información Neural, presentaron un sistema de reconocimiento de sonido que supera a sus predecesores, pero no necesita de datos anotados a mano durante el entrenamiento.
En su lugar, los investigadores entrenaron el sistema en vídeo. En primer lugar, los sistemas de visión computarizada existentes que reconocen escenas y objetos clasifican las imágenes en video. El nuevo sistema encontró correlaciones entre esas categorías visuales y los sonidos naturales.
"La visión por computadora ha caído tan bien que podemos transferirla a otros dominios", afirma Carl Vondrick, estudiante de posgrado del MIT en ingeniería eléctrica e informática y uno de los dos primeros autores del trabajo. "Estamos capitalizando la sincronización natural entre la visión y el sonido. Ampliamos con toneladas de video sin etiqueta para aprender a entender el sonido ".
Los investigadores probaron su sistema en dos bases de datos estándar de grabaciones de sonido anotadas, y fue entre un 13 y 15 por ciento más preciso que el sistema anterior de mejor rendimiento. En un conjunto de datos con 10 categorías de sonido diferentes, podría clasificar los sonidos con un 92 por ciento de precisión, y en un conjunto de datos con 50 categorías lo realizó con un 74 por ciento de precisión. En esos mismos conjuntos de datos, los seres humanos tienen una precisión del 96 por ciento y 81 por ciento, respectivamente.
"Incluso los seres humanos son ambiguos", comenta Yusuf Aytar, el otro autor del documento y un postdoc en el laboratorio de MIT del profesor de ingeniería eléctrica e informática Antonio Torralba. Torralba es el coautor final del artículo.
"Hicimos un experimento con Carl", comenta Aytar. "Carl estaba mirando el monitor del ordenador y no podía verlo. Él reproducía una grabación y yo trataría de adivinar lo que era. Resulta que esto es muy, muy difícil. Podía decir interior de exterior, conjeturas básicas, pero cuando se trata de los detalles - "¿Es un restaurante?", ese nivel de detalle desaparece. Incluso con fines de anotación, la tarea es realmente difícil".
Modalidades complementarias
Debido a que se necesita mucho menos potencia para recopilar y procesar datos de audio que para recopilar y procesar datos visuales, los investigadores prevén que un sistema de reconocimiento de sonido que podría ser usado para mejorar la sensibilidad al contexto de los dispositivos móviles.
Cuando se combina con datos GPS, por ejemplo, un sistema de reconocimiento de sonido podría determinar que un usuario de teléfono móvil está en una sala de cine y que la película ha comenzado, y el teléfono podría derivar automáticamente las llamadas a un mensaje saliente pregrabado. Del mismo modo, el reconocimiento del sonido podría mejorar la conciencia situacional de los robots autónomos.
"Por ejemplo, piense en un automóvil de conducción autónoma", comenta Aytar. "Hay una ambulancia y el coche no lo ve. Si lo oye, puede hacer predicciones futuras sobre la ambulancia, qué camino va a tomar, simplemente basándose puramente en el sonido ".
Lenguaje visual
El sistema de aprendizaje mecánico de los investigadores es una red neuronal, llamada así porque su arquitectura se asemeja a la del cerebro humano. Una red neuronal consiste en procesar nodos que, al igual que las neuronas individuales, sólo pueden realizar cálculos rudimentarios pero están densamente interconectados. La información, por ejemplo, los valores de píxeles de una imagen digital, se alimenta a la capa inferior de nodos, que la procesa y la transfiere a la siguiente capa, la procesa y la transfiere a la capa siguiente, etc. El proceso de entrenamiento modifica continuamente los ajustes de los nodos individuales, hasta que la salida de la capa final realiza, fiablemente, una cierta clasificación de los datos, digamos, identificando los objetos en la imagen.
Vondrick, Aytar y Torralba primero entrenaron una red neuronal en dos grandes conjuntos de imágenes anotados: uno, el conjunto de datos ImageNet, contiene ejemplos etiquetados de imágenes de 1.000 objetos diferentes; El otro, el conjunto de datos Places creado por el grupo de Torralba, contiene imágenes etiquetadas de 401 tipos de escenas diferentes, como un patio de juegos, un dormitorio o una sala de conferencias.
Una vez que la red fue entrenada, los investigadores transfirieron el video de 26 terabytes de datos de video descargados del sitio de intercambio de fotos Flickr. "Son unos 2 millones de videos únicos", comenta Vondrick. "Son unos 2 millones de videos únicos", dice Vondrick. "Si tuvieras que verlos todos, tardarías unos dos años". Entonces formaron una segunda red neuronal en el audio de los mismos videos. El objetivo de la segunda red era predecir correctamente las etiquetas de objetos y escenas producidas por la primera red.
El resultado fue una red que podía interpretar sonidos naturales en términos de categorías de imágenes. Por ejemplo, podría determinar que el sonido del canto de los pájaros tiende a asociarse con escenas de bosques y fotografías de árboles, pájaros, casas de pájaros y alimentadores de aves.
Benchmarking
Sin embargo, para comparar el rendimiento de la red de reconocimiento de sonido con el de sus predecesores, los investigadores necesitaban una manera de traducir su lenguaje de imágenes al lenguaje familiar de los nombres de sonidos. Así que formaron un sistema simple de aprendizaje de la máquina para asociar las salidas de la red de reconocimiento de sonido con un conjunto de etiquetas de sonido estándar.
Para ello, los investigadores utilizaron una base de datos de audio anotada, una con 50 categorías de sonido y unos 2.000 ejemplos. Esas anotaciones habían sido suministradas por humanos. Pero es mucho más fácil etiquetar 2.000 ejemplos que etiquetar 2 millones. Y la red de investigadores del MIT, entrenada primero en video sin etiqueta, superó significativamente a todas las redes anteriores entrenadas únicamente en los 2.000 ejemplares etiquetados.
###
Escrito por Larry Hardesty, Oficina de Noticias del MIT
Articulos Electrónica Relacionados
- Fabricación de coches eléctric... Eviden ha anunciado que forma parte del proyecto europeo e- BEAT, uno de los proyectos de I+D ganadores del Programa Tecnológico de Automoción Sostenible del CD...
- Un nuevo método de visión por ... Aumentar el rendimiento de células solares, transistores, LED y baterías exigirá mejores materiales electrónicos, fabricados a partir de composiciones novedosas...
- Impresión con nanopartículas d... Xaar plc y Lawter, junto con su compañía matriz Harima Chemicals Group (HCG), anuncia una colaboración para optimizar el rendimiento de una...
- El mercado de CIs para automoc... Los sistemas que ayudan, automatizan y se comunican, están aumentando el contenido de CIs en los nuevos vehículos de lujo y básicos. A fina...
- Proyecto MICROPLASTICS_2020 pa... AIMPLAS, Instituto Tecnológico del Plástico, está llevando a cabo, con la financiación del IVACE, el proyecto MICROPLASTICS_2020 que permitirá desarrollar una m...
- Convergencia de la electrónica... En marzo, el sector de la electrónica impresa acudió a la conferencia y exposición LOPEC 2024. Se presentaron algunas de las últimas tecnologías de electrónica ...
- Proyecto europeo PowerizeD PowerizeD es un proyecto de desarrollo tecnológico que se centra en mejorar la forma de generar y transmitir energía mediante el uso de electrónica de potencia ...
- Ingeteam y BeePlanet Factory c... El uso conjunto de ambos equipos permite crear sistemas híbridos que combinan la generación fotovoltaica y el almacenamiento de energía, sin necesidad de añadir...
- Beneficios de coste y eficienc... La capacidad de proporcionar una mayor eficiencia energética y control de movimiento preciso están impulsando la adopción de los accionamientos eléctricos en in...
- El proyecto OCEANETS incorpora... El objetivo del proyecto europeo OCEANETS es desarrollar soluciones tecnológicas alineadas con el modelo de Economía Circular relacionadas con las redes de pesc...
- Chip que reduce el consumo de ... La mayoría de los avances recientes en sistemas de inteligencia artificial, tales como programas de reconocimiento de habla o rostro, han sido cortes&iac...
- IC Insights eleva el pronóstic... IC Insights ha presentado su actualización de octubre del Informe McClean. La Actualización de 30 páginas incluye un análisis detall...