Los ordenadores aprenden a reconocer sonidos viendo videos
En los últimos años, los ordenadores han conseguido reconocer el habla y las imágenes de una forma notable: Piense en el software de dictado en la mayoría de los teléfonos móviles, o en los algoritmos que identifican automáticamente a las personas en fotos publicadas en Facebook.
Pero el reconocimiento de los sonidos naturales, como las multitudes que animan o las olas que rompen, se ha quedado rezagado. Esto se debe a que la mayoría de los sistemas de reconocimiento automatizados, ya sea que procesen información de audio o visual, son el resultado del aprendizaje automático, en el que los ordenadores buscan patrones en enormes compendios de datos de entrenamiento. Normalmente, los datos de entrenamiento tienen que ser anotados primero manualmente, lo que es prohibitivamente costoso para todas las aplicaciones excepto las de mayor demanda.
Sin embargo, el reconocimiento del sonido puede estar recuperándose, gracias a los investigadores del Laboratorio de Informática e Inteligencia Artificial (CSAIL) del MIT. En la pasada conferencia de Sistemas de Procesamiento de Información Neural, presentaron un sistema de reconocimiento de sonido que supera a sus predecesores, pero no necesita de datos anotados a mano durante el entrenamiento.
En su lugar, los investigadores entrenaron el sistema en vídeo. En primer lugar, los sistemas de visión computarizada existentes que reconocen escenas y objetos clasifican las imágenes en video. El nuevo sistema encontró correlaciones entre esas categorías visuales y los sonidos naturales.
"La visión por computadora ha caído tan bien que podemos transferirla a otros dominios", afirma Carl Vondrick, estudiante de posgrado del MIT en ingeniería eléctrica e informática y uno de los dos primeros autores del trabajo. "Estamos capitalizando la sincronización natural entre la visión y el sonido. Ampliamos con toneladas de video sin etiqueta para aprender a entender el sonido ".
Los investigadores probaron su sistema en dos bases de datos estándar de grabaciones de sonido anotadas, y fue entre un 13 y 15 por ciento más preciso que el sistema anterior de mejor rendimiento. En un conjunto de datos con 10 categorías de sonido diferentes, podría clasificar los sonidos con un 92 por ciento de precisión, y en un conjunto de datos con 50 categorías lo realizó con un 74 por ciento de precisión. En esos mismos conjuntos de datos, los seres humanos tienen una precisión del 96 por ciento y 81 por ciento, respectivamente.
"Incluso los seres humanos son ambiguos", comenta Yusuf Aytar, el otro autor del documento y un postdoc en el laboratorio de MIT del profesor de ingeniería eléctrica e informática Antonio Torralba. Torralba es el coautor final del artículo.
"Hicimos un experimento con Carl", comenta Aytar. "Carl estaba mirando el monitor del ordenador y no podía verlo. Él reproducía una grabación y yo trataría de adivinar lo que era. Resulta que esto es muy, muy difícil. Podía decir interior de exterior, conjeturas básicas, pero cuando se trata de los detalles - "¿Es un restaurante?", ese nivel de detalle desaparece. Incluso con fines de anotación, la tarea es realmente difícil".
Modalidades complementarias
Debido a que se necesita mucho menos potencia para recopilar y procesar datos de audio que para recopilar y procesar datos visuales, los investigadores prevén que un sistema de reconocimiento de sonido que podría ser usado para mejorar la sensibilidad al contexto de los dispositivos móviles.
Cuando se combina con datos GPS, por ejemplo, un sistema de reconocimiento de sonido podría determinar que un usuario de teléfono móvil está en una sala de cine y que la película ha comenzado, y el teléfono podría derivar automáticamente las llamadas a un mensaje saliente pregrabado. Del mismo modo, el reconocimiento del sonido podría mejorar la conciencia situacional de los robots autónomos.
"Por ejemplo, piense en un automóvil de conducción autónoma", comenta Aytar. "Hay una ambulancia y el coche no lo ve. Si lo oye, puede hacer predicciones futuras sobre la ambulancia, qué camino va a tomar, simplemente basándose puramente en el sonido ".
Lenguaje visual
El sistema de aprendizaje mecánico de los investigadores es una red neuronal, llamada así porque su arquitectura se asemeja a la del cerebro humano. Una red neuronal consiste en procesar nodos que, al igual que las neuronas individuales, sólo pueden realizar cálculos rudimentarios pero están densamente interconectados. La información, por ejemplo, los valores de píxeles de una imagen digital, se alimenta a la capa inferior de nodos, que la procesa y la transfiere a la siguiente capa, la procesa y la transfiere a la capa siguiente, etc. El proceso de entrenamiento modifica continuamente los ajustes de los nodos individuales, hasta que la salida de la capa final realiza, fiablemente, una cierta clasificación de los datos, digamos, identificando los objetos en la imagen.
Vondrick, Aytar y Torralba primero entrenaron una red neuronal en dos grandes conjuntos de imágenes anotados: uno, el conjunto de datos ImageNet, contiene ejemplos etiquetados de imágenes de 1.000 objetos diferentes; El otro, el conjunto de datos Places creado por el grupo de Torralba, contiene imágenes etiquetadas de 401 tipos de escenas diferentes, como un patio de juegos, un dormitorio o una sala de conferencias.
Una vez que la red fue entrenada, los investigadores transfirieron el video de 26 terabytes de datos de video descargados del sitio de intercambio de fotos Flickr. "Son unos 2 millones de videos únicos", comenta Vondrick. "Son unos 2 millones de videos únicos", dice Vondrick. "Si tuvieras que verlos todos, tardarías unos dos años". Entonces formaron una segunda red neuronal en el audio de los mismos videos. El objetivo de la segunda red era predecir correctamente las etiquetas de objetos y escenas producidas por la primera red.
El resultado fue una red que podía interpretar sonidos naturales en términos de categorías de imágenes. Por ejemplo, podría determinar que el sonido del canto de los pájaros tiende a asociarse con escenas de bosques y fotografías de árboles, pájaros, casas de pájaros y alimentadores de aves.
Benchmarking
Sin embargo, para comparar el rendimiento de la red de reconocimiento de sonido con el de sus predecesores, los investigadores necesitaban una manera de traducir su lenguaje de imágenes al lenguaje familiar de los nombres de sonidos. Así que formaron un sistema simple de aprendizaje de la máquina para asociar las salidas de la red de reconocimiento de sonido con un conjunto de etiquetas de sonido estándar.
Para ello, los investigadores utilizaron una base de datos de audio anotada, una con 50 categorías de sonido y unos 2.000 ejemplos. Esas anotaciones habían sido suministradas por humanos. Pero es mucho más fácil etiquetar 2.000 ejemplos que etiquetar 2 millones. Y la red de investigadores del MIT, entrenada primero en video sin etiqueta, superó significativamente a todas las redes anteriores entrenadas únicamente en los 2.000 ejemplares etiquetados.
###
Escrito por Larry Hardesty, Oficina de Noticias del MIT
Articulos Electrónica Relacionados
- IA y el camino hacia la plena ... El camino hacia los vehículos totalmente autónomos es, por necesidad, largo y sinuoso; los sistemas que implementan nuevas tecnologías que aumentan el nivel de ...
- Optoelectrónica, Sensores / Ac... En 2018, una bolsa mixta de precios más altos, escasez y nuevas aplicaciones de imagen está aumentando las ventas totales de O-S-D en un 11% y se ...
- Anatomía de la nueva industria... Las sorpresas abundan en el nuevo informe de investigación de IDTechEx, "Supercapacitor Markets, Technology Roadmap, Opportunities 2021-2041". En 2010, no había...
- Proyecto SELFY para proteger l... Ficosa participa en el consorcio de SELFY, un nuevo proyecto que nace para mejorar la resiliencia de los vehículos autónomos y conectados frente a ciberataques ...
- Proyecto JOIN para desarrollar... La utilización de materiales poliméricos en aplicaciones estructurales se ha ido incrementando en los últimos años debido a los bene...
- El aumento de actividad en múl... El mercado global de los controladores lógicos programables (PLC) fue testigo de una fuerte caída en el crecimiento en el 2012 debido a la situación de incertid...
- Importancia geoestratégica de ... Un estudio realizado por un equipo de investigadores de la ETSI de Minas y Energía de la Universidad Politécnica de Madrid (UPM) ha analizado las materias prima...
- Piloto automático de Tesla: Ve... Esta semana, la agencia federal estadounidense que rige la seguridad vial ha anunciado una investigación sobre Tesla y sus pretensiones de autoconducción, lo qu...
- El futuro del vehículo eléctri... El vehículo eléctrico ya es una realidad...y se espera que entre 2020-2030 sea una industria completamente desarrollada.Claro que para eso habr&aa...
- Materiales para la captura de ... AIMPLAS, Instituto Tecnológico del Plástico, ha completado su participación como coordinador en el proyecto europeo GRAMOFON que ha permitido desarrollar un inn...
- Tres nuevas tendencias en tecn... IDTechEx ha identificado tres nuevas megatendencias en el mundo de la tecnología:• Electrónica estructural (SE)• Electrónica impr...
- Composites reciclables para el... En línea con su misión de dar respuesta a retos sociales como el de la movilidad sostenible, AIMPLAS, Instituto Tecnológico del Plástico, ha coordinado el proye...