Tel.: +34 91 706 56 69
Poema Sinfónico, 27. Esc B. Planta 1 Pta 5
28054 (Madrid - SPAIN)
e-mail: gm2@gm2publicacionestecnicas.com ó consultas@convertronic.net
Un chip de baja potencia y propósito especial podría hacer el reconocimiento de voz omnipresente en la electrónica. En previsión de la era de la electrónica controlada por voz, los investigadores del MIT han construido un chip de baja potencia especializado para el reconocimiento automático de voz.
Mientras que un teléfono móvil que ejecuta el software de reconocimiento de voz puede requerir alrededor de 1 vatio de potencia, el nuevo chip requiere entre 0.2 y 10 milivatios, dependiendo del número de palabras que tiene que reconocer.
En una aplicación del mundo real, eso probablemente se traduce en un ahorro de energía del 90 al 99 por ciento, lo que podría hacer práctico el control de voz para dispositivos electrónicos relativamente simples. Esto incluye dispositivos con limitaciones de energía que tienen que recolectar energía de sus entornos o pasar meses entre las cargas de la batería. Tales dispositivos forman la columna vertebral tecnológica de lo que se llama el "Internet de las cosas", o IoT.
"La entrada de voz se convertirá en una interfaz natural para muchas aplicaciones portátiles y dispositivos inteligentes", afirma Anantha Chandrakasan, el Profesor Vannevar Bush de Ingeniería Eléctrica e Informática del MIT, cuyo grupo desarrolló el nuevo chip. "La miniaturización de estos dispositivos necesitará de un interfaz diferente al tacto o teclado. Será crítico integrar la funcionalidad de voz localmente para ahorrar el consumo de energía del sistema en comparación con la realización de esta operación en la nube ".
"No creo que realmente hemos desarrollado esta tecnología para una aplicación en particular", añade Michael Price, quien dirigió el diseño del chip como estudiante de posgrado del MIT en ingeniería eléctrica e informática y ahora trabaja para el fabricante de chips Analog Devices. "Hemos tratado de facilitar la infraestructura para ofrecer mejores "trade-offs" a un diseñador de sistemas de lo que hubieran tenido con la tecnología anterior, ya sea aceleración de software o hardware".
El dormilon se despierta
Hoy en día, los reconocimientos de habla más eficaces están, como muchos otros sistemas de inteligencia artificial de última generación, basados ??en redes neuronales, redes virtuales de procesadores de información sencillos basados ??en el cerebro humano. Gran parte del circuito de los nuevos chips se ocupa de implementar las redes de reconocimiento de voz de la manera más eficiente posible.
Pero incluso el sistema de reconocimiento de voz más eficiente en energía podría agotar rápidamente la batería de un dispositivo si funcionaba sin interrupción. Por lo tanto, el chip también incluye un circuito más simple de "detección de actividad de voz" que supervisa el ruido ambiental para determinar si puede ser un discurso. Si la respuesta es sí, el chip dispara el circuito de reconocimiento de voz más grande y más complejo.
De hecho, con fines experimentales, el chip de los investigadores tenía tres circuitos diferentes de detección de actividad vocal, con diferentes grados de complejidad y, por consiguiente, diferentes demandas de potencia. Cual es el circuito más eficiente depende del contexto, pero en pruebas que simulan una amplia gama de condiciones, el más complejo de los tres circuitos ofreció los mayores ahorros de energía para el sistema en su conjunto. Aunque consumió casi tres veces más energía que el circuito más simple, generó muchos menos falsos positivos; los circuitos más simples, a menudo, echan a perder su ahorro de energía activando espoleando el resto del chip.
Una red neural típica consiste en miles de "nodos" de procesamiento capaces de realizar únicamente cálculos simples pero densamente conectados entre sí. En el tipo de red comúnmente utilizado para el reconocimiento de voz, los nodos se disponen en capas. Los datos de voz se introducen en la capa inferior de la red, cuyos nodos lo procesan y pasan a los nodos de la capa siguiente, cuyos nodos lo procesan y pasan a la siguiente capa, y así sucesivamente. La salida de la capa superior indica la probabilidad de que los datos de voz representen un sonido de voz particular.
Una red de reconocimiento de voz es demasiado grande para encajar en la memoria interna de un chip, lo cual es un problema porque el uso de datos fuera de chip es mucho más intensivo que el recuperarlo del almacenamiento local. Así que el diseño de los investigadores del MIT se concentra en minimizar la cantidad de datos que el chip tiene que recuperar de la memoria fuera de chip.
Gestión del ancho de banda
Un nodo en medio de una red neuronal puede recibir datos de una docena de otros nodos y transmitir datos a otra docena. Cada una de esas dos docenas de conexiones tiene un "peso" asociado, un número que indica cuan importantes son los datos enviados a través de él, para tener en cuenta los cálculos del nodo receptor. El primer paso para minimizar el ancho de banda de memoria del nuevo chip, es comprimir los pesos asociados con cada nodo. Los datos se descomprimen sólo después de que se lleven al chip.
El chip también explota el hecho de que, con el reconocimiento de voz, onda tras onda de datos debe pasar a través de la red. La señal de audio entrante se divide en incrementos de 10 milisegundos, cada uno de los cuales debe evaluarse por separado. El chip de los investigadores del MIT lleva un solo nodo de la red neuronal a la vez, pero pasa los datos de 32 incrementos consecutivos de 10 milisegundos a través de él.
Si un nodo tiene una docena de salidas, entonces las 32 pasadas producen 384 valores de salida, que el chip almacena localmente. Cada uno de ellos debe estar acoplado con otros 11 valores cuando se alimenta a la siguiente capa de nodos, y así sucesivamente. Por lo que el chip termina por necesitar un circuito de memoria incorporado, considerable para sus cálculos intermedios. Pero sólo extrae un nodo comprimido a la vez, de la memoria fuera del chip, manteniendo bajos sus necesidades de energía.
La investigación fue financiada a través del Proyecto Qmulus, una empresa conjunta entre MIT y Quanta Computer, y el chip fue prototipado a través del programa universitario satélite de la Taiwan Semiconductor Manufacturing Company
###
Autor Larry Hardesty, Oficina de Noticias del MIT
Suscripción papel: 180,00.- € (IVA inc.)
Suscripción PDF: 60,00.- € (IVA inc)
Power Integrations ha presentado un nuevo miembro de su familia InnoMux™-2 de circuitos integrados de fuente de alimentación offline de una sola...
Melexis presenta el MLX92235, un conmutador de efecto Hall de potencia ultrabaja con las mejores tolerancias de su clase para una frecuencia de...
Mecter se complace en anunciar el lanzamiento de los nuevos circuitos integrados periféricos de teclas táctiles de Holtek, la serie BS21xC-x. Estos...
La rápida transición hacia medios de transporte climáticamente neutros y energéticamente eficientes supone una contribución importante a un futuro...
Suscríbete a nuestro boletín de noticias