Un método encuentra señales de advertencia ocultas en las mediciones recogidas a lo largo del tiempo
Cuando eres responsable de que un satélite multimillonario se precipite en el espacio a miles de kilómetros por hora, quieres estar seguro de que funciona sin problemas. Y las series temporales pueden ayudar.
Una serie temporal es simplemente un registro de una medida tomada repetidamente a lo largo del tiempo. Puede seguir las tendencias a largo plazo de un sistema y los blips a corto plazo. Los ejemplos incluyen la infame curva Covid-19 de los nuevos casos diarios y la curva Keeling que ha rastreado las concentraciones atmosféricas de dióxido de carbono desde 1958. En la era del Big Data, "las series temporales se recogen por todas partes, desde los satélites hasta las turbinas", dice Kalyan Veeramachaneni. "Toda esa maquinaria tiene sensores que recogen estas series temporales sobre cómo están funcionando".
Pero analizar esas series temporales, y marcar puntos de datos anómalos en ellas, puede ser difícil. Los datos pueden contener ruido. Si un operador de satélite ve una serie de lecturas de alta temperatura, ¿cómo saben si es una fluctuación inofensiva o una señal de que el satélite está a punto de recalentarse?
Ese es un problema que Veeramachaneni, que lidera el grupo de Datos a Inteligencia Artificial en el Laboratorio de Información y Sistemas de Decisión del MIT, espera resolver. El grupo ha desarrollado un nuevo método basado en el aprendizaje profundo para detectar anomalías en los datos de las series temporales. Su enfoque, llamado TadGAN, superó a los métodos de la competencia y podría ayudar a los operadores a detectar y responder a cambios importantes en una gama de sistemas de alto valor, desde un satélite que vuela a través del espacio hasta una granja de servidores informáticos que trabaja en un sótano.
La investigación será presentada en la conferencia IEEE BigData de este mes. Entre los autores del artículo se encuentran los miembros del grupo Data-to-AI Veeramachaneni, el postdoc Dongyu Liu, el estudiante de investigación invitado Alexander Geiger y la estudiante de maestría Sarah Alnegheimish, así como Alfredo Cuesta-Infante de la Universidad Rey Juan Carlos de España.
Mucho en juego
Para un sistema tan complejo como un satélite, el análisis de las series temporales debe ser automatizado. La empresa de satélites SES, que colabora con Veeramachaneni, recibe una avalancha de series temporales de sus satélites de comunicaciones, unos 30.000 parámetros únicos por nave espacial. Los operarios humanos en la sala de control de SES sólo pueden seguir el rastro de una fracción de esas series temporales cuando pasan por la pantalla. Para el resto, confían en un sistema de alarma para señalar los valores fuera de rango. "Así que nos dijeron, '¿Pueden hacerlo mejor?'" dice Veeramachaneni. La compañía quería que su equipo utilizara el aprendizaje profundo para analizar todas esas series temporales y señalar cualquier comportamiento inusual.
Lo que está en juego en esta petición es alto: si el algoritmo de aprendizaje profundo no detecta una anomalía, el equipo podría perder la oportunidad de arreglar las cosas. Pero si hace sonar la alarma cada vez que hay un punto de datos con ruido, los revisores humanos perderán su tiempo revisando constantemente el algoritmo que gritó "¡lobo!". "Así que tenemos estos dos desafíos", dice Liu. "Y necesitamos equilibrarlos".
En lugar de lograr ese equilibrio sólo para los sistemas de satélites, el equipo se esforzó en crear un marco más general para la detección de anomalías, uno que pudiera aplicarse en todas las industrias. Recurrieron a sistemas de aprendizaje profundo llamados redes generativas de contrarios (GAN), a menudo utilizadas para el análisis de imágenes.
Una GAN consiste en un par de redes neuronales. Una red, el "generador", crea imágenes falsas, mientras que la segunda red, el "discriminador", procesa las imágenes e intenta determinar si son imágenes reales o falsas producidas por el generador. A través de muchas rondas de este proceso, el generador aprende de la retroalimentación del discriminador y se vuelve adepto a crear falsificaciones hiperrealistas. La técnica se considera un aprendizaje "no supervisado", ya que no requiere un conjunto de datos pre-etiquetados donde las imágenes vienen etiquetadas con sus sujetos. (Los grandes conjuntos de datos etiquetados pueden ser difíciles de conseguir).
El equipo adaptó este enfoque de la GAN para los datos de las series temporales. "A partir de esta estrategia de entrenamiento, nuestro modelo puede decir qué puntos de datos son normales y cuáles son anómalos", dice Liu. Lo hace comprobando las discrepancias - posibles anomalías - entre la serie de tiempo real y la falsa serie de tiempo generada por la GAN. Pero el equipo encontró que las GANs por sí solas no eran suficientes para la detección de anomalías en las series de tiempo, porque pueden quedarse cortas en la determinación del segmento de la serie de tiempo real contra el que las falsas deben ser comparadas. Como resultado, "si usas sólo GAN, crearás un montón de falsos positivos", dice Veeramachaneni.
Para protegerse de los falsos positivos, el equipo complementó su GAN con un algoritmo llamado autoencoder, otra técnica para el aprendizaje profundo sin supervisión. En contraste con la tendencia de los GAN a gritar "¡lobo!", los autoencoder son más propensos a pasar por alto las verdaderas anomalías. Eso es porque los autoencoder tienden a capturar demasiados patrones en las series temporales, a veces interpretando una anomalía real como una fluctuación inofensiva - un problema llamado "overfitting". Combinando un GAN con un autoencoder, los investigadores crearon un sistema de detección de anomalías que logró el equilibrio perfecto: TadGAN es vigilante, pero no da demasiadas falsas alarmas.
Soportando la prueba de las series temporales
Además, TadGAN venció a la competencia. El enfoque tradicional de la previsión de series temporales, llamado ARIMA, se desarrolló en la década de 1970. "Queríamos ver hasta dónde habíamos llegado, y si los modelos de aprendizaje profundo pueden realmente mejorar este método clásico", dice Alnegheimish.
El equipo realizó pruebas de detección de anomalías en 11 conjuntos de datos, enfrentando a ARIMA con TadGAN y otros siete métodos, incluyendo algunos desarrollados por compañías como Amazon y Microsoft. TadGAN superó a ARIMA en la detección de anomalías para ocho de los 11 conjuntos de datos. El segundo mejor algoritmo, desarrollado por Amazon, sólo superó a ARIMA para seis conjuntos de datos.
Alnegheimish enfatizó que su objetivo no sólo era desarrollar un algoritmo de detección de anomalías de primera categoría, sino también hacerlo ampliamente utilizable. "Todos sabemos que la IA sufre de problemas de reproducibilidad", dice. El equipo ha puesto el código de TadGAN a disposición del público, y hacen actualizaciones periódicas. Además, desarrollaron un sistema de evaluación comparativa para que los usuarios comparen el rendimiento de diferentes modelos de detección de anomalías.
"Este benchmark es de código abierto, así que alguien puede ir a probarlo. Pueden añadir su propio modelo si quieren", dice Alnegheimish. "Queremos mitigar el estigma de que la IA no es reproducible. Queremos asegurarnos de que todo sea sólido".
Veeramachaneni espera que TadGAN algún día sirva a una amplia variedad de industrias, no sólo a las empresas de satélites. Por ejemplo, podría utilizarse para supervisar el rendimiento de las aplicaciones informáticas que se han convertido en fundamentales para la economía moderna. "Para dirigir un laboratorio, tengo 30 aplicaciones. Zoom, Slack, Github, lo que sea, lo tengo", dice. "Y confío en que todas ellas funcionen a la perfección y para siempre." Lo mismo ocurre con millones de usuarios en todo el mundo.
TadGAN podría ayudar a compañías como Zoom a monitorizar señales de series de tiempo en su centro de datos - como el uso de la CPU o la temperatura - para ayudar a prevenir cortes de servicio, que podrían amenazar la cuota de mercado de una compañía. En el futuro, el equipo planea empaquetar el TadGAN en una interfaz de usuario, para ayudar a llevar el análisis de series de tiempo de última generación a cualquiera que lo necesite.
Esta investigación fue financiada y completada en colaboración con SES.
Articulos Electrónica Relacionados
- AIMPLAS coordina un proyecto p... Hoy en día, el destino más común para las baterías de ion litio (LIBs), que se emplean tanto en aparatos electrónicos, como móviles y ordenadores, y en la movil...
- Piloto automático de Tesla: Ve... Esta semana, la agencia federal estadounidense que rige la seguridad vial ha anunciado una investigación sobre Tesla y sus pretensiones de autoconducción, lo qu...
- Una actualización de chip ayud... Investigadores del MIT, que el año pasado diseñaron un pequeño chip de ordenador para ayudar a los drones del tamaño de una abeja a ...
- Impacto de los sustratos de in... Detrás del bombo y platillo del SiC (carburo de silicio) y del futuro potencial del GaN (nitruro de galio) para la electrónica de potencia de los vehículos eléc...
- Nationstar irrumpe en el Top 1... Después de perder por poco su irrupción en el top 10 de IHS Markit para 2016 y Q1'17, Nationstar ha entrado en el rango de los 10 primeros del gru...
- La microelectrónica, una de la... La microelectrónica es una de las tecnologías más importantes de nuestro tiempo. Desde la movilidad eléctrica, la conducción autónoma y las máquinas de autoapre...
- El proyecto De-RISC de H2020 c... Tras un año de ejecución, De-RISC sigue abriéndose camino para impulsar futuras aplicaciones espaciales y aeronáuticas con tecnología hecha en Europa. Este pro...
- Laboratorio de componentes lig... AIMPLAS, Instituto Tecnológico del Plástico, trabaja en un nuevo laboratorio para desarrollar componentes ligeros para vehículos con sensores integrados dentro ...
- El radar de automoción: miniat... El radar ha sido una de las incorporaciones más importantes a los vehículos en las dos últimas décadas. Proporciona lujosos sistemas avanzados de asistencia al ...
- Los módulos de potencia crecen... El mercado mundial de módulos de potencia se prevé que se reduzca en casi un tercio (30 por ciento) del mercado de los semiconductores de potencia...
- Prototipo basado en la integra... Expertos del Barcelona Supercomputing Center (BSC), miembros del consorcio del proyecto europeo ExaNoDe, han participado en la evaluación de un innovador protot...
- Alternativas ópticas 3D para t... Una de las principales demandas de la industria 4.0 europea es la disposición de métodos de medición más rápidos y precisos para hacer frente a las nuevas neces...