Una forma más rápida de enseñar a un robot
Imagine que compra un robot para realizar tareas domésticas. Este robot ha sido construido y entrenado en una fábrica para realizar una serie de tareas y nunca ha visto los objetos de su casa. Cuando le pides que coja una taza de la mesa de la cocina, es posible que no reconozca tu taza (quizá porque está pintada con una imagen poco habitual, por ejemplo, la mascota del MIT, Tim el Castor). Entonces, el robot falla.
"Ahora mismo, tal y como entrenamos a estos robots, cuando fallan no sabemos muy bien por qué. Así que simplemente levantamos las manos y decimos: 'Vale, supongo que tenemos que volver a empezar'. Un componente fundamental que falta en este sistema es permitir que el robot demuestre por qué está fallando para que el usuario pueda darle su opinión", explica Andi Peng, estudiante de postgrado de Ingeniería Eléctrica e Informática (EECS) en el MIT.
Peng y sus colaboradores del MIT, la Universidad de Nueva York y la Universidad de California en Berkeley crearon un marco que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga, con un esfuerzo mínimo.
Cuando un robot falla, el sistema utiliza un algoritmo para generar explicaciones contrafácticas que describen lo que habría que cambiar para que el robot tuviera éxito. Por ejemplo, tal vez el robot habría podido coger la taza si ésta fuera de un color determinado. El sistema muestra estos contrafácticos al humano y le pregunta por qué ha fallado el robot. A continuación, el sistema utiliza esta información y las explicaciones contrafácticas para generar nuevos datos con los que ajustar el robot.
El ajuste consiste en modificar un modelo de aprendizaje automático que ya ha sido entrenado para realizar una tarea, de modo que pueda realizar una segunda tarea similar.
Los investigadores probaron esta técnica en simulaciones y descubrieron que podía enseñar a un robot con más eficacia que otros métodos. Los robots adiestrados con esta técnica obtuvieron mejores resultados y el proceso de adiestramiento consumió menos tiempo humano.
Este marco podría ayudar a los robots a aprender más rápido en entornos nuevos sin necesidad de que el usuario tenga conocimientos técnicos. A largo plazo, podría ser un paso adelante para que los robots de uso general realicen con eficacia tareas cotidianas para ancianos o personas con discapacidad en diversos entornos.
Peng, el autor principal, está acompañado por los coautores Aviv Netanyahu, estudiante de posgrado de EECS; Mark Ho, profesor adjunto del Stevens Institute of Technology; Tianmin Shu, posdoctorando del MIT; Andreea Bobu, estudiante de posgrado de la UC Berkeley; y los autores principales Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva del Laboratorio de Informática e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor del CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Formación en el puesto de trabajo
Los robots fallan a menudo debido al cambio de distribución: al robot se le presentan objetos y espacios que no vio durante el entrenamiento, y no entiende qué hacer en este nuevo entorno.
Una forma de volver a entrenar a un robot para una tarea concreta es el aprendizaje por imitación. El usuario podría demostrar la tarea correcta para enseñar al robot lo que debe hacer. Si un usuario intenta enseñar a un robot a coger una taza, pero lo demuestra con una taza blanca, el robot podría aprender que todas las tazas son blancas. Por lo tanto, podría no coger una taza roja, azul o "marrón Tim el castor".
Entrenar a un robot para que reconozca que una taza es una taza, independientemente de su color, podría llevar miles de demostraciones.
"No quiero tener que hacer demostraciones con 30.000 tazas. Quiero hacer una demostración con una sola taza. Pero luego tengo que enseñar al robot a reconocer que puede coger una taza de cualquier color", explica Peng.
Para conseguirlo, el sistema de los investigadores determina qué objeto concreto le importa al usuario (una taza) y qué elementos no son importantes para la tarea (quizá el color de la taza no importe). Utiliza esta información para generar nuevos datos sintéticos cambiando estos conceptos visuales "sin importancia". Este proceso se conoce como aumento de datos.
El marco consta de tres pasos. En primer lugar, muestra la tarea que provocó el fallo del robot. A continuación, recoge una demostración del usuario de las acciones deseadas y genera contrafactuales buscando entre todas las características del espacio que muestran lo que hay que cambiar para que el robot tenga éxito.
El sistema muestra estos contrafactuales al usuario y le pide su opinión para determinar qué conceptos visuales no influyen en la acción deseada. A continuación, utiliza este feedback humano para generar muchas nuevas demostraciones aumentadas.
De este modo, el usuario podría demostrar que coge una taza, pero el sistema produciría demostraciones que mostraran la acción deseada con miles de tazas diferentes alterando el color. Utiliza estos datos para ajustar el robot.
Según Peng, para que la técnica tenga éxito es fundamental crear explicaciones contrafácticas y solicitar la opinión del usuario.
Del razonamiento humano al razonamiento robótico
Dado que su trabajo pretende incluir al ser humano en el bucle de entrenamiento, los investigadores probaron su técnica con usuarios humanos. En primer lugar, realizaron un estudio en el que preguntaron a las personas si las explicaciones contrafácticas les ayudaban a identificar los elementos que podían cambiarse sin afectar a la tarea.
"Estaba muy claro desde el principio. A los humanos se nos da muy bien este tipo de razonamiento contrafáctico. Y este paso contrafáctico es lo que permite traducir el razonamiento humano en razonamiento robótico de forma que tenga sentido", afirma.
A continuación, aplicaron su marco a tres simulaciones en las que los robots debían navegar hasta un objeto, coger una llave y abrir una puerta, y coger un objeto deseado y colocarlo sobre una mesa. En todos los casos, su método permitió al robot aprender más rápido que con otras técnicas, al tiempo que requería menos demostraciones por parte de los usuarios.
De cara al futuro, los investigadores esperan probar este marco en robots reales. También quieren centrarse en reducir el tiempo que tarda el sistema en crear nuevos datos utilizando modelos generativos de aprendizaje automático.
"Queremos que los robots hagan lo que hacen los humanos y que lo hagan de forma semánticamente significativa. Los humanos tienden a operar en este espacio abstracto, en el que no piensan en cada una de las propiedades de una imagen. Al fin y al cabo, se trata de permitir que un robot aprenda una buena representación, similar a la humana, a un nivel abstracto", afirma Peng.
Esta investigación ha sido financiada, en parte, por una beca de investigación de posgrado de la National Science Foundation, Open Philanthropy, una beca Apple AI/ML, Hyundai Motor Corporation, el MIT-IBM Watson AI Lab y el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la National Science Foundation.
###
Escrito por Adam Zewe, MIT News Office
Articulos Electrónica Relacionados
- Un chip de silicio ofrece una ... Investigadores de Southampton y San Francisco han desarrollado el primer sistema compacto de imágenes LiDAR en 3D que puede igualar y superar el rendimiento y l...
- Proyecto JOIN para desarrollar... La utilización de materiales poliméricos en aplicaciones estructurales se ha ido incrementando en los últimos años debido a los bene...
- Motores de vehículos eléctrico... Los motores VE han durado más de 100 años en los barcos y su diseño ha cambiado lentamente. Ahora, algunos duran solo unos pocos años y están sujetos a un rápid...
- Aprobadas las ayudas para impl... El Consejo de Ministros, partiendo de la propuesta del Ministerio para la Transición Ecológica y el Reto Demográfico (MITECO), ha aprobado el pasado martes 29 d...
- Grant Imahara lanza el concurs... Mouser Electronics, Inc. se ha asociado con el famoso ingeniero Grant Imahara para hacer un llamamiento a los ingenieros de todos los niveles a unirse a ellos e...
- Previsiones tecnológicas para ... Otro año de crisis por la COVID-19 ha demostrado que el impulso de las soluciones de potencia innovadoras apenas ha disminuido, si bien este avance conlleva sus...
- Mouser Electronics y Grant Ima... Mouser Electronics Inc. se une por cuarto año consecutivo con el famoso ingeniero Grant Imahara para la última edición de su popular progra...
- La impresión 3D superará las p... Oportunidades increíbles se acercan junto con tecnologías de prototipado, la impresión en tres dimensiones (3D) va ganando impulso en varias industrias desde la...
- Segmentación del mercado de ma... "Diversos y en desarrollo" es la única manera de describir la amplitud actual de la cartera de materiales poliméricos para la fabricación aditiva. Desde materia...
- Materiales para la captura de ... AIMPLAS, Instituto Tecnológico del Plástico, ha completado su participación como coordinador en el proyecto europeo GRAMOFON que ha permitido desarrollar un inn...
- ¿Cuál es la diferencia en la a... Desde la ratificación de la primera norma PoE en 2003, el uso de PoE ha aumentado de forma espectacular y se ha abierto paso en nuevas aplicaciones. PoE proporc...
- El sistema de rastreo basado e... Como acto de clausura del evento “Siemens Days-Ingenio para Vida-Juntos hacia la España 4.0”, que durante dos días han reunido en Madr...