Una forma más rápida de enseñar a un robot
Imagine que compra un robot para realizar tareas domésticas. Este robot ha sido construido y entrenado en una fábrica para realizar una serie de tareas y nunca ha visto los objetos de su casa. Cuando le pides que coja una taza de la mesa de la cocina, es posible que no reconozca tu taza (quizá porque está pintada con una imagen poco habitual, por ejemplo, la mascota del MIT, Tim el Castor). Entonces, el robot falla.
"Ahora mismo, tal y como entrenamos a estos robots, cuando fallan no sabemos muy bien por qué. Así que simplemente levantamos las manos y decimos: 'Vale, supongo que tenemos que volver a empezar'. Un componente fundamental que falta en este sistema es permitir que el robot demuestre por qué está fallando para que el usuario pueda darle su opinión", explica Andi Peng, estudiante de postgrado de Ingeniería Eléctrica e Informática (EECS) en el MIT.
Peng y sus colaboradores del MIT, la Universidad de Nueva York y la Universidad de California en Berkeley crearon un marco que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga, con un esfuerzo mínimo.
Cuando un robot falla, el sistema utiliza un algoritmo para generar explicaciones contrafácticas que describen lo que habría que cambiar para que el robot tuviera éxito. Por ejemplo, tal vez el robot habría podido coger la taza si ésta fuera de un color determinado. El sistema muestra estos contrafácticos al humano y le pregunta por qué ha fallado el robot. A continuación, el sistema utiliza esta información y las explicaciones contrafácticas para generar nuevos datos con los que ajustar el robot.
El ajuste consiste en modificar un modelo de aprendizaje automático que ya ha sido entrenado para realizar una tarea, de modo que pueda realizar una segunda tarea similar.
Los investigadores probaron esta técnica en simulaciones y descubrieron que podía enseñar a un robot con más eficacia que otros métodos. Los robots adiestrados con esta técnica obtuvieron mejores resultados y el proceso de adiestramiento consumió menos tiempo humano.
Este marco podría ayudar a los robots a aprender más rápido en entornos nuevos sin necesidad de que el usuario tenga conocimientos técnicos. A largo plazo, podría ser un paso adelante para que los robots de uso general realicen con eficacia tareas cotidianas para ancianos o personas con discapacidad en diversos entornos.
Peng, el autor principal, está acompañado por los coautores Aviv Netanyahu, estudiante de posgrado de EECS; Mark Ho, profesor adjunto del Stevens Institute of Technology; Tianmin Shu, posdoctorando del MIT; Andreea Bobu, estudiante de posgrado de la UC Berkeley; y los autores principales Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva del Laboratorio de Informática e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor del CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Formación en el puesto de trabajo
Los robots fallan a menudo debido al cambio de distribución: al robot se le presentan objetos y espacios que no vio durante el entrenamiento, y no entiende qué hacer en este nuevo entorno.
Una forma de volver a entrenar a un robot para una tarea concreta es el aprendizaje por imitación. El usuario podría demostrar la tarea correcta para enseñar al robot lo que debe hacer. Si un usuario intenta enseñar a un robot a coger una taza, pero lo demuestra con una taza blanca, el robot podría aprender que todas las tazas son blancas. Por lo tanto, podría no coger una taza roja, azul o "marrón Tim el castor".
Entrenar a un robot para que reconozca que una taza es una taza, independientemente de su color, podría llevar miles de demostraciones.
"No quiero tener que hacer demostraciones con 30.000 tazas. Quiero hacer una demostración con una sola taza. Pero luego tengo que enseñar al robot a reconocer que puede coger una taza de cualquier color", explica Peng.
Para conseguirlo, el sistema de los investigadores determina qué objeto concreto le importa al usuario (una taza) y qué elementos no son importantes para la tarea (quizá el color de la taza no importe). Utiliza esta información para generar nuevos datos sintéticos cambiando estos conceptos visuales "sin importancia". Este proceso se conoce como aumento de datos.
El marco consta de tres pasos. En primer lugar, muestra la tarea que provocó el fallo del robot. A continuación, recoge una demostración del usuario de las acciones deseadas y genera contrafactuales buscando entre todas las características del espacio que muestran lo que hay que cambiar para que el robot tenga éxito.
El sistema muestra estos contrafactuales al usuario y le pide su opinión para determinar qué conceptos visuales no influyen en la acción deseada. A continuación, utiliza este feedback humano para generar muchas nuevas demostraciones aumentadas.
De este modo, el usuario podría demostrar que coge una taza, pero el sistema produciría demostraciones que mostraran la acción deseada con miles de tazas diferentes alterando el color. Utiliza estos datos para ajustar el robot.
Según Peng, para que la técnica tenga éxito es fundamental crear explicaciones contrafácticas y solicitar la opinión del usuario.
Del razonamiento humano al razonamiento robótico
Dado que su trabajo pretende incluir al ser humano en el bucle de entrenamiento, los investigadores probaron su técnica con usuarios humanos. En primer lugar, realizaron un estudio en el que preguntaron a las personas si las explicaciones contrafácticas les ayudaban a identificar los elementos que podían cambiarse sin afectar a la tarea.
"Estaba muy claro desde el principio. A los humanos se nos da muy bien este tipo de razonamiento contrafáctico. Y este paso contrafáctico es lo que permite traducir el razonamiento humano en razonamiento robótico de forma que tenga sentido", afirma.
A continuación, aplicaron su marco a tres simulaciones en las que los robots debían navegar hasta un objeto, coger una llave y abrir una puerta, y coger un objeto deseado y colocarlo sobre una mesa. En todos los casos, su método permitió al robot aprender más rápido que con otras técnicas, al tiempo que requería menos demostraciones por parte de los usuarios.
De cara al futuro, los investigadores esperan probar este marco en robots reales. También quieren centrarse en reducir el tiempo que tarda el sistema en crear nuevos datos utilizando modelos generativos de aprendizaje automático.
"Queremos que los robots hagan lo que hacen los humanos y que lo hagan de forma semánticamente significativa. Los humanos tienden a operar en este espacio abstracto, en el que no piensan en cada una de las propiedades de una imagen. Al fin y al cabo, se trata de permitir que un robot aprenda una buena representación, similar a la humana, a un nivel abstracto", afirma Peng.
Esta investigación ha sido financiada, en parte, por una beca de investigación de posgrado de la National Science Foundation, Open Philanthropy, una beca Apple AI/ML, Hyundai Motor Corporation, el MIT-IBM Watson AI Lab y el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la National Science Foundation.
###
Escrito por Adam Zewe, MIT News Office
Articulos Electrónica Relacionados
- Qué sucederá en el sector de f... IoT integrada dentro del diseño del producto, fabricantes adoptando un modelo de negocio centrado en el servicio, y la impresión 3D llegando al pu...
- El mercado de circuitos integr... Un aumento del 22% previsto por el crecimiento de los sistemas, aumento de ASPs para dispositivos de memoria y lógica. Los sistemas electrónicos q...
- Materiales cerámicos de impres... Recientemente, el fabricante de materiales e impresoras 3D de cerámica Tethon 3D ha anunciado una asociación con la empresa emergente de impresión 3D de materia...
- Producción en cadena de dispos... El proyecto MADRAS, coordinado por el centro tecnológico Eurecat, ha impulsado la producción en cadena de dispositivos electrónicos impresos incorporados en pie...
- Solución para la gestión del c... Schneider Electric cree que la electricidad es la única energía que ofrece el vector de descarbonización más rápido a través de una combinación de renovables y ...
- Las películas inteligentes fac... Imagínese esto: Una pantalla táctil lisa colocada sobre una fina película de polímero de silicona genera de repente la sensación de un diminuto botón en relieve...
- Guía sobre infraestructura par... El Ministerio de Economía, Industria y Competitividad (MINECO) ha publicado la primera edición de la Guía de la Instrucción Té...
- La electrónica "vestible" (wea... El espacio de dispositivos vestibles es visto como la próxima mina de oro de oportunidades para los fabricantes de sensores, debido a los beneficios se reducen ...
- La tecnología lleva la comunic... La mayoría de los europeos tiene acceso a un dispositivo táctil conectado, como un teléfono inteligente o una tablet. Una iniciativa de la UE ha desarrollado un...
- Proyecto para carga de vehícul... La Agencia Internacional de la Energía (AIE) se ha propuesto un nuevo reto para fomentar el uso del coche eléctrico. Concretamente, aspira a poner...
- Los textiles inteligentes faci... Diga adiós a los mandos o teclados de los videojuegos y de la bienvenida a las películas de silicona ultrafinas y de gran flexibilidad. El profesor Stefan Seele...
- Prototipo basado en la integra... Expertos del Barcelona Supercomputing Center (BSC), miembros del consorcio del proyecto europeo ExaNoDe, han participado en la evaluación de un innovador protot...