Tecnología

Una forma más rápida de enseñar a un robot

Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 

Imagine que compra un robot para realizar tareas domésticas. Este robot ha sido construido y entrenado en una fábrica para realizar una serie de tareas y nunca ha visto los objetos de su casa. Cuando le pides que coja una taza de la mesa de la cocina, es posible que no reconozca tu taza (quizá porque está pintada con una imagen poco habitual, por ejemplo, la mascota del MIT, Tim el Castor). Entonces, el robot falla.

"Ahora mismo, tal y como entrenamos a estos robots, cuando fallan no sabemos muy bien por qué. Así que simplemente levantamos las manos y decimos: 'Vale, supongo que tenemos que volver a empezar'. Un componente fundamental que falta en este sistema es permitir que el robot demuestre por qué está fallando para que el usuario pueda darle su opinión", explica Andi Peng, estudiante de postgrado de Ingeniería Eléctrica e Informática (EECS) en el MIT.

Peng y sus colaboradores del MIT, la Universidad de Nueva York y la Universidad de California en Berkeley crearon un marco que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga, con un esfuerzo mínimo.

Cuando un robot falla, el sistema utiliza un algoritmo para generar explicaciones contrafácticas que describen lo que habría que cambiar para que el robot tuviera éxito. Por ejemplo, tal vez el robot habría podido coger la taza si ésta fuera de un color determinado. El sistema muestra estos contrafácticos al humano y le pregunta por qué ha fallado el robot. A continuación, el sistema utiliza esta información y las explicaciones contrafácticas para generar nuevos datos con los que ajustar el robot.

El ajuste consiste en modificar un modelo de aprendizaje automático que ya ha sido entrenado para realizar una tarea, de modo que pueda realizar una segunda tarea similar.

Los investigadores probaron esta técnica en simulaciones y descubrieron que podía enseñar a un robot con más eficacia que otros métodos. Los robots adiestrados con esta técnica obtuvieron mejores resultados y el proceso de adiestramiento consumió menos tiempo humano.

Este marco podría ayudar a los robots a aprender más rápido en entornos nuevos sin necesidad de que el usuario tenga conocimientos técnicos. A largo plazo, podría ser un paso adelante para que los robots de uso general realicen con eficacia tareas cotidianas para ancianos o personas con discapacidad en diversos entornos.

Peng, el autor principal, está acompañado por los coautores Aviv Netanyahu, estudiante de posgrado de EECS; Mark Ho, profesor adjunto del Stevens Institute of Technology; Tianmin Shu, posdoctorando del MIT; Andreea Bobu, estudiante de posgrado de la UC Berkeley; y los autores principales Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva del Laboratorio de Informática e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor del CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

Formación en el puesto de trabajo

Los robots fallan a menudo debido al cambio de distribución: al robot se le presentan objetos y espacios que no vio durante el entrenamiento, y no entiende qué hacer en este nuevo entorno.

Una forma de volver a entrenar a un robot para una tarea concreta es el aprendizaje por imitación. El usuario podría demostrar la tarea correcta para enseñar al robot lo que debe hacer. Si un usuario intenta enseñar a un robot a coger una taza, pero lo demuestra con una taza blanca, el robot podría aprender que todas las tazas son blancas. Por lo tanto, podría no coger una taza roja, azul o "marrón Tim el castor".

Entrenar a un robot para que reconozca que una taza es una taza, independientemente de su color, podría llevar miles de demostraciones.

"No quiero tener que hacer demostraciones con 30.000 tazas. Quiero hacer una demostración con una sola taza. Pero luego tengo que enseñar al robot a reconocer que puede coger una taza de cualquier color", explica Peng.

Para conseguirlo, el sistema de los investigadores determina qué objeto concreto le importa al usuario (una taza) y qué elementos no son importantes para la tarea (quizá el color de la taza no importe). Utiliza esta información para generar nuevos datos sintéticos cambiando estos conceptos visuales "sin importancia". Este proceso se conoce como aumento de datos.

El marco consta de tres pasos. En primer lugar, muestra la tarea que provocó el fallo del robot. A continuación, recoge una demostración del usuario de las acciones deseadas y genera contrafactuales buscando entre todas las características del espacio que muestran lo que hay que cambiar para que el robot tenga éxito.

El sistema muestra estos contrafactuales al usuario y le pide su opinión para determinar qué conceptos visuales no influyen en la acción deseada. A continuación, utiliza este feedback humano para generar muchas nuevas demostraciones aumentadas.

De este modo, el usuario podría demostrar que coge una taza, pero el sistema produciría demostraciones que mostraran la acción deseada con miles de tazas diferentes alterando el color. Utiliza estos datos para ajustar el robot.

Según Peng, para que la técnica tenga éxito es fundamental crear explicaciones contrafácticas y solicitar la opinión del usuario.

Del razonamiento humano al razonamiento robótico
Dado que su trabajo pretende incluir al ser humano en el bucle de entrenamiento, los investigadores probaron su técnica con usuarios humanos. En primer lugar, realizaron un estudio en el que preguntaron a las personas si las explicaciones contrafácticas les ayudaban a identificar los elementos que podían cambiarse sin afectar a la tarea.

"Estaba muy claro desde el principio. A los humanos se nos da muy bien este tipo de razonamiento contrafáctico. Y este paso contrafáctico es lo que permite traducir el razonamiento humano en razonamiento robótico de forma que tenga sentido", afirma.

A continuación, aplicaron su marco a tres simulaciones en las que los robots debían navegar hasta un objeto, coger una llave y abrir una puerta, y coger un objeto deseado y colocarlo sobre una mesa. En todos los casos, su método permitió al robot aprender más rápido que con otras técnicas, al tiempo que requería menos demostraciones por parte de los usuarios.

De cara al futuro, los investigadores esperan probar este marco en robots reales. También quieren centrarse en reducir el tiempo que tarda el sistema en crear nuevos datos utilizando modelos generativos de aprendizaje automático.

"Queremos que los robots hagan lo que hacen los humanos y que lo hagan de forma semánticamente significativa. Los humanos tienden a operar en este espacio abstracto, en el que no piensan en cada una de las propiedades de una imagen. Al fin y al cabo, se trata de permitir que un robot aprenda una buena representación, similar a la humana, a un nivel abstracto", afirma Peng.

Esta investigación ha sido financiada, en parte, por una beca de investigación de posgrado de la National Science Foundation, Open Philanthropy, una beca Apple AI/ML, Hyundai Motor Corporation, el MIT-IBM Watson AI Lab y el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la National Science Foundation.

###

Escrito por Adam Zewe, MIT News Office

Articulos Electrónica Relacionados

Redes Sociales

Edicion Revista Impresa

1ww   

Para recibir la edición impresa o en PDF durante 1 año (10 ediciones)

Suscripción papel: 180,00.- €  (IVA inc.)

Suscripción PDF: 60,00.- € (IVA inc)

Noticias Populares Electrónica

Más allá del Convenio de Estocolmo: nueva normativa sobre sustancias químicas para siempre

La firma del Convenio de Estocolmo sobre Contaminantes Orgánicos Persistentes (COP) en 2001 marcó un momento histórico, ya que fue el primer tratado mundial...

Chip para salvaguardar los datos de los usuarios y computación eficiente en un smartphone

Las aplicaciones de seguimiento de la salud pueden ayudar a las personas a controlar enfermedades crónicas o a mantenerse en forma sin más ayuda que...

La unión híbrida 3D Cu-Cu en la alimentación de los futuros productos de HPC e IA

El encapsulado de semiconductores ha evolucionado desde los tradicionales niveles 1D de las placas de circuito impreso hasta la unión híbrida 3D de...

Potencial de las proyecciones holográficas en los Heads-Up Displays de automoción

Las pantallas de visualización frontal (HUD) para automóviles están siendo recibidas con gran entusiasmo. El aumento del uso de la tecnología...

Noticias Electrónica Profesional

Noticias Fuentes de Alimentación

Cooperación tecnológica por el bienestar y la protecció

Cuando pensamos en cargadores de baterías nos vienen a la cabeza muchas aplicaciones posibles:...

Gestión térmica en 2020

La gestión térmica es una consideración crítica para muchas tecnologías y mercados, desde los...

¿Cambiar a tecnología de baterías de estado sólido?

Se espera que los vehículos eléctricos incluyan baterías de estado sólido como un enfoque...

Actualidad Electrónica Profesionales

Cooperación tecnológica por el bienestar y la protecció

Cuando pensamos en cargadores de baterías nos vienen a la cabeza muchas aplicaciones posibles:...

Gestión térmica en 2020

La gestión térmica es una consideración crítica para muchas tecnologías y mercados, desde los...

¿Cambiar a tecnología de baterías de estado sólido?

Se espera que los vehículos eléctricos incluyan baterías de estado sólido como un enfoque...

Convertronic

Revista © Convertronic Electrónica Profesional Española.Todos los derechos reservados GM2 Publicaciones Técnicas, S.L.
Tel.: +34 91 706 56 69
Poema Sinfónico, 27. Esc B. Planta 1 Pta 5
28054 (Madrid - SPAIN)
e-mail: gm2@gm2publicacionestecnicas.com ó consultas@convertronic.net

Suscríbete a nuestro boletín de noticias

Revista Española de electrónica. Impresa desde hace más de 25 años.

España - Madrid - Todos los derechos reservados Revista © Convertronic Electrónica Profesional Española.

Search