Activa las notificaciones para estar al tanto de lo más nuevo en tecnología.

openai-00

La iniciativa OpenAI, respaldada por Elon Musk, Sam Altman e Ilya Sutskever, que fue anunciada hace unos meses, ha sacado su primer producto. Se trata de OpenAI Gym, que es un sistema para ejercitarse en aprendizaje reforzado. Es claro que debido al éxito de las redes neuronales profundas, parece que todos están haciendo programas y aplicaciones para ello. Incluso NVidia ha sacado ya una computadora muy poderosa para sistemas neuronales. Igualmente tenemos el éxito de la empresa de Google, Deep Mind, que puede jugar al juego del Go mejor que el campeón del mundo. Esto se logró gracias al aprendizaje reforzado. Sin embargo, en términos reales es que esta técnica de reforzamiento no es tan fácil de caracterizar y depende mucho de la naturaleza del problema

Por ejemplo, un sistema de aprendizaje reforzado no funciona buscando cuál es el resultado correcto, sino recibiendo recompensas basadas en el comportamiento. Es decir, funciona en la misma medida que hacemos los seres humanos para aprender. Las técnicas en este sentido han resultado muy prometedoras si consideramos que el programa que juega ya mejor que el campeón mundial humano de Go, halló en el proceso de aprendizaje sobre cómo jugar al juego, una serie de enfoques que los seres humanos habían ignorado.

El aprendizaje reforzado sin embargo, requiere de algunos “benchmarks” para ver cómo se van haciendo progresos. Por ejemplo, en aprendizaje supervisado, el progreso se mide por el manejo de grandes volúmenes de datos etiquetados, como ImageNet. Aquí, el equivalente más cercano podría ser una colección grande y diversa de entornos. No obstante, la colección actual de entornos de aprendizaje reforzado no tiene suficiente variedad y por ello, no es tan fácil de caracterizar y usar.

Hay pues una falta de estandarización de entornos que se usan en las publicaciones. Hay diferencias sutiles en la definición de los problemas, así como en las funciones de recompensa o el conjunto de acciones, que pueden cambiar drásticamente la dificultad de la tarea encomendada.

Esta es pues la motivación de OpenAI Gym, que provee un conjunto de entornos que programas de aprendizaje reforzado pueden probar. Estos son:

  • Control clásico: para tareas completas en pequeña escala. Esto es lo que puede probarse en los ejemplos que aparecen en la literatura especializada.
  • Algorítmico: desempeña cálculos como el sumar números de muchos dígitos y voltear secuencias.
  • Atari: juega los videojuegos clásicos de Atari.
  • Juegos de mesa: juega Go en tableros de 9×9 y 19×19.
  • Robots en 2D y 3D que controlan un robot usando física simulada.

Por el momento se puede conectar los sistemas de aprendizaje reforzado al OpenAI Gym usando Python. Como indica la documentación: “nosotros ponemos el medio ambiente, usted pone el algoritmo”. Se pueden escribir agentes incluso usando TensorFlow o Theano.

Me parece que vamos a ver mucho más de esta iniciativa de Inteligencia Artificial de código abierto.

Referencias:

OpenAI Gym 
i-programmer 

Desde la Red…
Comentarios