En 1997 Garry Kasparov perdía un match a seis partidas contra una máquina preparada sólo para jugar al ajedrez. IBM había puesto mucho dinero y su plan era demostrar que una máquina ya tenía la suficiente capacidad para derrotar al mejor jugador del mundo en este difícil arte del ajedrez. Pero 20 años después nos enteramos que DeepMind había puesto un programa llamado AlphaGo, a jugar contra el mejor jugador del juego chino Go, y que le había derrotado sin duda ninguna. Hoy DeepMind nos da la noticia que su programa, aplicado al ajedrez, logró en sólo cuatro horas de auto entrenamiento, el nivel de súper gran maestro y para ello ha usado su técnica de redes neuronales de aprendizaje reforzado. AlphaGo ha logrado entender más de 500 años de experiencia en ajedrez en tan sólo unas horas. Algo inconcebible e impresionante.

El algoritmo desarrollado por Google y DeepMind, sintetiza todo el conocimiento del ajedrez y para demostrar este nivel, los investigadores decidieron poner como rival a StockFish, el mejor programa de ajedrez de código abierto, que está entre los tres mejores programas (incluyendo los comerciales), del mundo.

AlphaGo venció a Stockfish en un encuentro a 100 partidas, por 28-0 y 72 empates. Es decir, el poderoso StockFish no pudo ganar una sola partida. Esto solamente habla de la capacidad del algoritmo de DeepMind, el cual ni siquiera necesita bases de partidas, tablas de finales o podas alpha-beta para correr.

El artículo “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm” describe el trabajo realizado y sin duda es un parteaguas en el mundo del ajedrez por computadora. El enfoque es tan diferente a todo lo anterior hecho en esta disciplina que habrá que estudiar cómo es que este algoritmo de Google y DeepMind se está volviendo una de las maneras más eficientes para atacar problemas que no tienen solución definitiva y que se han atacado antes a través de heurísticas.

Juega ajedrez contra el campeón del mundo

AlphaGo empieza a estudiar al ajedrez desde cero, solamente conoce las reglas del juego. Entonces empieza a jugar contra sí misma usando el algoritmo de Montecarlo, en donde se ponen inicialmente jugadas al azar, hasta que la red neuronal empieza a aprender qué opciones le giusta más y son más prometedoras.

 

Enlaces Patrocinados
Comentarios