Una IA ha logrado hacer trampa con lo mejor que la humanidad tiene para ofrecer después de descubrir un exploit en el clásico juego de arcade Q * bert y correr con él.
Si bien las iteraciones anteriores de la IA jugarían Q * bert correctamente, en algún momento de su aprendizaje de cómo funciona el juego, descubre un exploit que le permite acumular puntos locos. Naturalmente, como lo haría cualquier jugador de búsqueda de puntajes, repite el proceso para poder aumentar su puntaje de la manera más efectiva posible.
Puede ver la IA trabajando en plataformas en el video a continuación. Al principio, parece que salta sin rumbo fijo entre plataformas. En lugar de ver el progreso del juego a la siguiente ronda, Q * bert se atasca en un bucle en el que todas sus plataformas comienzan a parpadear: es aquí donde la IA puede ir en un frenesí acumulando puntos enormes.
LEER SIGUIENTE: Uno de los récords de juegos más controvertidos finalmente ha sido desacreditado
¿Qué significa sb en la historia de Snapchat?
Cómo ganó la IA la guerra Q * bert
Rompiendo el récord de todos los tiempos para el título, la IA acumuló una puntuación increíblemente alta gracias a la programación de su algoritmo de estrategia de evolución. Las estrategias de evolución (ES) difieren del aprendizaje por refuerzo habitual (RL) que utiliza la IA tradicional, ya que se considera más escalable debido a su aprendizaje generacional.
Cada ciclo de aprendizaje se denomina generación y continúa su tarea hasta que se cumple una condición establecida (en este caso, una puntuación alta). Con cada generación sucesiva, la IA absorbe el conocimiento de la generación anterior y, por lo tanto, es mejor para alcanzar el mismo objetivo y superarlo. Continúe y terminará con una IA que no tiene rival en su tarea. Eso es exactamente lo que sucedió aquí con la puntuación Q * bert.
Esbozado en el papel , publicado la semana pasada por investigadores de la Universidad de Friburgo, Alemania, parece que el error no era una cantidad conocida. De hecho, aunque no están muy sorprendidos de encontrar el error, es interesante ver cómo la IA siguió adelante y aprendió a explotarlo cada vez que jugaba para maximizar su potencial de puntuación.
LEER SIGUIENTE: Esta inteligencia artificial ha estado aprendiendo a dominar Super Mario Bros
Para encontrar el error, el agente primero tuvo que aprender a casi completar el primer nivel; esto no se hizo de una vez, sino con muchas pequeñas mejoras, explicaron los investigadores a El registro . Sospechamos que en algún momento del entrenamiento una de las soluciones descendientes encontró el error y obtuvo una puntuación mucho mejor en comparación con sus hermanos, lo que a su vez aumentó su contribución a la actualización: su peso fue el más alto en la media ponderada. Esto movió lentamente la solución al espacio donde más y más descendientes comenzaron a encontrar el mismo error.
No conocemos las condiciones precisas en las que aparece el error; es posible que solo aparezca si el agente sigue un patrón que parece subóptimo, [por ejemplo, cuando el agente pierde tiempo, o incluso pierde una vida]. Si ese fuera el caso, entonces sería extremadamente difícil para RL estándar encontrar el error: si usa recompensas incrementales, aprenderá estrategias que rápidamente producen alguna recompensa, en lugar de aprender estrategias que no dan muchas recompensas por un tiempo y luego, de repente, gana a lo grande.
Ver relacionados El campeón de Dragster Todd Rogers acaba de perder su corona después de 35 años Esta inteligencia artificial lleva 17 días aprendiendo a dominar Super Mario Bros 1-2 Mira cómo esta IA aprende a conducir en GTA V en Twitch
Sin embargo, a pesar de los maravillosos resultados del bot, los investigadores no están diciendo que este sea un caso para defender el aprendizaje de ES sobre RL. De hecho, ambos sistemas tienen sus propios problemas y una combinación de los dos se considera en gran medida la mejor opción para avanzar.
El mismo método ES en otros juegos de Atari no produjo los mismos resultados positivos. Por otro lado, RL es responsable de batir récords a la izquierda, a la derecha y al centro, incluido el mejor jugador de GO del mundo. Sin embargo, ES todavía tiene su propio lugar en las cosas, y así es como Nvidia realiza gran parte de su entrenamiento de IA debido a que requiere más potencia computacional pero logra mejores resultados durante un período de tiempo más largo.
Independientemente de la forma en que se convierta en el futuro del desarrollo de la IA, al menos este bot que engaña al sistema no es tan malo como este. ahora campeón mundial de videojuegos en desgracia .