La IA aprende a hacer trampa en Q * bert de una manera que ningún ser humano ha hecho antes

Una IA ha logrado hacer trampa con lo mejor que la humanidad tiene para ofrecer después de descubrir un exploit en el clásico juego de arcade Q * bert y correr con él.

Si bien las iteraciones anteriores de la IA jugarían Q * bert correctamente, en algún momento de su aprendizaje de cómo funciona el juego, descubre un exploit que le permite acumular puntos locos. Naturalmente, como lo haría cualquier jugador de búsqueda de puntajes, repite el proceso para poder aumentar su puntaje de la manera más efectiva posible.

Puede ver la IA trabajando en plataformas en el video a continuación. Al principio, parece que salta sin rumbo fijo entre plataformas. En lugar de ver el progreso del juego a la siguiente ronda, Q * bert se atasca en un bucle en el que todas sus plataformas comienzan a parpadear: es aquí donde la IA puede ir en un frenesí acumulando puntos enormes.

LEER SIGUIENTE: Uno de los récords de juegos más controvertidos finalmente ha sido desacreditado

¿Qué significa sb en la historia de Snapchat?

Cómo ganó la IA la guerra Q * bert

Rompiendo el récord de todos los tiempos para el título, la IA acumuló una puntuación increíblemente alta gracias a la programación de su algoritmo de estrategia de evolución. Las estrategias de evolución (ES) difieren del aprendizaje por refuerzo habitual (RL) que utiliza la IA tradicional, ya que se considera más escalable debido a su aprendizaje generacional.

Cada ciclo de aprendizaje se denomina generación y continúa su tarea hasta que se cumple una condición establecida (en este caso, una puntuación alta). Con cada generación sucesiva, la IA absorbe el conocimiento de la generación anterior y, por lo tanto, es mejor para alcanzar el mismo objetivo y superarlo. Continúe y terminará con una IA que no tiene rival en su tarea. Eso es exactamente lo que sucedió aquí con la puntuación Q * bert.

Esbozado en el papel , publicado la semana pasada por investigadores de la Universidad de Friburgo, Alemania, parece que el error no era una cantidad conocida. De hecho, aunque no están muy sorprendidos de encontrar el error, es interesante ver cómo la IA siguió adelante y aprendió a explotarlo cada vez que jugaba para maximizar su potencial de puntuación.

LEER SIGUIENTE: Esta inteligencia artificial ha estado aprendiendo a dominar Super Mario Bros

Para encontrar el error, el agente primero tuvo que aprender a casi completar el primer nivel; esto no se hizo de una vez, sino con muchas pequeñas mejoras, explicaron los investigadores a El registro . Sospechamos que en algún momento del entrenamiento una de las soluciones descendientes encontró el error y obtuvo una puntuación mucho mejor en comparación con sus hermanos, lo que a su vez aumentó su contribución a la actualización: su peso fue el más alto en la media ponderada. Esto movió lentamente la solución al espacio donde más y más descendientes comenzaron a encontrar el mismo error.

No conocemos las condiciones precisas en las que aparece el error; es posible que solo aparezca si el agente sigue un patrón que parece subóptimo, [por ejemplo, cuando el agente pierde tiempo, o incluso pierde una vida]. Si ese fuera el caso, entonces sería extremadamente difícil para RL estándar encontrar el error: si usa recompensas incrementales, aprenderá estrategias que rápidamente producen alguna recompensa, en lugar de aprender estrategias que no dan muchas recompensas por un tiempo y luego, de repente, gana a lo grande.

Ver relacionados El campeón de Dragster Todd Rogers acaba de perder su corona después de 35 años Esta inteligencia artificial lleva 17 días aprendiendo a dominar Super Mario Bros 1-2 Mira cómo esta IA aprende a conducir en GTA V en Twitch

Sin embargo, a pesar de los maravillosos resultados del bot, los investigadores no están diciendo que este sea un caso para defender el aprendizaje de ES sobre RL. De hecho, ambos sistemas tienen sus propios problemas y una combinación de los dos se considera en gran medida la mejor opción para avanzar.

El mismo método ES en otros juegos de Atari no produjo los mismos resultados positivos. Por otro lado, RL es responsable de batir récords a la izquierda, a la derecha y al centro, incluido el mejor jugador de GO del mundo. Sin embargo, ES todavía tiene su propio lugar en las cosas, y así es como Nvidia realiza gran parte de su entrenamiento de IA debido a que requiere más potencia computacional pero logra mejores resultados durante un período de tiempo más largo.

Independientemente de la forma en que se convierta en el futuro del desarrollo de la IA, al menos este bot que engaña al sistema no es tan malo como este. ahora campeón mundial de videojuegos en desgracia .

**La IA aprende a hacer trampa en Q * bert de una manera que ningún ser humano ha hecho antes**

Cómo ganó la IA la guerra Q * bert

Artículos De Interés

Cómo cifrar sus dispositivos

Tema Castillos de Europa para Windows 10, 8 y 7

La Elección Del Editor

Cómo usar una VPN con Android

Cuando se trata de proteger sus datos en línea, no hay nada mejor que una VPN. Ya sea que esté buscando ocultar sus datos de navegación de los ISP fisgones, no desea que los anunciantes obtengan acceso a su información cuando sea necesario.

Cómo deshabilitar los paneles de borde (barra de accesos y conmutador) en Windows 8

Cómo ver más publicaciones de amigos en Facebook

El algoritmo de Facebook puede alterar el orden de lo que ves en el servicio. Aquí te mostramos cómo ver más publicaciones de tus amigos.

Cómo cambiar el motor de búsqueda predeterminado en Safari para Mac OS X

Google ha sido durante mucho tiempo el motor de búsqueda predeterminado en Safari para OS X, pero las preocupaciones por la privacidad han llevado a muchos usuarios a buscar una alternativa. Aquí hay un consejo rápido sobre cómo puede cambiar el motor de búsqueda predeterminado en Safari.

Cómo cambiar iconos en Nova Launcher

Nova Launcher es uno de los lanzadores de Android más populares y logró mantener esa popularidad durante varios años. Es una excelente solución para personas creativas que se aburren rápidamente con los mismos temas, diseño y amor.

Kik Captcha no funciona - Qué hacer

La aplicación de chat Kik es una aplicación de chat muy popular y de muy alta calidad con una gran base de usuarios, especialmente entre los más jóvenes. Con más de 300 millones de cuentas registradas (incluida aproximadamente la mitad de todos los adolescentes en los Estados Unidos), Kik

Cómo apagar el Firewall de Windows

Su Firewall de Windows es fundamental para la seguridad general de su computadora. Puede evitar que el malware se propague y ataque su dispositivo. Sin embargo, hay ocasiones en las que el Firewall de Windows parece sobreprotector y perjudica la eficiencia de algunas aplicaciones y