Principal Servicios De Transmisión La IA aprende a hacer trampa en Q * bert de una manera que ningún ser humano ha hecho antes

La IA aprende a hacer trampa en Q * bert de una manera que ningún ser humano ha hecho antes



Una IA ha logrado hacer trampa con lo mejor que la humanidad tiene para ofrecer después de descubrir un exploit en el clásico juego de arcade Q * bert y correr con él.

Si bien las iteraciones anteriores de la IA jugarían Q * bert correctamente, en algún momento de su aprendizaje de cómo funciona el juego, descubre un exploit que le permite acumular puntos locos. Naturalmente, como lo haría cualquier jugador de búsqueda de puntajes, repite el proceso para poder aumentar su puntaje de la manera más efectiva posible.

Puede ver la IA trabajando en plataformas en el video a continuación. Al principio, parece que salta sin rumbo fijo entre plataformas. En lugar de ver el progreso del juego a la siguiente ronda, Q * bert se atasca en un bucle en el que todas sus plataformas comienzan a parpadear: es aquí donde la IA puede ir en un frenesí acumulando puntos enormes.

LEER SIGUIENTE: Uno de los récords de juegos más controvertidos finalmente ha sido desacreditado

¿Qué significa sb en la historia de Snapchat?

Cómo ganó la IA la guerra Q * bert

Rompiendo el récord de todos los tiempos para el título, la IA acumuló una puntuación increíblemente alta gracias a la programación de su algoritmo de estrategia de evolución. Las estrategias de evolución (ES) difieren del aprendizaje por refuerzo habitual (RL) que utiliza la IA tradicional, ya que se considera más escalable debido a su aprendizaje generacional.

Cada ciclo de aprendizaje se denomina generación y continúa su tarea hasta que se cumple una condición establecida (en este caso, una puntuación alta). Con cada generación sucesiva, la IA absorbe el conocimiento de la generación anterior y, por lo tanto, es mejor para alcanzar el mismo objetivo y superarlo. Continúe y terminará con una IA que no tiene rival en su tarea. Eso es exactamente lo que sucedió aquí con la puntuación Q * bert.

Esbozado en el papel , publicado la semana pasada por investigadores de la Universidad de Friburgo, Alemania, parece que el error no era una cantidad conocida. De hecho, aunque no están muy sorprendidos de encontrar el error, es interesante ver cómo la IA siguió adelante y aprendió a explotarlo cada vez que jugaba para maximizar su potencial de puntuación.

LEER SIGUIENTE: Esta inteligencia artificial ha estado aprendiendo a dominar Super Mario Bros

Para encontrar el error, el agente primero tuvo que aprender a casi completar el primer nivel; esto no se hizo de una vez, sino con muchas pequeñas mejoras, explicaron los investigadores a El registro . Sospechamos que en algún momento del entrenamiento una de las soluciones descendientes encontró el error y obtuvo una puntuación mucho mejor en comparación con sus hermanos, lo que a su vez aumentó su contribución a la actualización: su peso fue el más alto en la media ponderada. Esto movió lentamente la solución al espacio donde más y más descendientes comenzaron a encontrar el mismo error.

No conocemos las condiciones precisas en las que aparece el error; es posible que solo aparezca si el agente sigue un patrón que parece subóptimo, [por ejemplo, cuando el agente pierde tiempo, o incluso pierde una vida]. Si ese fuera el caso, entonces sería extremadamente difícil para RL estándar encontrar el error: si usa recompensas incrementales, aprenderá estrategias que rápidamente producen alguna recompensa, en lugar de aprender estrategias que no dan muchas recompensas por un tiempo y luego, de repente, gana a lo grande.

Ver relacionados El campeón de Dragster Todd Rogers acaba de perder su corona después de 35 años Esta inteligencia artificial lleva 17 días aprendiendo a dominar Super Mario Bros 1-2 Mira cómo esta IA aprende a conducir en GTA V en Twitch

Sin embargo, a pesar de los maravillosos resultados del bot, los investigadores no están diciendo que este sea un caso para defender el aprendizaje de ES sobre RL. De hecho, ambos sistemas tienen sus propios problemas y una combinación de los dos se considera en gran medida la mejor opción para avanzar.

El mismo método ES en otros juegos de Atari no produjo los mismos resultados positivos. Por otro lado, RL es responsable de batir récords a la izquierda, a la derecha y al centro, incluido el mejor jugador de GO del mundo. Sin embargo, ES todavía tiene su propio lugar en las cosas, y así es como Nvidia realiza gran parte de su entrenamiento de IA debido a que requiere más potencia computacional pero logra mejores resultados durante un período de tiempo más largo.

Independientemente de la forma en que se convierta en el futuro del desarrollo de la IA, al menos este bot que engaña al sistema no es tan malo como este. ahora campeón mundial de videojuegos en desgracia .

Artículos De Interés

La Elección Del Editor

Todas las formas de abrir el administrador de tareas en Windows 10
Todas las formas de abrir el administrador de tareas en Windows 10
En este artículo, revisaremos todas las formas de iniciar el Administrador de tareas en Windows 10.
Revisión de Dragon Ball FighterZ: el luchador de anime de Bandai Namco llegará a Switch
Revisión de Dragon Ball FighterZ: el luchador de anime de Bandai Namco llegará a Switch
Dragon Ball FighterZ finalmente llegará a Nintendo Switch. Después de muchos comentarios de los fanáticos que expresan el deseo de que el luchador fantástico se abra camino a la mejor consola de esta generación, parece que Arc System
Cómo cambiar tu fondo de pantalla en el Samsung Galaxy Note 8
Cómo cambiar tu fondo de pantalla en el Samsung Galaxy Note 8
Si te preocupa la calidad de imagen asombrosa, el Galaxy Note 8 es un excelente teléfono. Viene con una pantalla Infinity casi sin marco con una resolución de 2960 x 1440 píxeles. Es un gran teléfono para
Cómo reproducir la radio en una casa de Google
Cómo reproducir la radio en una casa de Google
Una de las características sorprendentes de Google Home es que puedes usarlo para reproducir la radio, la música o tu podcast favorito. Y es más fácil hacerlo de lo que piensas. lo mejor es que tu
Revisión de MSI GE72 2QD Apache Pro: una computadora portátil de ensueño para jugadores
Revisión de MSI GE72 2QD Apache Pro: una computadora portátil de ensueño para jugadores
MSI no fabrica portátiles de uso medio, sino portátiles atrevidos y llamativos diseñados para jugar. Con el GE72 2QD Apache Pro, MSI ofrece una bestia de 17 pulgadas de una computadora portátil repleta de componentes potentes a un modesto
Cómo cambiar el color de fondo del visor de fotos de Windows
Cómo cambiar el color de fondo del visor de fotos de Windows
A partir de Windows Vista, es posible cambiar el color de fondo de Windows Photo Viewer de blanco a cualquier color que desee.
Cómo vincular un video de YouTube a Snapchat
Cómo vincular un video de YouTube a Snapchat
https://www.youtube.com/watch?v=QDRBVHcoUHk El envío de enlaces es una característica básica de muchas aplicaciones y plataformas de mensajería. Si los videos de YouTube son lo que desea vincular en Snapchat, entonces necesitará dos cosas. Descarga o actualiza tu