Cómo comprender que los agentes de IA pueden hacer cosas asombrosas sin saber nada

La Fundación ARC Prize, una organización sin fines de lucro, publicó el 1 de mayo de 2026 los resultados de una nueva prueba de rendimiento: evaluar la capacidad de un sistema de IA para resolver un juego. Los resultados fueron sorprendentes: los humanos obtuvieron una puntuación del 100%, mientras que los sistemas de IA más avanzados obtuvieron menos del 1%.

A primera vista, esto puede resultar sorprendente para los usuarios de IA, quienes se impresionan con sus elaborados ensayos, bases de código y proyectos complejos generados en segundos. ¿Cómo es posible que estos brillantes sistemas de IA tengan dificultades con estos sencillos rompecabezas con forma de Tetris?

Esta confusión apunta a un riesgo: la IA se está integrando en la vida cotidiana más rápido de lo que las personas pueden comprenderla.

Somos psicólogos cognitivos que estudiamos cómo enseñar conceptos complejos. Para reconocer los límites y riesgos de los sistemas de agentes de IA actuales, es importante que las personas comprendan que estos sistemas pueden lograr hazañas sobrehumanas y cometer errores que pocos humanos cometerían. Con ese fin, proponemos una nueva forma de concebir las IA: como exploradoras que simplemente presionan botones.

Modelos mentales para la IA

Enseñamos a estudiantes universitarios, un grupo que incorpora rápidamente herramientas de IA a su rutina diaria. Esto nos brinda oportunidades frecuentes para preguntarles qué opinan sobre la IA. Las respuestas varían ampliamente. Un estudiante dijo que alguien en OpenAI o Anthropic lee y aprueba cada respuesta que genera el sistema. Otro, de forma más concisa, dijo: “Es magia”.

Estas respuestas ilustran dos maneras tentadoras de comprender la IA. En un extremo, se la trata como una caja negra inescrutable: una fuerza poderosa pero, en última instancia, misteriosa. En el otro, se la explica utilizando las mismas suposiciones que se usan para comprender a otros humanos: que sus resultados reflejan razonamiento o juicio.

La preocupación es que estas interpretaciones erróneas no desaparezcan a medida que los usuarios adquieren más experiencia interactuando con la IA, y que incluso podrían reforzarse. Cuando la IA funciona bien, su resultado puede parecer una prueba de comprensión o una confirmación de que realmente es algo parecido a la magia.

Ese éxito aparente dificulta cuestionar lo que el sistema está haciendo realmente. Los sesgos pueden parecer lógicos o inevitables; un comportamiento dañino puede parecer una elección deliberada o incluso el destino, como si no pudiera haber ocurrido de otra manera.

Es cierto que los modelos de IA se configuran mediante patrones en los datos, los procesos de entrenamiento y el diseño del sistema, pero esto es demasiado abstracto para indicar a las personas cuándo confiar en los resultados de los sistemas o cuándo podrían fallar.

Para ayudar a las personas a evitar la confianza mal depositada en la IA, las iniciativas de alfabetización en IA deberán incluir una comprensión mecanicista de lo que produce su comportamiento; explicaciones que quizás no sean del todo precisas, pero sí útiles. El estadístico George Box escribió una vez: “Todos los modelos son erróneos, pero algunos son útiles”.

Los investigadores desarrollaron varios modelos mentales para los grandes modelos de lenguaje. Uno de ellos es el “loro estocástico”, que muestra que los modelos utilizan métodos estadísticos —estocástico se refiere a probabilidades— para imitar respuestas sin comprender el significado.

Otro es el “bolsa de palabras”, que enfatiza que los modelos son colecciones de palabras —por ejemplo, todas las palabras en inglés que se encuentran en internet— con un mecanismo para proporcionar el mejor conjunto de palabras en función de la indicación proporcionada.

Estas formas de concebir los modelos lingüísticos complejos nunca pretendieron ser descripciones completas de los sistemas. Sin embargo, las metáforas cumplen una importante función cognitiva: refutan la idea de que la fluidez lingüística se deba necesariamente a una comprensión similar a la humana.

Pero a medida que los sistemas de IA que utilizamos se convierten en agentes cada vez más potentes, capaces de encadenar acciones por sí mismos, es importante que las personas cuenten con un modelo mental diferente: uno que explique cómo actúan. Un ejemplo de este modelo se encuentra en investigaciones previas sobre sistemas de IA que aprendieron a jugar a videojuegos de Atari 2600. Estos sistemas no comprendían los juegos como los humanos, pero aun así lograron acumular una gran cantidad de puntos.

Te interesa: Google sitúa a los agentes de IA en el centro de su estrategia para generar ingresos en el sector empresarial

El ciclo simple: Actuar, observar, ajustar

Imagina una red neuronal, un modelo de IA relativamente simple, jugando a un videojuego que nunca antes ha visto. No “entiende” el juego como lo haría un humano. No tiene ni idea de si está disparando a invasores espaciales o explorando una pirámide antigua. Desconoce los objetivos y las reglas.

En cambio, aprende a jugar mediante un ciclo simple: Realiza una acción (moverse a la izquierda, saltar, disparar), observa los cambios y ajusta. Si una acción tiene un buen resultado, como ganar puntos, se ajusta para ser más propensa a realizar acciones similares en situaciones parecidas. Si tiene un mal resultado, como perder una vida, se ajusta en sentido contrario.

Incluso este sencillo mecanismo puede generar un comportamiento sorprendentemente eficaz. Con el tiempo, al repetir este ciclo, las redes neuronales aprendieron a jugar a una amplia gama de juegos de Atari, pero no a todos.

Hay un juego que puso en aprietos a estas primeras redes neuronales: Montezuma’s Revenge. Para progresar, un jugador debe realizar una larga secuencia de acciones —subir escaleras, evitar obstáculos, recuperar llaves— antes de recibir cualquier recompensa. A diferencia de juegos más sencillos, la mayoría de las acciones ofrecen muy poca retroalimentación inmediata. El juego requería algo parecido a una planificación a largo plazo orientada a objetivos.

Las primeras redes neuronales intentaban algunas acciones, no recibían recompensa y no lograban avanzar por la pirámide subterránea de Moctezuma. Desde la perspectiva del sistema, todas las acciones parecían igualmente inútiles. Pero los investigadores lograron un gran avance al cambiar la señal de retroalimentación.

En lugar de recompensar solo el éxito, también recompensaron al sistema por hacer algo nuevo. Las recompensas se otorgaban por visitar partes del juego que no había visto antes o por intentar acciones que no había realizado previamente. Este ajuste fomentó la exploración.

Con ese cambio, el rendimiento mejoró drásticamente. La red neuronal comenzó a sortear obstáculos, dando múltiples pasos hacia sus objetivos y adaptándose cuando las cosas salían mal. Desde fuera, este tipo de comportamiento puede parecer planificación o resolución de problemas. Pero lo que parece planificación no se debe a sofisticadas capacidades de planificación. El mecanismo subyacente sigue siendo el mismo ciclo simple: actuar, observar, ajustar.

Este tipo de sistema no es un loro aleatorio ni un conjunto de palabras sin sentido. Se parece más a un explorador que pulsa botones: algo que no comprende el mundo en el sentido humano, pero que avanza pulsando botones, observando qué sucede y ajustando su acción en consecuencia.

Infórmate: Cómo la IA está elevando los costos de los teléfonos, los juegos y las computadoras

De los videojuegos a los agentes de IA modernos

Los sistemas de IA actuales pueden hacer mucho más que jugar a juegos como La Venganza de Moctezuma. Pueden coordinar herramientas, escribir y ejecutar código, y llevar a cabo proyectos de varias etapas. El abanico de acciones posibles es mucho mayor, y los entornos en los que operan son cada vez más complejos.

Pero estos agentes siguen siendo, fundamentalmente, exploradores que pulsan botones. Su comportamiento puede ser sofisticado, pero el proceso que lo genera no lo es. Los humanos a menudo pueden inferir cómo funciona un nuevo entorno tras solo unas pocas observaciones. Los sistemas que dependen de estos bucles de retroalimentación no pueden. Necesitan probar muchas acciones y ver qué sucede antes de poder progresar.

Esto ayuda a explicar tanto las fortalezas de estos sistemas de IA como algunos de sus fallos más preocupantes. Lo que aprenden estos agentes depende de lo que se recompense. Y en los sistemas del mundo real, esas señales de recompensa suelen ser imperfectas.

Los sistemas de IA que llevan a cabo negociaciones buscan maximizar los intereses de su cliente, a veces con tácticas engañosas. El software de fijación de precios de alquiler utilizado por los propietarios termina manipulando los precios. Las herramientas de marketing generan reseñas persuasivas pero engañosas.

Estos sistemas no actúan con mala intención ni avaricia. Simplemente se adaptan a las señales que reciben. Desde la perspectiva del usuario que solo aprieta botones, estos fallos son totalmente predecibles.

Una comprensión eficaz de la IA implica tener en cuenta dos ideas a la vez: estos sistemas pueden realizar tareas sorprendentemente complejas, y no las realizan como los humanos. Si se percibe la IA como humana o mágica, sus resultados parecen autoritarios. Pero si se la entiende, aunque sea de forma imperfecta, como un explorador que aprieta botones y se moldea mediante la retroalimentación, es probable que la gente se haga mejores preguntas: ¿Por qué hace esto? ¿Qué influyó en este comportamiento? ¿Qué podría estar pasando por alto?

Esa es la diferencia entre quedar impresionado por la IA y ser capaz de razonar sobre ella.

*Ji Y. Son es profesor de Psicología en la Universidad Estatal de California, Los Ángeles, y Alice Xu es estudiante de doctorado en Psicología del Desarrollo en la Universidad de California, Los Ángeles.

Este texto fue publicado originalmente en The Conversation