Hoy en la actualidad, nos hemos dado cuenta que estamos rodeados de titulares que hablan maravillas de la inteligencia artificial, desde diagnósticos médicos hasta composiciones literarias. Pero, ¿qué pasa cuando se enfrenta a desafíos que requieren lógica y reglas estrictas, como el ajedrez? Una partida aparentemente inofensiva destapa un fallo sorprendente que pone en duda la verdadera «inteligencia» de estos modelos. Todo comenzó con una propuesta sencilla: jugar al ajedrez contra una IA generativa. Las primeras jugadas fluyeron con normalidad. Usando notación algebraica, el sistema respondió adecuadamente a movimientos estándar. De hecho, la partida resultaba tan común como miles de otras que se juegan a diario en todo el mundo, hasta que de pronto, todo cambió.
Sin embargo, en un punto clave de la partida, se realizó un movimiento ilegal: un alfil blanco capturó una pieza en b6, una jugada sencillamente imposible. Sin embargo, la IA no solo aceptó el movimiento, sino que siguió respondiendo con nuevas jugadas, también erróneas. La partida se transformó en una secuencia absurda que ningún jugador real toleraría. Este fallo no es un simple descuido. Demuestra algo más profundo: estos modelos no entienden realmente lo que están haciendo. No hay «comprensión» detrás de sus respuestas, sino una simulación basada en la predicción de palabras y estructuras textuales, la explicación está en el funcionamiento interno de los modelos de lenguaje: su objetivo principal es generar una respuesta plausible a partir de una secuencia de texto previa. No comprueban si lo que dicen es cierto o posible, simplemente predicen la palabra o frase más probable.

Aunque suenen coherentes, pueden ofrecer respuestas completamente absurdas o erróneas. Aun cuando se combinan con sistemas de recuperación de información (como en los RAG), su razonamiento sigue siendo limitado a la apariencia lingüística, no a una lógica real. Esta ilusión de sentido lleva a muchos a confiar ciegamente en sus respuestas, creyendo que una redacción impecable equivale a conocimiento profundo o inteligencia real. Atribuir inteligencia a estos sistemas por su buena redacción es un error común. Varios estudios han demostrado que incluso los denominados modelos de razonamiento fallan estrepitosamente en tareas complejas, como el clásico rompecabezas de Las Torres de Hanoi con más de seis discos.
Cabe indicar que, el ajedrez tiene sus propios titanes digitales, como Stockfish o AlphaZero, que no se basan en modelos de lenguaje. En cambio, proyectos como Chessbench intentan aplicar el mismo enfoque predictivo de los LLM al juego del ajedrez, con resultados todavía lejos de los estándares de los motores tradicionales.
