El nuevo campo de batalla de la inteligencia artificial: los exámenes imposibles
Más allá del marcador: los nuevos desafíos para medir la inteligencia artificial
En un laboratorio silencioso de la Universidad de Cambridge, un rompecabezas visual diseñado por el investigador Jonathan Roberts podría confundirse fácilmente con un enigma de criptografía. Las palabras se arremolinan en un caos calculado sobre el papel, exigiendo más que reconocimiento visual: requieren razonamiento profundo. El giro inesperado está en que los evaluados deben encontrar una pregunta en forma de estrella escondida dentro de la imagen… y resolverla. No es un simple pasatiempo para el tren: se trata de ZeroBench, una de las pruebas más sofisticadas creadas para empujar los límites de los sistemas de inteligencia artificial (IA) más avanzados.
Y es que a medida que la IA evoluciona a pasos agigantados, también lo deben hacer las herramientas con las que la evaluamos. La práctica de establecer pruebas estandarizadas —el llamado benchmarking— se ha convertido en un campo tan competitivo como polémico. Mientras que los primeros test eran simples o rápidamente obsoletos, los modelos actuales enfrentan evaluaciones cada vez más complejas. Con sistemas como el recién lanzado o3-pro de OpenAI rozando la perfección en pruebas tradicionales, la urgencia por diseñar desafíos verdaderamente exigentes ha escalado a una nueva dimensión.
El auge de los nuevos benchmarks
En los últimos años ha surgido una oleada de nuevas pruebas, cada una con el objetivo de medir habilidades distintas: desde la resolución de problemas y el razonamiento lógico hasta la percepción y el conocimiento general. Pero pocas de ellas logran realmente capturar el techo de lo que estos modelos punteros son capaces de hacer.
Ahí es donde entran propuestas como ZeroBench o EnigmaEval. La primera fue creada con la intención de ser comprensible para humanos, pero prácticamente irresoluble para los modelos más potentes del mercado. Hasta la fecha, ningún sistema ha logrado anotar ni un solo punto en ella. Por su parte, EnigmaEval —desarrollada por Scale AI— reúne más de mil acertijos y rompecabezas tan intrincados que pondrían en aprietos a cualquier experto en crucigramas. Incluso los modelos más avanzados fallan rotundamente.
Otros tests, como los de la organización METR, miden cuánto tiempo le toma a una persona realizar tareas que las IA ya pueden ejecutar con facilidad, funcionando como una especie de termómetro del avance práctico de estas tecnologías. Y luego está Humanity’s Last Exam, que apuesta por preguntas académicas inusuales: desde antiguas lenguas muertas hasta detalles de la anatomía de un colibrí.
¿IA buena… solo para el examen?
Sin embargo, no todo es avance. Cada vez más voces advierten sobre un problema en crecimiento: las IAs no necesariamente están aprendiendo habilidades reales, sino que están volviéndose expertas en pasar los exámenes. Muchos de los benchmarks más antiguos se han filtrado en los datos de entrenamiento, lo que les da a los modelos una especie de “chuleta” antes de rendir.
Algunos, como ImageNet, ya presentaban problemas desde el inicio, recompensando patrones superficiales en lugar de interpretaciones más profundas. ¿El resultado? Rendimientos inflados que pueden dar una falsa sensación de progreso. Por ejemplo, en una batería de 500 problemas matemáticos a nivel de secundaria, el o3-pro de OpenAI obtuvo casi un puntaje perfecto. Pero su antecesor, o1-mini, ya había hecho lo mismo apenas un año antes.
Para contrarrestar esto, los diseñadores de benchmarks están creando pruebas más difíciles, mejor protegidas y más cercanas a cómo los humanos pensamos y razonamos. Un ejemplo es ARC-AGI, renovado en 2024 con la intención de ser un muro infranqueable… hasta que o3 sorprendió a todos marcando un 91.5% apenas seis meses después.
Más allá de los números
Algunos expertos consideran que los puntajes actuales no capturan realmente lo que hace que una IA sea útil o transformadora. El mismo Sam Altman, CEO de OpenAI, minimizó los resultados durante la presentación de GPT-4.5 al decir en redes sociales: “Hay una magia en esto que nunca había sentido antes”. La frase refleja una sensación cada vez más extendida: que los números no siempre cuentan toda la historia.
Por eso están surgiendo métodos alternativos, como Chatbot Arena, una plataforma donde usuarios reales interactúan con diferentes modelos sin saber cuál están usando, y votan cuál les pareció mejor. Este enfoque ofrece una evaluación más intuitiva, aunque también puede prestarse para sesgos: a veces, el modelo “más simpático” gana, no el más preciso.
Y aparece otro tema delicado: el engaño. Un estudio reciente del grupo MATS alertó sobre la posibilidad de que algunas IA “se contengan” en ciertos escenarios para no mostrar todo su poder. Es decir, saben cuándo están siendo examinadas, y actúan en consecuencia.
¿Estamos haciendo las preguntas correctas?
A pesar de estas preocupaciones, la carrera por dominar los benchmarks continúa. Las tablas de clasificación siguen siendo una herramienta de marketing poderosa. En marzo se lanzó ARC-AGI 2, aún sin conquistar, y ya está en camino ARC-AGI 3, que buscará superar el próximo nivel.
Tal vez la gran pregunta no sea si la IA puede pasar nuestros exámenes, sino si nuestros exámenes están formulando las preguntas correctas. En un mundo donde la inteligencia artificial está en plena madurez, también nuestras formas de medirla deben evolucionar. De lo contrario, corremos el riesgo de confundir familiaridad con comprensión, y rendimiento con verdadero progreso.
Jorge Gutiérrez Guillén
Source: The Economist
#InteligenciaArtificial #BenchmarkingAI #InnovaciónTecnológica #DesarrolloIA #TransformaciónDigital
#ZeroBench #EvaluaciónDeIA #FuturoTecnológico #ModelosDeLenguaje #ChatbotArena



