El nuevo campo de batalla de la inteligencia artificial: los exámenes imposibles

Posted on: julio 10, 2025
By: Jorge Gutiérrez Guillén
Category: Servicios

Más allá del marcador: los nuevos desafíos para medir la inteligencia artificial

En un laboratorio silencioso de la Universidad de Cambridge, un rompecabezas visual diseñado por el investigador Jonathan Roberts podría confundirse fácilmente con un enigma de criptografía. Las palabras se arremolinan en un caos calculado sobre el papel, exigiendo más que reconocimiento visual: requieren razonamiento profundo. El giro inesperado está en que los evaluados deben encontrar una pregunta en forma de estrella escondida dentro de la imagen… y resolverla. No es un simple pasatiempo para el tren: se trata de ZeroBench, una de las pruebas más sofisticadas creadas para empujar los límites de los sistemas de inteligencia artificial (IA) más avanzados.

Y es que a medida que la IA evoluciona a pasos agigantados, también lo deben hacer las herramientas con las que la evaluamos. La práctica de establecer pruebas estandarizadas —el llamado benchmarking— se ha convertido en un campo tan competitivo como polémico. Mientras que los primeros test eran simples o rápidamente obsoletos, los modelos actuales enfrentan evaluaciones cada vez más complejas. Con sistemas como el recién lanzado o3-pro de OpenAI rozando la perfección en pruebas tradicionales, la urgencia por diseñar desafíos verdaderamente exigentes ha escalado a una nueva dimensión.

El auge de los nuevos benchmarks

En los últimos años ha surgido una oleada de nuevas pruebas, cada una con el objetivo de medir habilidades distintas: desde la resolución de problemas y el razonamiento lógico hasta la percepción y el conocimiento general. Pero pocas de ellas logran realmente capturar el techo de lo que estos modelos punteros son capaces de hacer.

Ahí es donde entran propuestas como ZeroBench o EnigmaEval. La primera fue creada con la intención de ser comprensible para humanos, pero prácticamente irresoluble para los modelos más potentes del mercado. Hasta la fecha, ningún sistema ha logrado anotar ni un solo punto en ella. Por su parte, EnigmaEval —desarrollada por Scale AI— reúne más de mil acertijos y rompecabezas tan intrincados que pondrían en aprietos a cualquier experto en crucigramas. Incluso los modelos más avanzados fallan rotundamente.

Otros tests, como los de la organización METR, miden cuánto tiempo le toma a una persona realizar tareas que las IA ya pueden ejecutar con facilidad, funcionando como una especie de termómetro del avance práctico de estas tecnologías. Y luego está Humanity’s Last Exam, que apuesta por preguntas académicas inusuales: desde antiguas lenguas muertas hasta detalles de la anatomía de un colibrí.

¿IA buena… solo para el examen?

Sin embargo, no todo es avance. Cada vez más voces advierten sobre un problema en crecimiento: las IAs no necesariamente están aprendiendo habilidades reales, sino que están volviéndose expertas en pasar los exámenes. Muchos de los benchmarks más antiguos se han filtrado en los datos de entrenamiento, lo que les da a los modelos una especie de “chuleta” antes de rendir.

Algunos, como ImageNet, ya presentaban problemas desde el inicio, recompensando patrones superficiales en lugar de interpretaciones más profundas. ¿El resultado? Rendimientos inflados que pueden dar una falsa sensación de progreso. Por ejemplo, en una batería de 500 problemas matemáticos a nivel de secundaria, el o3-pro de OpenAI obtuvo casi un puntaje perfecto. Pero su antecesor, o1-mini, ya había hecho lo mismo apenas un año antes.

Para contrarrestar esto, los diseñadores de benchmarks están creando pruebas más difíciles, mejor protegidas y más cercanas a cómo los humanos pensamos y razonamos. Un ejemplo es ARC-AGI, renovado en 2024 con la intención de ser un muro infranqueable… hasta que o3 sorprendió a todos marcando un 91.5% apenas seis meses después.

Más allá de los números

Algunos expertos consideran que los puntajes actuales no capturan realmente lo que hace que una IA sea útil o transformadora. El mismo Sam Altman, CEO de OpenAI, minimizó los resultados durante la presentación de GPT-4.5 al decir en redes sociales: “Hay una magia en esto que nunca había sentido antes”. La frase refleja una sensación cada vez más extendida: que los números no siempre cuentan toda la historia.

Por eso están surgiendo métodos alternativos, como Chatbot Arena, una plataforma donde usuarios reales interactúan con diferentes modelos sin saber cuál están usando, y votan cuál les pareció mejor. Este enfoque ofrece una evaluación más intuitiva, aunque también puede prestarse para sesgos: a veces, el modelo “más simpático” gana, no el más preciso.

Y aparece otro tema delicado: el engaño. Un estudio reciente del grupo MATS alertó sobre la posibilidad de que algunas IA “se contengan” en ciertos escenarios para no mostrar todo su poder. Es decir, saben cuándo están siendo examinadas, y actúan en consecuencia.

¿Estamos haciendo las preguntas correctas?

A pesar de estas preocupaciones, la carrera por dominar los benchmarks continúa. Las tablas de clasificación siguen siendo una herramienta de marketing poderosa. En marzo se lanzó ARC-AGI 2, aún sin conquistar, y ya está en camino ARC-AGI 3, que buscará superar el próximo nivel.

Tal vez la gran pregunta no sea si la IA puede pasar nuestros exámenes, sino si nuestros exámenes están formulando las preguntas correctas. En un mundo donde la inteligencia artificial está en plena madurez, también nuestras formas de medirla deben evolucionar. De lo contrario, corremos el riesgo de confundir familiaridad con comprensión, y rendimiento con verdadero progreso.

Jorge Gutiérrez Guillén

Source: The Economist

#InteligenciaArtificial #BenchmarkingAI #InnovaciónTecnológica #DesarrolloIA #TransformaciónDigital
#ZeroBench #EvaluaciónDeIA #FuturoTecnológico #ModelosDeLenguaje #ChatbotArena

Relacionado

Share This Post

Jorge Gutiérrez Guillén

With over 15 years of experience in auditing and financial consulting, I serve as the founder and managing partner of JGutierrez Auditores Consultores S.A.—a boutique firm dedicated to delivering exceptional, value-driven solutions that consistently exceed industry standards. Our mission is to promote transparency, efficiency, and sustainability by combining international best practices with in-depth knowledge of Costa Rican and regional regulations. We operate under the guiding principles of integrity, innovation, and excellence. Our Expertise At JGutierrez Auditores Consultores, we provide comprehensive audit and consulting services tailored to meet the evolving needs of today’s businesses. Our core areas of specialization include: Financial Audits: Independent evaluations aligned with international standards, ensuring reliability and accuracy in financial reporting. Regulatory Compliance: Expert navigation of complex tax and financial frameworks to ensure full adherence and strategic advantage. Internal Controls: Strengthening governance structures to mitigate risk and boost operational effectiveness. Fraud Prevention: Implementing forward-looking strategies to detect, prevent, and respond to financial irregularities. Process Optimization: Streamlining workflows and improving resource allocation for enhanced productivity and long-term growth. Environmental & Financial Sustainability: Supporting compliance with emerging ESG regulations to reinforce resilience. Information Security: Protecting critical systems and data through robust cybersecurity and risk management measures. Value-Centered Consulting Beyond our audit services, we offer strategic consulting designed to help organizations innovate and compete in an increasingly dynamic environment: Information Systems & Operational Management: Integrating technology and operations to boost performance and scalability. ISO Standards Compliance: Providing expert guidance to achieve and maintain globally recognized certifications. Transfer Pricing Studies: Ensuring compliance with international tax obligations while enhancing cross-border efficiency. Industrial Cost Analysis: Delivering deep insights into cost structures to support sound decision-making and margin improvement. Why Choose JGutierrez Our strength lies in a collaborative, multidisciplinary team that brings together seasoned professionals and next-generation talent, equipped with expertise in emerging technologies. This synergy enables us to deliver innovative, high-impact solutions that support growth, reinforce resilience, and unlock strategic opportunities. As a trusted advisor, I am committed to building lasting partnerships and helping organizations navigate the challenges of today while preparing for the opportunities of tomorrow. Jorge Gutiérrez Guillén Certified Public Accountant | Business Consultant

El nuevo campo de batalla de la inteligencia artificial: los exámenes imposibles

El auge de los nuevos benchmarks

¿IA buena… solo para el examen?

Más allá de los números

¿Estamos haciendo las preguntas correctas?

Relacionado

Related Articles