¿Qué es el benchmark MMLU y por qué se convirtió en el estándar?

El MMLU (Massive Multitask Language Understanding) es un conjunto de datos diseñado para medir el conocimiento adquirido por un modelo durante su entrenamiento. Introducido en 2020, evalúa a la IA en 57 materias que cubren campos como las humanidades, las ciencias sociales, las matemáticas y la medicina.

Se convirtió en el estándar porque fue la primera prueba que obligó a los modelos a ser «multitarea». Para obtener una puntuación alta, una IA no solo debe saber gramática, sino también derecho, física y ética mundial. Ha sido la métrica principal utilizada por OpenAI, Google y Meta para demostrar la superioridad de sus modelos (GPT-4, Gemini o Llama 3) durante años.

¿Qué significa alcanzar el «nivel humano» en MMLU?

En el contexto de este benchmark, el nivel humano se divide en dos categorías:

Media de un humano (Crowdsourced): Se estima en un 34.5% de precisión.

Expertos humanos: Alcanzan aproximadamente un 89.8%.

En 2026, casi todos los modelos de frontera superan el 85%, lo que significa que poseen un conocimiento general superior al de la inmensa mayoría de las personas con educación universitaria. Sin embargo, esto no implica que la IA sea «más lista» que un humano, sino que ha memorizado y puede recuperar información de un espectro de conocimientos mucho más amplio que cualquier cerebro individual.

¿Cuál es la diferencia entre el MMLU original y el MMLU-Pro?

Debido a que los modelos empezaron a «sacar sobresaliente» en el MMLU original, se creó el MMLU-Pro. Las diferencias técnicas son:

Mayor dificultad: Elimina preguntas triviales y se enfoca en razonamiento.

Más opciones: Pasa de 4 a 10 opciones de respuesta, lo que reduce drásticamente la probabilidad de acertar por azar.

Enfoque en razonamiento: Prioriza materias como matemáticas y leyes donde no basta con memorizar, sino que hay que aplicar la lógica.

¿Qué es la «saturación» y por qué el MMLU está siendo sustituido?

La saturación ocurre cuando los modelos alcanzan puntuaciones tan altas (90%+) que ya no es posible distinguir cuál es mejor. Además, existe el problema de la contaminación: como el MMLU es público en internet, es muy probable que los modelos hayan «visto» las preguntas durante su entrenamiento, haciendo trampa de forma involuntaria (memorizando la respuesta en lugar de razonarla).

Por eso, en la consultoría de IA de 2026, usamos el MMLU como una «base mínima» de cultura general, pero nos fijamos en el GPQA Diamond para evaluar la inteligencia real y la capacidad de resolución de problemas nuevos y complejos.