¡Descifrando las notas de la IA!
Echemos un vistazo a los secretos de la «evaluación» detrás de los rankings
Resumen de este artículo 📝
«¡Esta IA es la más inteligente del mundo!», «¡Una nueva IA lidera el ranking!»… Seguro que has visto noticias así, ¿verdad?
Pero, esa «inteligencia», ¿quién y cómo se decide exactamente? En este artículo, desvelaremos de forma sencilla los entresijos de los diversos «métodos de evaluación» para medir el rendimiento de una IA, como si fueran los exámenes del cole o un partido, para que cualquiera, incluso sin saber mucho de IA, pueda entenderlo fácilmente. ¡Cuando termines de leerlo, las noticias sobre IA te parecerán mucho más interesantes y las entenderás a un nivel más profundo!
Capítulo 1: ¿Cómo se deciden las notas de una IA? Lo básico de la evaluación
En realidad, no hay una única forma de medir la capacidad de una IA. A grandes rasgos, se dividen en métodos de revisión manual por personas y métodos que le hacen pasar un test estandarizado. ¡Empecemos por ver los conceptos básicos!
Revisión manual por personas
(Toca la tarjeta para ver los detalles)
Evaluación Humana
Expertos humanos revisan directamente si el texto generado por la IA es natural, si capta la intención de la pregunta, etc. Como puede evaluar matices de creatividad y contexto que son difíciles para una IA, se le considera el «estándar de oro» (el criterio más fiable) de la evaluación. La única pega es que requiere muchísimo tiempo y dinero.
Un «examen general» para la IA
(Toca la tarjeta para ver los detalles)
Evaluación con Benchmarks
Consiste en hacer que la IA resuelva tests estandarizados preparados de antemano (llamados benchmarks), como si fueran problemas de matemáticas o ciencias, para puntuarla. Permite comparar diferentes IAs en igualdad de condiciones, lo que hace la comparación más justa. Últimamente, entre los desarrolladores como nosotros, competimos a diario por ver quién consigue la puntuación más alta en estos benchmarks.
Cómo se puntúan los tests: una explicación sencilla de las «métricas de evaluación» más comunes
Si hay un «test», también tiene que haber unas «reglas de puntuación», ¿no? En la evaluación de la IA se usan algunas reglas con nombres un poco curiosos. Aquí te presentamos algunas de las más representativas.
Explicación: Esta es la métrica más básica y fácil de entender. Es como los exámenes de verdadero/falso o de opción múltiple del instituto. Por ejemplo, si una IA resuelve un test de 100 preguntas tipo test sobre historia y derecho (un formato usado en el famoso benchmark MMLU) y acierta 90, su «Accuracy es del 90%». Se usa a menudo para medir la amplitud de sus conocimientos.
Explicación: Se utiliza principalmente en tests para resolver problemas de programación (como HumanEval). Por ejemplo, en un «Pass@3», se le pide a la IA que genere código 3 veces, y si al menos uno de ellos funciona correctamente, se cuenta como «éxito». Es un método para evaluar la capacidad de llegar a la respuesta correcta a través de prueba y error, en lugar de dar con la solución perfecta a la primera.
Explicación: Tradicionalmente, se han utilizado para evaluar la traducción automática (BLEU) y el resumen de textos (ROUGE). Comparan el texto generado por la IA con una respuesta modelo creada por un humano, y puntúan mecánicamente cuántas palabras o frases cortas coinciden. Sin embargo, su debilidad es que no pueden captar matices como cuando dos frases tienen el mismo significado pero usan expresiones diferentes.
Capítulo 2: Los dos grandes estilos de evaluación
En los métodos de evaluación de la IA, existen principalmente dos corrientes. Una es el «formato batalla», donde se enfrentan dos IAs y la victoria se decide según la preferencia humana. La otra es el «formato examen», donde se les hace resolver problemas predefinidos. ¡Veamos las características de cada uno!
🥊 Formato Batalla
Estilo Chatbot Arena
Un estilo de evaluación muy práctico donde la victoria se decide por la «preferencia» del usuario.
- 📝Método: Interactúas libremente con 2 IAs anónimas y votas por la que te parezca mejor.
- 👍Características: Muestra su fortaleza ante una gran variedad de preguntas del mundo real. Se considera que es difícil «prepararse para el test» y que es muy imparcial.
- 🤔Punto débil: Existe la tendencia a preferir IAs que parecen seguras y «con labia», por encima de la corrección de sus respuestas.
🏫 Formato Examen
Estilo Hugging Face Leaderboard
Un estilo para medir la capacidad objetiva a través de un «examen general» en el que todos resuelven los mismos problemas.
- 📝Método: Todas las IAs resuelven los mismos benchmarks sobre ciencia, matemáticas, etc., en las mismas condiciones, y se comparan sus puntuaciones.
- 👍Características: Su punto fuerte es que es objetivo y tiene una alta «reproducibilidad» (cualquiera obtiene el mismo resultado). También facilita el seguimiento del progreso en la investigación.
- 🤔Punto débil: El riesgo de «contaminación de datos» y la «saturación», donde el test se vuelve demasiado fácil y ya no se aprecian diferencias, son problemas importantes.
Capítulo 3: ¿El método de evaluación más nuevo? «El Profe IA» que puntúa a otras IAs
La evaluación humana es precisa, ¡pero es un trabajazo! Para solucionar este problema, ha surgido un método que parece de ciencia ficción: «una IA que evalúa a otra IA». A esto se le llama «LLM-as-a-Judge«.
Los puntos débiles del «Profe IA»: ¿también tiene favoritismos y comete errores?
Pero este «Profe IA» también tiene sus debilidades. La verdad es que tiene algunas manías…
🚨 El Quiz de los Sesgos del Profe IA 🚨
¿Qué tipo de «favoritismos» crees que suele tener el Profe IA? ¡Haz clic para ver la respuesta!
A esto se le llama «sesgo de autopreferencia», y es la tendencia a favorecer estilos de escritura similares al suyo. ¡Como si barriera para casa!
Esto es el «sesgo de verbosidad». A veces puede dar una puntuación alta solo por la longitud, aunque el contenido no sea del todo correcto.
Capítulo 4: La «cara B» de la evaluación de la IA: puntos importantes a tener en cuenta
Hasta ahora hemos visto varios métodos de evaluación, pero la verdad es que todo el campo de la evaluación de IA se enfrenta a grandes desafíos. Conocerlos te ayudará a ver las noticias sobre IA con una mirada más profunda y crítica.
¿Las preguntas del examen se han filtrado? La «contaminación de datos»
Este es uno de los mayores problemas en la evaluación de la IA. Las IAs aprenden de cantidades masivas de datos de internet, ¿verdad? Pues a veces, sin querer, en esos datos se incluyen las preguntas de los tests de los benchmarks que se usan para evaluarlas.
Es como si…
Antes de un examen de acceso, te aprendieras de memoria un libro de texto que tiene las preguntas y las respuestas. Así no se puede medir la capacidad real, ¿a que no? Puede que la IA no esté «resolviendo» el problema, sino simplemente «recitando» la respuesta que ha memorizado.
¿Por qué los resultados cambian cada vez? La «dificultad de la reproducibilidad»
En un experimento científico, la «reproducibilidad» (que cualquiera pueda obtener el mismo resultado en cualquier momento) es crucial. Sin embargo, en el mundo de la IA, especialmente con las IAs ofrecidas por empresas, esto es extremadamente difícil.
Esto se debe a que los modelos cerrados se actualizan constantemente sin previo aviso. El GPT-4 que yo probé ayer y el que tú uses hoy podrían ser ya modelos diferentes por dentro. Esto hace que sea muy complicado comparar las evaluaciones.
Conclusión: Entonces, ¿cómo interpretamos las notas de la IA?
Hemos explorado los diversos métodos de evaluación de la IA y lo que hay detrás de ellos. La conclusión más importante que quiero que te lleves es esta:
«Ningún ranking por sí solo es la verdad absoluta»
Cada método de evaluación tiene sus ventajas y, como hemos visto, también importantes inconvenientes.
- Una buena posición en un ranking de tipo examen puede indicar que es buena en tests académicos.
- Una buena posición en un ranking de tipo batalla puede indicar que sabe conversar de una manera que gusta a los humanos.
Pero ninguno de los dos garantiza su «verdadera utilidad» para lo que tú la necesitas.
Por eso, cuando mires un ranking, es importante dar un paso atrás y mantener una perspectiva crítica, preguntándote: «¿Con qué método se ha medido esta puntuación?». La evaluación de la IA seguirá evolucionando, sin duda. ¡Y seguir esa evolución es una de las cosas más fascinantes de este mundo!