Qwen se corona en seis benchmarks de programación

Llevo tiempo viendo que un modelo nuevo se anuncia por la tabla de clasificación antes que por lo que sirve. MarkTechPost tituló que el Qwen3.6-27B de Alibaba superaba a un modelo de 397.000 millones de parámetros en pruebas de programación con agentes; otras coberturas lo coronaron como número uno en seis benchmarks de código a la vez. El argumento de venta ya no es "hace esto", es "puntúa más alto que aquel".

Alibaba presentó Qwen 3.6 con los pesos abiertos y la afirmación de encabezar seis benchmarks de código y tareas con agentes, batiendo incluso a rivales mucho mayores. La letra pequeña la ponen los propios investigadores: equipos como el de Berkeley llevan tiempo advirtiendo de contaminación de datos en estas pruebas —modelos que han visto partes del examen durante el entrenamiento— y OpenAI dejó de reportar algunos resultados por esa misma razón. La tabla manda, aunque lo que mide esté en discusión.

Yo opino que la pregunta de fondo es para qué se entrena un modelo: ¿para ser útil o para aprobar el examen? Es la misma diferencia que hay entre estudiar para dominar una materia y estudiar para pasar el control. No es lo mismo, aunque lo parezca, porque en los dos casos la nota es la que te define. Un modelo que lidera seis benchmarks puede ser una herramienta excelente o un empollón que ya había visto las preguntas. Y mientras el titular sea la clasificación, premiaremos lo segundo.

Fuentes: MarkTechPost · Qwen (repositorio oficial) · CodeAnt AI (contaminación de benchmarks)

Lluvia — 4 lágrimas más

Esta lágrima es lluvia para otras lágrimas. Deambula.

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.

Qwen se corona en seis benchmarks de programación

Lluvia — 4 lágrimas más

Aún sin comentarios

Deja un comentario