A principios de 2025, el sector de la inteligencia artificial tenía un consenso claro. Ese sería el año de los agentes: sistemas capaces de planificar, ejecutar y entregar proyectos completos sin intervención humana. Microsoft los llamó «trabajadores digitales». Los analistas hablaban de revolución laboral inminente. El hype era tan alto que muchas empresas empezaron a planificar implementaciones antes de tener claro qué querían automatizar exactamente.
Scale AI decidió comprobar si todo aquello era real. No con benchmarks de laboratorio, sino con proyectos freelance reales evaluados por un panel de 40 jueces como si fueran clientes reales: diseño de producto, desarrollo de videojuegos, análisis de datos, redacción científica. Encargos del mundo real con criterios de evaluación del mundo real.
El resultado fue contundente: menos de 3 de cada 100 proyectos superaron el filtro. El mejor modelo alcanzó un 2,5% de efectividad. Andrej Karpathy, cofundador de OpenAI, lo resumió sin rodeos: los agentes todavía no están ahí.
Puedes descargar el estudio completo aquí.
Qué mide realmente el estudio y por qué importa
La mayoría de los benchmarks con los que se evalúan los modelos de IA miden precisión técnica en condiciones controladas. El estudio de Scale AI mide algo diferente y mucho más relevante para cualquier empresa: si el resultado de un agente autónomo superaría el criterio de un cliente real en un encargo real.
Esa diferencia es enorme. Un modelo puede resolver correctamente un problema técnico y aun así producir un entregable que ningún cliente aceptaría, porque no ha priorizado bien, porque no ha entendido el contexto implícito, porque ha tomado decisiones que técnicamente son correctas pero profesionalmente son inadecuadas. Los modelos actuales son rápidos, coherentes y cada vez más capaces, pero no contextualizan bien, no entienden matices ni expectativas tácitas y no saben lo que importa en tu empresa, en tu sector o con tu cliente. Ese conocimiento no lo da el modelo. Lo pones tú.
Por qué fracasan la mayoría de los proyectos de agentes de IA en empresa
He visto este patrón repetirse en consultorías: la empresa decide montar un agente, le pide que «gestione el soporte» o que «atienda a los clientes», lo lanza, no funciona como esperaban y la conclusión es que los agentes no sirven. Pero el problema no estaba en el agente. Estaba en cómo se definió la tarea antes de construir nada.
Un agente mal definido no ejecuta mal una tarea: ejecuta caos de forma muy sofisticada. Y un agente bien construido, en cambio, hace una cosa, la hace siempre y la hace sin supervisión constante. Eso ya justifica el tiempo de construirlo, aunque no sea la promesa de los keynotes.
La diferencia entre los dos no depende del modelo que uses ni de la plataforma que elijas. Depende de si respondiste estas cuatro preguntas antes de construir nada:
- ¿Qué tiene que hacer exactamente el agente?
- ¿En qué situación concreta va a operar?
- ¿Con qué información disponible va a trabajar?
- ¿Qué pasa si se equivoca?
Si no tienes respuesta clara a las cuatro, no es el momento de montar el agente. Es el momento de definir el proceso.
El 2,5% visto desde el ángulo correcto
La lectura fácil del estudio es que los agentes no funcionan. No es esa la conclusión útil. Hace tres años, ese 2,5% era 0%. El ritmo de avance es real y sostenido, y los agentes que hoy fallan en tareas abiertas y complejas ya funcionan bien en tareas acotadas y repetibles: atención al cliente con alcance definido, consultas internas sobre documentación propia, validación de datos contra criterios fijos, generación de borradores dentro de un formato establecido.
No es la transformación total que prometieron en los keynotes. Es lo que funciona hoy. Y, para muchas empresas, ya es más que suficiente para recuperar horas reales cada semana en tareas que no necesitan criterio humano en cada paso.
Qué significa esto para tu empresa ahora mismo
No necesitas esperar a que los agentes sean perfectos para empezar a usarlos bien. Lo que necesitas es identificar una tarea que se repita siempre igual, que pueda describirse en tres líneas y que consuma tiempo de alguien con criterio que podría estar haciendo otra cosa. Esa tarea es tu punto de entrada real, no «transformar el departamento» ni «automatizar la atención al cliente», sino una tarea concreta y medible.
El 97,5% de los proyectos del estudio de Scale AI fallaron. Probablemente porque nadie hizo esa pregunta antes de empezar. La tecnología no era el problema entonces, y tampoco lo es ahora.


