El futuro de la IA no está en los modelos más grandes, sino en los más baratos
De este modo, la inteligencia artificial podría salir de los centros de datos de las big tech y extenderse a un ecosistema de modelos más pequeños y accesibles, sin sacrificar potencia y abaratando también el costo de uso para los usuarios finales. Como señala Bruegel, podríamos sustituir la ley de la escala por la «ley de destilación de escala», en la que el progreso se basa en la capacidad de aumentar el rendimiento y la eficiencia de modelos de tamaño similar, y ya no en construir modelos cada vez más grandes.
Silicon Valley vs. la destilación
En un post de su blog, el Director General de Anthropic y teórico de la ley de la escala, Dario Amodei, rechazó esta interpretación, afirmando que el rendimiento de DeepSeek sigue siendo «dos factores» inferior al de los principales modelos estadounidenses, a pesar de haber reducido los costos «ocho veces». Sin embargo, los propios (vagos) cálculos de Amodei muestran cómo la eficiencia de DeepSeek puede considerarse cuatro veces superior a la de los modelos de vanguardia, sin excluir que posiblemente mejore aún más.
Ahora bien, ¿cómo puede mejorarse aún más la eficiencia de los modelos destilados? Entre las diversas posibilidades, está la de encontrar la relación perfecta (ratio) entre el «profesor» del LLM y sus «alumnos». En pocas palabras (como se explica en un artículo reciente), las dimensiones de los dos modelos no deben ser ni demasiado similares ni demasiado disímiles. En el primer caso, sería como dejar que un alumno de primaria hiciera de profesor de sus compañeros, con resultados obviamente malos. En el segundo, sería como convertir a un profesor universitario en maestro de primaria, con lo que la diferencia sería demasiado grande.
Más allá de los tecnicismos, el argumento es sencillo: ¿por qué, en lugar de centrarnos en modelos cada vez más grandes para aumentar el rendimiento, no intentamos en cambio que los modelos existentes (o los destilados a partir de ellos con técnicas cada vez más sofisticadas) sean cada vez más eficientes? Un enfoque que también parece tener sentido a la luz de la «hambruna de datos » que se avecina rápidamente: según algunas estimaciones, hacia 2030 todos los datos de la web habrán sido explotados para el entrenamiento, sin que el crecimiento de la web pueda compensar el hambre de los LLM.
En resumen, hasta 2024, el rendimiento de los LLM solo mejoraría aumentando los datos y la potencia de cálculo, siguiendo la ley de la escala pero a costos crecientes y con rendimientos decrecientes. La llegada de DeepSeek (y de los modelos de razonamiento) desplazó la atención hacia el ajuste fino, es decir, el perfeccionamiento de los modelos existentes. Este enfoque redujo los costos y eliminó la dependencia del costoso preentrenamiento.
La razón por la que las gigantes de Silicon Valley se resisten a este escenario es bastante obvia: su verdadera ventaja competitiva reside en las enormes cantidades de dinero de que disponen. Si desarrollar inteligencia artificial se vuelve cada vez más barato (ya hay modelos desarrollados en pocas horas y por unos cientos de dólares), será cada vez más difícil para OpenAI, Google, Microsoft o Anthropic mantener su dominio en un mercado ya de por sí muy complejo.
Share this content:
Publicar comentario