Los pioneros del aprendizaje por refuerzo con el que se entrena a los modelos de IA ganan el premio Turing
En los años ochenta, Andrew Barto y Rich Sutton eran considerados devotos excéntricos de una idea elegante pero condenada al fracaso: hacer que las máquinas aprendieran, como los humanos y los animales, a partir de la experiencia.
Décadas después, con la técnica de la que fueron pioneros, cada vez más decisiva para la inteligencia artificial moderna y programas como ChatGPT, Barto y Sutton han sido galardonados con el Premio Turing, el más alto honor en el campo de la informática.
Barto, profesor emérito de la Universidad de Massachusetts Amherst, y Sutton, catedrático de la Universidad de Alberta, fueron pioneros en una técnica conocida como aprendizaje por refuerzo, que consiste en persuadir a una computadora para que realice tareas mediante la experimentación combinada con retroalimentación positiva o negativa.
«Cuando empecé a trabajar en esto, no estaba de moda», recuerda Barto con una sonrisa, hablando por Zoom desde su casa de Massachusetts. «Ha sido extraordinario que haya logrado cierta influencia y atención», añade.
El aprendizaje por refuerzo fue quizás el más famoso utilizado por Google DeepMind en 2016 para construir AlphaGo, un programa que aprendió por sí mismo cómo jugar al increíblemente complejo y sutil juego de mesa Go a un nivel experto. Esta demostración despertó un nuevo interés por la técnica, que ha pasado a utilizarse en publicidad, en la optimización del uso energético de centros de datos, en finanzas y en diseño de chips. El método también tiene una larga historia en robótica, donde puede ayudar a las máquinas a aprender a realizar tareas físicas por ensayo y error.
Más recientemente, el aprendizaje por refuerzo ha sido crucial para guiar la salida de grandes modelos lingüísticos (LLM) y producir programas de chatbot extraordinariamente capaces. El mismo método se está utilizando para entrenar modelos de IA que imitan el razonamiento humano y para crear agentes de IA más capaces.
Sutton señala, sin embargo, que los métodos utilizados para guiar a los LLM implican que los humanos proporcionen objetivos en lugar de que un algoritmo aprenda puramente a través de su propia exploración. En su opinión, hacer que las máquinas aprendan por sí solas puede ser más fructífero en última instancia. «La gran división es si [la IA está] aprendiendo de las personas o si está aprendiendo de su propia experiencia», afirma.
El trabajo de Barto y Sutton «ha sido el eje del progreso de la IA en las últimas décadas», afirma Jeff Dean, vicepresidente senior de Google, en un comunicado de la Association for Computing Machinery (ACM), que concede anualmente el Premio Turing. «Las herramientas que desarrollaron siguen siendo un pilar central del auge de la IA y han supuesto grandes avances».
El refuerzo tiene una larga y accidentada historia dentro de la IA. Estuvo presente en los albores de este campo, cuando Alan Turing sugirió que las máquinas podían aprender a través de la experiencia y la retroalimentación en su famoso artículo de 1950 «Computing Machinery and Intelligence«, que examina la idea de que una máquina podría pensar algún día como un ser humano. Arthur Samuel, pionero de la IA, utilizó el aprendizaje por refuerzo para construir en 1955 uno de los primeros programas de aprendizaje automático, un sistema capaz de jugar a las damas.
Sin embargo, a pesar de sus primeros éxitos, el aprendizaje por refuerzo y los trabajos relacionados con las redes neuronales artificiales cayeron en desgracia y durante años se vieron eclipsados por los esfuerzos para construir la IA utilizando símbolos y reglas lógicas en lugar de aprender desde cero.
Sin embargo, Barto, Sutton y otros perseveraron, inspirándose en trabajos de biología y psicología, como los experimentos realizados por Edward Thorndike a principios de los noventa, que demostraban que el comportamiento animal está determinado por estímulos. También se inspiraron en la neurociencia y la teoría del control para desarrollar algoritmos que permitieran a los ordenadores imitar este tipo de aprendizaje.
Share this content:
Publicar comentario