Os pioneiros que ensinaram máquinas a aprender…

MCTI vai abrir 10 mil vagas para formação de p...

Quando pensamos em grandes marcos da história, nomes como Marie Curie, Albert Einstein ou Alan Turing imediatamente vêm à mente. Mas, e se eu disser que duas figuras menos conhecidas do grande público estão por trás de alguns dos avanços mais impressionantes da Inteligência Artificial (IA) e com enorme impacto no planeta, você saberia apontá-los?

O campo que se dedicaram é o do aprendizado por reforço (do inglês, reinforcement learning, RL), uma área da IA que ensina máquinas a aprenderem com a própria experiência. O aprendizado por reforço é uma das áreas mais influentes da IA moderna. E o reconhecimento à dupla destaca não apenas a importância técnica do trabalho desenvolvido por eles, mas também o impacto duradouro em aplicações práticas que moldam o mundo atual e moldarão o futuro.

As trajetórias de Barto e Sutton

O professor emérito da Universidade de Massachusetts Amherst, Andrew Barto, e o professor na Universidade de Alberta, Richard Sutton, iniciaram sua colaboração no final da década de 1970. Entre muitos trabalhos de pesquisa, estabeleceram as bases teóricas e algorítmicas do aprendizado por reforço, desenvolvendo métodos como o aprendizado por diferença temporal (temporal difference learning) e os métodos de gradiente de política (policy-gradient methods). Essas abordagens permitiram que agentes computacionais aprendessem a tomar decisões sequenciais com base em recompensas e punições, de maneira semelhante ao aprendizado observado em humanos e animais.

O aprendizado por reforço tem se consolidado como uma das abordagens mais promissoras da IA, permitindo que agentes aprendam comportamentos ótimos por meio de interações com o ambiente. Em aprendizado por reforço, os agentes são treinados com base em um mecanismo de recompensas e punições. O agente recebe uma recompensa por ações corretas e é punido por ações incorretas. Com isso, o agente busca minimizar os erros e maximizar as decisões corretas. Para dar uma dimensão de impacto, seguem exemplos das principais aplicações práticas do aprendizado por reforço que estão moldando diversos setores da sociedade.

Google DeepMind

Continua após a publicidade

Esses sistemas não apenas superaram o desempenho humano, mas também descobriram estratégias inovadoras que surpreenderam até os especialistas. O impacto foi profundo: mostrou que a IA pode dominar tarefas altamente complexas sem supervisão humana direta, inaugurando uma nova era de sistemas autônomos capazes de aprender e tomar decisões em domínios vastos e não estruturados.

Veículos autônomos

A Wayve adota uma abordagem end-to-end baseada em aprendizado por reforço, permitindo que seus carros aprendam diretamente com a experiência de direção, sem depender de regras codificadas ou mapas detalhados.

Já a Tesla utiliza sistemas baseados em aprendizado por reforço para aperfeiçoar comportamentos como mudanças de faixa ou navegação em cruzamentos.

Em uma outra vertente, a Aurora usa aprendizado por reforço, incluindo aprendizado por reforço inverso (Inverse Reinforcement Learning, IRL) e aprendizado por reforço com base no feedback humano (Reinforcement Learning from Human Feedback, RLHF), para treinar seu sistema de direção autônoma a tomar decisões seguras e semelhantes às humanas.

Continua após a publicidade

Esses sistemas combinam aprendizado adaptativo com regras de segurança explícitas para garantir comportamento confiável em situações complexas. Podemos dizer que o aprendizado por reforço tem se mostrado promissor em tarefas como controle fino, planejamento local e negociação de prioridade, oferecendo uma alternativa poderosa à programação manual em sistemas de direção autônoma.

Robôs industriais

A Boston Dynamics e o projeto Dactyl da OpenAI são exemplos que também demonstram o uso avançado de aprendizado por reforço na robótica industrial. A Boston Dynamics aplica aprendizado por reforço para treinar robôs como o Atlas e o Spot a realizarem tarefas complexas, como locomoção em terrenos irregulares, manobras de equilíbrio e manipulação de objetos, ajustando seus movimentos com base no feedback do ambiente.

Já o Dactyl, da OpenAI, utilizou aprendizado por reforço para treinar uma mão robótica a manipular objetos com alta destreza — incluindo resolver um cubo mágico — apenas com visão e sensores táteis, aprendendo políticas robustas em simulação e transferindo-as com sucesso para o mundo real.

Esses exemplos mostram como o aprendizado por reforço permite que robôs adquiram habilidades adaptativas e generalizáveis, superando os limites da programação tradicional em ambientes dinâmicos e não estruturados.

Continua após a publicidade

Modelos de linguagem em larga escala

Neste modelo, após o pré-treinamento com grandes quantidades de texto e um ajuste fino supervisionado, os modelos passam por uma fase em que geram múltiplas respostas a uma mesma pergunta, e avaliadores humanos classificam essas respostas com base em critérios como utilidade, clareza e segurança.

Um modelo de recompensa é então treinado com essas classificações e usado em um algoritmo de aprendizado por reforço, geralmente Proximal Policy Optimization (PPO) para ajustar o modelo principal. Esse processo permite que o modelo de linguagem de grande escala aprenda a preferir respostas mais úteis e socialmente apropriadas, aprimorando sua performance em tarefas interativas e abertas.

Marginais transformadores

A concessão desse prêmio a Andrew Barto e Richard Sutton não apenas reconhece suas contribuições técnicas excepcionais, mas também ressalta a importância de pesquisas fundamentais que, embora inicialmente possam ter parecido marginais, têm o potencial de transformar profundamente a tecnologia e a sociedade. O trabalho em aprendizado por reforço continua a influenciar e impulsionar a IA, demonstrando que a combinação de rigor acadêmico, visão interdisciplinar e compromisso com a ética é essencial para o avanço responsável da tecnologia.

Continua após a publicidade

Alberto Sardinha, Professor do Departamento de Informática, Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)

Este texto é uma republicação do The Conversation. Leia o artigo original.

Compartilhe essa matéria via:

 



Fonte ==> Você SA

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *