Aprendizagem por reforço: o que é e como funciona

Publicados: 2024-07-17

No fascinante mundo da IA, a aprendizagem por reforço destaca-se como uma técnica poderosa que permite às máquinas aprender comportamentos ideais através de tentativa e erro, tal como os humanos e os animais adquirem competências no mundo real.

Índice

  • O que é aprendizagem por reforço?
  • RL vs. aprendizagem supervisionada e não supervisionada
  • Como funciona a aprendizagem por reforço
  • Tipos de aprendizagem por reforço
  • Aplicações de aprendizagem por reforço
  • Vantagens da aprendizagem por reforço
  • Desvantagens da aprendizagem por reforço

O que é aprendizagem por reforço (RL)?

O aprendizado por reforço (RL) é um tipo de aprendizado de máquina (ML) no qual um agente aprende a tomar decisões interagindo com seu ambiente. Neste contexto, o agente é um programa que toma decisões sobre as ações a tomar, recebe feedback na forma de recompensas ou penalidades e ajusta o seu comportamento para maximizar as recompensas cumulativas.

O aprendizado de máquina é um subconjunto da inteligência artificial (IA) que usa dados e métodos estatísticos para construir programas que imitam o raciocínio humano, em vez de depender de instruções codificadas. RL é diretamente inspirado em como as pessoas usam tentativa e erro para otimizar suas decisões.

Trabalhe de maneira mais inteligente com Grammarly
O parceiro de redação de IA para qualquer pessoa com trabalho a fazer

Reforço vs. aprendizagem supervisionada e não supervisionada

Na aprendizagem supervisionada , os modelos são treinados usando dados rotulados, onde a saída correta é fornecida para cada entrada.Essa orientação ajuda o modelo a fazer previsões precisas quando se depara com dados novos e não vistos. O aprendizado supervisionado é útil para tarefas como detecção de spam, classificação de imagens e previsão do tempo.

Por outro lado,a aprendizagem não supervisionada trabalha com dados não rotulados para encontrar padrões e agrupamentos.Ele pode agrupar pontos de dados semelhantes, encontrar associações entre itens e reduzir a complexidade dos dados para facilitar o processamento. Os exemplos incluem segmentação de clientes, sistemas de recomendação e detecção de anomalias.

A aprendizagem por reforço é distinta de ambas.Na RL, um agente aprende interagindo com seu ambiente e recebendo feedback positivo ou negativo. Este ciclo de feedback permite ao agente ajustar as suas ações para alcançar os melhores resultados possíveis. RL é particularmente útil para tarefas onde o agente precisa aprender uma sequência de decisões, como em jogos, robótica e direção autônoma.

Como funciona a aprendizagem por reforço

Compreender os princípios da RL é crucial para compreender como os agentes inteligentes aprendem e tomam decisões. Abaixo, exploraremos os principais conceitos e o processo de RL em detalhes.

Conceitos-chave em RL

RL possui um vocabulário distinto que não se aplica a outros tipos de ML. As principais noções a serem compreendidas são:

1 Agente e ambiente: O agente é o programa de computador que toma decisões, enquanto o ambiente abrange tudo com o qual o agente interage.Isto inclui todos os estados e ações possíveis, incluindo decisões anteriores tomadas pelo agente. A interação entre o agente e o ambiente é o núcleo do processo de aprendizagem.

2 Estado e ação: O estado representa a situação atual do agente em um determinado momento, e uma ação é uma decisão que o agente pode tomar em resposta ao seu estado.O agente visa escolher ações que levem aos estados mais favoráveis.

3 Recompensa e punição: Após realizar uma ação, o agente recebe feedback do ambiente: se positivo é chamado de recompensa, se negativo, de punição.Esse feedback ajuda o agente a saber quais ações são benéficas e quais devem ser evitadas, orientando suas decisões futuras.

4 Política: Uma política é a estratégia do agente para decidir que ação tomar em cada estado.Mapeia estados em ações, servindo como guia do agente para alcançar os melhores resultados com base em experiências passadas.

5 Função de valor: A função de valor estima o benefício a longo prazo de estar em um determinado estado ou de realizar uma determinada ação.Ajuda o agente a compreender as potenciais recompensas futuras, mesmo que isso signifique suportar uma recompensa negativa de curto prazo para maximizar o ganho a longo prazo. A função de valor é essencial para a tomada de decisões que otimizam as recompensas cumulativas ao longo do tempo.

O processo de RL

Embora o propósito e o método de aprendizagem sejam bastante diferentes de outros tipos de ML, o processo é semelhante em termos de preparação de dados, escolha de parâmetros, avaliação e iteração.

Aqui está uma breve visão geral do processo de RL:

1 Definição do problema e estabelecimento de metas.Defina claramente o problema e determine as metas e objetivos do agente, incluindo a estrutura de recompensas. Isso o ajudará a decidir quais dados você precisa e qual algoritmo selecionar.

2 Coleta de dados e inicialização.Reúna os dados iniciais, defina o ambiente e configure os parâmetros necessários para o experimento RL.

3 Pré-processamento e engenharia de recursos.Limpe os dados: verifique, remova duplicatas, certifique-se de ter os rótulos de recursos adequados e decida como lidar com os valores ausentes. Em muitos casos, você desejará criar novos recursos para esclarecer aspectos importantes do ambiente, como a criação de um único ponto de dados de posicionamento a partir de diversas entradas de sensores.

4 Seleção de algoritmo.Com base no problema e no ambiente, escolha o algoritmo RL apropriado e defina as configurações principais, conhecidas como hiperparâmetros. Por exemplo, você precisará estabelecer o equilíbrio entre exploração (tentar novos caminhos) e exploração (seguir caminhos conhecidos).

5 Treinamento.Treine o agente permitindo que ele interaja com o ambiente, execute ações, receba recompensas e atualize sua política. Ajuste os hiperparâmetros e repita o processo. Continue monitorando e ajustando o equilíbrio entre exploração e exploração para garantir que o agente aprenda de forma eficaz.

6 Avaliação.Avalie o desempenho do agente através de métricas e observe o seu desempenho em cenários aplicáveis ​​para garantir que cumpre as metas e objetivos definidos.

7 Ajuste e otimização do modelo.Ajuste hiperparâmetros, refine o algoritmo e treine novamente o agente para melhorar ainda mais o desempenho.

8 Implantação e monitoramento.Quando estiver satisfeito com o desempenho do agente, implante o agente treinado em um ambiente real. Monitore continuamente seu desempenho e implemente um ciclo de feedback para aprendizado e melhoria contínuos.

9 Manutenção e atualização.Embora o aprendizado contínuo seja muito útil, ocasionalmente você pode precisar treinar novamente a partir das condições iniciais para aproveitar ao máximo os novos dados e técnicas. Atualize periodicamente a base de conhecimento do agente, treine-o novamente com novos dados e garanta que ele se adapte às mudanças no ambiente ou nos objetivos.

Tipos de aprendizagem por reforço

A aprendizagem por reforço pode ser amplamente categorizada em três tipos: livre de modelo, baseada em modelo e híbrida. Cada tipo tem seus casos de uso e métodos específicos.

Aprendizagem por reforço sem modelo

Com RL sem modelo, o agente aprende diretamente a partir das interações com o ambiente. Não tenta compreender ou prever o ambiente, mas simplesmente tenta maximizar o seu desempenho dentro da situação apresentada. Um exemplo de RL sem modelo é um aspirador robótico Roomba: à medida que avança, ele aprende onde estão os obstáculos e, gradativamente, esbarra menos neles enquanto limpa mais.

Exemplos:

  • Métodos baseados em valor.O mais comum é o Q-learning, onde um valor Q representa as recompensas futuras esperadas pela realização de uma determinada ação em um determinado estado. Este método é ideal para situações com escolhas discretas, ou seja, opções limitadas e definidas, como o caminho a seguir num cruzamento. Você pode atribuir valores Q manualmente, usar um valor zero ou baixo para evitar distorções, randomizar valores para incentivar a exploração ou usar valores uniformemente altos para garantir uma exploração inicial completa. A cada iteração, o agente atualiza esses valores Q para refletir melhores estratégias. A aprendizagem baseada em valores é popular porque é simples de implementar e funciona bem em espaços de acção distintos, embora possa enfrentar demasiadas variáveis.
  • Métodos de gradiente de políticas: Ao contrário do Q-learning, que tenta estimar o valor das ações em cada estado, os métodos de gradiente de políticas concentram-se diretamente na melhoria da estratégia (ou política) que o agente usa para escolher as ações.Em vez de estimar valores, estes métodos ajustam a política para maximizar a recompensa esperada. Os métodos de gradiente de política são úteis em situações em que as ações podem ter qualquer valor – seguindo a analogia acima, isso poderia significar caminhar em qualquer direção através de um campo – ou onde é difícil determinar o valor de diferentes ações. Eles podem lidar com tomadas de decisões mais complexas e um continuum de escolhas, mas geralmente precisam de mais poder computacional para funcionar de maneira eficaz.

Aprendizagem por reforço baseada em modelo

RL baseada em modelo envolve a criação de um modelo do ambiente para planejar ações e prever estados futuros. Estes modelos captam a interação entre ações e mudanças de estado, prevendo a probabilidade de uma ação afetar o estado do ambiente e as recompensas ou penalidades resultantes. Essa abordagem pode ser mais eficiente, pois o agente pode simular diferentes estratégias internamente antes de agir. Um carro autônomo usa essa abordagem para entender como responder às características do tráfego e a vários objetos. A técnica sem modelo do Roomba seria inadequada para tarefas tão complexas.

Exemplos:

  • Dyna-Q: Dyna-Q é um algoritmo híbrido de aprendizagem por reforço que combina Q-learning com planejamento.O agente atualiza seus valores Q com base em interações reais com o ambiente e em experiências simuladas geradas por um modelo. Dyna-Q é particularmente útil quando as interações no mundo real são caras ou demoradas.
  • Pesquisa em árvore de Monte Carlo (MCTS): MCTS simula muitas ações e estados futuros possíveis para construir uma árvore de pesquisa para representar as decisões que seguem cada escolha.O agente utiliza esta árvore para decidir sobre a melhor ação, estimando as recompensas potenciais de diferentes caminhos. MCTS se destaca em cenários de tomada de decisão com estrutura clara, como jogos de tabuleiro como xadrez, e pode lidar com planejamento estratégico complexo.

Os métodos baseados em modelos são apropriados quando o ambiente pode ser modelado com precisão e quando as simulações podem fornecer informações valiosas. Eles exigem menos amostras em comparação com métodos sem modelo, mas essas amostras devem ser precisas, o que significa que podem exigir mais esforço computacional para serem desenvolvidas.

Aprendizagem por reforço híbrido

A aprendizagem por reforço híbrido combina abordagens para aproveitar seus respectivos pontos fortes. Esta técnica pode ajudar a equilibrar as compensações entre a eficiência da amostra e a complexidade computacional.

Exemplos:

  • Pesquisa guiada de políticas (GPS): GPS é uma técnica híbrida que alterna entre aprendizagem supervisionada e aprendizagem por reforço.Ele usa aprendizagem supervisionada para treinar uma política baseada em dados gerados a partir de um controlador baseado em modelo. A política é então refinada usando aprendizagem por reforço para lidar com partes do espaço de estados onde o modelo é menos preciso. Esta abordagem ajuda a transferir conhecimentos do planeamento baseado em modelos para a aprendizagem política directa.
  • Arquiteturas integradas: Algumas arquiteturas integram vários componentes baseados em modelos e sem modelos em uma única estrutura, adaptando-se a diferentes aspectos de um ambiente complexo, em vez de forçar uma abordagem para tudo.Por exemplo, um agente pode utilizar uma abordagem baseada em modelos para o planeamento a longo prazo e uma abordagem sem modelos para a tomada de decisões a curto prazo.
  • Modelos mundiais: Os modelos mundiais são uma abordagem onde o agente constrói uma representação compacta e abstrata do ambiente, que utiliza para simular estados futuros.O agente usa uma abordagem sem modelo para aprender políticas dentro deste ambiente simulado interno. Essa técnica reduz a necessidade de interações no mundo real.

Aplicações de aprendizagem por reforço

RL tem uma ampla gama de aplicações em vários domínios:

  • Jogabilidade: Os algoritmos RL alcançaram desempenho sobre-humano em casos como xadrez e videogames.Um exemplo notável é AlphaGo, que joga o jogo de tabuleiro Go usando um híbrido de redes neurais profundas e Monte Carlo Tree Search. Estes sucessos demonstram a capacidade da RL de desenvolver estratégias complexas e de se adaptar a ambientes dinâmicos.
  • Robótica: Na robótica, RL auxilia no treinamento de robôs para realizar tarefas como agarrar objetos e navegar em obstáculos.O processo de aprendizagem por tentativa e erro permite que os robôs se adaptem às incertezas do mundo real e melhorem o seu desempenho ao longo do tempo, superando abordagens inflexíveis baseadas em regras.
  • Cuidados de saúde: Ao responder aos dados específicos do paciente, a RL pode otimizar planos de tratamento, gerir ensaios clínicos e personalizar a medicina.RL também pode sugerir intervenções que maximizem os resultados dos pacientes, aprendendo continuamente com os dados dos pacientes.
  • Finanças: A RL baseada em modelo é adequada aos parâmetros claros e à dinâmica complexa de várias partes do campo financeiro, especialmente aquelas que interagem com mercados altamente dinâmicos.Seus usos aqui incluem gerenciamento de portfólio, avaliação de risco e estratégias de negociação que se adaptam às novas condições de mercado.
  • Veículos autônomos: Os carros autônomos usam modelos treinados em RL para responder a obstáculos, condições da estrada e padrões de tráfego dinâmicos.Eles aplicam imediatamente esses modelos para se adaptarem às condições de condução atuais, ao mesmo tempo que alimentam os dados em um processo centralizado de treinamento contínuo. O feedback contínuo do ambiente ajuda estes veículos a melhorar a sua segurança e eficiência ao longo do tempo.

Vantagens da aprendizagem por reforço

  • Aprendizagem adaptativa: os agentes de RL aprendem continuamente e se adaptam às suas interações com o ambiente.O aprendizado instantâneo torna o RL particularmente adequado para ambientes dinâmicos e imprevisíveis.
  • Versatilidade: RL funciona para uma ampla gama de problemas que envolvem uma sequência de decisões onde uma influencia o ambiente do próximo, desde jogos até robótica e saúde.
  • Tomada de decisão ideal: a RL está focada em maximizar recompensas a longo prazo, garantindo que os agentes da RL desenvolvam estratégias otimizadas para os melhores resultados possíveis ao longo do tempo, em vez de simplesmente tomarem a próxima decisão.
  • Automação de tarefas complexas: RL pode automatizar tarefas difíceis de codificar, como alocação dinâmica de recursos, sistemas de controle complexos como gerenciamento de rede elétrica e recomendações personalizadas com precisão.

Desvantagens da aprendizagem por reforço

  • Requisitos de dados e computacionais: a RL geralmente requer grandes quantidades de dados e poder de processamento, os quais podem ser bastante caros.
  • Longo tempo de treinamento: O treinamento de agentes de RL pode levar semanas ou até meses quando o processo envolve interação com o mundo real e não simplesmente com um modelo.
  • Complexidade: Projetar e ajustar sistemas RL envolve uma consideração cuidadosa da estrutura de recompensas, representação política e equilíbrio exploração-exploração.Essas decisões devem ser tomadas cuidadosamente para evitar consumir muito tempo ou recursos.
  • Segurança e fiabilidade: Para aplicações críticas, como cuidados de saúde e condução autónoma, comportamentos inesperados e decisões subótimas podem ter consequências significativas.
  • Baixa interpretabilidade: Em alguns processos de RL, especialmente em ambientes complexos, é difícil ou impossível saber exatamente como o agente tomou suas decisões.
  • Exemplo de ineficiência: Muitos algoritmos RL requerem um grande número de interações com o ambiente para aprender políticas eficazes.Isto pode limitar a sua utilidade em cenários onde as interações no mundo real são dispendiosas ou limitadas.