Aprendizagem autosupervisionada: o que é e como funciona

Publicados: 2024-07-18

A aprendizagem auto-supervisionada, uma técnica de ponta em inteligência artificial, capacita as máquinas a descobrir padrões e estruturas intrínsecas nos dados, imitando a capacidade humana de aprender a partir do contexto e da experiência, em vez de através de instruções explícitas.

Índice

  • O que é aprendizagem autossupervisionada?
  • Autosupervisionado em comparação com outros tipos de aprendizado de máquina
  • Como funciona a aprendizagem autossupervisionada
  • Tipos de aprendizagem auto-supervisionada
  • Aplicações de aprendizagem auto-supervisionada
  • Vantagens da aprendizagem auto-supervisionada
  • Desvantagens da aprendizagem auto-supervisionada

O que é aprendizagem autossupervisionada?

O aprendizado autossupervisionado é um tipo de aprendizado de máquina (ML) que treina modelos para criar seus próprios rótulos – ou seja, entradas e saídas explicitamente emparelhadas – usando dados brutos e não rotulados. Ao contrário da aprendizagem supervisionada, que requer uma quantidade significativa de dados rotulados, a aprendizagem auto-supervisionada gera pseudo-rótulos (rótulos artificiais) a partir dos próprios dados. Esta técnica dá ao modelo a orientação de objetivos e a mensurabilidade de uma abordagem de aprendizagem supervisionada, além da capacidade da aprendizagem não supervisionada de tirar conclusões úteis a partir de grandes quantidades de dados não rotulados.

O aprendizado de máquina é um subconjunto da inteligência artificial (IA) que usa dados e métodos estatísticos para construir modelos que imitam o raciocínio humano, em vez de depender de instruções codificadas. A aprendizagem auto-supervisionada aproveita as grandes quantidades de dados não rotulados disponíveis, tornando-se uma abordagem poderosa para melhorar o desempenho do modelo com intervenção manual mínima. Na verdade, os principais modelos generativos de texto e imagem de IA da atualidade são amplamente treinados por meio de aprendizagem auto-supervisionada.

Trabalhe de maneira mais inteligente com Grammarly
O parceiro de redação de IA para qualquer pessoa com trabalho a fazer

Autosupervisionado em comparação com outros tipos de aprendizado de máquina

A aprendizagem autossupervisionada combina elementos de aprendizagem supervisionada e não supervisionada, mas é diferente da aprendizagem semissupervisionada:

  • Aprendizagem supervisionada: usa dados rotulados para treinar modelos para tarefas específicas, como classificação e regressão. Os rótulos fornecem orientação explícita, permitindo que o modelo faça previsões precisas. As aplicações comuns incluem detecção de spam, classificação de imagens e previsão do tempo.
  • Aprendizagem não supervisionada: trabalha com dados não rotulados para encontrar padrões e agrupamentos. Ele identifica clusters e associações e reduz a complexidade dos dados para facilitar o processamento. Os exemplos incluem segmentação de clientes, sistemas de recomendação e detecção de anomalias.
  • Aprendizagem semissupervisionada:utiliza uma quantidade modesta de dados rotulados para fornecer orientação inicial e, em seguida, aproveita uma ou mais coleções maiores de dados não rotulados para refinar e melhorar o modelo. Essa abordagem é particularmente útil quando você tem alguns dados rotulados, mas seria muito difícil ou caro gerar dados suficientes para um aprendizado totalmente supervisionado.
  • Aprendizagem auto-supervisionada:usa dados brutos para gerar seus próprios rótulos, permitindo que o modelo aprenda com os dados sem quaisquer dados rotulados iniciais. Essa abordagem é especialmente valiosa quando os dados rotulados não estão disponíveis ou representam apenas uma pequena fração dos dados disponíveis, como no processamento de linguagem natural (PNL) ou no reconhecimento de imagens.

Como funciona a aprendizagem autossupervisionada

A autosupervisão significa que os próprios dados fornecem as respostas corretas. O processo de aprendizagem autossupervisionada envolve várias etapas, combinando aspectos de métodos supervisionados e não supervisionados:

Coleta de dados:Reúna uma grande quantidade de dados brutos e não rotulados. Esses dados constituem a base para a criação de pseudo-rótulos e o treinamento do modelo. Muitos conjuntos de dados estão disponíveis gratuitamente.

  1. Pré-processamento:Prepare os dados para garantir a qualidade. Esta etapa inclui a remoção de duplicatas, o tratamento de valores ausentes e a normalização de intervalos de dados.
  2. Criação de tarefas:crie quebra-cabeças para o modelo resolver, conhecidos como tarefas de pretexto. Eles são criados removendo ou embaralhando partes dos dados, como remover palavras, excluir pixels de imagem ou embaralhar quadros de vídeo. Tudo o que existia antes desta corrupção intencional é conhecido como pseudo-rótulo: uma “resposta certa” criada a partir dos próprios dados e não de rotulagem humana.
  3. Treinamento:treine o modelo nas tarefas de pretexto usando os pseudo-rótulos gerados. Isso significa que o modelo tenta gerar a resposta correta, compara sua resposta com o pseudorótulo, ajusta e tenta novamente gerar a resposta correta. Esta fase ajuda o modelo a compreender as relações dentro dos dados e, eventualmente, cria uma compreensão complexa da relação entre entradas e saídas.
  4. Ajuste fino:mude o modelo para aprender com um conjunto de dados menor e rotulado para melhorar seu desempenho em tarefas específicas. Esta etapa garante que o modelo aproveite as representações aprendidas durante a fase inicial de treinamento. O ajuste fino não é estritamente necessário, mas normalmente leva a melhores resultados.
  5. Avaliação:Avalie o desempenho do modelo com base em dados que ele ainda não viu. Usando métricas padrão relevantes para a tarefa, como a pontuação F1, essa avaliação garante que o modelo generalize bem para novos dados.
  6. Implantação e monitoramento:Implante o modelo treinado em aplicativos do mundo real e monitore continuamente seu desempenho. Atualize o modelo com novos dados conforme necessário para manter sua precisão e relevância.

Tipos de aprendizagem auto-supervisionada

A aprendizagem autossupervisionada abrange vários tipos, cada um com múltiplas técnicas e abordagens. Aqui exploraremos vários tipos, destacando seus métodos de treinamento exclusivos e fornecendo um ou dois exemplos representativos de cada um.

Para imagens

  • Aprendizagem autopreditiva:a aprendizagem autopreditiva envolve técnicas como codificação automática, em que um modelo aprende a compactar informações em um formato mais simples e, em seguida, recriar os dados originais a partir delas. No processamento de imagens, isso geralmente significa corromper seletivamente partes de uma imagem (por exemplo, mascarando seções) e treinar o modelo para reconstruir o original. Isso ajuda o modelo a reconhecer melhor objetos em diferentes posições, tamanhos e até mesmo quando parcialmente ocultos.
  • Aprendizagem contrastiva:Na aprendizagem contrastiva, o modelo aprende a distinguir entre imagens semelhantes e diferentes, comparando-as em pares ou grupos. Por exemplo, o método SimCLR usa aumentos de imagem (como corte, distorção e inversão) para criar pares de treinamento. Os pares positivos são feitos aplicando diferentes alterações à mesma imagem, enquanto os pares negativos vêm de imagens diferentes. O modelo então aprende quais características são comuns em pares semelhantes e diferentes em pares diferentes.
  • Métodos baseados em cluster:os métodos baseados em cluster agrupam pontos de dados semelhantes e usam esses clusters como pseudo-rótulos para treinamento. Por exemplo, DeepCluster agrupa imagens por recursos semelhantes e usa esses clusters para treinar o modelo. O processo alterna entre clustering e treinamento até que o modelo tenha um bom desempenho. SwAV (Swapping Assignments Between Views) aprimora isso usando múltiplas versões da mesma imagem para ajudar o modelo a aprender recursos essenciais que permanecem constantes, como bordas, texturas e posições de objetos.

Para texto

  • Aprendizagem autopreditiva:Este é o mecanismo de treinamento central dos grandes modelos de linguagem (LLMs), que entendem o texto como uma série de tokens. Normalmente representam uma palavra, mas às vezes uma parte de uma palavra ou um conjunto de palavras.
    • Modelos de linguagem mascarada (MLMs):são mostradas sentenças com alguns tokens faltando e com a tarefa de prever palavras faltantes. Ao aprender como preencher essas lacunas, os MLMs desenvolvem uma representação completa da estrutura e do contexto da linguagem e podem considerar o contexto de uma entrada inteira ao fazer previsões. Resultados úteis, como análise de sentimento ou reconhecimento de entidade nomeada, são desenvolvidos por meio de ajuste fino. Um excelente exemplo é o BERT, que o Google usa para entender a intenção das consultas de pesquisa.
    • Modelos de linguagem causal (CLMs):modelos gerativos como ChatGPT, Claude e Gemini aprendem a recriar o texto que viram, prevendo uma palavra por vez, com base nos tokens anteriores. Depois de treinados, eles tratam o texto de entrada como o contexto para suas previsões e continuam fazendo previsões a cada novo token gerado. Essa previsão sequencial é a razão pela qual sua saída parece estar sendo digitada sozinha, em vez de aparecer toda de uma vez.
  • Aprendizagem contrastiva:Esta abordagem compara pares de amostras de texto, enfatizando as diferenças e semelhanças entre eles. O SimCSE cria duas versões ligeiramente diferentes da mesma frase aplicando dropout, que ignora aleatoriamente partes da representação da frase em camadas ocultas durante o treinamento (veja mais sobre camadas ocultas em nossa postagem sobre aprendizado profundo). O modelo aprende a reconhecer essas versões como semelhantes. Essa técnica melhora a capacidade do modelo de compreender e comparar sentenças, tornando-a útil para aplicações como encontrar sentenças semelhantes ou recuperar informações relevantes para consultas de pesquisa.
  • Previsão da próxima frase (NSP):como o nome sugere, NSP envolve prever se uma determinada frase é a frase subsequente de outra em um documento, ajudando os modelos a compreender as relações entre as frases e o fluxo lógico do texto. É comumente usado junto com um MLM para aprimorar sua compreensão de corpos de texto maiores. Por exemplo, no BERT NSP, o modelo prevê se duas frases aparecem consecutivamente no texto original.

Aplicações de aprendizagem auto-supervisionada

A aprendizagem autossupervisionada tem uma ampla gama de aplicações em vários domínios:

  • Processamento de linguagem natural:Modelos como BERT e GPT-3 usam aprendizagem auto-supervisionada para compreender e gerar linguagem humana em aplicações como chatbots, tradução e resumo de texto.
  • Visão computacional:o aprendizado autosupervisionado melhora a análise de imagens e vídeos, gerando pseudo-rótulos a partir de dados visuais brutos. Os usos incluem detecção de objetos (como em uma câmera de campainha), reconhecimento facial e criação automática de clipes de vídeos mais longos.
  • Reconhecimento de fala:Os modelos auto-supervisionados melhoram os sistemas de reconhecimento de fala, aprendendo com grandes quantidades de dados de áudio não rotulados. Essa abordagem reduz a necessidade de transcrição manual e melhora a precisão em diferentes sotaques e dialetos.
  • Assistência médica:o aprendizado autossupervisionado ajuda a melhorar a análise de imagens médicas, a descoberta de medicamentos e o monitoramento de pacientes, aproveitando grandes conjuntos de dados com exemplos mínimos rotulados. Ele aumenta a precisão da detecção de doenças e das recomendações de tratamento sem exigir uma rotulagem humana especializada extensa e cara.
  • Robótica:Os robôs utilizam aprendizagem auto-supervisionada para compreender o seu ambiente e melhorar os seus processos de tomada de decisão. Os usos incluem navegação autônoma, manipulação de objetos e interação humano-robô.

Vantagens da aprendizagem auto-supervisionada

  • Econômico:reduz a necessidade de dados rotulados extensos, diminuindo os custos de anotação e o esforço humano.
  • Escalabilidade:pode lidar com grandes conjuntos de dados, tornando-o adequado para aplicações do mundo real onde os dados rotulados são limitados, mas os dados não rotulados são abundantes.
  • Generalização:quando treinado com dados brutos suficientes, o modelo pode aprender o suficiente para executar novas tarefas, mesmo que não tenha sido treinado com dados diretamente relevantes. Por exemplo, um modelo de PNL baseado em um idioma poderia ser usado para aumentar o aprendizado daquele baseado em outro idioma.
  • Flexibilidade:Adaptável a uma ampla variedade de tarefas e domínios, com muitos subtipos disponíveis para atender necessidades específicas.

Desvantagens da aprendizagem auto-supervisionada

  • Complexidade:Criar tarefas de pretexto eficazes e gerar pseudo-rótulos requer design e experimentação cuidadosos.
  • Sensibilidade ao ruído:os pseudo-rótulos gerados a partir de dados brutos podem ser irrelevantes para o objetivo, impactando potencialmente o desempenho ao fornecer ao modelo muitas entradas desnecessárias para processar.
  • Recursos computacionais:O treinamento de modelos autossupervisionados, especialmente com grandes conjuntos de dados, exige tempo e poder computacional significativos.