Aprendizagem semissupervisionada: o que é e como funciona

Publicados: 2024-07-18

No domínio da aprendizagem automática, a aprendizagem semissupervisionada surge como uma abordagem híbrida inteligente, preenchendo a lacuna entre métodos supervisionados e não supervisionados, aproveitando dados rotulados e não rotulados para treinar modelos mais robustos e eficientes.

Índice

  • O que é aprendizagem semissupervisionada?
  • Aprendizagem semissupervisionada vs. aprendizagem supervisionada e não supervisionada
  • Como funciona a aprendizagem semissupervisionada
  • Tipos de aprendizagem semissupervisionada
  • Aplicações de aprendizagem semissupervisionada
  • Vantagens da aprendizagem semissupervisionada
  • Desvantagens da aprendizagem semissupervisionada

O que é aprendizagem semissupervisionada?

O aprendizado semissupervisionado é um tipo de aprendizado de máquina (ML) que usa uma combinação de dados rotulados e não rotulados para treinar modelos. Semissupervisionado significa que o modelo recebe orientação de uma pequena quantidade de dados rotulados, onde as entradas são explicitamente emparelhadas com as saídas corretas, além de um conjunto maior de dados não rotulados, que normalmente é mais abundante. Esses modelos normalmente encontram insights iniciais em uma pequena quantidade de dados rotulados e, em seguida, refinam ainda mais sua compreensão e precisão usando o conjunto maior de dados não rotulados.

O aprendizado de máquina é um subconjunto da inteligência artificial (IA) que usa dados e métodos estatísticos para construir modelos que imitam o raciocínio humano, em vez de depender de instruções codificadas. Aproveitando elementos de abordagens supervisionadas e não supervisionadas, o semissupervisionado é uma forma distinta e poderosa de melhorar a qualidade da previsão sem investimento oneroso em rotulagem humana.

Trabalhe de maneira mais inteligente com Grammarly
O parceiro de redação de IA para qualquer pessoa com trabalho a fazer

Aprendizagem semissupervisionada vs. aprendizagem supervisionada e não supervisionada

Embora a aprendizagem supervisionada dependa apenas de dados rotulados e a aprendizagem não supervisionada funcione com dados totalmente não rotulados, a aprendizagem semissupervisionada combina os dois.

Aprendizagem supervisionada

A aprendizagem supervisionada usa dados rotulados para treinar modelos para tarefas específicas. Os dois principais tipos são:

  • Classificação: determina a qual classe ou grupo um item pertence.Pode ser uma escolha binária, uma escolha entre múltiplas opções ou participação em vários grupos.
  • Regressão: prevê resultados com base na linha de melhor ajuste dos dados existentes. Normalmente usado para previsões, como previsão do tempo ou desempenho financeiro.

Aprendizagem não supervisionada

A aprendizagem não supervisionada identifica padrões e estruturas em dados não rotulados por meio de três técnicas principais:

  • Clustering: Define grupos de pontos que possuem valores semelhantes.Eles podem ser exclusivos (cada ponto de dados em exatamente um cluster), sobrepostos (graus de participação em um ou mais clusters) ou hierárquicos (múltiplas camadas de clusters).
  • Associação: descobre quais itens têm maior probabilidade de ocorrer simultaneamente, como produtos frequentemente comprados juntos.
  • Redução da dimensionalidade: simplifica os conjuntos de dados condensando os dados em menos variáveis, reduzindo assim o tempo de processamento e melhorando a capacidade de generalização do modelo.

Aprendizagem semissupervisionada

A aprendizagem semissupervisionada aproveita dados rotulados e não rotulados para melhorar o desempenho do modelo. Esta abordagem é particularmente útil quando a rotulagem de dados é cara ou demorada.

Esse tipo de aprendizado de máquina é ideal quando você tem uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados. Ao identificar quais pontos não rotulados correspondem mais aos rotulados, um modelo semissupervisionado pode criar limites de classificação ou modelos de regressão mais diferenciados, levando a maior precisão e desempenho.

Como funciona a aprendizagem semissupervisionada

O processo de aprendizagem semissupervisionada envolve várias etapas, combinando elementos de métodos de aprendizagem supervisionados e não supervisionados:

  1. Coleta e rotulagem de dados: Reúna um conjunto de dados que inclua uma pequena porção de dados rotulados e uma porção maior de dados não rotulados.Ambos os conjuntos de dados devem ter os mesmos recursos, também conhecidos como colunas ou atributos.
  2. Pré-processamento e extração de recursos: Limpe e pré-processe os dados para fornecer ao modelo a melhor base possível para aprendizado: Verifique pontualmente para garantir a qualidade, remover duplicatas e excluir recursos desnecessários.Considere a criação de novos recursos que transformem recursos importantes em intervalos significativos que reflitam a variação nos dados (por exemplo, conversão de datas de nascimento em idades) em um processo conhecido como extração.
  3. Aprendizagem supervisionada inicial: treine o modelo usando os dados rotulados.Esta fase inicial ajuda o modelo a compreender a relação entre entradas e saídas.
  4. Aprendizagem não supervisionada: aplique técnicas de aprendizagem não supervisionada aos dados não rotulados para identificar padrões, clusters ou estruturas.
  5. Refinamento do modelo: combine os insights de dados rotulados e não rotulados para refinar o modelo.Esta etapa geralmente envolve treinamento iterativo e ajustes para melhorar a precisão.
  6. Avaliação e ajuste: Avalie o desempenho do modelo usando métricas de aprendizado supervisionado padrão, como exatidão, precisão, recall e pontuação F1.Ajuste o modelo ajustando instruções explícitas (conhecidas como hiperparâmetros) e reavaliando até que o desempenho ideal seja alcançado.
  7. Implantação e monitoramento: implante o modelo para uso no mundo real, monitore continuamente seu desempenho e atualize-o com novos dados conforme necessário.

Tipos de aprendizagem semissupervisionada

A aprendizagem semissupervisionada pode ser implementada usando diversas técnicas, cada uma aproveitando dados rotulados e não rotulados para melhorar o processo de aprendizagem. Aqui estão os tipos principais, juntamente com subtipos e conceitos-chave:

Autotreinamento

O autotreinamento, também conhecido como autoaprendizagem ou auto-rotulagem, é a abordagem mais direta. Nesta técnica, um modelo inicialmente treinado em dados rotulados prevê rótulos para os dados não rotulados e registra seu grau de confiança. O modelo se retreina iterativamente, aplicando suas previsões mais confiáveis ​​como dados rotulados adicionais – esses rótulos gerados são conhecidos comopseudo-rótulos. Este processo continua até que o desempenho do modelo se estabilize ou melhore suficientemente.

  • Treinamento inicial: o modelo é treinado em um pequeno conjunto de dados rotulado.
  • Previsão de rótulo: o modelo treinado prevê rótulos para os dados não rotulados.
  • Limite de confiança: somente as previsões acima de um determinado nível de confiança são selecionadas.
  • Retreinamento: os dados pseudo-rotulados selecionados são adicionados ao conjunto de treinamento e o modelo é treinado novamente.

Este método é simples, mas poderoso, especialmente quando o modelo pode fazer previsões precisas desde o início. No entanto, se as previsões iniciais estiverem incorretas, pode ser propenso a reforçar os seus próprios erros. Use clustering para ajudar a validar se os pseudorótulos são consistentes com os agrupamentos naturais nos dados.

Co-treinamento

O co-treinamento, normalmente usado para problemas de classificação, envolve o treinamento de dois ou mais modelos em diferentes visualizações ou subconjuntos de dados. As previsões mais confiáveis ​​de cada modelo sobre os dados não rotulados aumentam o conjunto de treinamento do outro modelo. Essa técnica aproveita a diversidade de vários modelos para melhorar o aprendizado.

  • Abordagem de duas visões: o conjunto de dados é dividido em duas visões distintas, ou seja, subconjuntos dos dados originais, cada um contendo características diferentes.Cada uma das duas novas visualizações tem o mesmo rótulo, mas idealmente, as duas são condicionalmente independentes, o que significa que conhecer os valores em uma tabela não forneceria nenhuma informação sobre a outra.
  • Treinamento de modelo: dois modelos são treinados separadamente em cada visualização usando os dados rotulados.
  • Rotulagem mútua: cada modelo prevê rótulos para os dados não rotulados, e as melhores previsões – sejam todas aquelas acima de um determinado limite de confiança ou simplesmente um número fixo no topo da lista – são usadas para treinar novamente o outro modelo.

O co-treinamento é particularmente útil quando os dados se prestam a múltiplas visualizações que fornecem informações complementares, como imagens médicas e dados clínicos emparelhados com o mesmo paciente. Neste exemplo, um modelo preveria a incidência da doença com base na imagem, enquanto o outro faria a previsão com base nos dados do prontuário médico.

Esta abordagem ajuda a reduzir o risco de reforçar previsões incorretas, uma vez que os dois modelos podem corrigir-se mutuamente.

Modelos generativos

Os modelos generativos aprendem a probabilidade de determinados pares de entradas e saídas ocorrerem simultaneamente, conhecido como distribuição de probabilidade conjunta. Essa abordagem permite gerar novos dados que se assemelham ao que já foi visto. Esses modelos usam dados rotulados e não rotulados para capturar a distribuição de dados subjacente e melhorar o processo de aprendizagem. Como você pode imaginar pelo nome, esta é a base da IA ​​generativa que pode criar texto, imagens e assim por diante.

  • Redes adversárias generativas (GANs): as GANs consistem em dois modelos: um gerador e um discriminador.O gerador cria pontos de dados sintéticos, enquanto o discriminador tenta distinguir entre esses pontos de dados sintéticos e dados reais. À medida que treinam, o gerador melhora sua capacidade de criar dados realistas e o discriminador torna-se melhor na identificação de dados falsos. Este processo adversário continua, com cada modelo a esforçar-se por superar o outro. GANs podem ser aplicados à aprendizagem semissupervisionada de duas maneiras:
    • Discriminador modificado: em vez de simplesmente classificar os dados como “falsos” ou “reais”, o discriminador é treinado para classificar os dados em várias classes mais uma classe falsa.Isso permite que o discriminador classifique e discrimine.
    • Usando dados não rotulados: O discriminador julga se uma entrada corresponde aos dados rotulados que viu ou se é um ponto de dados falso do gerador.Este desafio adicional força o discriminador a reconhecer dados não rotulados pela sua semelhança com os dados rotulados, ajudando-o a aprender as características que os tornam semelhantes.
  • Autoencodificadores variacionais (VAEs): VAEs descobrem como codificar dados em uma representação mais simples e abstrata que pode ser decodificada em uma representação o mais próxima possível dos dados originais.Ao usar dados rotulados e não rotulados, o VAE cria uma abstração única que captura os recursos essenciais de todo o conjunto de dados e, assim, melhora seu desempenho em dados novos.

Os modelos generativos são ferramentas poderosas para a aprendizagem semissupervisionada, especialmente com dados não rotulados abundantes, mas complexos, como na tradução de idiomas ou no reconhecimento de imagens. Claro, você precisa de alguns rótulos para que os GANs ou VAEs saibam o que buscar.

Métodos baseados em gráficos

Os métodos baseados em gráficos representam pontos de dados como nós em um gráfico, com diferentes abordagens para compreender e extrair informações úteis sobre as relações entre eles. Alguns dos muitos métodos baseados em gráficos aplicados à aprendizagem semissupervisionada incluem:

  • Propagação de rótulos: uma abordagem relativamente simples em que valores numéricos conhecidos como arestas indicam semelhanças entre nós próximos.Na primeira execução do modelo, os pontos não rotulados com as arestas mais fortes de um ponto rotulado emprestam o rótulo desse ponto. À medida que mais pontos são rotulados, o processo é repetido até que todos os pontos sejam rotulados.
  • Redes neurais de grafos (GNNs): utiliza técnicas de treinamento de redes neurais, como atenção e convolução, para aplicar aprendizados de pontos de dados rotulados a pontos não rotulados, especialmente em situações altamente complexas, como redes sociais e análise genética.
  • Autoencoders de gráfico: semelhantes aos VAEs, eles criam uma única representação abstrata que captura dados rotulados e não rotulados. Essa abordagem é frequentemente usada para encontrar links perdidos, que são conexões potenciais não capturadas no gráfico.

Os métodos baseados em gráficos são particularmente eficazes para dados complexos que formam redes naturalmente ou têm relacionamentos intrínsecos, como redes sociais, redes biológicas e sistemas de recomendação.

Aplicações de aprendizagem semissupervisionada

Algumas das muitas aplicações da aprendizagem semissupervisionada incluem:

  • Classificação de texto: quando você tem um conjunto muito grande de dados disponíveis, como milhões de análises de produtos ou bilhões de e-mails, só precisa rotular uma fração deles.Uma abordagem semissupervisionada usará os dados restantes para refinar o modelo.
  • Análise de imagens médicas: o tempo dos especialistas médicos é caro e nem sempre são precisos.Complementar a análise de imagens, como ressonâncias magnéticas ou raios X, com muitas imagens não rotuladas, pode levar a um modelo que iguale ou até supere sua precisão.
  • Reconhecimento de fala: transcrever a fala manualmente é um processo tedioso e cansativo, especialmente se você estiver tentando capturar uma grande variedade de dialetos e sotaques.A combinação de dados de fala rotulados com grandes quantidades de áudio não rotulado melhorará a capacidade do modelo de discernir com precisão o que está sendo dito.
  • Detecção de fraude: primeiro, treine um modelo em um pequeno conjunto de transações rotuladas, identificando fraudes conhecidas e casos legítimos.Em seguida, adicione um conjunto maior de transações não rotuladas para expor o modelo a padrões e anomalias suspeitas, melhorando a sua capacidade de identificar atividades fraudulentas novas ou em evolução nos sistemas financeiros.
  • Segmentação de clientes: a aprendizagem semissupervisionada pode melhorar a precisão usando um pequeno conjunto de dados rotulados para definir segmentos iniciais com base em determinados padrões e dados demográficos e, em seguida, adicionando um conjunto maior de dados não rotulados para refinar e expandir essas categorias.

Vantagens da aprendizagem semissupervisionada

  • Custo-benefício: o aprendizado semissupervisionado reduz a necessidade de dados rotulados extensos, reduzindo os custos e o esforço de rotulagem, bem como a influência de erros humanos e preconceitos.
  • Previsões aprimoradas: a combinação de dados rotulados e não rotulados geralmente resulta em melhor qualidade de previsão em comparação com o aprendizado puramente supervisionado, pois fornece mais dados para o modelo aprender.
  • Escalabilidade: a aprendizagem semissupervisionada é uma boa opção para aplicações do mundo real nas quais a rotulagem completa é impraticável, como bilhões de transações potencialmente fraudulentas, porque lida com grandes conjuntos de dados com um mínimo de dados rotulados.
  • Flexibilidade: A combinação dos pontos fortes da aprendizagem supervisionada e não supervisionada torna esta abordagem adaptável a muitas tarefas e domínios.

Desvantagens da aprendizagem semissupervisionada

  • Complexidade: a integração de dados rotulados e não rotulados geralmente requer técnicas sofisticadas de pré-processamento, como normalização de intervalos de dados, imputação de valores ausentes e redução de dimensionalidade.
  • Confiança em suposições: Os métodos semissupervisionados geralmente dependem de suposições sobre a distribuição de dados, como pontos de dados no mesmo cluster que merecem o mesmo rótulo, o que pode nem sempre ser verdadeiro.
  • Potencial de ruído: Dados não rotulados podem introduzir ruído e imprecisões se não forem tratados adequadamente com técnicas como detecção de valores discrepantes e validação em relação a dados rotulados.
  • Mais difícil de avaliar: sem muitos dados rotulados, você não obterá muitas informações úteis das abordagens padrão de avaliação de aprendizagem supervisionada.