Aprendizagem não supervisionada: o que é e como funciona
Publicados: 2024-07-03Desvende os mistérios da aprendizagem não supervisionada, uma técnica revolucionária que permite que máquinas se tornem analistas de dados autônomos, extraindo insights valiosos sem intervenção humana.
Índice
- O que é aprendizagem não supervisionada?
- Aprendizagem não supervisionada vs. aprendizagem supervisionada
- Como funciona a aprendizagem não supervisionada
- Tipos de aprendizagem não supervisionada
- Aplicações de aprendizagem não supervisionada
- Vantagens da aprendizagem não supervisionada
- Desvantagens da aprendizagem não supervisionada
O que é aprendizagem não supervisionada?
O aprendizado não supervisionado é um tipo de aprendizado de máquina (ML) que encontra padrões e relacionamentos nos dados por conta própria. O termonão supervisionadosignifica que o modelo usa dados não rotulados, o que significa que não recebe instruções de humanos sobre o que procurar ou mesmo orientação sobre o que está olhando. Em vez disso, ele usa algoritmos para avaliar conjuntos de dados e encontrar correlações, semelhanças, diferenças e outras maneiras de descrever os dados usando matemática.
O aprendizado de máquina é um subconjunto da inteligência artificial (IA) que usa dados e métodos estatísticos para construir modelos que imitam o raciocínio humano, em vez de depender de instruções codificadas. A aprendizagem não supervisionada adota uma abordagem exploratória e orientada por dados para tirar conclusões de grandes conjuntos de dados, como agrupar entidades por características comuns ou descobrir quais pontos de dados tendem a ocorrer simultaneamente - o que poderia funcionar como classificar imagens de árvores decíduas de árvores perenes ou encontrar que as pessoas que transmitemVila Sésamoprovavelmente assistirãoDaniel Tigertambém.
Aprendizagem não supervisionada vs. aprendizagem supervisionada
Em contraste com os métodos não supervisionados, a aprendizagem supervisionada utiliza dados rotulados que emparelham as entradas com as saídas corretas. Por outro lado, a aprendizagem não supervisionada não tem entradas e saídas para o modelo intuir, apenas dados para analisar.
Os rótulos fornecem a chamada supervisão do processo de aprendizagem do modelo, orientando-o na engenharia reversa até a resposta correta a partir de uma determinada entrada. Usar a aprendizagem supervisionada faz sentido quando você tem esse tipo de dados que o modelo pode buscar e extrapolar, incluindo:
- Decisões sim ou não , como detecção de spam ou fraude
- Classificação , como identificação de objetos dentro de uma imagem ou reconhecimento de fala
- Previsão , como preços de casas ou clima
A aprendizagem não supervisionada, por outro lado, não serve para chegar à resposta certa, mas sim para encontrar padrões ou agrupamentos nos dados. As três aplicações principais são:
- Clustering , como segmentação de clientes ou agrupamento de documentos
- Associação , como mecanismos de recomendação ou anomalias de segurança
- Redução de dimensionalidade , geralmente usada para compactar grandes conjuntos de dados para torná-los mais gerenciáveis
O aprendizado de máquina não se limita apenas a métodos supervisionados ou não supervisionados; estes são apenas dois extremos de um espectro. Outros tipos de métodos de aprendizado de máquina incluem aprendizado semissupervisionado, de reforço e autossupervisionado.
Como funciona a aprendizagem não supervisionada
A aprendizagem não supervisionada é conceitualmente simples: os algoritmos processam grandes quantidades de dados para determinar como vários pontos de dados estão relacionados. Como os dados não são rotulados, o aprendizado não supervisionado não tem contexto ou objetivo. É simplesmente tentar encontrar padrões e outras características.
Aqui está uma breve visão geral do processo de aprendizagem não supervisionado:
1 Coleta e limpeza de dados.O aprendizado não supervisionado avalia uma tabela por vez; portanto, se você tiver vários conjuntos de dados, deverá mesclá-los cuidadosamente. Também é importante organizar os dados da melhor maneira possível, como remover duplicatas e corrigir erros.
2 Dimensionamento de recursos.Algoritmos não supervisionados podem ser prejudicados por intervalos grandes, portanto, considere transformar recursos em intervalos mais restritos usando técnicas que incluem:
- Normalização: transforma o valor superior em 1, o valor mais baixo em 0 e todo o resto em decimal.
- Padronização: especifica o valor médio como 0 e o desvio padrão como 1, com cada ponto de dados ajustado de acordo.
- Transformação logarítmica: comprime intervalos amplos, portanto, com um logaritmo de base 10, 100.000 torna-se 6 e 1.000.000 torna-se 7.
3 Seleção de algoritmo.Existem vários algoritmos para cada tipo de aprendizagem não supervisionada, cada um com pontos fortes e fracos (falaremos deles na próxima seção). Você pode optar por aplicar algoritmos diferentes ao mesmo conjunto de dados e comparar.
4 Descoberta e identificação de padrões.O algoritmo escolhido começa a funcionar. Isso pode levar de segundos a horas, dependendo do tamanho do conjunto de dados e da eficiência do algoritmo. Se você tiver um conjunto de dados grande, talvez queira executar o algoritmo em um subconjunto antes de processar tudo.
5 Interpretação.Nesta fase, é hora dos humanos assumirem o controle. Um analista de dados pode usar gráficos, verificações pontuais e vários cálculos para analisar e interpretar os dados.
6 Aplicação.Quando estiver confiante de que está obtendo resultados úteis, coloque-o em uso. Falaremos sobre algumas aplicações de aprendizagem não supervisionada mais tarde.
Tipos de aprendizagem não supervisionada
Existem vários tipos de aprendizagem não supervisionada, mas os três mais utilizados são agrupamento, regras de associação e redução de dimensionalidade.
Agrupamento
O clustering cria grupos de pontos de dados. É muito útil para agrupar itens semelhantes entre si para que possam posteriormente ser classificados por análise humana. Por exemplo, se você tiver um conjunto de dados que inclua a idade do cliente e o valor médio em dólares de transação, ele poderá encontrar clusters que o ajudarão a decidir onde direcionar seu investimento em publicidade.
Os tipos de cluster incluem:
- Clustering exclusivo ou rígido.Cada ponto de dados pode pertencer a apenas um cluster. Uma abordagem popular conhecida como k-means permite especificar quantos clusters você deseja criar, embora outras possam determinar o número ideal de clusters.
- Sobreposição ou agrupamento suave. Essa abordagem permite que um ponto de dados esteja em vários clusters e tenha um “grau” de associação em cada um deles, em vez de puramente dentro ou fora.
- Agrupamento hierárquico. Se for feito de baixo para cima, é chamado de agrupamento aglomerativo hierárquico, ou HAC; de cima para baixo é chamado de clustering divisivo. Ambos envolvem muitos clusters organizados em grupos cada vez maiores.
- Agrupamento probabilístico. Esta é uma abordagem diferente que calcula a probabilidade percentual de qualquer ponto de dados pertencer a qualquer categoria. Uma vantagem desta abordagem é que ela pode atribuir a um determinado ponto de dados uma probabilidade muito baixa de fazer parte de um determinado cluster, o que pode destacar dados anômalos ou corrompidos.
Regras de associação
Também conhecida como mineração de regras de associação ou aprendizagem de regras de associação, esta abordagem encontra relações interessantes entre pontos de dados. O uso mais comum das regras de associação é descobrir quais itens são comumente comprados ou usados juntos, para que o modelo possa sugerir a próxima coisa a comprar ou mostrar para assistir.
Os três conceitos básicos de regras de associação são:
- Apoiar.Com que frequência A e B são encontrados juntos como porcentagem de todas as instâncias disponíveis (por exemplo, transações)? A e B podem ser itens individuais ou conjuntos que representam vários itens.
- Confiança. Com que frequência acontece que se A é visto, B também é visto?
- Elevador. Qual é a probabilidade de A e B serem vistos juntos, em comparação com se não houvesse correlação? Lift é a medida do “interesse” de uma associação.
Redução de dimensionalidade
A redução da dimensionalidade corresponde ao número de colunas de uma tabela. Outros termos para colunas neste contexto sãorecursosouatributos. À medida que o número de recursos em um conjunto de dados aumenta, analisar os dados e obter resultados ideais torna-se mais desafiador.
Dados de alta dimensão levam mais tempo, poder de computação e energia para serem processados. Também pode levar a resultados abaixo do padrão. Um exemplo particularmente pernicioso é o overfitting, a tendência dos modelos de aprendizagem automática de aprenderem demasiado com os detalhes dos dados de treino, em detrimento de padrões mais amplos que se generalizam bem para novos dados.
Algoritmos de redução de dimensionalidade criam conjuntos de dados simplificados, condensando os dados originais em versões menores e mais gerenciáveis que retêm as informações mais importantes. Eles funcionam mesclando recursos correlacionados e observando a variação da tendência geral, reduzindo efetivamente o número de colunas sem perder detalhes importantes.
Por exemplo, se você tivesse um conjunto de dados sobre hotéis e suas comodidades, o modelo poderia descobrir que muitos recursos estão correlacionados com a classificação por estrelas, de modo que poderia compactar atributos como spa, serviço de quarto e recepção 24 horas em uma única coluna.
Normalmente, os engenheiros reduzem a dimensionalidade como uma etapa de pré-processamento para melhorar o desempenho e os resultados de outros processos, incluindo, entre outros, agrupamento e aprendizagem de regras de associação.
Aplicações de aprendizagem não supervisionada
Alguns exemplos incluem:
- Análise da cesta de mercado.Os varejistas fazem uso abundante de regras de associação. Por exemplo, se você colocou cachorros-quentes em seu carrinho de compras, isso pode sugerir que você compre ketchup e pãezinhos de cachorro-quente, porque outros compradores perceberam um grande aumento nessas combinações. Os mesmos dados também podem levá-los a colocar ketchup e cachorro-quente lado a lado no supermercado.
- Mecanismos de recomendação. Eles analisam seus dados pessoais – dados demográficos e padrões de comportamento – e os comparam com os de outras pessoas para adivinhar o que você gostaria de comprar ou assistir a seguir. Eles podem usar os três tipos de aprendizagem não supervisionada: agrupamento para determinar quais padrões de outros clientes podem prever o seu, regras de associação para encontrar correlações entre certas atividades ou compras e redução de dimensionalidade para facilitar o processamento de conjuntos de dados complexos.
- Segmentação de clientes. Embora os profissionais de marketing tenham dividido seus públicos em categorias nomeadas durante décadas, o agrupamento não supervisionado pode selecionar agrupamentos que talvez não estivessem na mente de nenhum ser humano. Essa abordagem permite análises baseadas em comportamento e pode ajudar as equipes a direcionar mensagens e promoções de novas maneiras.
- Detecção de anomalia.Por ser muito bom para compreender padrões, o aprendizado não supervisionado costuma ser usado para alertar quando algo está anormal. Os usos incluem sinalização de compras fraudulentas com cartão de crédito, dados corrompidos em uma tabela e oportunidades de arbitragem nos mercados financeiros.
- Reconhecimento de fala.A fala é complicada para os computadores analisarem, pois eles precisam lidar com ruídos de fundo, sotaques, dialetos e vozes. O aprendizado não supervisionado ajuda os mecanismos de reconhecimento de fala a aprender quais sons se correlacionam com quais fonemas (unidades de fala) e quais fonemas são normalmente ouvidos juntos, além de filtrar ruídos de fundo e outros aprimoramentos.
Vantagens da aprendizagem não supervisionada
- Baixo envolvimento humano.Uma vez comprovado que um sistema de aprendizagem não supervisionado é confiável, executá-lo exige pouco esforço além de garantir que as entradas e saídas sejam roteadas adequadamente.
- Funciona com dados brutos. Não há necessidade de fornecer rótulos, isto é, de especificar qual saída deve resultar de uma determinada entrada. Essa capacidade de lidar com os dados conforme eles chegam é extremamente valiosa ao lidar com enormes quantidades de dados intocados.
- Descoberta de padrões ocultos. Sem nenhum objetivo ou agenda além de encontrar padrões, o aprendizado não supervisionado pode apontar para “conhecimentos desconhecidos” – conclusões baseadas em dados que você não havia considerado anteriormente, mas que fazem sentido uma vez apresentados. Esta abordagem é particularmente útil para encontrar agulhas em palheiros, como na análise de DNA para a causa da morte celular.
- Exploração de dados. Ao reduzir a dimensionalidade e encontrar padrões e clusters, a aprendizagem não supervisionada dá aos analistas uma vantagem inicial na compreensão de novos conjuntos de dados.
- Treinamento incremental. Muitos modelos não supervisionados podem aprender à medida que avançam: à medida que mais dados chegam, eles podem avaliar as informações mais recentes em relação ao que já descobriram. Isso leva muito menos tempo e esforço de computação.
Desvantagens da aprendizagem não supervisionada
- Você precisa de muitos dados.A aprendizagem não supervisionada está sujeita a grandes erros se treinada com exemplos limitados. Ele pode encontrar padrões nos dados que não são válidos no mundo real (overfitting), mudar drasticamente diante de novos dados (instabilidade) ou não ter informações suficientes para determinar algo significativo (descoberta limitada de padrões).
- Baixa interpretabilidade. Pode ser difícil entender por que um algoritmo, como a lógica de agrupamento, chegou a uma conclusão específica.
- Falso-positivo. Um modelo não supervisionado pode ler muito em pontos de dados anômalos, mas sem importância, sem rótulos para ensinar o que merece atenção.
- Difícil de avaliar sistematicamente.Como não existe uma resposta “certa” para comparar, não há uma maneira direta de medir a precisão ou a utilidade do resultado. O problema pode ser um pouco mitigado executando diferentes algoritmos nos mesmos dados, mas no final, a medida da qualidade será em grande parte subjetiva.