Regressão em aprendizado de máquina: o que é e como funciona
Publicados: 2024-11-13A regressão em aprendizado de máquina (ML) é um conceito fundamental usado para prever valores contínuos com base em recursos de entrada. Seja estimando preços de habitação ou prevendo vendas, os modelos de regressão estabelecem relações entre variáveis. Neste artigo, detalharemos os diferentes tipos de modelos de regressão, os algoritmos por trás deles e quando cada método é melhor aplicado. Você também descobrirá como funciona a regressão, seus casos de uso prático e as vantagens e desafios associados ao uso da regressão no aprendizado de máquina.
Índice
- O que é regressão?
- Tipos de modelos de regressão
- Algoritmos usados para regressão
- Exemplos de regressão
- Benefícios da regressão
- Desafios da regressão
O que é regressão em aprendizado de máquina?
A regressão é um tipo de aprendizagem supervisionada usada para prever valores contínuos com base em dados de entrada. Ele estima as relações entre variáveis para prever e explicar várias coisas, como preços de casas, tendências do mercado de ações ou condições climáticas. Os modelos de regressão mapeiam recursos de entrada para uma variável alvo contínua, permitindo previsões numéricas precisas.
Por exemplo, usando dados meteorológicos da semana passada, um modelo de regressão pode prever as chuvas de amanhã. Os valores previstos são contínuos, o que significa que podem cair em qualquer lugar da escala numérica, como temperatura medida em casas decimais ou receita de vendas projetada para os próximos meses.
Regressão vs. classificação: Qual a diferença?
Embora a regressão preveja resultados contínuos, a classificação concentra-se na previsão de categorias ou classes discretas. Por exemplo, um modelo de regressão pode prever a quantidade exata de chuva amanhã, enquanto um modelo de classificação pode prever se choverá (sim ou não). A principal diferença é que a regressão lida com valores numéricos, enquanto a classificação atribui dados a categorias predefinidas.
Em alguns casos, é possível adaptar o resultado de um modelo de regressão a uma tarefa de classificação e vice-versa, mas as duas abordagens são geralmente adequadas para diferentes tipos de problemas.
Regressão: algoritmo, modelo ou análise?
A regressão às vezes é chamada de análise de regressão, um termo estatístico amplo usado para descrever a busca por relações contínuas entre observações e resultados. Um algoritmo de regressão é uma ferramenta matemática específica projetada para identificar essas relações. Quando um algoritmo é usado para treinar um modelo de aprendizado de máquina, o resultado é chamado demodelo de regressão.
Esses três termos –análise de regressão,algoritmo de regressãoemodelo de regressão– são frequentemente usados de forma intercambiável, mas cada um deles representa um aspecto diferente do processo de regressão.
Tipos de regressão em aprendizado de máquina
Os modelos de regressão vêm em muitas formas, cada uma projetada para lidar com diferentes relações entre dados de entrada e resultados previstos. Embora a regressão linear seja a usada com mais frequência e relativamente fácil de entender, outros modelos, como a regressão polinomial, logística e bayesiana, são mais adequados para tarefas mais complexas ou especializadas. Abaixo estão alguns dos principais tipos de modelos de regressão e quando eles são normalmente usados.
Regressão simples e múltipla (linear)
A regressão linear, uma técnica de regressão popular, é conhecida por sua facilidade de interpretação, treinamento rápido e desempenho confiável em vários aplicativos. Ele estima a relação entre variáveis explicativas e variáveis-alvo usando linhas retas. A regressão linear simples envolve uma variável explicativa, enquanto a regressão linear múltipla envolve duas ou mais. Geralmente, quando alguém está discutindo análise de regressão, está se referindo à regressão linear.
Regressão polinomial
Se as linhas retas não conseguirem explicar satisfatoriamente a relação entre as variáveis observadas e os resultados esperados, um modelo de regressão polinomial pode ser uma opção melhor. Este modelo busca relacionamentos contínuos e complexos e pode identificar padrões melhor descritos por meio de curvas ou uma combinação de curvas e linhas retas.
Regressão logística
Quando a relação entre as observações e os valores previstos não é contínua (ou discreta), a regressão logística é a ferramenta mais comum para o trabalho. Discreto neste contexto significa situações em que frações ou números reais não são tão relevantes (por exemplo, ao prever quantos clientes entrarão em uma cafeteria, a regressão logística responderá 4 ou 5 em vez de algo mais difícil de interpretar, como 4,35).
A forma mais conhecida de regressão logística éa regressão binária, que prevê as respostas a perguntas binárias (ou seja, sim/não); normalmente, a regressão logística é binária. Variações mais complexas, como a regressão multinomial, predizem respostas para questões que oferecem mais de duas opções. Os modelos logísticos, em sua essência, dependem da seleção de uma entre várias funções para converter entradas contínuas em entradas discretas.
Regressão bayesiana
Técnicas de regressão linear e outras requerem dados de treinamento substanciais para fazer previsões precisas. Em contraste, a regressão bayesiana é um algoritmo estatístico avançado que pode fazer previsões confiáveis com menos dados, desde que algumas das propriedades estatísticas dos dados sejam conhecidas ou possam ser estimadas. Por exemplo, prever as vendas de novos produtos durante a época de festas pode ser um desafio para a regressão linear devido à falta de dados de vendas do novo produto. Uma regressão bayesiana pode prever dados de vendas com maior precisão, assumindo que as vendas do novo produto seguem a mesma distribuição estatística que as vendas de outros produtos similares. Normalmente, as regressões bayesianas assumem que os dados seguem uma distribuição estatística gaussiana, levando ao uso intercambiável dos termosregressãobayesiana e gaussiana.
Regressão de efeitos mistos
A regressão assume que existe uma relação não aleatória entre os dados observados e os dados previstos. Às vezes, esse relacionamento é difícil de definir devido a interdependências complexas nos dados observados ou a comportamentos aleatórios ocasionais. Modelos de efeitos mistos são modelos de regressão que incluem mecanismos para lidar com dados aleatórios e outros comportamentos que são difíceis de modelar. Esses modelos também são chamados de modelos mistos, de efeitos mistos ou de erros mistos.
Outros algoritmos de regressão
A regressão é muito bem estudada. Existem muitos outros algoritmos de regressão mais complexos ou especializados, incluindo aqueles que usam técnicas binomiais, multinomiais e avançadas de efeitos mistos, bem como aqueles que combinam vários algoritmos. Vários algoritmos combinados podem ser organizados em ordem sequencial, como em múltiplas camadas sequenciais, ou executados em paralelo e depois agregados de alguma forma. Um sistema que executa vários modelos em paralelo costuma ser chamado de floresta.
Algoritmos usados para análise de regressão
Muitos tipos de algoritmos de regressão são usados em aprendizado de máquina para gerar modelos de regressão. Alguns algoritmos são projetados para construir tipos específicos de modelos (nesse caso, o algoritmo e o modelo geralmente compartilham o mesmo nome). Outros centram-se na melhoria de aspectos dos modelos existentes, tais como o aumento da sua precisão ou eficiência. Abordaremos alguns dos algoritmos mais comumente usados abaixo. Antes de fazermos isso, porém, é importante entender como eles são avaliados: geralmente, é baseado em duas propriedades principais: variância e viés.
- A variânciamede o quanto as previsões de um modelo flutuam quando treinado em diferentes conjuntos de dados. Um modelo com alta variância pode ajustar muito bem os dados de treinamento, mas ter um desempenho ruim em dados novos e não vistos – um fenômeno conhecido como overfitting. Idealmente, os algoritmos de regressão devem produzir modelos com baixa variância, o que significa que generalizam bem para novos dados e não são excessivamente sensíveis a mudanças no conjunto de treinamento.
- Viésrefere-se ao erro introduzido pela aproximação de um problema do mundo real, que pode ser muito complexo, com um modelo simplificado. O alto viés pode causar subajuste, onde o modelo não consegue capturar padrões importantes nos dados, levando a previsões imprecisas. Idealmente, o viés deve ser baixo, indicando que o modelo captura efetivamente as relações nos dados sem simplificar demais. Em alguns casos, o viés pode ser mitigado melhorando os dados de treinamento ou ajustando os parâmetros do algoritmo de regressão.
Regressão simples e múltipla (linear)
A regressão linear simples analisa a relação entre uma única variável explicativa e um resultado previsto, tornando-a a forma mais simples de regressão. A regressão linear múltipla é mais complicada e encontra relações entre duas ou mais variáveis e um resultado. Ambos encontram relacionamentos que possuem uma estrutura linear, com base em equações lineares que geralmente se enquadram neste padrão:
y =β + β1x + ε
Aquiyé um resultado a ser previsto,xé uma variável a ser prevista,εé um erro a ser tentado minimizar eβeβ1 são valores que a regressão está calculando.
A regressão linear utiliza um processo de aprendizagem supervisionado para construir associações entre variáveis explicativas e resultados previstos. O processo de aprendizagem examina os dados de treinamento repetidamente, melhorando os parâmetros das equações lineares subjacentes a cada iteração dos dados. Os métodos mais comuns para avaliar o desempenho dos parâmetros envolvem o cálculo de valores médios de erro para todos os dados disponíveis usados em testes ou treinamento. Exemplos de métodos de cálculo de erro incluemerro quadrático médio(a média das distâncias quadradas entre as previsões e os resultados reais),erro médio absolutoe métodos mais complexos, como asoma residual dos quadrados(os erros totais em vez da média).
Regressão polinomial
A regressão polinomial lida com problemas mais complexos do que a regressão linear e requer a resolução de sistemas de equações lineares, geralmente com operações matriciais avançadas. Ele pode encontrar relacionamentos nos dados que se curvam, e não apenas aqueles que podem ser representados por linhas retas. Quando aplicado corretamente, reduzirá a variância em problemas nos quais a regressão linear falha. Também é mais difícil de compreender, implementar e otimizar, pois depende de conceitos e operações matemáticas avançadas.
Uma regressão polinomial tentará resolver equações que relacionamye múltiplosxcom equações em formato polinomial que seguem este padrão:
y =β + β1x + β2x2+… + ε
O algoritmo de regressão polinomial procurará os valoresβideais a serem usados e a forma do polinômio (quantos expoentes dexpodem ser necessários para definir a relação entreye cadax?).
Regressão laço
A regressão laço (que significa operador de seleção e encolhimento mínimo absoluto), também conhecida como regressão de norma laço,L1eL1, é uma técnica usada para reduzir o sobreajuste e melhorar a precisão do modelo. Funciona aplicando uma penalidade aos valores absolutos dos coeficientes do modelo, efetivamente diminuindo ou reduzindo alguns coeficientes a zero. Isto leva a modelos mais simples onde características irrelevantes são excluídas. O algoritmo laço ajuda a evitar overfitting controlando a complexidade do modelo, tornando o modelo mais interpretável sem sacrificar muita precisão.
Lasso é especialmente útil quando variáveis explicativas estão correlacionadas. Por exemplo, na previsão do tempo, a temperatura e a umidade podem estar correlacionadas, levando ao sobreajuste. Lasso reduz o efeito de tais correlações, criando um modelo mais robusto.
Regressão de cume
A regressão de Ridge (também conhecida comoL2, normaL2ou regularização de Tikhonov) é outra técnica para evitar overfitting, especialmente quando a multicolinearidade (correlação entre variáveis explicativas) está presente. Ao contrário do laço, que pode reduzir os coeficientes a zero, a regressão Ridge adiciona uma penalidade proporcional ao quadrado dos coeficientes do modelo. O objetivo é fazer pequenos ajustes nos coeficientes sem remover completamente as variáveis.
Exemplos de casos de uso de regressão
Os modelos de regressão são amplamente utilizados em vários setores para fazer previsões com base em dados históricos. Ao identificar padrões e relações entre variáveis, estes modelos podem fornecer informações valiosas para a tomada de decisões. Abaixo estão três exemplos bem conhecidos de áreas onde a regressão é aplicada.
Análise e previsão do tempo
A análise de regressão pode prever padrões climáticos, como a temperatura e a precipitação esperadas para cada dia da próxima semana. Freqüentemente, vários algoritmos de regressão diferentes são treinados em dados meteorológicos históricos, incluindo umidade, velocidade do vento, pressão atmosférica e cobertura de nuvens. As medições horárias ou diárias dessas variáveis servem como recursos para o modelo aprender, e o algoritmo tem a tarefa de prever mudanças de temperatura ao longo do tempo. Quando vários algoritmos de regressão (um conjunto) são usados em paralelo para prever padrões climáticos, suas previsões são normalmente combinadas por meio de uma forma de média, como a média ponderada.
Previsão de vendas e receitas
Num contexto empresarial, os modelos de regressão são frequentemente utilizados para prever receitas e outras métricas importantes de desempenho. Um modelo de regressão múltipla pode considerar variáveis que influenciam o volume de vendas, como métricas de campanhas de marketing, feedback de clientes e tendências macroeconômicas. O modelo tem então a tarefa de prever vendas e receitas para um período futuro especificado. À medida que novos dados ficam disponíveis, o modelo pode ser retreinado ou atualizado para refinar as suas previsões com base nas observações mais recentes.
Previsão de resultados de saúde
Os modelos de regressão têm inúmeras aplicações na previsão de resultados de saúde. Por exemplo, modelos bayesianos podem ser usados para estimar as taxas de incidência, aprendendo com os dados históricos dos pacientes. Esses modelos ajudam a responder perguntas como “O que provavelmente acontecerá se ajustarmos a dosagem de um medicamento?” A regressão linear pode ser empregada para identificar fatores de risco, como prever mudanças na saúde de um paciente com base em ajustes no estilo de vida. A regressão logística, comumente utilizada para diagnóstico, calcula a razão de chances para a presença de uma doença com base no histórico médico do paciente e outras variáveis relevantes.
Benefícios da regressão
Algoritmos e modelos de regressão, especialmente regressão linear, são componentes fundamentais de muitos sistemas de aprendizado de máquina. Eles são amplamente utilizados devido aos seguintes benefícios:
- Eles podem ser rápidos.As técnicas de regressão podem estabelecer rapidamente relações entre múltiplas variáveis (recursos) e um valor alvo, tornando-as úteis para análise exploratória de dados e acelerando o treinamento de modelos de aprendizado de máquina.
- Eles são versáteis. Muitos modelos de regressão, como regressão linear, polinomial e logística, são bem estudados e podem ser adaptados para resolver uma ampla gama de problemas do mundo real, desde tarefas de previsão até tarefas de classificação.
- Eles podem ser fáceis de implementar. Os modelos de regressão linear, por exemplo, podem ser implementados sem a necessidade de técnicas matemáticas ou de engenharia complexas, tornando-os acessíveis a cientistas e engenheiros de dados em vários níveis de habilidade.
- Eles são fáceis de entender. Os modelos de regressão, particularmente a regressão linear, oferecem resultados interpretáveis onde as relações entre as variáveis e o seu impacto no resultado previsto são muitas vezes claras. Isso os torna úteis para identificar tendências e padrões em dados que podem informar análises mais aprofundadas. Em alguns casos, os modelos de regressão podem trocar a interpretabilidade por maior precisão, dependendo do caso de uso.
Desafios na regressão
Embora os modelos de regressão ofereçam muitos benefícios, eles também apresentam seu próprio conjunto de desafios. Freqüentemente, esses desafios se refletirão na redução do desempenho ou na capacidade de generalização, especialmente quando se trabalha com problemas complexos ou dados limitados. Abaixo estão alguns dos problemas mais comuns enfrentados na análise de regressão.
- Overfitting:Os modelos muitas vezes lutam para equilibrar o viés e a variância. Se um modelo for demasiado complexo, pode ajustar-se muito bem aos dados históricos (reduzindo a variância), mas tornar-se tendencioso quando exposto a novos dados. Muitas vezes, isso ocorre porque o modelo memoriza os dados de treinamento em vez de aprender uma abstração generalizada.
- Underfitting:Um modelo muito simples para o problema em questão pode sofrer de alto viés. Ele mostrará altas taxas de erro tanto nos dados de treinamento quanto nos dados não vistos, indicando que não aprendeu os padrões subjacentes. Ajustes excessivos para corrigir vieses elevados podem levar ao subajuste, onde o modelo não consegue capturar as complexidades dos dados.
- Dados de treinamento complexos:os modelos de regressão normalmente assumem que as observações usadas para treinamento são independentes. Se os dados contiverem relações complexas ou aleatoriedade inerente, o modelo poderá ter dificuldades para construir previsões precisas e confiáveis.
- Dados incompletos ou ausentes:algoritmos de regressão supervisionados requerem grandes quantidades de dados para aprender padrões e levar em conta casos extremos. Ao lidar com dados ausentes ou incompletos, o modelo pode não ter um bom desempenho, principalmente ao aprender relacionamentos complexos que exigem ampla cobertura de dados.
- Seleção de variáveis preditoras:os modelos de regressão dependem de humanos para selecionar as variáveis preditoras (recursos) corretas. Se muitas variáveis irrelevantes forem incluídas, o desempenho do modelo poderá ser prejudicado. Por outro lado, se forem escolhidas poucas ou erradas variáveis, o modelo pode não conseguir resolver o problema com precisão ou fazer previsões confiáveis.