O que é regressão logística em aprendizado de máquina?
Publicados: 2024-10-04A regressão logística é um método fundamental em análise estatística e aprendizado de máquina (ML). Este guia abrangente explicará os fundamentos da regressão logística e discutirá vários tipos, aplicações do mundo real e as vantagens e desvantagens do uso desta técnica poderosa.
Índice
- O que é regressão logística?
- Tipos de regressão logística
- Regressão logística vs. linear
- Como funciona a regressão logística
- Aplicativos
- Vantagens
- Desvantagens
O que é regressão logística?
A regressão logística, também conhecida como regressão logit ou modelo logit, é um tipo de algoritmo de aprendizagem supervisionada usado para tarefas de classificação, especialmente para prever a probabilidade de um resultado binário (ou seja, duas classes possíveis). Baseia-se nos métodos estatísticos de mesmo nome, que estimam a probabilidade de ocorrência de um evento específico. Por exemplo, a regressão logística pode ser usada para prever a probabilidade de um e-mail ser spam ou de um cliente fazer uma compra ou sair de um site.
O modelo avalia propriedades relevantes do evento (chamadas “variáveis preditoras” ou “características”). Por exemplo, se o evento for “chegou um e-mail”, as propriedades relevantes poderão incluir o endereço IP de origem, o endereço de e-mail do remetente ou uma classificação de legibilidade do conteúdo. Ele modela a relação entre esses preditores e a probabilidade do resultado usando a função logística, que tem a seguinte forma:
f (x) = 1 / ( 1 + e -x )
Esta função gera um valor entre 0 e 1, representando a probabilidade estimada do evento (pode dizer: “Este e-mail tem 80% de probabilidade de ser spam”).
A regressão logística é amplamente utilizada em ML, principalmente para tarefas de classificação binária. A função sigmóide (um tipo de função logística) é frequentemente usada para converter a saída de qualquer modelo de classificação binária em probabilidade. Embora a regressão logística seja simples, ela serve como técnica fundamental para modelos mais complexos, como redes neurais, onde funções logísticas semelhantes são usadas para modelar probabilidades. O termomodelo logitrefere-se a modelos que usam esta função logit para mapear recursos de entrada para probabilidades previstas.
Tipos de regressão logística
Existem três tipos principais de regressão logística: binária, multinomial e ordinal.
Regressão logística binária
Também conhecida como regressão binária, esta é a forma padrão e mais comum de regressão logística. Quando o termoregressão logísticaé usado sem qualificadores, geralmente se refere a esse tipo. O nome “binário” vem do fato de considerar exatamente dois resultados; pode ser considerado como uma resposta a perguntas de sim ou não. A regressão binária pode lidar com questões mais complicadas se elas forem reformuladas como cadeias de sim ou não, ou perguntas binárias.
Exemplo:Imagine calcular as probabilidades de três opções mutuamente exclusivas: se um cliente irá abandonar (ou seja, parar de usar o produto), se inscreverá para uma versão gratuita de um serviço ou se inscreverá para a versão premium paga. A regressão binária encadeada pode resolver este problema respondendo à seguinte cadeia de perguntas:
- O cliente irá mudar (sim ou não)?
- Caso contrário, o cliente irá aderir ao serviço gratuito (sim ou não)?
- Caso contrário, o cliente irá aderir ao serviço premium pago (sim ou não)?
Regressão logística multinomial
Também conhecida como regressão multinomial, esta forma de regressão logística é uma extensão da regressão binária que pode responder a perguntas com mais de dois resultados potenciais. Evita a necessidade de encadear questões para resolver problemas mais complexos. A regressão multinomial assume que as probabilidades calculadas não têm quaisquer interdependências ou ordem e que o conjunto de opções consideradas cobre todos os resultados possíveis.
Exemplo:a regressão multinomial funciona bem ao prever qual cor um cliente provavelmente desejará para um carro que está comprando em uma lista de cores disponíveis. No entanto, não funciona bem para calcular probabilidades onde o pedido é importante, como avaliar as cores verde, amarelo e vermelho como tags de gravidade para um problema de suporte ao cliente, onde o problema sempre começa como verde e pode ser escalado para amarelo e depois vermelho (com o amarelo sempre seguindo o verde e o vermelho sempre seguindo o amarelo).
Regressão logística ordinal
Também conhecido como modelo de probabilidades proporcionais para regressão, esta forma especializada de regressão logística é projetada para valores ordinais – situações em que a ordem relativa entre os resultados é importante. A regressão logística ordinal é usada quando os resultados têm uma ordem natural, mas as distâncias entre as categorias não são conhecidas.
Exemplo:Pode ser usado para calcular as probabilidades de um hóspede de hotel classificar a sua estadia numa escala de cinco partes: muito má, má, neutra, boa e muito boa. A ordem relativa é importante – ruim é sempre pior que neutro, e é importante observar em que direção as revisões irão se mover na escala. Quando a ordem é importante, a regressão ordinal pode quantificar as relações entre os valores cujas probabilidades estão sendo calculadas (por exemplo, pode detectar que o ruim tende a aparecer com metade da frequência do que o neutro).
Regressão logística vs. regressão linear
Embora diferentes, a regressão logística e a regressão linear muitas vezes aparecem em contextos semelhantes, pois fazem parte de um conjunto maior de ferramentas matemáticas relacionadas. A regressão logística geralmente calcula probabilidades para resultados discretos, enquanto a regressão linear calcula valores esperados para resultados contínuos.
Por exemplo, se alguém tentasse prever a temperatura mais provável para um dia no futuro, um modelo de regressão linear seria uma boa ferramenta para o trabalho. Os modelos de regressão logística, por outro lado, tentam calcular ou prever as probabilidades de duas ou mais opções a partir de uma lista fixa de escolhas. Em vez de prever uma temperatura específica, um modelo de regressão logística pode dar a probabilidade de um determinado dia cair em faixas de temperatura quente, confortável ou fria.
Como foram criados para abordar casos de uso separados, os dois modelos fazem suposições diferentes sobre as propriedades estatísticas dos valores que estão prevendo e são implementados com ferramentas estatísticas diferentes. A regressão logística normalmente assume uma distribuição estatística que se aplica a valores discretos, como uma distribuição de Bernoulli, enquanto a regressão linear pode usar uma distribuição gaussiana. A regressão logística geralmente requer conjuntos de dados maiores para funcionar de maneira eficaz, enquanto a regressão linear geralmente é mais sensível a valores discrepantes influentes. Além disso, a regressão logística faz suposições sobre a estrutura das probabilidades que está calculando, enquanto a regressão linear faz suposições sobre como os erros são distribuídos no conjunto de dados de treinamento.
As diferenças entre esses modelos fazem com que eles tenham um melhor desempenho em seus casos de uso ideais específicos. A regressão logística será mais precisa para prever valores categóricos e a regressão linear será mais precisa para prever valores contínuos. As duas técnicas são frequentemente confundidas entre si, uma vez que seus resultados podem ser reaproveitados com cálculos matemáticos simples. A saída de um modelo de regressão logística pode ser aplicada, após uma transformação, aos mesmos tipos de problemas que a saída de um modelo linear, economizando no custo de treinamento de dois modelos separados. Mas não funcionará tão bem; o mesmo é verdade ao contrário.
Como funciona a regressão logística?
Como uma espécie de algoritmo de aprendizagem supervisionada, a regressão logística depende da aprendizagem a partir de conjuntos de dados bem anotados. Os conjuntos de dados geralmente contêm listas de representações de recursos correspondentes ao resultado esperado do modelo para cada um.
Para obter uma compreensão mais clara da regressão logística, é essencial primeiro compreender a seguinte terminologia principal:
- Variáveis preditoras:Propriedades ou características consideradas pelo modelo logístico ao calcular probabilidades para resultados. Por exemplo, variáveis preditoras para estimar a probabilidade de um cliente comprar um produto podem incluir dados demográficos e histórico de navegação.
- Representação de recursos:uma instância específica de variáveis preditoras. Por exemplo, se as variáveis preditoras forem “código postal”, “estado” e “faixa de renda”, uma representação de recurso pode ser “90210”, “Califórnia” e “75K+/ano”.
- Função de ligação:A função matemática no centro de um modelo de regressão que conecta variáveis preditoras às probabilidades de um resultado específico. A função seguirá o padrão:
θ = b(μ)
onde θsão as probabilidades por categoria a prever,bé uma função específica (geralmente uma função em formadeS, chamada sigmóide) eμrepresenta o valor previsto (de um intervalo contínuo de valores).
- Função logística:A função de link específica usada na regressão logística, definida como
σ ( x ) =1 / ( 1 +e-x)
Ele normaliza a saída para uma probabilidade entre 0 e 1, convertendo alterações proporcionais baseadas em multiplicação nas variáveis preditoras em alterações consistentes e aditivas nas probabilidades.
- Função Logit:O inverso da função logística, convertendo valores de probabilidade em probabilidades logarítmicas, o que ajuda a explicar como as variáveis preditoras se relacionam com as probabilidades de um resultado. Ajuda a explicar como as variáveis preditoras se relacionam com as probabilidades de um resultado. É definido como:
logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )
Para uma dada probabilidade p, realiza o inverso da função logística.
- Perda logarítmica:também conhecida como perda de entropia cruzada ou perda logística, mede a diferença entre as probabilidades previstas e os resultados reais em modelos de classificação. Para classificação binária, é frequentemente chamada de “entropia cruzada binária”.
No centro de um processo de regressão logística está a decisão de qual função de link usar. Para uma regressão logística binária, essa será sempre a função logística. Regressões mais complexas usarão outros tipos de funções sigmóides; uma das funções sigmóides mais populares é conhecida como softmax e é frequentemente usada em modelos de ML e para casos de uso de regressão multinomial.
Durante o treinamento, o sistema também dependerá de uma função de perda, que calcula o desempenho da regressão ou seu ajuste. O objectivo dos sistemas pode ser considerado como a redução da distância entre um resultado previsto ou probabilidades e o que acontece no mundo real (por vezes esta distância é chamada “a surpresa”). Para regressão logística, a função de perda é uma variação da muito popular função de perda logarítmica.
Uma variedade de algoritmos de treinamento de ML padrão podem ser usados para treinar o modelo de regressão logística, incluindo descida gradiente, estimativa de máxima verossimilhança e descida gradiente estocástica.
Aplicações de regressão logística em ML
Os modelos de ML de regressão logística são normalmente usados para tarefas de classificação ou para prever classes a partir de informações parciais. Os casos de uso abrangem muitos domínios, incluindo financeiro, saúde, epidemiologia e marketing. Dois dos aplicativos mais conhecidos são para detecção de spam de e-mail e diagnóstico médico.
Detecção de spam de e-mail
A regressão logística pode ser uma ferramenta eficaz para classificar a comunicação, como identificar e-mails como spam ou não, embora métodos mais avançados sejam frequentemente usados em casos complexos. O endereço do remetente, o destino, o conteúdo do texto da mensagem, o endereço IP de origem e assim por diante – todas as propriedades de um e-mail – podem ser marcados como variáveis preditoras e contabilizadas nas chances de um determinado e-mail ser spam. As ferramentas de filtro de spam de e-mail treinam e atualizam rapidamente modelos logísticos binários em novas mensagens de e-mail e detectam e reagem rapidamente a novas estratégias de spam.
Versões mais avançadas de filtros de spam pré-processam e-mails para torná-los mais fáceis de identificar como spam. Por exemplo, um script pode adicionar uma porcentagem de e-mails marcados como spam para o endereço IP do remetente em um e-mail, e a regressão pode levar essa informação em consideração.
Diagnóstico médico
Modelos de regressão logística são comumente usados para auxiliar no diagnóstico de condições médicas como diabetes e câncer de mama. Eles aprendem e se baseiam em análises realizadas por médicos e pesquisadores médicos.
Para um diagnóstico com muitas imagens, como detecção de câncer, pesquisadores e profissionais médicos criam conjuntos de dados a partir de vários testes, imagens e varreduras. Esses dados são então processados e transformados em listas de avaliações textuais. Uma imagem pode ser analisada em busca de detalhes como densidade de pixels, número e raio médio de vários grupos de pixels e assim por diante. Estas medições são então incluídas numa lista de variáveis preditoras que incluem os resultados de outros testes e avaliações. Os sistemas de regressão logística aprendem com eles e prevêem se um paciente tem probabilidade de ser diagnosticado com câncer.
Além de prever diagnósticos médicos com alta precisão, os sistemas de regressão logística também podem indicar quais resultados de exames são mais relevantes para suas avaliações. Essas informações podem ajudar a priorizar exames para um novo paciente, agilizando o processo de diagnóstico.
Vantagens da regressão logística em ML
A regressão logística é frequentemente favorecida pela sua simplicidade e interpretabilidade, particularmente nos casos em que os resultados precisam de ser produzidos de forma relativamente rápida e onde as informações sobre os dados são importantes.
Resultados rápidos e práticos
Do ponto de vista prático, a regressão logística é simples de implementar e fácil de interpretar. Ele funciona de maneira confiável e fornece insights valiosos mesmo quando os dados não estão perfeitamente alinhados com suposições ou expectativas. Os modelos matemáticos subjacentes são eficientes e relativamente simples de otimizar, tornando a regressão logística uma escolha robusta e prática para muitas aplicações.
Insights úteis sobre propriedades de dados
Teoricamente, a regressão logística é excelente em tarefas de classificação binária e geralmente é muito rápida na classificação de novos dados. Pode ajudar a identificar quais variáveis estão associadas ao resultado de interesse, fornecendo informações sobre onde a análise de dados adicional deve se concentrar. A regressão logística geralmente oferece alta precisão em casos de uso simples; mesmo quando a precisão diminui para determinados conjuntos de dados, ainda fornece informações significativas sobre a importância relativa das variáveis e a direção do seu impacto (positivo ou negativo).
Desvantagens da regressão logística em ML
A regressão logística faz suposições sobre os dados que analisa, ajudando os algoritmos subjacentes a serem mais rápidos e fáceis de compreender, ao custo de limitar a sua utilidade. Eles não podem ser usados para modelar resultados contínuos ou relacionamentos não lineares, podem falhar se o relacionamento com o modelo for muito complexo e se ajustarão demais se analisarem muitos dados.
Limitado a resultados discretos
A regressão logística só pode ser usada para prever resultados discretos. Se o problema exigir previsões contínuas, técnicas como a regressão linear são mais adequadas.
Suponha relacionamentos lineares
O modelo assume uma relação linear entre as variáveis preditoras e as probabilidades estimadas, o que raramente é o caso em dados do mundo real. Isso geralmente requer pré-processamento e ajustes adicionais para melhorar a precisão. Além disso, a regressão logística pressupõe que as decisões de classificação podem ser tomadas utilizando funções lineares simples, que podem não refletir as complexidades dos cenários do mundo real. Como resultado, a regressão logística costuma ser uma aproximação que pode exigir otimização e atualizações regulares para permanecer relevante.
Pode falhar ao modelar relacionamentos complexos
Se um conjunto de variáveis preditoras não tiver uma relação linear com as probabilidades calculadas, ou se as variáveis preditoras não forem suficientemente independentes umas das outras, a regressão logística pode não funcionar completamente ou pode detectar apenas um subconjunto de relações lineares. quando o sistema tem uma mistura de propriedades lineares e outras propriedades mais complexas.
Overfit grandes conjuntos de dados
Para conjuntos de dados maiores e mais complexos, a regressão logística é propensa a overfitting, onde o modelo fica muito alinhado com os dados específicos nos quais foi treinado, capturando ruído e detalhes menores em vez de padrões gerais. Isso pode resultar em baixo desempenho em dados novos e não vistos. Técnicas como a regularização podem ajudar a mitigar o sobreajuste, mas é necessária uma consideração cuidadosa ao aplicar a regressão logística a dados complexos.