Guia rápido sobre a Regressão Logística

Fundo roxo onde no centro aparece um grafico em azul rosa e branco de uma função sigmoide (em S), caracteristica da regreessão logistica

Compartilhe esse post

Regressão Logística é um método de classificação binária, um exemplo muito relacionável que pode ser aplicado é descobrir se a pessoa irá votar ou não nas próximas eleições, ou ainda se você tem ou não uma doença, como câncer ou diabetes. 

Pequena introdução

A regressão logística é usada no Machine Learning ou Aprendizado de Máquina, para ajudar a criar previsões precisas. É semelhante à regressão linear, mas tem um formato sigmóide (formato em S) e é usada para problemas categoricos, além de como dito anteriormente, a variável de desfecho é binária. É um dos algoritmos de aprendizado de máquina supervisionado mais simples e um dos mais usados ​​para classificação de duas classes. Neste guia irei explicar um pouco dos tipos, o cálculo e ainda as vantagens e desvantagens. Então, bora começar?!

PRESS START em formato 8 bit

Conhecendo sobre A regressão

Para começar é importante saber que há três tipos básicos de regressão logística:

  • Binária: Como o nome mesmo diz, há apenas dois resultados possíveis. Sim ou não, bem simples, não é mesmo?
  • Multinomial: Ao contrário da Binária, aqui podemos aceitar como resposta 3 ou mais variáveis que não possuem ordem. Esse tipo de regressão pode ser usado em aplicações como pontuação de crédito.
  • Ordinal: Pode haver 3 ou mais variáveis, entretanto, elas têm que estar ordenadas! Por exemplo, na classificação de um restaurante de 1 a 5 estrelas, ou ainda em pesquisas de satisfação, seu cliente está insatisfeito, satisfeito ou muito satisfeito? 

A matemática nos bastidores

Para começar um pouco de teoria, no modelo de regressão logística as mudanças na variável dependente depende dos valores das variáveis ​​independentes e dos coeficientes de inclinação. Outra característica é que o intervalo é estritamente entre 0 e 1. Por último, esse modelo não requer homocedasticidade, isto é, uma perturbação aleatória na relação entre as variáveis independentes e a variável dependente), ou erros de Gauss para ter uma boa precisão.

Nesse método, a probabilidade de ocorrência de um evento pode ser estimada diretamente. No caso da variável dependente Y assumir apenas dois possíveis estados (1 ou 0) e haver um conjunto de p variáveis independentes X1 , X2 , … , Xp, o modelo de regressão logística pode ser escrito da seguinte forma: 

Onde:

P = É a probabilidade que o evento aconteça.

Y =  B0 + B1X1 + ⋅⋅⋅ + Bp Xp = São os valores de parâmetros a serem estimados na fórmula de regressão logística

Interpretando um pouco essa equação podemos notar que se o valor de y é próximo de zero x é um valor negativo considerável. Assim, podemos concluir que se o valor x for um valor positivo alto, o valor de y deve ser próximo a 1. 

Traçando uma Estimativa…

Outra coisa importante é escolher o limite, isto é, a partir de qual ponto aquela observação é sim ou não? Usualmente a regra é se:

P(Y=1) > 0,5 então classifica-se Y=1; e se P(Y=1) < 0,5 então classifica-se Y=0.

Entretanto você pode escolher o limite que dê os melhores resultados na sua rotulação. Não se esqueça de separar parte dos dados em treinamento e teste! Isso ajuda muito a melhorar seus desfechos, geralmente dividimos entre 75/25 ou 80/20.

grafico sigmoide, em S. Onde a base da curva é representada pelos  positivos legendados com: amei o post da estat, e o topo da curva legendado em roxo dizendo  nao gostei do post da estat

Vantagens e Desvantagens

  • Vantagens -> É um método de predição muito usado, tem bastante informação na internet que pode te ajudar bastante a montar seu modelo, também é de fácil implementação. Ainda, a regressão tende a trabalhar com uma eficiência maior quando os atributos não estão relacionados à variável de saída. Além disso, é uma ótima introdução aos modelos de resposta binária. 
  • Desvantagens -> Muitos dos problemas e sistemas da atualidade são não lineares e a regressão não consegue resolver esse tipo de problemas. Outra desvantagem é que esse algoritmo não tem um bom desempenho com variáveis independentes que estão correlacionadas umas às outras. Não deve haver multicolinearidade.

bônus

Aplicando no seu negócio!

  • Qualificação de Leads -> A regressão logística tem sido usada para segmentar usuários em categorias distintas para inteligência de negócios (BI), por exemplo, ela permite que você preveja quais usuários serão convertidos de um usuário free, não-pagante, em um VIP, assinante pago (ou de um cliente potencial a um cliente). Você pode usar essa previsão para agilizar suas operações de vendas para encurtar o tempo de criação de leads e se concentrar nos clientes em potencial, que têm maior probabilidade de conversão.

Gostaria de saber mais sobre Regressão Logística e como implementar no seu negócio ou sobre outros métodos de predição? Entre em contato conosco! Nós da EstatMG somos especialistas em algoritmos de Machine Learning.

Escrito por Ana Clara Mendonça de Oliveira

Referências

  • WATKINS, David S. Fundamentals of Matrix Computations. New York : John Wiley & Sons, 1991.
  • CAMPOS, Frederico Ferreira. Algoritmos Numéricos 2a ed., Belo Horizonte: LTC, 2007
  • ELDEN, Lars. Numerical Linear Algebra in Data Mining, United Kingdom: 2006

Se interessou?

Deixe seu email que entraremos em contato!

Posts recentes