Correlação e Regressão

Se você acompanhou nossos artigos anteriores já terá uma boa noção sobre correlação e regressão, mas achamos por bem fazer uma levantamento geral antes de citarmos as ferramentas para aplicarmos de forma a deixar o mais claro possível como elas podem:

  • Identificar, por diagrama, se existe uma relação possível entre duas variáveis;
  • Quantificar a força de associação ente variáveis utilizando o coeficiente de correlação;
  • Mostrar como a relação pode ser expressa como uma equação;
  • Identificar equações lineares escritas e em gráfico;
  • Examinar a regressão, um modelo linear amplamente utilizado e considerar seus usos e limitações.

Em muitas situações de negócios, é razoável sugerir que exista relações entre as variáveis. Por exemplo, seria lógico supor que as vendas de um item produzido em massa estejam relacionadas com seu preço e despesas de propaganda.

Pra propósitos de tomada de decisão é útil identificar se existe uma relação linear entre duas variáveis e, se apropriado, quantificar sua força. Uma relação pode ser identificada por meio de um gráfico chamado diagrama de dispersão, sua força pode ser quantificado utilizando-se uma medida estatística chamada coeficiente de correlação.

Uma vez que tal associação tenha sido encontrada, frequentemente pode ser muito útil produzir um modelo de previsão que possa ser utilizado para prever uma variável se a outra for conhecida (por exemplo, pode ser possível prever as vendas se as despesas de propaganda forem conhecidas).

Diagrama de dispersão

Um diagrama de dispersão é basicamente uma representação em um plano cartesiano x, y.

O eixo y é utilizado para representar a variável dependente que é a que nos interessa para a tomada de decisões, enquanto o eixo x é opara representar uma variável independente que pode ser controlada ou medida. Cada um desses conjuntos (x,y) será representado no gráfico por um ponto.

 graf-dispersao

Relações causais

Antes de realizar uma análise mais aprofundada é importante aventar hipóteses sobre a possibilidade da relação de causa e efeito entre as variáveis envolvidas e identificar qual é a variável dependente.

Um diagrama de dispersão de pares de dados, que mostra a relação entre o número de cupons de desconto anunciados e a receita de vendas de determinado curso preparatório para concursos pode sugerir uma forte relação positiva. Porém, há sempre a possibilidade de que isso seja mera coincidência já que pode existir outros fatores impulsionando as vendas (como a abertura de um edital).

É muito importante identificar que a variável y seja o efeito resultante de mudanças em x (causa). Então pe sensato proceder à próxima etapa, quantificar a força da relação mediante a análise de correlação.

Coeficiente de correlação

A análise correlação é uma técnica matemática utilizada para medir a força de associação entre duas variáveis. Essa medição leva em consideração o grau de dispersão entre os valores dos dados. Quanto mais dispersos mais fraca sera a relação (aqui chamada de correlação) entre as duas variáveis.

Para facilitar o estudo, o coeficiente de correlação é denotado pela consoante r enquanto seus valores oscilam entre -1 e 1. Ou seja:

  • valores próximos de +1 sugerem forte associação positiva;
  • valores próximos de -1 sugerem forte associação negativa;
  • valores próximos de 0 sugerem possivelmente nenhuma correlação.

Calculando o coeficiente de correlação

Também conhecido como produto-momento de Pearson, ou apenas Coeficiente de Peason para os íntimos, o coeficiente mede a força de uma possível correlação entre as variáveis. A fórmula para esse cálculo é:

Coeficiente de correlação ordenado

Com o coeficiente de Correlação de Pearson os dois conjuntos de dados precisam ser numéricos. Também é possível medir a associação entre variáveis numéricas e não numéricas se esses tiverem sido dados na forma de ordens (por exemplo, nome dos cursos em ordem de vendas).

O coeficiente ordenado é conhecido como Coeficiente de correlação de Spearman e é representado algebricamente na forma:

spearman

em que:

n= número de pares de observações

d= diferença entre a ordem de x e y

O valor de r é interpretado de maneira similar ao Coeficiente de relação de Pearson, entretanto, não é realmente possível dizer que uma variável esteja afetando a outra, nesse sentido, o valor de r  será  utilizado para indicar o nível de concordância entre as duas variáveis.

Regressão Linear Simples

A regressão linear simples, também conhecida como regressão dos quadrados mínimos, é uma técnica desenvolvida para descobrir os coeficientes a e b da equação linear y = a + bx.

Em essência, a meta é encontrar valores para a e b que deem a linha que se ajusta melhor aos pontos. Fazer isso exige mais fórmulas matemáticas:

yabx

O valor de b deve ser calculado primeiro já que ele é necessário para o encontrarmos o valor de a.

Concluindo 

Ficou um pouco extensa nossa revisão mas valeu a pena. Iniciaremos nosso próximo artigo abordando a precisão das previsões. Até lá!

Comments

comments

Você também pode gostar...