Regressão Linear Simples - Apontamentos teóricos


A regressão linear é um modelo matemático usado para estudar a relação entre 2 variáveis quantitativas, normalmente distribuídas, de modo a que seja possível estimar o valor da variável dependente Y em função da variável independente X. De outra forma, a regressão linear visa estudar como modificações numa variável independente produzem modificações noutra variável dependente. 
Os valores das variáveis em causa podem ser observados em gráficos de dispersão, o que nos permite julgar sobre a linearidade ou não da relação. 
A equação que traduz a função de y sobre x tem o nome de curva de regressão de y sobre x e,  é do tipo: y = ax + b 

y = varíavel dependente (a que se quer estimar) 
x = variável independente 
coeficiente a = inclinação ou declive da reta de regressão de y sobre x 
coeficiente b =interseção ou ordenada na origem 

Tomemos como exemplo a tentativa de estabelecer uma relação entre o perímetro abdominal e o valor de glicémia médio de 14 Homens, durante a 2º semana de agosto. (Para eliminar o efeito de possíveis confundentes, os dados são colhidos às 16h de 14 Homens entre os 35 e 45 anos, todos os dias, 2h após a última refeição. O valor apresentado é a média das 7 medições.)

*Dados simulados no Excel

Modelo
Coeficientes não padronizados
B
Erro Padrão
1
(Constante)
10,105
9,863
VAR00002
1,206
,119
Export SPSS 1 - Regressão linear simples


Equação: y = 1,206x + 10,105


Como já foi referido, a regressão linear procura, então, estabelecer uma equação que se adeque às observações e que permita estimar valores. No entanto, nem todos os valores estimados pela equação irão corresponder na plenitude aos valores representados no gráfico de dispersão, isto é, nem toda a variabilidade de y é explicada pela regressão; parte da variabilidade de y não é explicada pela regressão  - é a variabilidade residual devida a outros fatores ou ao erro ou resíduo: e = y – y*
Se esta variabilidade residual for devida a erros casuais não tem uma magnitude significativa relativamente à variabilidade devida à regressão (tem-se, normamalmente,
_
e = 0).
           O coeficiente de correlação linear ou de Pearson r  mede a dispersão dos pontos à volta da reta de regressão. Varia de -1 a +1, dando uma ideia do ajuste da regressão. O seu quadrado, r2, também conhecido por coeficiente de determinação, indica a proporção da variação total da variável que é explicada pela reta de regressão.


Um valor de  r2 baixo corresponderá a uma grande dispersão de valores em torno da reta de regressão (associação fraca), e um valor alto é indicativo de uma pequena dispersão de valores em torno da reta de regressão (associação forte).
 
O objetivo da regressão simples será encontrar os valores de a e b que melhor traduzem a reta de regressão, ou seja, que minimizem os erros cometidos entre o valor y* previsto pela reta e o seu valor observado y.

y = valor observado
y* = valor estimado pela reta de regressão

Determinação dos coeficientes a e b


Conhecido o valor de a, o coeficiente b fica determinado se conhecermos um ponto da reta.

Hipóteses estatísticas para o declive da reta de regressão

Para um nível de significância α:




Fontes: 
- Apontamentos de Bioestatística, Barbara Oliveiros (2008)
- Métodos Quantitativos em Investigação Fundamental e de Translação para a Clínica, Miguel Castelo Branco



Comentários

Mensagens populares