Regressão linear Múltipla - Apontamentos teóricos
A
investigação beneficia muito de modelos explicativos que elucidem
relações de entrada-saída. As variáveis de entrada são as consideradas como
potencialmente explicativas e as de saída os efeitos (“outcomes”). A regressão
linear simples não se adequa inteiramente às necessidades de estabelecer
causas para os ‘outcomes’ observados em áreas como, por exemplo, a medicina. Existe um esforço constante por identificar associações entre
o aparecimento de disfunções e os fatores desencadeantes ou de risco, de modo a
atuar na exposição a estes. Aliás, de uma forma geral, a fisiologia resulta de
inter-relações complexas entre múltiplos e diversos fatores tecendo uma ‘teia’. Estatisticamente, para corresponder a alguns destes casos, a regressão linear
simples dá lugar à regressão linear
múltipla que pode ter mais do que uma variável independente, incluindo
assim, um maior número de fatores na explicação da medida principal (Exemplo: O tamanho do cérebro e do corpo são preditores de inteligência?). A
equação da regressão múltipla é:
Y é a variável de efeito (dependente) medida no indivíduo i
X1, X2 ou qualquer Xn são as variáveis de entrada (independentes),
também ditas preditoras ou explanatórias.
B1, B2 ou qualquer Bn são parâmetros (de regressão) do modelo e são
determinados usando um método denominado de regressão (sendo B0 o
termo aditivo constante).
Estes
modelos representam, obviamente, uma aproximação da realidade e é por isso
necessário adicionar um termo de erro, ε,
à equação.
A regressão
linear múltipla tem como variável dependente uma variável quantitativa e as
variáveis independentes podem ser:
-Quantitativas
-Qualitativas [devem
ser transformadas em variáveis dicotómicas (dummies)]
O coeficiente
de regressão não padronizado representa a variação média da variável dependente
por unidade de variável independente, assumindo que as outras variáveis
permanecem inalteradas. No problema
apresentado, visto que o coeficiente b obtido para a varável
2 é 1,229, conclui-se que o valor de glicémia médio aumenta em 1,229 unidades
por cada cm do perímetro abdominal. Seria possível retirar-se conclusões
análogas em relação à influência das outras variáveis, como por exemplo o
decréscimo de 0,124 unidades no valor de glicémia médio com o aumento de uma
unidade na idade, no entanto, estes valores não têm significância estatística
(p>0,05)*, o que revela que a Idade não é um bom fator a ter em conta para
prever os valores da glicémia neste problema.
Fontes:
- Apontamentos de Bioestatística, Barbara Oliveiros (2008)
- Métodos Quantitativos em Investigação Fundamental e de Translação para a Clínica, Miguel Castelo Branco
Pressupostos da regressão linear
1 – Variável dependente: quantitativa;
2 – Variáveis independentes: quantitativas
ou binárias/dicotómicas;
3 – Existência de relação linear entre a
varável dependente e as variáveis independentes.
Este pressuposto pode ser verificado por
inspeção visual de gráficos de dispersão entre a variável dependente e as
variáveis independentes quantitativas.
4 – Erros com distribuição normal
5 – Erros com variância constante
(Homocedasticidade);
6 – Erros independentes (não
correlacionados);
Os pressupostos 4,5 e 6 podem ser analisados
por inspeção visual do gráfico dos resíduos em função dos valores previstos e
pelo histograma dos resíduos.
O pressuposto 6 também pode ser
avaliado através da realização do teste Durbin-Watson (DW) que permite
verificar a autocorrelação dos resíduos (Analisar – Regressão – Linear –
Estatísticas):
·
DW = 2 – sem correlação
·
DW < 2 – correlação positiva
·
DW > 2 – correlação negativa
Uma
regra prática é verificar se 1,5 < d < 2
7 – Ausência de multicolinearidade;
As variáveis
independentes não se devem correlacionar entre si. Este pressuposto pode ser
avaliado pela análise de matriz de correlações ou pela observação da tolerância
ou fator de inflação da variância (VIF). A tolerância mede o grau em que uma
variável X é explicada por todas as
outras variáveis independentes. Varia de 0 a 1, e quanto mais próximo tiver de
0 maior será a multicolinearidade, considerando-se como limite inferior para
que não exista multicolinearidade o valor de 0,05. O VIF é definido como o
inverso da tolerância (T = 1/VIF) e, consequentemente, seguindo a mesma linha de
raciocínio, valores superiores a 5 são indicadores de multicolinearidade. Pode recorrer-se ainda à correlação bivariada
na qual se considera que existem problemas de multicolinearidade com valores R > 0,75-
As variáveis que
apresentem estes valores não devem ser incluídas no modelo.
A violação de alguns pressupostos
é mais penalizadora do que a violação de outros:
- Os testes e intervalos de
confiança são muito sensíveis a pequenos desvios de independência;
- Os testes e intervalos de
confiança são moderadamente sensíveis a desvios de Homocedasticidade;
- Os testes e
intervalos de confiança para os coeficientes de regressão são robustos a
desvios da normalidade;
- Os
intervalos de precisão são sensíveis a desvios da normalidade.
Ao trabalho anterior que visava
encontrar uma relação entre o perímetro abdominal e o valor de glicémia média,
juntaremos as variáveis ‘idade’ ou ‘faz ou não exercício físico’.
Export SPSS – Regressão linear múltipla
|
Poderemos
agora inferir sobre a validade do modelo em explicar a variável dependente.
Antes de avaliar os valores dos coeficientes, é importante avaliar se o modelo
tem significância estatista, o que se pode verificar através da realização da
ANOVA em que:
O modelo terá
então significado estatístico se a variação de uma variável independente tiver
efeito direto na variável dependente, condição apenas possível no caso de o
coeficiente de regressão não for nulo. Neste caso, como p<0,05 podemos classificar este modelo como válido. Os
coeficientes de regressão podem ainda ser testados individualmente através de
testes t-Student.
A qualidade de
ajustamento do modelo é avaliada pelo coeficiente de determinação, R2, que mede a proporção da
variabilidade total que é explicada pelo modelo de regressão. Existe também o
coeficiente de determinação ajustado, Ra
2, que é um indicador mais robusto porque tem em conta o tamanho
da amostra. Quanto mais próximo de 1 são estes valores melhor o modelo
representa a questão estudada, como acontece no exemplo dado (R2 = 0,897 Ra
2 = 0,866).
Após assegurar
a validade do modelo, a análise centra-se nos valores dos coeficientes de
regressão.
Já o
coeficiente de regressão padronizado representa a variação média da variável
dependente medida em z scores por
unidade de variável independente, assumindo que as outras variáveis permanecem
inalteradas. Analisando-se outra vez os coeficientes obtidos, em relação à
variável 2 infere-se que o z score
médio de glicémia aumenta 0,964 por cada desvio padrão do valor da glicémia
médio.
*É necessário
verificar sempre a significância estatística em cada variável de modo a saber
se as conclusões retiradas podem ser feitas. Como os valores de p para as varíaveis 3 e 4 são
maiores que 0,05 não são validas quaisquer inferências relativas à influência
destas variáveis na variável dependente.
Fontes:
- Apontamentos de Bioestatística, Barbara Oliveiros (2008)
- Métodos Quantitativos em Investigação Fundamental e de Translação para a Clínica, Miguel Castelo Branco
Comentários
Enviar um comentário