Regressão linear Múltipla - Apontamentos teóricos


      A investigação beneficia muito de modelos explicativos que elucidem relações de entrada-saída. As variáveis de entrada são as consideradas como potencialmente explicativas e as de saída os efeitos (“outcomes”). A regressão linear simples não se adequa inteiramente às necessidades de estabelecer causas para os ‘outcomes’ observados em áreas como, por exemplo, a medicina. Existe um esforço constante por identificar associações entre o aparecimento de disfunções e os fatores desencadeantes ou de risco, de modo a atuar na exposição a estes. Aliás, de uma forma geral, a fisiologia resulta de inter-relações complexas entre múltiplos e diversos fatores tecendo uma ‘teia’. Estatisticamente, para corresponder a alguns destes casos, a regressão linear simples dá lugar à regressão linear múltipla que pode ter mais do que uma variável independente, incluindo assim, um maior número de fatores na explicação da medida principal (Exemplo: O tamanho do cérebro e do corpo são preditores de inteligência?). A equação da regressão múltipla é:


Y é a variável de efeito (dependente) medida no indivíduo i
X1, X2 ou qualquer Xn são as variáveis de entrada (independentes), também ditas preditoras ou explanatórias.
B1, B2 ou qualquer Bn são parâmetros (de regressão) do modelo e são determinados usando um método denominado de regressão (sendo B0 o termo aditivo constante).
Estes modelos representam, obviamente, uma aproximação da realidade e é por isso necessário adicionar um termo de erro, ε, à equação.
A regressão linear múltipla tem como variável dependente uma variável quantitativa e as variáveis independentes podem ser:
-Quantitativas
-Qualitativas [devem ser transformadas em variáveis dicotómicas (dummies)]



Pressupostos da regressão linear

1 – Variável dependente: quantitativa;
2 – Variáveis independentes: quantitativas ou binárias/dicotómicas;
3 – Existência de relação linear entre a varável dependente e as variáveis independentes.

Este pressuposto pode ser verificado por inspeção visual de gráficos de dispersão entre a variável dependente e as variáveis independentes quantitativas.


4 – Erros com distribuição normal
5 – Erros com variância constante (Homocedasticidade);
6 – Erros independentes (não correlacionados);


Os pressupostos 4,5 e 6 podem ser analisados por inspeção visual do gráfico dos resíduos em função dos valores previstos e pelo histograma dos resíduos.







O pressuposto 6 também pode ser avaliado através da realização do teste Durbin-Watson (DW) que permite verificar a autocorrelação dos resíduos (Analisar – Regressão – Linear – Estatísticas):
·             DW = 2 – sem correlação
·             DW < 2 – correlação positiva
·             DW > 2 – correlação negativa

Uma regra prática é verificar se 1,5 < d < 2




7 – Ausência de multicolinearidade;

As variáveis independentes não se devem correlacionar entre si. Este pressuposto pode ser avaliado pela análise de matriz de correlações ou pela observação da tolerância ou fator de inflação da variância (VIF). A tolerância mede o grau em que uma variável X é explicada por todas as outras variáveis independentes. Varia de 0 a 1, e quanto mais próximo tiver de 0 maior será a multicolinearidade, considerando-se como limite inferior para que não exista multicolinearidade o valor de 0,05. O VIF é definido como o inverso da tolerância (T = 1/VIF) e, consequentemente, seguindo a mesma linha de raciocínio, valores superiores a 5 são indicadores de multicolinearidade.  Pode recorrer-se ainda à correlação bivariada na qual se considera que existem problemas de multicolinearidade com valores R > 0,75- 

As variáveis que apresentem estes valores não devem ser incluídas no modelo.

A violação de alguns pressupostos é mais penalizadora do que a violação de outros:
- Os testes e intervalos de confiança são muito sensíveis a pequenos desvios de independência; 
- Os testes e intervalos de confiança são moderadamente sensíveis a desvios de Homocedasticidade;
- Os testes e intervalos de confiança para os coeficientes de regressão são robustos a desvios da normalidade;
- Os intervalos de precisão são sensíveis a desvios da normalidade.


          Ao trabalho anterior que visava encontrar uma relação entre o perímetro abdominal e o valor de glicémia média, juntaremos as variáveis ‘idade’ ou ‘faz ou não exercício físico’.





Utilizando o SPSS para proceder a realização da regressão múltipla (Analisar – Regressão – Linear):



Export SPSS – Regressão linear múltipla 


Poderemos agora inferir sobre a validade do modelo em explicar a variável dependente. Antes de avaliar os valores dos coeficientes, é importante avaliar se o modelo tem significância estatista, o que se pode verificar através da realização da ANOVA em que:



O modelo terá então significado estatístico se a variação de uma variável independente tiver efeito direto na variável dependente, condição apenas possível no caso de o coeficiente de regressão não for nulo. Neste caso, como p<0,05 podemos classificar este modelo como válido. Os coeficientes de regressão podem ainda ser testados individualmente através de testes t-Student.
A qualidade de ajustamento do modelo é avaliada pelo coeficiente de determinação, R2, que mede a proporção da variabilidade total que é explicada pelo modelo de regressão. Existe também o coeficiente de determinação ajustado, Ra 2, que é um indicador mais robusto porque tem em conta o tamanho da amostra. Quanto mais próximo de 1 são estes valores melhor o modelo representa a questão estudada, como acontece no exemplo dado (R2 = 0,897 Ra 2 = 0,866).
Após assegurar a validade do modelo, a análise centra-se nos valores dos coeficientes de regressão.



O coeficiente de regressão não padronizado representa a variação média da variável dependente por unidade de variável independente, assumindo que as outras variáveis permanecem inalteradas.  No problema apresentado, visto que o coeficiente b obtido para a varável 2 é 1,229, conclui-se que o valor de glicémia médio aumenta em 1,229 unidades por cada cm do perímetro abdominal. Seria possível retirar-se conclusões análogas em relação à influência das outras variáveis, como por exemplo o decréscimo de 0,124 unidades no valor de glicémia médio com o aumento de uma unidade na idade, no entanto, estes valores não têm significância estatística (p>0,05)*, o que revela que a Idade não é um bom fator a ter em conta para prever os valores da glicémia neste problema.
Já o coeficiente de regressão padronizado representa a variação média da variável dependente medida em z scores por unidade de variável independente, assumindo que as outras variáveis permanecem inalteradas. Analisando-se outra vez os coeficientes obtidos, em relação à variável 2 infere-se que o z score médio de glicémia aumenta 0,964 por cada desvio padrão do valor da glicémia médio.


*É necessário verificar sempre a significância estatística em cada variável de modo a saber se as conclusões retiradas podem ser feitas. Como os valores de p para as varíaveis 3 e 4 são maiores que 0,05 não são validas quaisquer inferências relativas à influência destas variáveis na variável dependente.




Fontes:
- Apontamentos de Bioestatística, Barbara Oliveiros (2008)
- Métodos Quantitativos em Investigação Fundamental e de Translação para a Clínica, Miguel Castelo Branco







Comentários

Mensagens populares