El hecho de que en el análisis de regresión múltiple se consideren modelos explicativos en los que intervienen dos o más causas da lugar a que puedan confundirse las contribuciones de cada una de ellas a la explicación del efecto o variable dependiente. De ahí que distingamos tres tipos de coeficientes de determinación asociados al análisis de regresión múltiple.
Comenzaremos introduciendo el coeficiente de determinación múltiple como una generalización del ya explicado para la regresión simple. Se trata de una medida para alcanzar el grado de explicación alcanzado (a través del modelo lineal) gracias a la aportación de todas las variables explicativas consideradas conjuntamente.
Mediante un desarrollo análogo al efectuado en entradas anteriores, podemos descomponer la variación total de Y como la suma de la parte explicada por el plano de regresión y la parte residual que queda sin explicar:
S2y = S2yt + S2e
donde ahora los valores teóricos son los obtenidos sobre el plano: yti = b0 + b1xi1 + b2xi2, y la varianza residual es la varianza de la variable error, que toma los valores ei = yi - yti.
Por tanto, el coeficiente de determinación múltiple R2 definido por:
R2 = S2yt/S2y
será una medida acotada entre 0 y 1, que nos indica la proporción de varianza explicada por el plano de regresión. Se tiene entonces que R2 es una medida de la bondad del ajuste, puesto que tomará valores más próximos a 1 cuanto mayor sea la parte de variabilidad de Y que explica el modelo y será 0 cuando las variables X1 y X2 no sean capaces de explicar nada sobre Y a través del modelo lineal.
Calculado el coeficiente de determinación para las empresas de la construcción se obtuvo un valor de 0,877, lo que nos indica que el modelo lineal en términos de plantilla y el activo explica el 87,77% de las variaciones del beneficio.
Al mismo tiempo, R2 puede ser considerado como una medida de correlación entre Y y las variables X1 y X2 en su conjunto.
Mediante el coeficiente de determinación múltiple se cuantifica la aportación conjunta de la totalidad de las variables explicativas sin distinguir qué parte es debida a cada una de ellas. En este sentido, consideraremos en primer lugar los coeficientes de determinación simple:
- R2yx1 = r2yx1 = S2yx1/S2yS2x1
- R2yx2 = r2yx2 = S2yx2/S2yS2x2
Sin embargo, estos coeficientes no resuelven nuestro problema, puesto que no aprovechan las ventajas de la consideración conjunta de las dos variables explicativas.
Cuando calculamos los coeficientes de determinación simple de nuestro problema, obtenemos:
Cuando calculamos los coeficientes de determinación simple de nuestro problema, obtenemos:
R2BA = 0,8492; R2BP = 0,4339
Según estos resultados, el 84,92% de la variación de beneficios es explicada por el activo a través del modelo de regresión lineal simple de B sobre A; pero de este modo estamos atribuyendo a la variable activo una aportación que no dependerá de ella en exclusiva, sino que incluirá la contribución indirecta de un numeroso conjunto de variables relacionadas linealmente con ella, que puede ser relevantes de cara a la explicación de beneficios.
Otro tanto podemos decir respecto al 43,39% de variación de beneficios explicado por la plantilla, porcentaje en el que no se distingue la parte que indirectamente se debe a la otra variable, el activo en este caso, incluida en el modelo de regresión múltiple. Parece claro que hay algo de común en la explicación del beneficio por parte de las dos variables consideradas, puesto que las proporciones que explican suman más del 100%.
Los coeficientes de determinación simple sólo reflejarán la parte de variación Y explicada exclusivamente por cada Xi cuando no exista relación lineal alguna entre las variables causales, es decir, rx1x2 = 0.
Para definir el coeficiente de determinación parcial entre Y y X2 una vez eliminada la influencia de X1, nos basaremos en la ganancia de explicación (S2yt(X2|X1) derivada de la introducción de la variable X2 tras haber efectuado la regresión de Y sobre X1, que se obtendra como diferencia entre la varianza explicada que incluye X1 y X2 y la correspondiente al modelo que sólo tiene a X1:
Para definir el coeficiente de determinación parcial entre Y y X2 una vez eliminada la influencia de X1, nos basaremos en la ganancia de explicación (S2yt(X2|X1) derivada de la introducción de la variable X2 tras haber efectuado la regresión de Y sobre X1, que se obtendra como diferencia entre la varianza explicada que incluye X1 y X2 y la correspondiente al modelo que sólo tiene a X1:
S2yt =(X2/X1) = S2yt(X1, X2) - S2yt(X1)
Puesto que la parte de variación Y no explicada por X1 viene dada por la varianza residual correspondiente a S2e(X1), podríamos expresar la ganancia de explicación en términos relativos mediante el cociente:
(S2yt(X1, X2) - S2yt(X1))/S2e(X1)
Dividiendo el numerador y denominador por S2y se llega a la definición del coeficiente de determinación parcial como:
R2(Y,X2/X1) = (R2yx1,x2 - R2yx1)/(1 - R2yx1)
que representa la proporción de variación residual del modelo de regresión simple de Y sobre X1, que es explicada por la inclusión de X2.
Este indicador toma valores entre 0 y 1. Lo peor que puede ocurrir al introducir X2 en el modelo es que no aporte nada nuevo a la explicación de Y dada por X1.
El coeficiente de determinación parcial entre el beneficio y la plantilla, una vez eliminada la influencia del activo es de 0,1888, lo que indica que el 18,88% de las variaciones de Y no explicadas por el activo son explicadas por la plantilla. En otras palabras, partiendo de un modelo de regresión simple, que explica el beneficio en función del activo, al introducir como nueva variable explicativa la plantilla se produce una ganancia neta de fiabilidad del 18,88%.
Comentarios
Publicar un comentario
Puedes añadir tus comentarios. Gracias