Los coeficientes de determinación

El hecho de que en el análisis de regresión múltiple se consideren modelos explicativos en los que intervienen dos o más causas da lugar a que puedan confundirse las contribuciones de cada una de ellas a la explicación del efecto o variable dependiente. De ahí que distingamos tres tipos de coeficientes de determinación asociados al análisis de regresión múltiple.

Comenzaremos introduciendo el coeficiente de determinación múltiple como una generalización del ya explicado para la regresión simple. Se trata de una medida para alcanzar el grado de explicación alcanzado (a través del modelo lineal) gracias a la aportación de todas las variables explicativas consideradas conjuntamente.

Mediante un desarrollo análogo al efectuado en entradas anteriores, podemos descomponer la variación total de Y como la suma de la parte explicada por el plano de regresión y la parte residual que queda sin explicar:

S²_y = S²_{y_t} + S²_e

donde ahora los valores teóricos son los obtenidos sobre el plano: y_ti = b₀ + b₁x_i1 + b₂x_i2, y la varianza residual es la varianza de la variable error, que toma los valores e_i = y_i - y_ti.

Por tanto, el coeficiente de determinación múltiple R² definido por:

R² = S²_{y_t}/S²_y

será una medida acotada entre 0 y 1, que nos indica la proporción de varianza explicada por el plano de regresión. Se tiene entonces que R² es una medida de la bondad del ajuste, puesto que tomará valores más próximos a 1 cuanto mayor sea la parte de variabilidad de Y que explica el modelo y será 0 cuando las variables X₁ y X₂ no sean capaces de explicar nada sobre Y a través del modelo lineal.

Calculado el coeficiente de determinación para las empresas de la construcción se obtuvo un valor de 0,877, lo que nos indica que el modelo lineal en términos de plantilla y el activo explica el 87,77% de las variaciones del beneficio.

Al mismo tiempo, R² puede ser considerado como una medida de correlación entre Y y las variables X₁ y X₂ en su conjunto.

Mediante el coeficiente de determinación múltiple se cuantifica la aportación conjunta de la totalidad de las variables explicativas sin distinguir qué parte es debida a cada una de ellas. En este sentido, consideraremos en primer lugar los coeficientes de determinación simple:

R²_yx₁ = r²_yx₁ = S²_yx₁/S²_yS²_x₁
R²_yx₂ = r²_yx₂ = S²_yx₂/S²_yS²_x₂

Sin embargo, estos coeficientes no resuelven nuestro problema, puesto que no aprovechan las ventajas de la consideración conjunta de las dos variables explicativas.

Cuando calculamos los coeficientes de determinación simple de nuestro problema, obtenemos:

R²_BA = 0,8492; R²_BP = 0,4339

Según estos resultados, el 84,92% de la variación de beneficios es explicada por el activo a través del modelo de regresión lineal simple de B sobre A; pero de este modo estamos atribuyendo a la variable activo una aportación que no dependerá de ella en exclusiva, sino que incluirá la contribución indirecta de un numeroso conjunto de variables relacionadas linealmente con ella, que puede ser relevantes de cara a la explicación de beneficios.

Otro tanto podemos decir respecto al 43,39% de variación de beneficios explicado por la plantilla, porcentaje en el que no se distingue la parte que indirectamente se debe a la otra variable, el activo en este caso, incluida en el modelo de regresión múltiple. Parece claro que hay algo de común en la explicación del beneficio por parte de las dos variables consideradas, puesto que las proporciones que explican suman más del 100%.

Los coeficientes de determinación simple sólo reflejarán la parte de variación Y explicada exclusivamente por cada X_i cuando no exista relación lineal alguna entre las variables causales, es decir, r_x₁x₂ = 0.

Para definir el coeficiente de determinación parcial entre Y y X₂ una vez eliminada la influencia de X₁, nos basaremos en la ganancia de explicación (S²_{y_t}(X₂|X₁) derivada de la introducción de la variable X₂ tras haber efectuado la regresión de Y sobre X₁, que se obtendra como diferencia entre la varianza explicada que incluye X₁ y X₂ y la correspondiente al modelo que sólo tiene a X₁:

S²_{y_t} =(X₂/X₁) = S²_{y_t}(X₁, X₂) - S²_{y_t}(X₁)

Puesto que la parte de variación Y no explicada por X₁ viene dada por la varianza residual correspondiente a S²_e(X₁), podríamos expresar la ganancia de explicación en términos relativos mediante el cociente:

(S²_{y_t}(X₁, X₂) - S²_{y_t}(X₁))/S²_e(X₁)

Dividiendo el numerador y denominador por S²_y se llega a la definición del coeficiente de determinación parcial como:

R²(Y,X₂/X₁) = (R²_yx₁,x₂ - R²_yx₁)/(1 - R²_yx₁)

que representa la proporción de variación residual del modelo de regresión simple de Y sobre X₁, que es explicada por la inclusión de X₂.

Este indicador toma valores entre 0 y 1. Lo peor que puede ocurrir al introducir X₂ en el modelo es que no aporte nada nuevo a la explicación de Y dada por X₁.

El coeficiente de determinación parcial entre el beneficio y la plantilla, una vez eliminada la influencia del activo es de 0,1888, lo que indica que el 18,88% de las variaciones de Y no explicadas por el activo son explicadas por la plantilla. En otras palabras, partiendo de un modelo de regresión simple, que explica el beneficio en función del activo, al introducir como nueva variable explicativa la plantilla se produce una ganancia neta de fiabilidad del 18,88%.

Estadística y combinatoria al alcance de todos

Buscar este blog

Los coeficientes de determinación

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Ojivas

Polígonos de frecuencias

Diagrama de líneas