Ir al contenido principal

Los coeficientes de determinación

El hecho de que en el análisis de regresión múltiple se consideren modelos explicativos en los que intervienen dos o más causas da lugar a que puedan confundirse las contribuciones de cada una de ellas a la explicación del efecto o variable dependiente. De ahí que distingamos tres tipos de coeficientes de determinación asociados al análisis de regresión múltiple.

Comenzaremos introduciendo el coeficiente de determinación múltiple como una generalización del ya explicado para la regresión simple. Se trata de una medida para alcanzar el grado de explicación alcanzado (a través del modelo lineal) gracias a la aportación de todas las variables explicativas consideradas conjuntamente.

Mediante un desarrollo análogo al efectuado en entradas anteriores, podemos descomponer la variación total de Y como la suma de la parte explicada por el plano de regresión y la parte residual que queda sin explicar:

S2y = S2yt + S2e

donde ahora los valores teóricos son los obtenidos sobre el plano: yti = b0 + b1xi1 + b2xi2, y la varianza residual es la varianza de la variable error, que toma los valores ei = yi - yti.

Por tanto, el coeficiente de determinación múltiple R2 definido por:

R2 = S2yt/S2y

será una medida acotada entre 0 y 1, que nos indica la proporción de varianza explicada por el plano de regresión. Se tiene entonces que R2 es una medida de la bondad del ajuste, puesto que tomará valores más próximos a 1 cuanto mayor sea la parte de variabilidad de Y que explica el modelo y será 0 cuando las variables X1 y X2 no sean capaces de explicar nada sobre Y a través del modelo lineal.

Calculado el coeficiente de determinación para las empresas de la construcción se obtuvo un valor de 0,877, lo que nos indica que el modelo lineal en términos de plantilla y el activo explica el 87,77% de las variaciones del beneficio.

Al mismo tiempo, R2 puede ser considerado como una medida de correlación entre Y y las variables X1 y X2 en su conjunto.

Mediante el coeficiente de determinación múltiple se cuantifica la aportación conjunta de la totalidad de las variables explicativas sin distinguir qué parte es debida a cada una de ellas. En este sentido, consideraremos en primer lugar los coeficientes de determinación simple:
  1. R2yx1 = r2yx1 = S2yx1/S2yS2x1
  2. R2yx2 = r2yx2 = S2yx2/S2yS2x2
Sin embargo, estos coeficientes no resuelven nuestro problema, puesto que no aprovechan las ventajas de la consideración conjunta de las dos variables explicativas.

Cuando calculamos los coeficientes de determinación simple de nuestro problema, obtenemos:

R2BA = 0,8492; R2BP = 0,4339

Según estos resultados, el 84,92% de la variación de beneficios es explicada por el activo a través del modelo de regresión lineal simple de B sobre A; pero de este modo estamos atribuyendo a la variable activo una aportación que no dependerá de ella en exclusiva, sino que incluirá la contribución indirecta de un numeroso conjunto de variables relacionadas linealmente con ella, que puede ser relevantes de cara a la explicación de beneficios.

Otro tanto podemos decir respecto al 43,39% de variación de beneficios explicado por la plantilla, porcentaje en el que no se distingue la parte que indirectamente se debe a la otra variable, el activo en este caso, incluida en el modelo de regresión múltiple. Parece claro que hay algo de común en la explicación del beneficio por parte de las dos variables consideradas, puesto que las proporciones que explican suman más del 100%.

Los coeficientes de determinación simple sólo reflejarán la parte de variación Y explicada exclusivamente por cada Xi cuando no exista relación lineal alguna entre las variables causales, es decir, rx1x2 = 0.

Para definir el coeficiente de determinación parcial entre Y y X2 una vez eliminada la influencia de X1, nos basaremos en la ganancia de explicación (S2yt(X2|X1) derivada de la introducción de la variable X2 tras haber efectuado la regresión de Y sobre X1, que se obtendra como diferencia entre la varianza explicada que incluye X1 y X2 y la correspondiente al modelo que sólo tiene a X1:

S2yt =(X2/X1) = S2yt(X1, X2) - S2yt(X1)


Puesto que la parte de variación Y no explicada por X1 viene dada por la varianza residual correspondiente a S2e(X1), podríamos expresar la ganancia de explicación en términos relativos mediante el cociente:

(S2yt(X1, X2) - S2yt(X1))/S2e(X1)


Dividiendo el numerador y denominador por S2y se llega a la definición del coeficiente de determinación parcial como:

R2(Y,X2/X1) = (R2yx1,x2 - R2yx1)/(1 - R2yx1)


que representa la proporción de variación residual del modelo de regresión simple de Y sobre X1, que es explicada por la inclusión de X2.

Este indicador toma valores entre 0 y 1. Lo peor que puede ocurrir al introducir X2 en el modelo es que no aporte nada nuevo a la explicación de Y dada por X1.

El coeficiente de determinación parcial entre el beneficio y la plantilla, una vez eliminada la influencia del activo es de 0,1888, lo que indica que el 18,88% de las variaciones de Y no explicadas por el activo son explicadas por la plantilla. En otras palabras, partiendo de un modelo de regresión simple, que explica el beneficio en función del activo, al introducir como nueva variable explicativa la plantilla se produce una ganancia neta de fiabilidad del 18,88%. 

Comentarios

Entradas populares de este blog

Ojivas

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas acumuladas se llama simplemente ojiva, y si representa los porcentajes de las frecuencias relativas acumuladas se llama ojiva porcentual. Para representar una ojiva, se marcan en el eje de abscisas los valores de la variable y en el eje de ordenadas las frecuencias acumuladas. Se utiliza para representar series atemporales de frecuencia. Ejemplo Vamos a representar una ojiva de la serie correspondiente a los complementos salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y empleadas de una empresa, que aparecen reflejados en la siguiente tabla. Complementos N.º de empleados [50-60) 16 [60-70) 20 [70-80) 32 [80-90) 28 [90-100) 20 [100-110) 10 [110-120) 4 130

Polígonos de frecuencias

Un polígono de frecuencias es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X. Ejemplo Vamos a construir a partir del histograma explicado en la entrada anterior , su correspondiente polígono de frecuencias. Ejemplo de polígono de frecuencias Interpretación de un polígono de frecuencias El polígono de frecuencias resume, en una sola lín

Ejemplo de tabla de frecuencia para una variable cuantitativa continua

Cuando el estudio se refiere a una variable cuantitativa continua, como el peso, la talla, velocidad, etc., o cuando tratándose de una variable cuantitativa discreta, el número de observaciones es muy grande y la cantidad de valores diferentes que toma la variable también, se recurre a agrupar los datos en intervalos. Cada uno de estos intervalos recibe el nombre de clase. Por ejemplo: En un estudio realizado sobre la estatura de cuarenta alumnos de un curso (variable cuantitativa continua, puesto que entre dos estaturas distintas puede haber un alumno que tenga una estatura intermedia), se han obtenido los siguientes resultados en metros: 1,55 1,66 1,69 1,63 1,64  1,67 1,63 1,56 1,62 1,68 1,68 1,62 1,66 1,62 1,69  1,56 1,57 1,60 1,65 1,64 1,67 1,69 1,63 1,64 1,60  1,62 1,63 1,71 1,62 1,72 1,61 1,61 1,64 1,60 1,70  1,76 1,65 1,65 1,68 1,66 Para su estudio, se procede a la agrupación de los datos en intervalos o clases. Primero se observa cuáles son los valores