Ir al contenido principal

Regresión lineal múltiple

El objetivo de la regresión lineal múltiple será construir un modelo explicativo de una variable. Y en términos de un conjunto de variables causales, que sin pérdida de generalidad, reduciremos a dos: X1 y X2.

Nuestro planteamiento en este apartado constituye una generalización del efectuado al introducir el análisis de regresión simple, es decir, obtener el valor promedio de la variable dependiente Y condicionado a ciertos comportamientos de las variables explicativas X1 y X2.

Ello dará lugar a la definición de la función de regresión mínimo cuadrática Y = f(X1, X2) como aquella que asigna como aproximación del verdadero valor de Y cuando X1 = xi1 y X2 = xi2 la media condicionada de las observaciones yj : y/xi1,xi2.

Si introducimos el supuesto de que las medias condicionadas se encuentran sobre un plano, es decir, que la contribución de cada variable independiente a la explicación de Y es de tipo lineal, la función de regresión será de la forma:

Yt = f(X1, X2) = b0 + b1X1 + b2X2

De aquí en adelante nos centraremos en este tipo de funciones, ya sea porque la regresión es lineal o porque mediante una transformación de las variables es reducible a lineal (como ocurre con los modelos de tipo potencial Y = aXb1Xc2.

Continuando con el problema planteado en la entrada anterior, supongamos que delimitamos nuestro estudio a las 9 mayores empresas del sector de la construcción, planteándose la explicación de sus beneficios netos (B) en términos del activo total (A) y la plantilla (P) a través de un modelo lineal:

B = b0 + b1A + b2P

Empresas Activo Plantilla Beneficio
A 230931,8 15563 7503,23
B 134689 8466 5171
C 133353 4461 2748
D 110632 16828 3612
E 72684,82 5863 2170,89
F 75008,01 4350 2451,14
G 88294 8692 2532
H 52235,11 9137 2518,76
I 66002,89 3237 2267,58

Las variables activo y beneficio vienen expresadas en miles de euros.

Para calcular los parámetros b0, b1 y b2, que determinan la ecuación del plano de regresión a partir de un conjunto de N observaciones, recurriremos a la técnica de ajuste por mínimos cuadrados. Los errores cometidos al aproximar los valores observado yi por los teóricos yti, vendrán dados por las desviaciones entre ambos:

ei = yi - yti = yi - (b0 + b1xi1 + b2xi2)

Por tanto, el valor de los parámetros será el resultado de minimizar:

S(b0, b1, b2) = Σei2 = Σ(yi - b0 - b1xi1 - b2xi2)2

Problema que equivale a resolver el sistema de ecuaciones normales:

  1. ∂S/∂b0 = -2Σ(yi - b0 - b1xi1 - b2xi2) = 0
  2. ∂S/∂b1 = -2Σ(yi - b0 - b1xi1 - b2xi2)xi1 = 0
  3. ∂S/∂b2 = -2Σ(yi - b0 - b1xi1 - b2xi2)xi2 = 0
Sin más que dividir por N las ecuaciones anteriores, la primera nos garantiza que el error medio es nulo, e = 0, y nos permite obtener el valor del término independiente una vez calculados b1 y b2:

b0 = y - b1x1 - b2x2

Sustituyendo este valor en las dos ecuaciones restantes se llega a las relaciones:

  1. b1S2x1 + b2Sx1x2 = Syx1
  2. b1Sx1x2 + b2S2x2 = Syx2
de donde los coeficientes b1 y b2 se obtendrán explícitamente mediante las siguientes expresiones:

  1. b1 = (S2x2Syx1 - Sx1x2Syx2)/(S2x1S2x2 - S2x1x2)
  2. b2 = (S2x1Syx2 - Sx1x2Syx1)/(S2x1S2x2 - S2x1x2)
Utilizando los datos del ejemplo, tenemos que el plano de regresión que explica los beneficios de las empresas en términos del activo y la plantilla viene dado por la ecuación:

B = -24,608 + 0,0263A + 0,0755P

Un comentario inmediato que surge en el primer análisis de esta ecuación se refiere a los coeficientes y al consiguiente efecto que las variables explicativas tienen sobre los beneficios. Por un lado, se deduce que una situación de cierre de la empresa, en la que tanto el activo como la plantilla serían nulas, daría lugar a unas pérdidas en torno a los 24000 euros. Por otro lado, se observa que aumentos en la plantilla o en el activo total suponen aumentos de los beneficios puesto que los coeficientes respectivos son positivos.

Los parámetros b1 y b2 reciben el nombre de coeficientes de regresión parcial; nos indican cuál es el efecto marginal de cada variable explicativa sobre la variable dependiente.

En el estudio que estamos realizando, ¿qué crecimiento cabe esperar en el beneficio por cada nuevo empleado que se contrate? Si se mantiene constante el activo, esta variación marginal viene indicada por el correspondiente coeficiente de regresión parcial. En este caso: 0,0755 (miles de euros).

Comentarios

Entradas populares de este blog

Ojivas

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas acumuladas se llama simplemente ojiva, y si representa los porcentajes de las frecuencias relativas acumuladas se llama ojiva porcentual. Para representar una ojiva, se marcan en el eje de abscisas los valores de la variable y en el eje de ordenadas las frecuencias acumuladas. Se utiliza para representar series atemporales de frecuencia. Ejemplo Vamos a representar una ojiva de la serie correspondiente a los complementos salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y empleadas de una empresa, que aparecen reflejados en la siguiente tabla. Complementos N.º de empleados [50-60) 16 [60-70) 20 [70-80) 32 [80-90) 28 [90-100) 20 [100-110) 10 [110-120) 4 130

Polígonos de frecuencias

Un polígono de frecuencias es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X. Ejemplo Vamos a construir a partir del histograma explicado en la entrada anterior , su correspondiente polígono de frecuencias. Ejemplo de polígono de frecuencias Interpretación de un polígono de frecuencias El polígono de frecuencias resume, en una sola lín

Ejemplo de tabla de frecuencia para una variable cuantitativa continua

Cuando el estudio se refiere a una variable cuantitativa continua, como el peso, la talla, velocidad, etc., o cuando tratándose de una variable cuantitativa discreta, el número de observaciones es muy grande y la cantidad de valores diferentes que toma la variable también, se recurre a agrupar los datos en intervalos. Cada uno de estos intervalos recibe el nombre de clase. Por ejemplo: En un estudio realizado sobre la estatura de cuarenta alumnos de un curso (variable cuantitativa continua, puesto que entre dos estaturas distintas puede haber un alumno que tenga una estatura intermedia), se han obtenido los siguientes resultados en metros: 1,55 1,66 1,69 1,63 1,64  1,67 1,63 1,56 1,62 1,68 1,68 1,62 1,66 1,62 1,69  1,56 1,57 1,60 1,65 1,64 1,67 1,69 1,63 1,64 1,60  1,62 1,63 1,71 1,62 1,72 1,61 1,61 1,64 1,60 1,70  1,76 1,65 1,65 1,68 1,66 Para su estudio, se procede a la agrupación de los datos en intervalos o clases. Primero se observa cuáles son los valores