Ir al contenido principal

Regresión sobre variables cualitativas

Hasta el momento hemos desarrollado todo el análisis de regresión considerando únicamente caracteres cuantitativos. Con frecuencia se dispone información también sobre caracteres de naturaleza cualitativa que también tienen influencia sobre la variable dependiente y cuyo efecto debería ser tenido en cuenta. Así, por ejemplo, las ventas diarias de la cafetería situada en el litoral dependerán de que se trate de un día laborable o festivo; los salarios pueden depender de tener cierta cualificación o habilidad...

En las situaciones mencionadas, los atributos considerados tienen dos modalidades, que podríamos identificar con los valores 0 y 1 de una variable construida de forma artificial. Este tipo de variables se denominan ficticias y podrán ser incluidas en el modelo de regresión del mismo modo que cualquier otra variable numérica.

Supongamos que se desea hacer un estudio sobre los precios de los alquileres de apartamentos de una ciudad. Además de tener en cuenta variables cuantitativas como la superficie, el número de habitaciones o la antigüedad, sería interesante considerar atributos tales como los referentes a la ubicación (centro de la ciudad o extrarradio) o la tenencia de servicios públicos de calidad. A modo de ejemplo, el siguiente modelo:

P = b0 + b1H + b2U

donde P es el precio (en miles de pesetas), H el número de habitaciones y U una variable ficticia que toma el valor 1 para los apartamentos situados en el centro y 0 para el extrarradio. Si efectuamos la regresión con los datos de la tabla, obtenemos:

Precio (decenas de euros)
30
40
35
60
45
65
40
60
50
55
Número Habitaciones
2
1
2
3
2
2
3
2
4
3
Ubicación
0
1
0
1
1
1
0
1
0
1

P = 16,79 + 7,99H + 20,07U

Para analizar el significado de los coeficientes, nos fijaremos en el comportamiento del precio condicionado a cada una de las modalidades: 
  1. P/(U = 0) = b0 + b1H = 16,79 + 7,99 H
  2. P/(U = 1) = (b0 + b2) + b1H = 36,86 + 7,99 H
b1 es la tasa de cambio del precio ante variaciones en el número de habitaciones, que estamos suponiendo la misma independientemente de la ubicación del apartamento (de no ser así, deberían efectuarse dos regresiones por separado, una para los apartamentos situados en el centro y otra para el extrarradio).

Por su parte, b2 se interpreta como la diferencia sistemática existente entre los precios de los apartamentos del centro y los del extrarradio considerando un número de habitaciones fijo, y en este caso asciende a 200,7 euros.

Se pueden introducir variables ficticias con más de dos modalidades.

Comentarios

Entradas populares de este blog

Ojivas

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas acumuladas se llama simplemente ojiva, y si representa los porcentajes de las frecuencias relativas acumuladas se llama ojiva porcentual. Para representar una ojiva, se marcan en el eje de abscisas los valores de la variable y en el eje de ordenadas las frecuencias acumuladas. Se utiliza para representar series atemporales de frecuencia. Ejemplo Vamos a representar una ojiva de la serie correspondiente a los complementos salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y empleadas de una empresa, que aparecen reflejados en la siguiente tabla. Complementos N.º de empleados [50-60) 16 [60-70) 20 [70-80) 32 [80-90) 28 [90-100) 20 [100-110) 10 [110-120) 4 130

Polígonos de frecuencias

Un polígono de frecuencias es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X. Ejemplo Vamos a construir a partir del histograma explicado en la entrada anterior , su correspondiente polígono de frecuencias. Ejemplo de polígono de frecuencias Interpretación de un polígono de frecuencias El polígono de frecuencias resume, en una sola lín

Ejemplo de tabla de frecuencia para una variable cuantitativa continua

Cuando el estudio se refiere a una variable cuantitativa continua, como el peso, la talla, velocidad, etc., o cuando tratándose de una variable cuantitativa discreta, el número de observaciones es muy grande y la cantidad de valores diferentes que toma la variable también, se recurre a agrupar los datos en intervalos. Cada uno de estos intervalos recibe el nombre de clase. Por ejemplo: En un estudio realizado sobre la estatura de cuarenta alumnos de un curso (variable cuantitativa continua, puesto que entre dos estaturas distintas puede haber un alumno que tenga una estatura intermedia), se han obtenido los siguientes resultados en metros: 1,55 1,66 1,69 1,63 1,64  1,67 1,63 1,56 1,62 1,68 1,68 1,62 1,66 1,62 1,69  1,56 1,57 1,60 1,65 1,64 1,67 1,69 1,63 1,64 1,60  1,62 1,63 1,71 1,62 1,72 1,61 1,61 1,64 1,60 1,70  1,76 1,65 1,65 1,68 1,66 Para su estudio, se procede a la agrupación de los datos en intervalos o clases. Primero se observa cuáles son los valores