Ir al contenido principal

Ejercicios sobre predicción

Tras la teoría, un par de ejercicios. Espero que os sean de utilidad.

Ejercicio 1

Para los empleados de cierta agencia de publicidad se ha estudiado conjuntamente la renta anual (X, en decenas de miles de euros) y el tipo de gravamen que les corresponde en el IRPF (Y, en %), obteniéndose la siguiente tabla:

X 1-1,5 1,5-2,5 2,5-4
Y


15 8 1 0
20 2 5 1
25 0 1 7
  1. A partir del modelo lineal que explica el tipo de gravamen en función de la renta anual, tenemos que estimar cuál será el tipo de gravamen a aplicar si la persona tiene una renta de 45000 euros.
  2. Estimar a partir de la función anterior la distribución de la renta disponible después de impuestos (Z).
  3. Comentar la fiabilidad de estos resultados.
Solución

1.
Tenemos que buscar en primer lugar la línea de regresión Y|X. Tras calcular las marcas de clase de la variable X y las distribuciones marginales de las dos variables en estudio, tenemos:

x = 2,1; S2x = 0,715; y = 19,8; S2y = 2,097

Resultando el modelo lineal Y = 11,077 + 4,15X. Sustituyendo x = 4,5 en el modelo anterior, obtendremos el tipo de gravamen al empleado con renta 45000 euros: y = 29,75%.

2.
Con los datos disponibles sólo podemos conocer la renta después de impuestos que correspondería a cada intervalo de renta bruta, resumido éste en la marca de clase correspondiente.

Es decir, para cada marca de clase xi estimamos el valor de Y(yti) empleando la función del apartado anterior. Con este resultado podemos estimar el dato correspondiente a la renta después de impuestos zti = xi(1 - yti)/100.

xi yti zti ni
1,25 16,26 1,05 10
2 19,38 1,61 7
3,25 24,56 2,45 8
3.
La fiabilidad de los datos anteriores dependerá de la capacidad explicativa del modelo. En este caso, se obtiene un coeficiente de determinación R2 = 72,74%, indicando que la fiabilidad de los resultados anteriores es aceptable, pero no demasiado alta.

Ejercicio 2

Para llevar a cabo un estudio sobre la incidencia de la publicidad en el valor de las ventas, se han tomado datos de 100 empresas sobre sus ventas (X, en cientos de miles de euros), y sobre la inversión en publicidad (Y, en cientos de miles de euros), obteniéndose los siguientes resultados:

Σxi = 2500; Σx2i = 75000; Σyi = 100; Σy2i = 200; Σxiyi = 3500

  1. Suponiendo un modelo lineal, ¿cuál será el valor esperado de las ventas para una empresa que gasta en publicidad dos millones de euros?
  2. Determinar la fiabilidad del resultado anterior proporcionando un margen de error para dicha predicción.
Solución

1.
El primer paso es determinar la recta que explica las ventas en función de la inversión en publicidad. Puesto que Y es la variable explicativa, habrá que obtener la recta de regresión de X sobre Y.

x = 2500/100 = 25; y = 100/100 = 1; S2y = 2 - 1 = 1; Sxy = 3500/100 - 25·1 = 10

El modelo lineal quedará: X = 15 + 10Y, y por tanto, para un valor de 20 se tiene un xi = 215. Así pues, las ventas esperadas son de 21,5 millones de euros.

2.
R2 = 0,8. Éste es un resultado próximo a 1 pero no tanto como sería deseable para afirmar que estamos ante una previsión muy fiable. 

Para proporcionar un margen de error para esta predicción emplearemos la varianza residual S2e = (1 - R2)S2y = 0,2 y en particular, Se = 0,45. 

Comentarios

Entradas populares de este blog

Ojivas

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas acumuladas se llama simplemente ojiva, y si representa los porcentajes de las frecuencias relativas acumuladas se llama ojiva porcentual. Para representar una ojiva, se marcan en el eje de abscisas los valores de la variable y en el eje de ordenadas las frecuencias acumuladas. Se utiliza para representar series atemporales de frecuencia. Ejemplo Vamos a representar una ojiva de la serie correspondiente a los complementos salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y empleadas de una empresa, que aparecen reflejados en la siguiente tabla. Complementos N.º de empleados [50-60) 16 [60-70) 20 [70-80) 32 [80-90) 28 [90-100) 20 [100-110) 10 [110-120) 4 130

Polígonos de frecuencias

Un polígono de frecuencias es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X. Ejemplo Vamos a construir a partir del histograma explicado en la entrada anterior , su correspondiente polígono de frecuencias. Ejemplo de polígono de frecuencias Interpretación de un polígono de frecuencias El polígono de frecuencias resume, en una sola lín

Ejemplo de tabla de frecuencia para una variable cuantitativa continua

Cuando el estudio se refiere a una variable cuantitativa continua, como el peso, la talla, velocidad, etc., o cuando tratándose de una variable cuantitativa discreta, el número de observaciones es muy grande y la cantidad de valores diferentes que toma la variable también, se recurre a agrupar los datos en intervalos. Cada uno de estos intervalos recibe el nombre de clase. Por ejemplo: En un estudio realizado sobre la estatura de cuarenta alumnos de un curso (variable cuantitativa continua, puesto que entre dos estaturas distintas puede haber un alumno que tenga una estatura intermedia), se han obtenido los siguientes resultados en metros: 1,55 1,66 1,69 1,63 1,64  1,67 1,63 1,56 1,62 1,68 1,68 1,62 1,66 1,62 1,69  1,56 1,57 1,60 1,65 1,64 1,67 1,69 1,63 1,64 1,60  1,62 1,63 1,71 1,62 1,72 1,61 1,61 1,64 1,60 1,70  1,76 1,65 1,65 1,68 1,66 Para su estudio, se procede a la agrupación de los datos en intervalos o clases. Primero se observa cuáles son los valores