Ir al contenido principal

Predicción con modelos causales

Bueno, tras un paréntesis de publicar entradas, sigo donde lo dejamos. Espero que os sea útil.

La existencia de relaciones causales entre varias características proporciona un soporte adecuado para la predicción, al permitir estimar el valor de una variable a partir de la información referida a las otras. Este rasgo se manifiesta con especial intensidad cuando la función que relaciona variables es traducción de relaciones de causalidad entre ellas, situación en la que nos interesa investigar el efecto que se producirá como la actuación de una o varias causas.

Por ejemplo, respecto a la estimación de ventas de un producto determinado para el que se desconoce el dato en una provincia, se podría sugerir, como primera alternativa (acudiendo a las técnicas ya estudiadas y explicadas en este blog) asignarle a dicha provincia las ventas medias de las restantes. Sin embargo, la representatividad de la esta media será escasa, dada la gran disparidad existente en las ventas en diferentes provincias. Así, seguramente, la cifra resultaría excesiva si se tratase de una provincia con poca población y viceversa en sentido contrario. Este tipo de inconveniente nos llevaría a considerar variables causales de las ventas conocidas a nivel provincial, que podrían ser carácter demográfico (población P), económico (la renta disponible, Yd, o el gasto, que recogerían las diferencias de nivel de vida) o de otro tipo.

En el supuesto considerado, sería posible (recurriendo a las técnicas de regresión) estimar un modelo explicativo de las ventas V = f(P, Yd).

Supongamos por ejemplo, que con la información disponible el modelo estimado viene dado por:

V = -9,6 + 30P + 8Yd

donde P e Yd representan respectivamente a la población y a la renta disponible per cápita de la provincia, expresada en miles de euros y V recoge las ventas en miles de unidades mensuales. En este caso, para una provincia con un millón de habitantes y 1200 euros de renta disponible por habitante, las ventas ascenderán a 30000 ejemplares, resultado del proceso que se obtendrá sin más que sustituir los valores de P e Yd en el modelo.

Una vez que hemos efectuado esta previsión, ¿cómo podríamos responder ante una pregunta sobre su fiabilidad? En principio, podría parecer inmediato y legítimo responder que una previsión será fiable siempre que el modelo a partir del cual se ha efectuado lo sea, afirmación que conduciría a las medidas de bondad, (varianza residual y coeficiente de determinación) como garantías de nuestras previsiones.

También nos pueden surgir otros interrogantes: ¿podríamos llegar a otra predicción utilizando otras variables explicativas?, ¿se podría aumentar indefinidamente la capacidad predictiva del modelo con sólo aumentar el número de variables explicativas?, ¿qué ocurriría si se tratase de hacer previsiones a partir de los valores de las variables causales que queden fuera del rango de variación de los datos para los que se ha llevado a cabo la regresión? Este tipo de reflexiones exige un tratamiento detallado (debido a su trascendencia y al riesgo de que nos conduzcan a conclusiones erróneas).

A modo de ejemplo, si decidimos utilizar nuestro modelo de forma indiscriminada, podemos llegar a conclusiones inadecuadas, e incluso absurdas. Éste sería el caso si decidimos aplicar el modelo fuera del rango de observaciones: por ejemplo, si para una provincia con 50000 habitantes y una renta disponible de per cápita de 1000 euros, se estimarían según la ecuación anterior unas ventas negativas de -100 ejemplares, resultado que carece de sentido, como consecuencia de haber ignorado el hecho de que la estimación disponible ha sido obtenido a partir de un conjunto de provincias con población entre 100000 y 5000000 de habitantes.

La predicción aúna dos ópticas: la estimación de los parámetros del modelo considerado y la cuantificación, ya que los niveles en los que se sitúen las variables explicativas condicionarán el resultado de la predicción. Aparecerán como consecuencia varias fuentes de riesgo: la distancia que separa el modelo de la realidad, los supuestos en que se basa el método de estimación (mínimo cuadrática, en general) y la asignación de un valor numérico a la variable o variables explicativas.

Comentarios

Entradas populares de este blog

Ojivas

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas acumuladas se llama simplemente ojiva, y si representa los porcentajes de las frecuencias relativas acumuladas se llama ojiva porcentual. Para representar una ojiva, se marcan en el eje de abscisas los valores de la variable y en el eje de ordenadas las frecuencias acumuladas. Se utiliza para representar series atemporales de frecuencia. Ejemplo Vamos a representar una ojiva de la serie correspondiente a los complementos salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y empleadas de una empresa, que aparecen reflejados en la siguiente tabla. Complementos N.º de empleados [50-60) 16 [60-70) 20 [70-80) 32 [80-90) 28 [90-100) 20 [100-110) 10 [110-120) 4 130

Polígonos de frecuencias

Un polígono de frecuencias es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X. Ejemplo Vamos a construir a partir del histograma explicado en la entrada anterior , su correspondiente polígono de frecuencias. Ejemplo de polígono de frecuencias Interpretación de un polígono de frecuencias El polígono de frecuencias resume, en una sola lín

Ejemplo de tabla de frecuencia para una variable cuantitativa continua

Cuando el estudio se refiere a una variable cuantitativa continua, como el peso, la talla, velocidad, etc., o cuando tratándose de una variable cuantitativa discreta, el número de observaciones es muy grande y la cantidad de valores diferentes que toma la variable también, se recurre a agrupar los datos en intervalos. Cada uno de estos intervalos recibe el nombre de clase. Por ejemplo: En un estudio realizado sobre la estatura de cuarenta alumnos de un curso (variable cuantitativa continua, puesto que entre dos estaturas distintas puede haber un alumno que tenga una estatura intermedia), se han obtenido los siguientes resultados en metros: 1,55 1,66 1,69 1,63 1,64  1,67 1,63 1,56 1,62 1,68 1,68 1,62 1,66 1,62 1,69  1,56 1,57 1,60 1,65 1,64 1,67 1,69 1,63 1,64 1,60  1,62 1,63 1,71 1,62 1,72 1,61 1,61 1,64 1,60 1,70  1,76 1,65 1,65 1,68 1,66 Para su estudio, se procede a la agrupación de los datos en intervalos o clases. Primero se observa cuáles son los valores