Ir al contenido principal

Método de los mínimos cuadrados

Dada una variable bidimensional (X, Y) que toma valores (xi, yj) con frecuencias nij(i = 1,...,k; j = 1,...,l), la nube de puntos que representa una distribución nos permite decidir (o al menos intuir) cuál puede ser la forma de la función que ajusta esos datos. Denotaremos por f esa función que depende de n parámetros: Y = f(X, a1,..., an).

Debemos obtener, a partir de los datos, una estimación de esos parámetros de manera que la función obtenida sea la que mejor aproxime las observaciones. Así, por ejemplo, en el ejemplo del trazado de carreteras del Ministerio de fomento, el objetivo sería que las vías de comunicación estuviesen lo más próximas posibles a los distintos puntos geográficos considerados (casas, pueblos, ciudades...).

Para cada valor observado de la variable independiente X: xi podemos considerar dos valores de la variable dependiente Y, a saber:
  1. El valor observado: yj.
  2. El valor teórico yti, que se obtiene mediante la función de ajuste yit = f(xi, ai, ..., an).
La diferencia entre el valor observado y el valor teórico recibe el nombre de error o residuo, que denotaremos eij, así: eij = yj - yti, proporcionándonos el desacierto cometido al estimar el valor de la variable Y correspondiente a xi.

Parece razonable considerar como función de ajuste aquella que proporciona los errores más pequeños, puesto que buscamos la línea que mejor aproxima los datos. Por tanto, los parámetros que la caracterizan deberán ser los que minimicen los errores de ajuste.

Una primera posibilidad podría ser minimizar la suma de residuos, es decir: ∑∑eijnij. Pero siguiendo este camino surgen algunos incovenientes; por una lado, puesto que los errores pueden ser positivos o negativos, al sumarlos, pueden cancelarse unos con otros, proporcionando una idea de menor dispersión que la real.

Una alternativa a esta situación podría ser minimizar la suma de errores absolutos, es decir, ∑∑|eij|nij. De esta forma se considera únicamente la cuantía de los errores, eliminando su signo, lo cual impide la cancelación de errores opuestos. Sin embargo, este método presenta el inconveniente de que no diferencia la cuantía de los errores, es decir, no distingue el hecho de que haya muchos errores pequeños de otra situación en la que se presenten pocos errores pero grandes (además de la dificultad de aplicar el cálculo diferencial a expresiones con valores absolutos).

Una tercera posibilidad podría ser minimizar la suma de errores al cuadrado, es decir, ∑∑e2ijnij. Al elevar los errores individuales al cuadrado se elimina el signo de los residuos, no pudiendo éstos cancelarse y se penalizan aquellos que tienen mayor cuantía. Además, este sistema no presenta dificultades de cálculo y proporciona una solución única del problema. Este último método recibe el nombre de ajuste por mínimos cuadrados, puesto que consiste en considerar aquellos parámetros de la función de ajuste que minimizan la suma de errores cuadráticos.

La función a minimizar será por tanto:

E(a1,...,an) = ∑∑(yj - yti)2nij = ∑∑[yj - f(xi, a1,...,an)]2nij

Para que se cumpla la condición necesaria de extremo deben anularse las derivadas parciales respecto a cada uno de los parámetros. De esta forma, se obtiene un sistema de n ecuaciones con n incógnitas (que son los parámetros a1,..., an) que recibe el nombre de sistema de ecuaciones normales. La solución de dicho sistema es un mínimo ya que, por ser la función E parabólica, tendrá un punto extremo (máximo o mínimo), no pudiendo ser máximo por no hallarse los errores acotados.

El método de los mínimos cuadrados fue introducido por Gauss en 1795.




Comentarios

Entradas populares de este blog

Ojivas

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas acumuladas se llama simplemente ojiva, y si representa los porcentajes de las frecuencias relativas acumuladas se llama ojiva porcentual. Para representar una ojiva, se marcan en el eje de abscisas los valores de la variable y en el eje de ordenadas las frecuencias acumuladas. Se utiliza para representar series atemporales de frecuencia. Ejemplo Vamos a representar una ojiva de la serie correspondiente a los complementos salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y empleadas de una empresa, que aparecen reflejados en la siguiente tabla. Complementos N.º de empleados [50-60) 16 [60-70) 20 [70-80) 32 [80-90) 28 [90-100) 20 [100-110) 10 [110-120) 4 130

Polígonos de frecuencias

Un polígono de frecuencias es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X. Ejemplo Vamos a construir a partir del histograma explicado en la entrada anterior , su correspondiente polígono de frecuencias. Ejemplo de polígono de frecuencias Interpretación de un polígono de frecuencias El polígono de frecuencias resume, en una sola lín

Ejemplo de tabla de frecuencia para una variable cuantitativa continua

Cuando el estudio se refiere a una variable cuantitativa continua, como el peso, la talla, velocidad, etc., o cuando tratándose de una variable cuantitativa discreta, el número de observaciones es muy grande y la cantidad de valores diferentes que toma la variable también, se recurre a agrupar los datos en intervalos. Cada uno de estos intervalos recibe el nombre de clase. Por ejemplo: En un estudio realizado sobre la estatura de cuarenta alumnos de un curso (variable cuantitativa continua, puesto que entre dos estaturas distintas puede haber un alumno que tenga una estatura intermedia), se han obtenido los siguientes resultados en metros: 1,55 1,66 1,69 1,63 1,64  1,67 1,63 1,56 1,62 1,68 1,68 1,62 1,66 1,62 1,69  1,56 1,57 1,60 1,65 1,64 1,67 1,69 1,63 1,64 1,60  1,62 1,63 1,71 1,62 1,72 1,61 1,61 1,64 1,60 1,70  1,76 1,65 1,65 1,68 1,66 Para su estudio, se procede a la agrupación de los datos en intervalos o clases. Primero se observa cuáles son los valores