#[Resources][Recursos]#
#[Linear regression is a method of finding the linear equation that comes closest to fitting a collection of data points. For example, here is a some data showing the number of broadband home Internet subscribers per 100 %10 residents during 2008–2012.*][La regresión lineal es un método para hallar la ecuación lineal que mejor se acerce un conjunto de puntos de datos. Como un ejemplo, he aquí algunos datos que muestran el número de abonados a Internet por banda ancha fija por cada 100 residentes de %10 durante 2008–2012.*]#
#[If we plot these data, we get the following graph:][Al trazar estos datos, obtenemos la sigiuente gráfica:]#
#[Although no straight line passes exactly through these points, there are many straight lines that pass close to them. One of them is][Aunque no hay ninguna recta que pasa exactamente tras estos puntos, hay muchas rectas que pasan cerca de ellos. Una de equellas es]# $y = %11,$ #[shown here:][mostrada aquí:]#
$\qquad \color{green}{y = %11}$
%Q #[How well does the line approximate the data? ][¿Qué tan bien aproxima la recta a los datos?]#
%A #[If we use the equation of the line to calculate the $y$-coordinates, we get slightly different values, called
predicted values (for which we use the symbol $\hat{y}$) from the original observed values shown in the table.][Si usamos la ecuación de la recta para calcular las coordenadas-$y$, obtenemos valores, llamados
valores pronosticados o
predichos (para cuales usamos el símbolo $\hat{y}$) un poco distintos de los valores originales observados que se muestra en la tabla.]#
#[The better our choice of line, the closer the predicted values will be to the observed values. The difference between the predicted value and the observed value is called the
residual.][Cuanto mejor nuestra selección de recta, mas cercano estarán los valores pronosticados a los valores observados. A la diferencia entre el valor pronosticado y el valor observado llamamos el
residuo ]#
%Residual | $ = $ | %Observedvalue − %Predictedvalue |
| $ = $ | $y - \hat{y}$ |
#[On the graph, the residues measure the vertical distances between the observed data points and the line,
and they tell us how far off the linear model is in predicting the number of broadband subscribers.][En la gráfica, los residuos miden las distancias verticales entre los puntos de datos observados y la recta, y nos muestran los errores al usar el modelo lineal para pronisticar el número de abonados por banda ancha.]#
| = %Residual
%Note #[The residual is positive when the observed point is above the line, and negative when it is below the line.][El residuo es positivo cuando el punto observado está arriba de la recta, y negativo cuando está debajo de la recta.]#
#[Now fill in the residuals for the example we are working on.][A continuación, rellenar los residos para el ejemplo en lo que estamos trabajando.]#
#[As we saw above, some residues are positive and others negative. If we add up the
squares of the residues, we get a measure of how well the line fits, called the
sum of squares error.][Como vimos más arriba, algunos residuos son positivos y otros son negativos. Si sumamos los
cuadrados de los residuos, obtenemos una medida de que tan bien aproxima la recta a los datos, llamada la
suma de cuadrados del error.]#
#[Residuals, Sum of squares error (%4)][Residuos, Error de la suma de cuadrados (%4)]#
#[If we model a collection of data][Si modelamos un conjunto de datos]# $(x_1, y_1), \dots, (x_n, y_n)$ #[with a linear equation $\hat{y} = mx + b,$ then the
residuals are the $n$ quantities (Observed value − Predicted value): ][con lina ecuación lineal $\hat{y} = mx + b,$ entonces los
residuos son los $n$ cantidades (Valores observados − Valores pronosticados):]#
$(y_1 - \hat{y}_1),\ (y_2 - \hat{y}_2),\ \dots \ ,\ (y_n - \hat{y}_n)$.
#[The
sum-of-squares error (%SSE) is the sum of the squares of the residuals:][El
error de la suma de cuadrados (%SSE) es la suma de los cuadrados de los residuos:]#
%4 = $ (y_1 - \hat{y}_1)^2 + (y_2 - \hat{y}_2)^2 + ... + (y_n - \hat{y}_n)^2$.
#[The smaller %4, the more closely the line approximates the data.][Cuanto puqueño %4, mas cercano aproxima la recta a los datos.]#
%Example
#[In the example we are working on, ][En el ejemplo con que estamos trabajando, ]#
#[Consider the following observed data:][Considera los siguientos datos observados:]#
#[Assume we want to approximate the data by $y = %20.$ Calculate %SSE by completing the calculation below:][Supon que queremos aproximar los datos por $y = %20.$ Determina %SSE por completar la calculación abajo:]#
#[Following is a graph of the above data and the approximating line. You can change its slope and intercept to see the effect on %SSE.][A continuación vimos la gráfica de los datos más arriba y la recta aproximativa. Puedes cambiar su pendiente y intersección para ver el efecto en %SSE.]#
#[The line that gives the smallest possible value of %SSE is called the
regression line. (This is the line you just found above by trial and error.)][La recta que da el valor mínimo de %SSE se llaman la
recta de recresión. (Esta es la recta que acabas de hallar arriba por ensayo y error.)]#
#[Regression line][Recta de regresión]#
#[The
regression line (least squares line, best-fit line) associated with the points $(x_1, y_1),\ (x_2, y_2), \dots, (x_n, y_n)$ is the line that gives the minimum sum of squares error (%SSE).][La
recta de regresión (recta de mínimos cuadrados, recta de mejor ajuste) asociada a los puntos $(x_1, y_1),\ (x_2, y_2), \dots, (x_n, y_n)$ es la recta que da el mínimo error de la suma de cuadrados (%SSE).]#
#[In Part B (press on the sidebar) we will see formulas that enable us to calculate the regression line without having to use "trial and error" as we did above.][En Parte B (pulsa el vínculo
ubicado a la izquierda) encontraremos formulas para calcular la recta de regresión sin tener que hacerlo por "ensayo y error" como hicimos arriba.]#
Last Updated: Jaunuary, 2014
Copyright © 2013
Última actualización: enero 2014
Derechos de autor © 2014