La recta que no explica todo: regresión lineal y lo que el error revela
- 10 may
- 5 min de lectura
Una fórmula con una confesión escondida
La regresión lineal parece una fórmula tranquila.
Una variable 𝑥, una respuesta 𝑦, una pendiente, un intercepto y una letra griega al final intentando pasar desapercibida.
Pero esa letra, 𝜀 carga el verdadero conflicto; Porque la regresión lineal no solo intenta responder:
¿Cómo cambia una variable cuando cambia otra?
También pregunta:
¿Qué parte del fenómeno podemos explicar y qué parte sigue fuera del modelo?
Ahí aparece el error.
No como vergüenza estadística, no como dato que se barre debajo de la alfombra como una señal de que la realidad siempre conserva algo que la ecuación todavía no alcanza a traducir.
El problema: los datos nunca llegaron limpios
Antes de que la regresión lineal se volviera una herramienta común en estadística, economía, actuaría, ciencia de datos o aprendizaje automático, había un problema más básico y más brutal:
Las mediciones no coincidían perfectamente.
Los astrónomos observaban cuerpos celestes, registraban posiciones y comparaban datos. Pero cada observación traía pequeñas diferencias: límites de instrumentos, condiciones de medición, variación natural, errores humanos.
La realidad no se acomodaba con la cortesía de una recta perfecta, por eso, la pregunta dejó de ser únicamente: ¿Cuál es la trayectoria correcta?
Y empezó a ser algo más fino:
¿Cómo construir una estimación razonable cuando toda medición llega con error?
Ese giro es clave. Porque ahí la matemática dejó de exigir datos perfectos y empezó a construir métodos para trabajar con datos reales.
El nacimiento: cuando el error entró al modelo
La historia moderna de la regresión lineal está profundamente ligada al método de mínimos cuadrados, publicado formalmente por Adrien-Marie Legendre en 1805 dentro de su obra sobre la determinación de órbitas de cometas. Su idea era directa: encontrar el ajuste que hiciera mínima la suma de las desviaciones cuadradas entre lo observado y lo estimado. No era una decoración algebraica; era una forma de ordenar observaciones que no encajaban de manera exacta.
Carl Friedrich Gauss también fue decisivo. Afirmó haber usado el método desde 1795 y lo publicó en 1809 dentro de su trabajo sobre el movimiento de cuerpos celestes. La historia tiene una disputa de prioridad muy conocida: Legendre publicó primero; Gauss desarrolló una justificación profunda y ayudó a consolidar el método dentro del tratamiento matemático de los errores.
Robert Adrain también aparece en esta historia por una formulación desarrollada en Estados Unidos hacia 1808, aunque su papel tuvo menor circulación y la prioridad histórica se trata con más cautela.
Más tarde, Francis Galton usó el término “regression” en 1886 al estudiar estatura hereditaria y observar la tendencia de ciertos rasgos extremos a acercarse al promedio en generaciones posteriores. Galton no inventó los mínimos cuadrados; aportó el nombre que terminaría marcando a toda una familia de modelos estadísticos. Su figura, además, debe leerse con cuidado por su vínculo histórico con la eugenesia.
El cambio: el error dejó de ser un estorbo
El golpe conceptual no fue “trazar una línea”.
Eso sería quedarse en la superficie.
El cambio profundo fue aceptar que entre una medición y un fenómeno real siempre existe una distancia.
La regresión lineal convirtió esa distancia en parte del modelo; El método de mínimos cuadrados estima parámetros minimizando la suma de las desviaciones cuadradas entre los datos observados y el modelo ajustado. Dicho sin bata blanca: busca la recta que, bajo ese criterio, se equivoca lo menos posible en conjunto.
Y esa frase tiene veneno elegante:
Equivocarse lo menos posible no es lo mismo que tener razón absoluta.
La regresión lineal no promete una verdad perfecta. Promete una aproximación razonada, medible y revisable. Ahí está su fuerza.
La letra que todos miran tarde: 𝜀
En la fórmula, 𝜀 representa el término de error: aquello que el modelo no explica directamente.
Puede incluir variación natural, error de medición, factores omitidos, una relación mal especificada o comportamientos que la variable 𝑥, no alcanza a capturar.
Por eso 𝜀 no significa simplemente: “algo salió mal”.
Significa algo mucho más serio:
Esto queda fuera de lo explicado por el modelo.
Y esa diferencia cambia la lectura completa.
Porque un buen modelo no solo debe estimar, también debe revelar sus límites.
La recta no explica el mundo: lo interroga
La regresión lineal simple estudia la relación entre una variable explicativa 𝑥 y una variable respuesta 𝑦. En su forma más básica, permite resumir cómo se comporta una respuesta frente a cambios en un predictor cuantitativo.
Pero usarla bien exige más que calcular una pendiente; Hay que preguntar:
¿La relación tiene sentido?
¿Los residuos muestran patrones?
¿La variable elegida realmente aporta explicación?
¿Estamos confundiendo correlación con una historia demasiado cómoda?
¿El modelo está simplificando con criterio o maquillando la realidad?
La regresión lineal no es peligrosa por ser simple.
Es peligrosa cuando se usa como si lo simple fuera suficiente.
La escena curiosa: un objeto perdido en el cielo
Uno de los episodios más famosos aparece con Ceres.
En 1801, Giuseppe Piazzi descubrió este cuerpo celeste, pero sus observaciones fueron interrumpidas y el objeto se volvió difícil de seguir. Con una órbita calculada por Gauss, Ceres fue recuperado el 1 de enero de 1802 por Franz von Zach.
La escena tiene algo poderoso:
Un cuerpo celeste desaparecido,datos incompletos,mediciones imperfectas y una matemática capaz de construir una ruta entre el ruido.
No es una historia sobre una recta; Es una historia sobre cómo pensar cuando la información llega incompleta.
Por qué sigue viva
La regresión lineal sigue siendo central porque enseña una disciplina que muchas veces se olvida en la era de modelos complejos: antes de pedirle a un algoritmo que prediga, hay que entender qué está explicando.
Aparece en economía, actuaría, ingeniería, epidemiología, finanzas, ciencia de datos y aprendizaje automático.
Sirve para estimar relaciones, detectar tendencias, comparar efectos, revisar residuos, construir modelos base y entender cuándo una explicación empieza a fallar.
Y quizá esa es su mayor lección: no todo lo que queda fuera del modelo es basura.
A veces, lo que queda fuera es exactamente lo que deberíamos mirar mejor.
La regresión lineal no nació para fingir que la realidad era ordenada.
Nació para trabajar con una verdad menos cómoda: medir siempre implica perder algo en el camino.
Una recta puede resumir, pero no puede contenerlo todo, puede aproximar, pero no reemplazar el criterio, puede explicar una parte, pero también debe dejarnos ver lo que no entiende.
Por eso 𝜀 no es el final de la fórmula.
Es el recordatorio de que ningún modelo debería tener permiso para parecer más seguro que la realidad que intenta describir.
Pregunta:
Cuando un modelo deja algo como “error”, ¿lo lees como ruido o como una pista de que falta una mejor pregunta?
Bibliografía
Adrien-Marie Legendre, Nouvelles méthodes pour la détermination des orbites des comètes, 1805. Archive.org
Stephen M. Stigler, “Gauss and the Invention of Least Squares”, Annals of Statistics, 1981. JSTOR
NIST/SEMATECH, e-Handbook of Statistical Methods, sección sobre mínimos cuadrados y ajuste de modelos. NIST/SEMATECH
Penn State, STAT 501, Simple Linear Regression. Penn State
Jacques Dutka, “Robert Adrain and the Method of Least Squares”, Archive for History of Exact Sciences, 1990. Springer
Francis Galton, “Regression Towards Mediocrity in Hereditary Stature”, The Journal of the Anthropological Institute of Great Britain and Ireland, 1886. JSTOR
Encyclopaedia Britannica, entrada sobre Ceres. Britannica
National Human Genome Research Institute, “Eugenics and Scientific Racism”. Fuente para contextualizar históricamente la eugenesia y evitar presentar a Galton sin matiz crítico. NHGRI


Comentarios