Unidad 5: Estadística Descriptiva Bivariada
2025-11-24
Hemos explorado tres tipos de relaciones. A modo de resumen, este es nuestro mapa conceptual para elegir la visualización y el análisis numérico correctos:
| Tipo de Relación | Pregunta Sociológica | Herramienta Visual (ggplot2) |
Herramienta Numérica |
|---|---|---|---|
| Cat ➞ Quant | ¿Difieren los grupos? | geom_boxplot, geom_density |
Tabla de medias/medianas por grupo |
| Cat ➞ Cat | ¿Se asocian las categorías? | geom_bar(position="fill") |
Tabla de contingencia (% cond.) |
| Quant ➞ Quant | ¿Cómo covarían las variables? | geom_point (Scatterplot) |
Correlación |
Hoy, nos enfocaremos en profundidad en el último caso: la relación entre dos variables cuantitativas.
El gráfico de dispersión es nuestra herramienta visual principal para analizar la relación entre dos variables cuantitativas. Nos permite evaluar tres aspectos clave:
Un gráfico de dispersión es subjetivo. Para cuantificar la relación, necesitamos un número. El primer paso es la covarianza.
La idea es dividir el gráfico en cuatro cuadrantes usando las medias de X e Y.
La covarianza calcula el “promedio” del producto de las desviaciones de cada punto a sus respectivas medias.
\[ \operatorname{Cov}(x,y)=s_{xy} =\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) \]
pesos * años). ¡No es comparable! No nos dice si la relación es “fuerte” o “débil”.Para resolver el problema de las unidades, estandarizamos la covarianza. La dividimos por el producto de las desviaciones estándar de cada variable. El resultado es el coeficiente de correlación de Pearson (r).
\[ r=\frac{\operatorname{Cov}(x,y)}{s_x\,s_y} =\frac{1}{n-1}\sum_{i=1}^{n} \left(\frac{x_i-\bar{x}}{s_x}\right) \left(\frac{y_i-\bar{y}}{s_y}\right) \]
r es el promedio del producto de las puntuaciones Z de X e Y.r es un número sin unidades, que siempre va de -1 a +1, lo que lo hace universalmente comparable.Una correlación fuerte entre dos variables nunca es, por sí sola, evidencia suficiente para concluir que una causa la otra.
La relación podría ser una asociación espuria, causada por una tercera variable latente.
Al igual que la media y la desviación estándar, la correlación es una medida no robusta. Un solo valor atípico puede distorsionar dramáticamente el coeficiente.
Lección: Siempre inspecciona visualmente tu gráfico de dispersión para detectar outliers antes de interpretar r.
r Solo Mide Relaciones LINEALESEl coeficiente de correlación de Pearson está diseñado para medir qué tan bien se ajustan los datos a una línea recta. Si la relación es fuerte pero curvilínea, r puede ser engañosamente bajo.
Conclusión: Un r cercano a 0 no significa “ausencia de relación”. Significa “ausencia de relación lineal”. Por eso, el análisis visual es irremplazable.
En este curso hemos aprendiendo a describir los patrones que vemos en nuestros datos. Pero casi siempre, estos datos provienen de una muestra.
Esto nos deja con la pregunta muy importante en estadística y para los resultados de nuestras investigaciones:
“En nuestra muestra de la ENUT, encontramos que las mujeres dedican, en promedio, 2.1 horas más de trabajo no remunerado que los hombres. ¿Qué tan seguros podemos estar de que esta diferencia no es solo una casualidad producto del azar del muestreo? ¿Podemos generalizar o inferir que esta brecha existe en toda la población chilena?”
Responder esta pregunta no es posible usando solo estadística descriptiva.
El Problema: La incertidumbre del muestreo. Cada muestra que saquemos será ligeramente diferente, y nuestros estadísticos (media, correlación, etc.) variarán de muestra en muestra.
La Solución: La Teoría de la Probabilidad. La probabilidad es la herramienta matemática que nos permite cuantificar la incertidumbre. Nos permite decir qué tan “probable” es que un resultado observado en una muestra ocurra por pura casualidad.
El Siguiente Paso: Al combinar nuestros estadísticos descriptivos con la probabilidad, podemos hacer inferencia estadística: sacar conclusiones sobre la población a partir de la muestra, y cuantificar nuestra confianza en esas conclusiones (ej. p-valores, intervalos de confianza).
Lo que han aprendido en este curso es el fundamento indispensable para poder hacer inferencia de manera rigurosa y crítica.
Resumen de la sesión de hoy:
En el práctico de hoy:
