| Variable | Media | Mediana | Desv. Estándar | Asimetría | Curtosis |
|---|---|---|---|---|---|
| Edad | 43.03 | 41 | 13.27 | 0.38 | -0.59 |
| Horas Trabajadas | 37.82 | 44 | 15.79 | -0.47 | 1.72 |
| Ingreso | 897.018.71 | 611.000 | 1.043.897.45 | 14.98 | 702.66 |
Unidad 4: Estadística Descriptiva Univariada
2025-10-27
En la clase anterior, vimos que la mediana es una excelente medida de centro, especialmente para distribuciones asimétricas, porque es robusta.
Entonces, ¿por qué necesitamos otra medida de centro?
La media (x̄), o promedio aritmético, aunque es sensible a valores extremos, posee propiedades matemáticas que la convierten en la piedra angular de la estadística más avanzada (correlación, regresión, análisis de varianza).
La media representa el “centro de gravedad” de los datos: el punto de equilibrio de la distribución donde la suma de todas las desviaciones es cero.
\[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]
La principal característica de la media es que utiliza el valor de cada observación en su cálculo. Esto la hace muy informativa, pero también no robusta.
Usemos un ejemplo de ingresos (en miles de $) para demostrarlo:
Grupo Original
400, 450, 500, 550, 600
Aquí, la distribución es simétrica, y Media ≈ Mediana.
Grupo con Outlier
400, 450, 500, 550, 15000
El outlier “arrastra” la media hacia su valor.
Esta diferencia en sensibilidad nos proporciona una poderosa herramienta de diagnóstico para complementar nuestros histogramas y boxplots.
La línea de la media es ligeramente superior a la de la mediana. Esto confirma visual y numéricamente que la distribución de la edad de los ocupados tiene una leve asimetría a la derecha, debido a la presencia de una “cola” de personas de mayor edad.
Si la media es nuestro “centro de gravedad”, necesitamos una medida que nos diga qué tan lejos o cerca están los datos de este centro. La idea es encontrar la “distancia promedio” de cada observación a la media.
Paso 1: Calcular las Desviaciones
Para cada observación, calculamos su desviación (distancia) a la media: (xᵢ - x̄).
Problema: Si sumamos todas las desviaciones, el resultado siempre será cero, porque la media es el punto de equilibrio. ¡No nos sirve para promediar!
Para resolver el problema de los signos, elevamos cada desviación al cuadrado. Esto tiene dos ventajas:
La Varianza (s²) es simplemente el “promedio” de estas desviaciones al cuadrado.
\[ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1} \]
pesos², años²), lo que la hace difícil de interpretar directamente.Para volver a las unidades originales de la variable, simplemente sacamos la raíz cuadrada de la varianza.
\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}} \]
La Desviación Estándar (s) es la medida de dispersión más importante y utilizada.
Como la media, la desviación estándar es una medida no robusta y es sensible a los outliers.
Ya tenemos herramientas para medir el centro (media, mediana) y la dispersión (desviación estándar, IQR) de nuestros datos.
El último paso para una descripción completa es cuantificar la forma de la distribución. Mientras que un histograma nos da una idea visual, los estadísticos de forma nos dan un número preciso para describir dos características clave:
La asimetría mide el grado en que los datos se distribuyen de forma no simétrica con respecto a su media. Confirma numéricamente lo que diagnosticamos al comparar la media y la mediana.
La curtosis es una medida de qué tan “pesadas” son las colas de una distribución en comparación con una distribución normal. No mide si la distribución es “puntiaguda” o “plana”, sino su propensión a producir valores extremos.
| Variable | Media | Mediana | Desv. Estándar | Asimetría | Curtosis |
|---|---|---|---|---|---|
| Edad | 43.03 | 41 | 13.27 | 0.38 | -0.59 |
| Horas Trabajadas | 37.82 | 44 | 15.79 | -0.47 | 1.72 |
| Ingreso | 897.018.71 | 611.000 | 1.043.897.45 | 14.98 | 702.66 |
Imaginemos que queremos saber a quién le fue relativamente mejor en sus estudios. Tenemos dos estudiantes y sus notas en diferentes pruebas:
A primera vista, el 6.2 parece mejor que el 5.5. Pero, ¿considerando la dificultad y las notas de los demás, quién tuvo un rendimiento relativamente más destacado? No podemos comparar estas notas directamente porque provienen de pruebas con diferentes promedios y dispersiones. Necesitamos una escala común.
La puntuación Z (o valor estandarizado) recalcula el valor de una observación para expresar su posición relativa a la media y a la dispersión de su grupo.
Fórmula: \[ Z = \frac{\text{(Valor observado)} - \text{Media}}{\text{Desviación Estándar}} = \frac{x - \bar{x}}{s} \]
Interpretación Definitiva: Una puntuación Z nos dice cuántas desviaciones estándar por encima (+) o por debajo (-) de la media se encuentra una observación.
Z = 0: La observación es exactamente igual a la media.
Z = +1: La observación está una desviación estándar por encima de la media.
Z = -2: La observación está dos desviaciones estándar por debajo de la media.
Estandarizar variables es fundamental porque permite llevar distintas variables a una escala común (con media 0 y desviación estándar 1). Esto es crucial en muchas técnicas estadísticas (como la regresión o el análisis factorial) donde las variables deben tener el mismo peso o ser directamente comparables, independientemente de sus unidades o rangos originales.
Estudiante A (Prueba de Estadística)
\[ Z_{\text{A}} = \frac{5.5 - 4.0}{0.5} = \frac{1.5}{0.5} = +3.0 \]
Interpretación: La nota del Estudiante A está 3.0 desviaciones estándar por encima del promedio de su prueba. ¡Un rendimiento excepcional!
Estudiante B (Prueba de Metodología)
\[ Z_{\text{B}} = \frac{6.2 - 5.8}{0.2} = \frac{0.4}{0.2} = +2.0 \]
Interpretación: La nota del Estudiante B está 2.0 desviaciones estándar por encima del promedio de su prueba. También un muy buen rendimiento.
Conclusión: Aunque el Estudiante B obtuvo una nota más alta en valor absoluto (6.2 vs 5.5), en términos relativos (es decir, en comparación con el desempeño del resto de sus compañeros en cada prueba), al Estudiante A le fue mejor. Su nota de 5.5 es mucho más atípica y superior respecto al promedio de su grupo que la nota de 6.2 del Estudiante B respecto al suyo.
Resumen de la sesión de hoy:
En el práctico de hoy:
mean(), sd() y puntuaciones Z con la Encuesta ESI.Adelanto de la próxima clase:
ggplot2 para construir visualizaciones de alta calidad de manera sistemática.