
Unidad 4: Estadística Descriptiva Univariada
2025-10-20
En la clase anterior, aprendimos a describir variables categóricas contando casos y mostrando porcentajes (table, count, geom_bar).
Hoy, pasamos a las variables cuantitativas (de intervalo o razón), como la edad, los ingresos o los años de escolaridad.
Con estas variables, un simple conteo no es suficiente. Necesitamos herramientas para describir su distribución: cómo se reparten los valores a lo largo de un rango numérico.
Al enfrentarnos a una variable cuantitativa, nuestro objetivo es describir tres características fundamentales de su distribución:
Además, siempre debemos estar atentos a la presencia de valores atípicos (outliers), que son observaciones que se desvían marcadamente del patrón general.
El histograma es la principal herramienta gráfica para visualizar la forma de la distribución de una variable cuantitativa.
A diferencia de un gráfico de barras, en un histograma el eje X es continuo y las barras van juntas.
Para ilustrar estos conceptos, usaremos la Encuesta Suplementaria de Ingresos (ESI) 2024 del INE. Nos centraremos en la variable ing_t_p (ingreso del trabajo principal) para los ocupados de referencia.
¿Qué es? La ESI es un módulo que se aplica anualmente (en el trimestre octubre-diciembre) a una submuestra de los hogares que participan en la Encuesta Nacional de Empleo (ENE). Es la principal fuente de datos sobre ingresos en Chile.
Objetivo Principal: Caracterizar en detalle los ingresos de las personas y los hogares, yendo mucho más allá de lo que la ENE puede capturar por sí sola. Mide:
Relevancia Sociológica: Los datos de la ESI son cruciales para analizar la desigualdad económica, la brecha salarial de género y la estructura del mercado laboral en Chile. Cuando leemos en las noticias sobre la “mediana del ingreso” en el país, esa cifra proviene de esta encuesta.
La asimetría describe si la distribución está “cargada” o tiene una cola más larga hacia un lado.
Simétrica: Las colas izquierda y derecha son un espejo aproximado. La mayoría de los casos se agrupan simétricamente alrededor del centro.
Asimétrica a la derecha (sesgo positivo): La cola derecha es mucho más larga. Indica la presencia de muchos valores bajos/medios y unos pocos valores muy altos. Ejemplo sociológico clásico: el ingreso.
Asimétrica a la izquierda (sesgo negativo): La cola izquierda es mucho más larga. Indica muchos valores altos y pocos valores muy bajos. Ejemplo: notas en un examen que resultó ser muy fácil.

La modalidad se refiere al número de picos o modas que tiene una distribución.
Unimodal: La distribución tiene un solo pico principal. Es la forma más común, indicando que hay un valor o rango de valores claramente más frecuente que los demás.
Bimodal: La distribución tiene dos picos distintos. A menudo es una señal importante de que nuestros datos provienen de dos subgrupos diferentes que no hemos separado.
Multimodal: Tiene varios picos.

Una medida estadística es robusta si no se ve afectada significativamente por la presencia de valores extremos (outliers) o por la asimetría de la distribución.
Ejemplo:
1, 2, 3, 4, 100100 es un outlier.3, ignorando la influencia desproporcionada del 100.Hoy nos centraremos en las medidas robustas, que son ideales para describir distribuciones como la del ingreso.
La mediana es el valor que se encuentra en el punto medio exacto de los datos, una vez que han sido ordenados de menor a mayor.
Ejemplo:
1, 2, **3**, 4, 100 -> La mediana es 3.1, 2, **3**, 4, 10000 -> La mediana sigue siendo 3.El outlier no afecta a la mediana. Por eso es la medida preferida para describir el “ingreso típico” en una población.
Así como la mediana divide los datos en dos mitades, los cuartiles los dividen en cuatro partes iguales.
A partir de los cuartiles, construimos la principal medida de dispersión robusta:
IQR = Q3 - Q1).Los cuartiles son solo un tipo de percentil (o cuantil), un concepto más general y flexible para describir la posición de un valor dentro de una distribución ordenada.
En sociología y políticas públicas, es muy común dividir a la población en cinco grupos de igual tamaño (20% cada uno). A estos grupos se les llama quintiles. Para definirlos, calculamos los percentiles 20, 40, 60 y 80.
Ejemplo con la ESI 2024:
| Percentil | Ingreso Límite |
|---|---|
| P20 | $400.000 |
| P40 | $548.629 |
| P60 | $750.000 |
| P80 | $1.200.000 |
Podemos usar cualquier percentil para analizar la desigualdad. Por ejemplo, el percentil 99 nos diría cuál es el ingreso del 1% más rico de la población.
El resumen de cinco números es el conjunto estándar de estadísticas robustas para describir una variable cuantitativa.
Componentes:
Este resumen se visualiza directamente a través de un diagrama de caja y bigotes o boxplot.
Apliquemos estos conceptos a nuestra variable ing_t_p (ingreso del trabajo principal) de la ESI 2024. Este es el resumen numérico estándar para describir una distribución, especialmente si es asimétrica como la del ingreso.
Componentes: Mínimo, Primer Cuartil (Q1), Mediana, Tercer Cuartil (Q3) y Máximo.
| Medida | Ingreso Mensual |
|---|---|
| Mínimo | 2.993 |
| Q1 (Percentil 25) | 461.456 |
| Mediana (Percentil 50) | 626.045 |
| Q3 (Percentil 75) | 1.009.749 |
| Máximo | 60.756.649 |
Un diagrama de caja y bigotes o boxplot es la visualización directa del resumen de cinco números y una de las herramientas más informativas de la estadística descriptiva.

Apliquemos el boxplot a la variable de ingreso de la ESI 2024. Este gráfico nos permite ver de un solo vistazo la forma, el centro, la dispersión y la enorme cantidad de outliers.
En el gráfico anterior, para poder visualizar la distribución del ingreso, aplicamos una transformación al eje: una escala logarítmica. Esta es una herramienta fundamental cuando trabajamos con variables que, como el ingreso, tienen una fuerte asimetría positiva.
¿Qué hace una Escala Logarítmica?
Una escala estándar (lineal) muestra los valores en sus unidades absolutas. La distancia entre 100.000 y 200.000 es la misma que entre 2.000.000 y 2.100.000.
Una escala logarítmica, en cambio, representa órdenes de magnitud. La distancia en el eje es la misma para cada multiplicación (usualmente x10). La distancia entre $100.000 y $1.000.000 (x10) es la misma que entre $1.000.000 y $10.000.000 (x10).
El Efecto Práctico:
Resumen de la sesión de hoy:
En el práctico de hoy:
geom_histogram, geom_boxplot, summary() y quantile().Adelanto de la próxima clase:
