| condicion_actividad | Frecuencia Absoluta (n) | Proporcion | Porcentaje |
|---|---|---|---|
| Ocupados/as | 42467 | 0.514 | 51.4 |
| Desocupados/as | 3918 | 0.047 | 4.7 |
| Fuera de la fuerza de trabajo | 36286 | 0.439 | 43.9 |
Unidad 4: Estadística Descriptiva Univariada
2025-10-13
En la Unidad 3, aprendimos a preparar y manipular nuestras bases de datos en R. Ahora que tenemos los datos limpios y ordenados, comenzamos a analizarlos.
El primer paso de cualquier análisis de datos es la estadística descriptiva univariada: las herramientas que nos permitiran resumir y describir cada variable por sí sola.
Las herramientas que usamos para describir una variable dependen fundamentalmente de su tipo. Recordemos la distinción clave:
Variables Categóricas
sexo, region, nivel_educacional.Variables Cuantitativas (o Numéricas)
edad, ingreso, años_escolaridad.Hoy, nos enfocaremos exclusivamente en las variables categóricas.
La forma más básica y fundamental de describir una variable categórica es a través de una tabla de frecuencias. Esta tabla nos muestra la distribución de la variable: qué valores toma y con qué frecuencia.
n): Es el conteo simple del número de casos u observaciones en cada categoría.Ejemplo: Distribución de la variable sexo en una muestra de 10 personas.
| Categoría (Sexo) | Frecuencia Absoluta (n) |
|---|---|
| Hombre | 4 |
| Mujer | 6 |
| Total | 10 |
Nos dice cuántos hay en cada grupo, pero es difícil de comparar si los totales son diferentes.
Para comparar la distribución de una variable entre grupos de diferentes tamaños, necesitamos estandarizar los conteos. Para esto usamos las frecuencias relativas.
Proporción = n_categoria / n_totalPorcentaje = (n_categoria / n_total) * 100| Categoría (Sexo) | Frecuencia (n) | Proporción | Porcentaje (%) |
|---|---|---|---|
| Hombre | 4 | 0.4 | 40% |
| Mujer | 6 | 0.6 | 60% |
| Total | 10 | 1.0 | 100% |
Ahora podemos decir que “el 60% de la muestra son mujeres”, una afirmación comparable con otras encuestas.
Para las variables categóricas, la única medida de tendencia central que podemos calcular es la moda.
Ejemplo: Afiliación religiosa en una muestra.
| Religión | Frecuencia |
|---|---|
| Católica | 450 |
| Evangélica | 300 |
| Ninguna | 250 |
La moda es “Católica”, ya que es la categoría con el mayor número de casos (450).
Importante: La moda es la categoría (“Católica”), no el número de casos (450).
Para aplicar estos conceptos, usaremos datos reales de la Encuesta Nacional de Empleo (ENE) del INE. Esta encuesta mide periódicamente el estado del mercado laboral en Chile y es fundamental para el diagnóstico y la creación de políticas públicas.
Nos centraremos en la variable condición de actividad (activ) para la población de 15 años y más. Esta variable categórica clasifica a las personas en tres grupos mutuamente excluyentes, que definen su relación con el trabajo remunerado:
El primer paso es construir una tabla de frecuencias para describir la distribución de esta variable. Usaremos los datos de la ENE para el trimestre móvil Junio-Julio-Agosto de 5.
| condicion_actividad | Frecuencia Absoluta (n) | Proporcion | Porcentaje |
|---|---|---|---|
| Ocupados/as | 42467 | 0.514 | 51.4 |
| Desocupados/as | 3918 | 0.047 | 4.7 |
| Fuera de la fuerza de trabajo | 36286 | 0.439 | 43.9 |
Hasta ahora, hemos contado los casos directamente de nuestra muestra (n). Sin embargo, si quisiéramos que nuestras conclusiones fueran representativas de todo Chile, usar las frecuencias absolutas o relativas directas sería un error.
El Problema: En una encuesta real y compleja como la ENE, no todas las personas tienen la misma probabilidad de ser seleccionadas y, además, no todas las personas seleccionadas aceptan responder.
Esto genera dos desafíos:
Si no corregimos esto, nuestra muestra no reflejará correctamente la estructura demográfica de Chile y nuestras estimaciones serán sesgadas.
Para resolver este problema, los equipos estadísticos calculan una variable especial llamada ponderador o factor de expansión.
Al usar el ponderador, pasamos de describir la muestra a estimar las características de la población.
fact_cal (en la ENE), fexp, pond, expr o weights. entre otros.wt dentro de la función count().# A tibble: 3 × 3
condicion_actividad Poblacion_Estimada Porcentaje
<fct> <dbl> <dbl>
1 Ocupados/as 9355097. 56.5
2 Desocupados/as 875888. 5.29
3 Fuera de la fuerza de trabajo 6312197. 38.2
Nota sobre análisis avanzado: El análisis correcto de encuestas complejas (para calcular errores estándar, intervalos de confianza, etc.) requiere paquetes especializados como survey. Este es un tema avanzado, pero por ahora, es fundamental que sepan que para obtener estimaciones poblacionales, siempre deben usar el ponderador.
Al aplicar el factor de expansión, nuestra tabla ya no describe la muestra, sino que estima la distribución para toda la población de 15 años y más en Chile. Estos porcentajes son los que coinciden con las cifras oficiales publicadas por el INE.
| Condición de Actividad | Población Estimada (n) | Porcentaje (%) |
|---|---|---|
| Ocupados/as | 9355097 | 56.5 |
| Desocupados/as | 875888 | 5.3 |
| Fuera de la fuerza de trabajo | 6312197 | 38.2 |
Interpretación: Ahora podemos afirmar con propiedad que, para el trimestre Junio-Julio-Agosto de 2025, se estima que un 56.5% de la población de 15 años y más se encontraba ocupada, un 5.3% desocupada, y un 38.2% fuera de la fuerza de trabajo.
Una tasa es un tipo especial de frecuencia relativa que se usa para comparar la ocurrencia de un evento entre poblaciones de diferentes tamaños.
Tasa = (N° de eventos / Población total en riesgo) * kEjemplo: Tasa de homicidios.
¿Dónde es más “violento”?
(10 / 50.000) * 100.000 = 20 homicidios por cada 100.000 habitantes.(20 / 500.000) * 100.000 = 4 homicidios por cada 100.000 habitantes.Conclusión: Aunque la Comuna B tuvo más homicidios en términos absolutos, la Comuna A tiene una tasa de homicidios 5 veces mayor. Las tasas nos permiten hacer comparaciones justas.
Para ilustrar el poder de las tasas en el análisis sociológico, examinaremos uno de los cambios demográficos más profundos del Chile contemporáneo: la drástica caída de la natalidad. Para ello, usaremos dos indicadores clave.
El siguiente gráfico visualiza la evolución de ambos indicadores. La línea roja punteada marca la tasa de reemplazo poblacional de 2,1 hijos por mujer.
La socióloga Martina Yopo, experta en género y reproducción, ofrece un diagnóstico complejo que va más allá de las decisiones individuales.
“Mucha gente piensa que no hay futuro para hacer familia en Chile” — Martina Yopo
Algunas claves del fenómeno:
Las tablas de frecuencia son precisas, pero no siempre son la forma más rápida de comunicar un patrón. Nuestro cerebro procesa la información visual de manera mucho más eficiente.
El gráfico de barras es la forma más clara y efectiva de visualizar la distribución de una variable categórica.
Este gráfico es un buen primer paso. Nos permite ver de un vistazo que la categoría “Ocupado” es la moda. Sin embargo, el orden de las categorías es alfabético, lo que no es ideal para la comparación, y las frecuencias absolutas son difíciles de interpretar sin el total.
Para que un gráfico de barras sea una herramienta de análisis poderosa y honesta, debe seguir algunas reglas:
Ahora, apliquemos todas estas reglas para crear un gráfico final de calidad de publicación.
Aunque son muy populares, los gráficos de torta son desaconsejados por la mayoría de los expertos en visualización de datos.
El Problema: Nuestro cerebro es muy malo para comparar ángulos y áreas, pero es muy bueno para comparar longitudes en una escala común (como las alturas de las barras).
Pregunta: En el gráfico de torta, ¿es fácil ver qué tan grande es la categoría “Desocupado” en comparación con “Fuera de la fuerza de trabajo”? En el gráfico de barras, la comparación es instantánea.
Regla General: Usa un gráfico de barras para comparar categorías. Reserva los gráficos de torta solo si tienes 2 o 3 categorías y quieres enfatizar la composición de un todo.
Resumen de la sesión de hoy:
En el práctico de hoy:
dplyr::count() para crear tablas de frecuencia y ggplot2::geom_bar() para crear sus primeros gráficos de barras, poniendo en práctica las buenas prácticas de visualización.Adelanto de la próxima clase:
