Unidad 4: Estadística Descriptiva Univariada
2025-11-03
data, aes, geom).ggplot2 para comparar distribuciones entre grupos.En sociología, las visualizaciones más influyentes son, en sí mismas, argumentos teóricos condensados. No son el paso final del análisis: son el análisis.
Pueden:
Mike Savage, en The Return of Inequality (Harvard University Press, 2021), llama a estas “visualizaciones icónicas”: proponen una nueva forma de ver el mundo social.
Savage, M. (2021). The Return of Inequality: Social Change and the Weight of the Past. Harvard University Press. https://doi.org/10.2307/j.ctv31xf633
El Gráfico: Una simple línea del tiempo (sparkline) que muestra la participación del decil superior en el ingreso nacional de EE.UU. a lo largo del siglo XX.
El Argumento Visual: La forma de “U” es una poderosa narrativa. Desafía la idea modernista de un progreso lineal y constante hacia una mayor igualdad. El gráfico argumenta que, tras un período de relativa equidad a mediados de siglo, estamos “regresando” a los niveles de desigualdad de la “Gilded Age”. Hace visible “el peso de la historia” en el presente.
Savage (2021) señala que Piketty usa el tiempo para argumentar que el pasado está regresando. Bourdieu usa el espacio para mostrar que la desigualdad es multidimensional.
En ambos casos, el gráfico es el núcleo del argumento teórico, no una ilustración de él.
Visualizar bien es hacer sociología.
Los gráficos también son herramientas de diagnóstico. Los estadísticos resumen pueden ser idénticos para distribuciones radicalmente diferentes.
Ejemplo: “El Trío Engañoso”
Imaginemos tres grupos de datos con los siguientes estadísticos:
| Grupo | Media | Desv. Estándar |
|---|---|---|
| A (Notas de Examen) | 75.0 | 10.0 |
| B (Estaturas en cm) | 75.0 | 10.0 |
| C (Ingresos x10,000) | 75.0 | 10.0 |
Si solo miramos los números, podríamos pensar que las tres distribuciones son similares. Pero…
La visualización revela la verdadera estructura que los números ocultaban.
Lección: La visualización es el único modo de detectar la forma, la modalidad y la presencia de outliers. Es un paso no negociable del análisis de datos.
Un buen gráfico cuenta una historia de forma clara, precisa y honesta.
Los gráficos de barras (y de áreas) SIEMPRE deben empezar en cero.
Nuestros ojos interpretan la longitud o altura de la barra como proporcional a la cantidad que representa. Truncar el eje Y exagera las diferencias y es visualmente deshonesto.
En el gráfico de la derecha, la barra C parece 3 o 4 veces más grande que la A, cuando la diferencia real es solo de un ~18%.
No todos los gráficos sirven para todo. La elección de la geometría depende del tipo de variable(s) que quieres mostrar.
ggplot2ggplot2 es un paquete de R que implementa la “Gramática de Gráficos”, una idea poderosa: en lugar de tener comandos rígidos para cada tipo de gráfico, tenemos un sistema de “bloques de construcción” que podemos combinar para crear cualquier visualización que imaginemos.
Un gráfico en ggplot2 es una superposición de capas.
Toda visualización en ggplot2 se construye a partir de tres componentes fundamentales:
Datos (data): El data.frame que contiene la información que queremos visualizar.
Mapeos Estéticos (aes): La conexión entre las variables de nuestros datos y las propiedades visuales (estéticas) del gráfico.
aes(x = edad, y = ytotcorh, color = sexo)ggplot2: “Usa la columna edad para el eje X, ytotcorh para el eje Y, y asigna un color diferente para cada valor de la variable sexo”.Geometrías (geom): El objeto geométrico que usamos para representar los datos. Es la “forma” que toma nuestra visualización.
geom_point(): para puntos.geom_bar(): para barras.geom_histogram(): para un histograma.ggplot2La sintaxis siempre sigue esta plantilla:
ggplot(data = <DATOS>, mapping = aes(<MAPEOS>)) + <GEOM_FUNCION>()
ggplot(...): Inicia el gráfico. Define la fuente de datos y los mapeos globales. Crea un lienzo en blanco con los ejes definidos, listo para recibir una geometría.+: El operador para añadir una nueva capa.geom_...(): Añade la capa de geometría que dibuja los datos en el lienzo.Paso 1: ggplot() crea el lienzo. Le decimos qué datos usar y qué variables mapear a los ejes. El resultado es un plano cartesiano vacío.
Paso 2: + geom_histogram() añade la capa que dibuja. Le decimos que represente los datos mapeados como un histograma.
Es la distinción que más confunde al principio, pero que define cómo funciona ggplot2.
Mapear (DENTRO de aes()):
El atributo visual depende de una variable. El gráfico usa el color (o el tamaño, etc.) para representar información.
El color de cada punto depende del valor de sexo.
Dispersión del peso (wt) vs. rendimiento (mpg) en mtcars.
Mapeando color a cyl: el color representa información.
El Problema: ¿Qué pasa si queremos comparar la distribución del ingreso a través de las 16 regiones de Chile? Mapear 16 colores a una estética se vuelve un caos visual.
La Solución: El Faceting (facet_wrap() o facet_grid())
Consiste en crear una grilla de gráficos más pequeños, donde cada panel muestra un subconjunto de los datos. Es una de las herramientas más poderosas de ggplot2 para el análisis exploratorio.
Ahora, usemos facet_wrap() para comparar la distribución del rendimiento (mpg) para cada tipo de cilindro (cyl). En lugar de usar colores en un solo gráfico, creamos un panel para cada categoría.
Resumen de la sesión de hoy:
ggplot2 usa una “Gramática de Gráficos” que nos permite construir visualizaciones complejas añadiendo capas (data, aes, geom).En el práctico de hoy:
ggplot2 desde cero y usar facet_wrap para análisis comparativos con la CASEN 2022.Adelanto de la Unidad 5:
