Unidad 4: Estadística Descriptiva Univariada
2025-11-03
data, aes, geom).ggplot2 con una herramienta clave para la comparación: el faceting.La visualización de datos no es un paso meramente técnico o decorativo al final de un análisis. En sociología, las visualizaciones más influyentes son, en sí mismas, argumentos teóricos condensados.
Tienen el poder de:
Como argumenta Mike Savage, estas “visualizaciones icónicas” no solo muestran datos, sino que proponen una nueva forma de ver el mundo social.
El Gráfico: Una simple línea del tiempo (sparkline) que muestra la participación del 1% más rico en el ingreso nacional de EE.UU. a lo largo del siglo XX.
El Argumento Visual: La forma de “U” es una poderosa narrativa. Desafía la idea modernista de un progreso lineal y constante hacia una mayor igualdad. El gráfico argumenta que, tras un período de relativa equidad a mediados de siglo, estamos “regresando” a los niveles de desigualdad de la “Gilded Age”. Hace visible “el peso de la historia” en el presente.
Savage señala que Piketty usa el tiempo para argumentar que el pasado está regresando. Bourdieu usa el espacio para argumentar que la desigualdad es más que solo económica.
En ambos casos, el gráfico no es una simple ilustración del texto. Es el núcleo de su argumento teórico.
La visualización, por tanto, es una forma de hacer sociología.
Además de ser argumentos, los gráficos son herramientas de diagnóstico cruciales. Los estadísticos resumen por sí solos pueden ser idénticos para distribuciones radicalmente diferentes.
Ejemplo: “El Trío Engañoso”
Imaginemos tres grupos de datos con los siguientes estadísticos:
| Grupo | Media | Desv. Estándar |
|---|---|---|
| A (Notas de Examen) | 75.0 | 10.0 |
| B (Estaturas en cm) | 75.0 | 10.0 |
| C (Ingresos x10,000) | 75.0 | 10.0 |
Si solo miramos los números, podríamos pensar que las tres distribuciones son similares. Pero…
La visualización revela la verdadera estructura que los números ocultaban.
Lección: La visualización es el único modo de detectar la forma, la modalidad y la presencia de outliers. Es un paso no negociable del análisis de datos.
Un buen gráfico no solo muestra datos, sino que cuenta una historia de forma clara, precisa y honesta.
Los gráficos de barras (y de áreas) SIEMPRE deben empezar en cero.
Nuestros ojos interpretan la longitud o altura de la barra como proporcional a la cantidad que representa. Truncar el eje Y exagera las diferencias y es visualmente deshonesto.
En el gráfico de la derecha, la barra C parece 3 o 4 veces más grande que la A, cuando la diferencia real es solo de un ~18%.
No todos los gráficos sirven para todo. La elección de la geometría depende del tipo de variable(s) que quieres mostrar.
ggplot2ggplot2 es un paquete de R que implementa la “Gramática de Gráficos”, una idea poderosa: en lugar de tener comandos rígidos para cada tipo de gráfico, tenemos un sistema de “bloques de construcción” que podemos combinar para crear cualquier visualización que imaginemos.
Un gráfico en ggplot2 es una superposición de capas.
Toda visualización en ggplot2 se construye a partir de tres componentes fundamentales:
Datos (data): El data.frame que contiene la información que queremos visualizar.
Mapeos Estéticos (aes): La conexión entre las variables de nuestros datos y las propiedades visuales (estéticas) del gráfico.
aes(x = edad, y = ytotcorh, color = sexo)ggplot2: “Usa la columna edad para el eje X, ytotcorh para el eje Y, y asigna un color diferente para cada valor de la variable sexo”.Geometrías (geom): El objeto geométrico que usamos para representar los datos. Es la “forma” que toma nuestra visualización.
geom_point(): para puntos.geom_bar(): para barras.geom_histogram(): para un histograma.ggplot2La sintaxis siempre sigue esta plantilla:
ggplot(data = <DATOS>, mapping = aes(<MAPEOS>)) + <GEOM_FUNCION>()
ggplot(...): Inicia el gráfico. Define la fuente de datos y los mapeos globales. Crea un lienzo en blanco con los ejes definidos, listo para recibir una geometría.+: El operador para añadir una nueva capa.geom_...(): Añade la capa de geometría que dibuja los datos en el lienzo.Paso 1: ggplot() crea el lienzo. Le decimos qué datos usar y qué variables mapear a los ejes. El resultado es un plano cartesiano vacío.
Paso 2: + geom_histogram() añade la capa que dibuja. Le decimos que represente los datos mapeados como un histograma.
Este es el punto que causa más confusión al principio, pero es fundamental.
Mapear (DENTRO de aes()):
r ... aes(color = sexo) ... Aquí, el color del punto dependerá de si el valor en la columna sexo es “Hombre” o “Mujer”.Fijar (FUERA de aes()):
r ... geom_point(color = "blue") Aquí, todos los puntos serán azules, sin importar sus otras características.Usemos el dataset mtcars para ver la diferencia de forma clara. Crearemos un gráfico de dispersión del peso (wt) vs. el rendimiento (mpg) de los autos.
Mapeando color a la variable cyl (cilindros)
Aquí, el color representa información: nos dice cuántos cilindros tiene cada auto.
El Problema: ¿Qué pasa si queremos comparar la distribución del ingreso a través de las 16 regiones de Chile? Mapear 16 colores a una estética se vuelve un caos visual.
La Solución: El Faceting (facet_wrap() o facet_grid())
Consiste en crear una grilla de gráficos más pequeños, donde cada panel muestra un subconjunto de los datos. Es una de las herramientas más poderosas de ggplot2 para el análisis exploratorio.
Ahora, usemos facet_wrap() para comparar la distribución del rendimiento (mpg) para cada tipo de cilindro (cyl). En lugar de usar colores en un solo gráfico, creamos un panel para cada categoría.
Resumen de la sesión de hoy:
ggplot2 usa una “Gramática de Gráficos” que nos permite construir visualizaciones complejas añadiendo capas (data, aes, geom).En el práctico de hoy:
ggplot2 desde cero y usar facet_wrap para análisis comparativos con la CASEN 2022.Adelanto de la Unidad 5:
