Los diagramas de dispersión o de nube de puntos son una representación visual de la relación entre dos o más variables cuantitativas. Este tipo de diagrama se utilizan en visualización de datos continuamente, aunque no son de los más populares, como los gráficos de barra o los de tarta.
Si quieres crear diagramas de dispersión para tu proyecto, sea una infografía, un estudio o un ebook, estás en el lugar adecuado.
¿Qué son los diagramas de dispersión?
Un diagrama de dispersión es un gráfico que muestra la correlación positiva entre dos o más variables. Los puntos del gráfico de dispersión se denominan puntos de datos y representan una observación de cada una de las muestras.
Presta atención a este buen ejemplo de The Economist sobre cómo los beneficios de las empresas estadounidenses están cerca de máximos históricos en relación con el PIB:
Un gráfico de dispersión puede utilizarse para explorar visualmente las relaciones entre dos variables, como la altura frente al peso o el tiempo dedicado al ejercicio frente a la pérdida de peso. También es útil para identificar valores atípicos (puntos de datos que no siguen el patrón), lo que puede ayudarle a decidir si esas observaciones deben excluirse por completo de tu análisis de ambas variables.
¿Cómo utilizar los diagramas de dispersión?
Los gráficos de dispersión o de nube de puntos son una excelente forma de visualizar las relaciones entre dos variables. Pueden ayudarte a descubrir si existe una relación entre ambas y, en caso afirmativo, de qué tipo de relación se trata.
Por ejemplo. Este impagable diagrama de dispersión publicado en la revista Fortune, muestra la correlación existente entre los beneficios empresariales y el liderazgo de un solo CEO.
Como has podido comprobar, los gráficos de dispersión muestran la relación entre dos variables representándolas en un eje x y en un eje y, respectivamente. Los puntos se conectan (en ocasiones) con líneas que representan los valores de estas variables en diferentes puntos del tiempo (o del espacio).
A este tipo de gráficos se le pueden añadir leyendas y elementos de visualización de datos para dar una imagen más exacta de lo que están representando.
Los diagramas de dispersión y el coeficiente de correlación
Para entender el coeficiente de correlación, hay que saber qué significa que dos variables estén relacionadas.
La forma más sencilla sería decir que si una variable aumenta o disminuye, entonces también lo hace otra.
Por ejemplo, supongamos que te interesa medir el rendimiento de los alumnos en los cuestionarios de opción múltiple en comparación con su rendimiento en las redacciones (cuántos puntos).
Puede que descubras que existe una clara relación entre estas dos cosas: cuando los estudiantes obtienen mejores resultados en los cuestionarios, también tienden a obtener puntuaciones más altas en las pruebas de redacción.
Pero antes de que podamos calcular nuestro propio coeficiente de correlación utilizando este conjunto de datos (de x1 a xn), necesitamos algunas definiciones básicas:
- La correlación negativa o positiva mide si existe alguna asociación entre dos conjuntos de valores; si no existe ninguna asociación entre ellos, se dice que no están correlacionados.
- El coeficiente de correlación es un número entre -1 y 1, donde 0 indica que no hay asociación entre dos variables. Si existe una relación lineal fuerte entre dos variables, el coeficiente de correlación se acercará a uno; si existe una relación lineal débil, se acercará a cero. Cuantos más puntos se tracen en el gráfico de dispersión (de x1 a xn), más preciso será el coeficiente de correlación.
Ventajas de utilizar un gráfico de dispersión
A continuación, te cuento qué ventajas tiene utilizar un diagrama de dispersión.
- Los gráficos de dispersión son una herramienta útil para visualizar la relación entre dos variables. Están diseñados para mostrar como cambia una variable a medida que cambia la otra.
- Son útiles para identificar patrones en los datos. Ayuda a refinar la comprensión de los datos y a realizar predicciones. Estas predicciones pueden ayudar a uno a tomar mejores decisiones. Los gráficos de dispersión también permiten a los usuarios ver los datos de manera mas intuitiva y ponerlos en contexto.
- También son útiles para representar datos con mejor claridad y menos distorsión. Permite a los usuarios comprender mejor los datos y hacer comparaciones visuales. Los gráficos de dispersión también pueden ser útiles para detectar tendencias en los datos, lo que ayuda a uno a entender mejor el comportamiento de los datos.
- Permite ver todos los datos a la vez, por lo que no es necesario filtrar o subconjuntar el conjunto de datos antes de analizarlos.
En resumen, los gráficos de dispersión son muy útiles para comprender los datos y tomar decisiones informadas. Ofrecen una manera fácil, intuitiva y visual para ver la relación entre dos variables, descubrir patrones y encontrar tendencias.
¿Cuáles son las limitaciones de los gráficos de dispersión?
Los gráficos de dispersión son una gran herramienta para visualizar las relaciones entre dos variables. Pueden utilizarse para detectar valores atípicos, patrones, tendencias y diferencias entre grupos en la toma de datos. Sin embargo, los gráficos de dispersión también tienen algunas limitaciones que debes conocer:
No pueden utilizarse eficazmente para detectar valores atípicos o patrones porque no muestran qué puntos son inusuales en comparación con el resto del conjunto de datos.
Por ejemplo, si tenemos 100 puntos en el gráfico de dispersión y uno de ellos está muy alejado de todos los demás, no sabremos si se trata de un valor inusual (valor atípico) o simplemente de otro valor típico que se produce por casualidad al promediar muchas observaciones diferentes en un conjunto de muestras (como tirar los dados).
Puedes verlo con claridad en este gráfico publicado en el NYT sobre el gasto en 2013 de la administración Obama. ¿Los círculos más pequeños representan valores atípicos o simplemente valores típicos surgidos de promediar?
Problemas habituales al utilizar gráficos de dispersión
Los diagramas de dispersión no siempre son la mejor opción de visualización de datos. Si te encuentras con alguno de estos problemas, quizás tu gráfico ideal no sea este.
Sobreimpresión
Cuando tenemos muchos puntos de datos que representar, podemos encontrarnos con este problema. Es decir, los puntos de datos se solapan unos sobre otros de forma que resulta difícil ver las relaciones entre los puntos y las variables.
Hay algunas formas habituales de solucionar este problema de diagrama de dispersión o gráfica de dispersión. La primera es eliminar datos para que siga dando una idea general de los patrones en conjuntos de datos de completos.
También puedes cambiar la forma de los puntos, añadiendo transparencia para que los solapamientos sean visibles, o reduciendo el tamaño de los puntos para que se produzcan menos solapamientos.
Como tercera opción, podríamos incluso elegir un tipo de gráfico diferente, como el mapa de calor, en el que el color indica el número de puntos en cada casilla.
Interpretar la correlación como causalidad
No se trata tanto de un problema de creación de un gráfico de dispersión como de interpretación de esta herramienta básica de visualización de datos.
El simple hecho de observar una relación entre dos variables en un gráfico de dispersión no significa que los cambios en una variable sean responsables de los cambios en la otra.
Esto da lugar a la frase habitual en estadística de que la correlación no implica causalidad. Es posible que la relación observada esté impulsada por alguna tercera variable que afecte a las dos variables representadas, que el vínculo causal sea inverso o que el patrón sea simplemente una coincidencia.
Por ejemplo, sería erróneo observar las estadísticas de una ciudad en cuanto a la cantidad de zonas verdes de que dispone y el número de delitos cometidos y concluir que una causa la otra, ya que esto puede ignorar el hecho de que las ciudades más grandes y con más habitantes tenderán a tener más de ambas cosas.
Si es necesario establecer un vínculo causal, habrá que realizar análisis adicionales o tener en cuenta los efectos de otras posibles variables, con el fin de descartar otras posibles explicaciones.
Consejos de diseño para diagramas de dispersión
Si te has decidido por este tipo de diagramas y quieres hacer que mejore su comprensión, utiliza estos consejos.
Añadir una línea de tendencia
Cuando se utiliza un gráfico de dispersión para observar una relación predictiva o correlacional entre variables, es habitual añadir una línea de tendencia al gráfico que muestre el mejor ajuste matemático a los datos. Puede proporcionar una señal adicional sobre la solidez de la relación entre las dos variables y si hay algún punto inusual que afecte al cálculo de la línea de tendencia.
Este buen ejemplo de The Whasington Post añade una línea de tendencia para que puedas interprestar rápidamente la tendencia de la relación entre los datos.
Tercera variable categórica
Una forma normal de añadir valor a un diagrama de dispersión básico es incluir una tercera variable. Esta tercera variable puede codificarse con la forma de los puntos (como crear puntos 3d) o, lo que es más normal, con un color, como en la imagen que puedes ver a continuación.
Tercera variable numérica
Para las terceras variables que tienen valores numéricos, una codificación común consiste en cambiar el tamaño del punto. Un gráfico de dispersión con tamaño de punto basado en una tercera variable recibe en realidad un nombre distinto, el gráfico de burbujas.
En este tipo de gráficos, los puntos más grandes indican valores más altos.
Si observas bien de nuevo este gráfico, verás que se han añadido variables adicionales: el tamaño de los puntos y las líneas externas, además de una línea de ajuste que permite ver claramente la diferencia entre resultados económicos positivos y negativos.
Resaltar mediante anotaciones y color
Si deseas utilizar un diagrama de dispersión para presentar información, puede ser conveniente resaltar determinados puntos de interés mediante el uso de anotaciones y colores que muestren la correlación entre las dos variables. Desaturar los puntos sin importancia hace que destaquen los puntos restantes y proporciona una referencia con la que comparar los puntos restantes.
Conclusión sobre los diagramas de dispersión
Los gráficos de dispersión se utilizan para detectar tendencias en los datos y evaluar su causa, lo que se logra determinando si existe una relación entre dos variables, si es lineal o no, y la fuerza que puede tener esa relación.
Los gráficos de dispersión también pueden utilizarse para otros fines, como identificar valores atípicos (puntos que se encuentran lejos de la mayoría de los demás puntos). Sea como sea, son una herramienta de visualización de datos útil y sencilla que abunda en el contenido educativo e informativo. ¿Los utilizas con frecuencia o te parecen demasiado complicados?
Buen día! Excelente el post. ¿Podrías decir con qué software se realizó el ultimo grafico de burbujas? Debo hacer algo muy similar y no consigo ningún programa que pueda hacer algo tan visual y estético.
Hola Julián, me temo que no, es un diagrama sacado de un diario, supongo que se habrá hecho con algún software de diseño pero es solo una suposición.
Un saludo,