Sergio Morales E. archive gamedev cv [pdf]

Mala Praxis en Visualización de Datos

Recientemente un estudio de Gallup para el Wellcome Global Monitor acerca de la percepción de las personas sobre la ciencia y medicina alrededor del mundo, fue citado por usuarios de Twitter como concluyendo que un 70% de los costarricenses escogería a la religión en el caso de que esta se vea en conflicto con la ciencia. Ciertamente, el visualizador de resultados interactivo del estudio lo hace ver así:

La velocidad a la que la información puede esparcirse por redes sociales es bien conocida, de manera independiente de la veracidad de la misma, y desafortunadamente es imposible propagar una corrección de manera tan efectiva como ocurrió con la información original. En este caso en particular, los datos parecen ser confiables, el estudio es verídico y de aparente renombre, y las instituciones involucradas también. Sin embargo, en este caso ha ocurrido un problema de interpretación de resultados, a causa de una mala técnica de visualización de datos. El impacto de este caso en particular podría no ser muy grave o extenso, sin embargo no lo hace un peor caso de estudio.

Para darnos cuenta del problema, es necesario echarle un vistazo al cuestionario provisto como anexo en el sitio oficial del estudio. En él, podemos ver dos detalles importantes que hacen que la interpretación esparcida en redes sociales sea incorrecta:

La primera pregunta (si la ciencia ha sido alguna vez incompatible con las creencias del encuestado) sólo se le realizo a aquellas personas que respondieron que sí profesaban una religión (lo cual tiene mucho sentido):

De manera similarmente lógica, la pregunta de la que se deriva el segundo gráfico, sólo se le hizo a quienes respondieron de manera positiva la pregunta anterior:

Esto lleva a una cadena de porcentajes. Para el primer gráfico, no fue el 55% de los encuestados quienes contestaron que la ciencia había sido alguna vez incompatible con sus creencias, sino el 55% del porcentaje que contestó que sí profesaba una religión.

Afortunadamente, la página web de Wellcome ofrece los datasets de resumen de la encuesta, permitiéndonos conocer ese número. Revisando dicho set de datos, podemos ver que el porcentaje positivo para la pregunta acerca de si el encuestado profesa una religión es de un 90%. Adicionalmente, podemos encontrar el tamaño de la muestra para la encuesta: 1000 personas. Este es un número sencillo para convertir a porcentajes; sabemos que si hablamos de un 90% de los encuestados, nos referimos a 900 personas de la muestra. Un dato interesante también provisto acá es que las encuestas se realizaron cara a cara; sería interesante conocer la proveniencia geográfica de los datos.

Volviendo a la observación original, sabemos que puesto que la primera pregunta sólo se le hizo a quienes declararon profesar una religión, esta no se le pregunto a todas las 1000 personas encuestadas, sino a las 900 (90%) que contestaron que sí. El 55% del 90% de un total corresponde a un 49.5% de dicho total, que es el porcentaje correcto relativo al tamaño de la muestra.

Este “efecto de cadena” tiene un impacto mucho mayor para el segundo dato, acerca de si la persona elige la religión sobre la ciencia en caso de conflicto: Para haber llegado a dicha pregunta, el encuestado tiene que ser parte de ese 49.5% de la muestra calculado en el paso anterior, por lo que no es en realidad el 70% de los encuestados los que contestaron positivamente a esta pregunta, sino el 70% del 49.5% obtenido previamente. Relativo a la totalidad de la muestra esto corresponde a un 34.65%, menos de la mitad del porcentaje que parecían arrojar los resultados en el gráfico original.

Podemos entonces generar nuevos gráficos que ilustren de mejor manera esta información, con porcentajes relativos a la muestra original:

Como podemos ver, a medida de que nos adentramos dentro de la “cadena”, el impacto de la mala interpretación de las imágenes de arriba aumenta.

Este es un ejemplo efectivo de cómo la mala visualización de datos puede llevar a la derivación de conclusiones incorrectas por parte de la audiencia a la que se les presentan, degradando el valor que el estudio o proceso de análisis puede aportar al área en el que se aplica, o al entendimiento del mismo por la población en general. Tal ves quien generó la visualización, debido a su familiaridad con los datos, asumió que los supuestos descritos en el estudio eran obvios, ciertamente la secuencia de preguntas tiene lógica, pero no se puede contar con que la audiencia llegue a las mismas conclusiones.

Nota: Luego de haber escrito esto, encontré este artículo del periódico La Nación basado en el estudio, que, a pesar de ser un poco más correcto en su interpretación debido a identificar la segunda mitad de la cadena, repite el dato erroneo de “el 55% de los ticos”.

Fork me on GitHub