Enrique Bernat // Utilizar correctamente la información para la toma de decisiones. Esta es la base de una buena estadística. Cada vez más utilizamos, en nuestro día a día, soluciones de análisis de datos para muchos fines: evaluar el rendimiento de nuestra empresa, el estado de nuestra competencia, el trabajo de nuestros empleados, el rendimiento de departamentos, etc. Para ello, normalmente trabajamos con proyectos de análisis construidos con distintas herramientas existentes en el mercado (Power BI, Qlik Sense, Tableau, etc.).
Puede que seamos meros consumidores de la información o que seamos usuarios avanzados con capacidades, bien para crear nuevas soluciones de análisis, o para ampliar las que la empresa ha puesto a nuestra disposición. En cualquiera de esos dos casos tenemos que tener muy presente que, la forma en la que se presenta la información, puede hacer que ésta se auto explique o al revés, que sea difícil de interpretar. De hecho, podemos hacer que la información que se presente pueda llegar a inducir a errores de interpretación.
Como sabéis, en nuestra empresa utilizamos Power BI para crear cuadros de mando, informes, visualizaciones, etc., es decir, para presentar datos a las personas que deben analizarlos para ayudarles en sus tomas de decisiones. Es por ello por lo que tenemos que seguir algunas pautas que garanticen que la información se presenta de la forma más clara posible y sin dar pie a que se pueda malinterpretar.
Dichas pautas podemos resumirlas principalmente en tres:
- Debemos elegir el tipo de gráfico más adecuado para el tipo de datos que vamos a representar (este punto da, él solo, para un nuevo artículo).
- Añadir, siempre que sea posible, información de contexto que ayude a interpretar los datos o los gráficos de forma correcta o, por lo menos, eliminar ambigüedades.
- Tener en cuenta que se puede “mentir” con los datos (e intentar evitarlo), que es el objetivo del presente artículo.
Por tanto, nos vamos a centrar en el tercer punto. No en cómo mentir con la información, sino en intentar evitarlo, tanto a la hora de desarrollar visualizaciones que induzcan a errores, como en conocer estos errores. Todo ello con el a fin de que, como consumidores de información, tengamos más herramientas para sacar las conclusiones correctas a partir de visualizaciones desarrolladas por terceros.
El tamaño y la calidad de la muestra
Si estamos ofreciendo un porcentaje, tenemos que tener claro que la muestra en la que se basa es lo suficientemente representativa tanto en calidad como sobre todo en cantidad.
Veamos un ejemplo real de un gel reductor abdominal que ofrece un porcentaje de éxito de más de un 90% basado en una muestra de…¡¡34 personas!! Claramente es insuficiente para dar un porcentaje representativo
En este otro ejemplo real, una crema para la piel afirma que 9 de cada 10 personas lo recomiendan, pero en ningún caso aparece el tamaño de la muestra. Se limitan a decir que dicho 90% se basa en “aquellos que tuvieron a bien contestar”. En fin…
Conclusión: como consumidores de información prestemos atención a este dato (tamaño de la muestra) y si el dato lo estamos proporcionando nosotros seamos rigurosos, informemos de este dato y saquemos conclusiones con muestras adecuadas. En este caso una información de contexto correcta para acompañar a los resultados debería ser el tamaño de la muestra.
El concepto de promedio
El concepto de promedio es muy ambiguo. ¿Hablamos de la media aritmética, de la mediana, de la moda? Todas ellas son medidas de tendencia central, pero si vemos un dato etiquetado como “promedio” pensemos a que se puede referir y tengamos en cuenta lo siguiente:
Media aritmética
Se suman todos los números de un conjunto de datos y el resultado se divide por el número de elementos en el conjunto
|
Mediana
Representa el valor de la variable de posición central en un conjunto de datos ordenados |
Moda
Es el valor con una mayor frecuencia en una distribución de datos
|
Ejemplo
En una empresa somos 9 empleados que ganamos 1.000€/mes y nuestro jefe gana 5.000€/mes
Conclusión: Ganamos 1.400€/mes
|
Ejemplo
En una empresa somos 9 empleados que ganamos 1.000€/mes y nuestro jefe gana 5.000€/mes
Conclusión: Ganamos 1.000€/mes
|
Ejemplo
En una encuesta 1.000 personas dicen que votarán al PSOE y 1.001 dicen que votarán al PP.
Conclusión: La gente vota al PP |
Problema
Esta medida se ve muy afectada por valores muy altos o muy bajos dentro de la muestra. Además, es muy importante el tamaño de la muestra |
Problema
Puede “ocultar” los valores muy altos o muy bajos.
|
Problema
Se puede manipular para “enfatizar” lo que interese |
Conclusión: como consumidores de información cuando veamos un ‘promedio’ intentemos averiguar a que se refiere y conozcamos los problemas que pueda estar ocultando. Si el dato lo estamos proporcionando nosotros indiquemos claramente que tipo de medida central estamos representando.
Si estamos representado un promedio, como información de contexto sería interesante comentar el tipo de medida central utilizada y, si es posible, los datos de los que se parte.
Las pequeñas diferencias
No nos fijemos solo en las conclusiones. Miremos los datos de base para ver si esa conclusión se saca en base a diferencias insignificantes. Por ejemplo, un titular de prensa como ‘Tarragona es la provincia española en la que todo el mundo desearía vivir’. Si los datos de la encuesta son los siguientes vemos claramente que el titular es exagerado. No se aprecian grandes diferencias para poder sacar esta conclusión tan tajante:
Si no vemos los datos de partida y solo leemos el titular nos mudamos a vivir a Tarragona al día siguiente. Si los vemos y vivimos en Segovia, decidimos quedarnos en nuestra ciudad.
Conclusión: como consumidores de información comparemos, si podemos, las conclusiones con los datos de base y si somos nosotros los que estamos haciendo una presentación y mostramos conclusiones tengámoslo también en cuenta. No exageremos las pequeñas diferencias. De nuevo, como información de contexto, si podemos, deberíamos acompañar la conclusión presentada con los datos de los que partimos.
El tamaño de las imágenes
En numerosas ocasiones se muestran comparaciones en base a representar un dibujo relacionado con los datos y repetirlo tantas veces como el valor que se pretende representar o utilizar imágenes más grandes o más pequeñas para obtener el mismo efecto. Tengamos cuidado con el tamaño de las imágenes.
Veamos el siguiente ejemplo:
La segunda imagen es el doble de alta que la primera, pero también es el doble de ancha, con lo que damos la impresión, si solo nos fijamos en la imagen, que las ventas en Alemania son 4 veces más que las ventas en Italia.
Veámoslo más claro en la siguiente imagen:
Conclusión: como consumidores de información tengamos en mente lo anterior y si somos nosotros los que representamos los datos con imágenes seamos muy rigurosos en mantener tanto las sus proporciones como la distribución espacial de las mismas.
Los ejes de los gráficos
Este es uno de mis favoritos y, además, uno de los “fallos” con los que nos encontraremos con más frecuencia. Se trata de que cambiando los valores de los ejes podemos llegar a dar impresiones incorrectas. En el ejemplo partimos de una evolución temporal de las ventas desde enero de un año a diciembre del siguiente, es decir, 24 meses. Vemos que hay un incremento leve de las ventas de mes en mes.
Si lo representamos correctamente por años y meses quedaría así:
Efectivamente, en ambos gráficos se muestra un leve pero continuo incremento de las ventas a lo largo de los meses. Fijémonos en que el eje Y siempre empieza en el valor 0 (cero). Veamos que sucede si decidimos hacer zoom en la parte superior y representamos la misma información sin empezar el eje en el punto 0.
Los gráficos quedarían así:
Vaya cambio ¿no? La sensación que dan ahora los mismos datos es que las ventas han crecido no moderada sino espectacularmente en los dos últimos años
Conclusión: siempre que construyamos un gráfico de barras o de líneas empecemos los ejes por el valor (0,0). Como consumidores de información fijémonos siempre si esto es así o no.
Los porcentajes
Este es otro punto con el que podemos inducir al engaño con facilidad si no somos conscientes de como los representamos.
Veamos 3 ejemplos distintos:
Ejemplo 1. ¿porcentaje sobre qué?
Tenemos los siguientes datos:
Coste año actual 20.000.000€ | Ventas año actual 35.000.000€ | Beneficio bruto
15.000.000 € |
Podemos presentar esto en forma de porcentaje de dos maneras distintas:
Margen sobre venta:
Hemos tenido un margen de beneficio de un 42,86% |
Margen sobre coste:
Hemos tenido un margen de beneficio de un 75% |
Si sólo mostramos el porcentaje y no especificamos sobre que se calcula, las conclusiones pueden ser muy diferentes. Decir que hemos tenido un margen de un 75% es mucho más bonito, pero si no decimos nada más estamos falseando la información.
Ejemplo 2. ¿crecemos mucho o poco?
Tenemos ahora los siguientes datos:
Año 2016
La empresa ha tenido un beneficio sobre coste de un 3% |
Año 2017
La empresa ha tenido un beneficio sobre coste de un 6% |
De nuevo vamos a sacar conclusiones de dos formas distintas
Mensaje 1:
Hemos aumentado nuestro beneficio en un 3% |
Mensaje 2:
Hemos tenido un incremento de un 100% en nuestro beneficio. Lo hemos doblado |
Evidentemente, suena muchísimo mejor el segundo mensaje.
Ejemplo 3. ¿más o menos fiable?
Supongamos ahora que se ha realizado una encuesta de satisfacción de un determinado producto y nos presentan los resultados de una de las dos siguientes formas:
Mensaje 1:
Un 90% de los encuestados están muy satisfechos con el producto |
Mensaje 2:
Un 89,97% de los encuestados están muy satisfechos con el producto |
Sepamos que la utilización de decimales hace que la muestra parezca más grande y el estudio más riguroso.
Conclusión: cuando presentemos información con porcentajes indiquemos claramente sobre que están calculados y pensemos que un 100% puede no ser un buen dato.
Conclusiones
En los puntos anteriores hemos visto varios ejemplos de datos ciertos pero que según como se presenten pueden inducir a sacar conclusiones incorrectas, así como hemos visto conclusiones que, si no decimos nada más, pasan como ciertas, aunque puedan ser matizables.
Tengamos en mente estos ejemplos cuando nos presenten información de forma gráfica y si somos nosotros los que desarrollamos cuadros de mando o visualizaciones para terceros seamos lo más rigurosos posible para no mentir ni crear ambigüedades a partir de los datos que estamos presentando.
Para ello aportemos información del tamaño de la muestra, de qué medida central se ha utilizado, de sobre que hemos calculado un determinado porcentaje, representemos los gráficos empezando en 0, etc.
Al principio de este documento hacía hincapié en que el fin de un buen análisis de datos es poder utilizar correctamente la información para la toma de decisiones. Bien, pues ayudemos a tomar decisiones con las presentaciones que realicemos, pero no condicionemos las conclusiones que se puedan extraer de dichas presentaciones.
Por cierto, gran parte de los puntos anteriores están inspirados en el muy recomendable libro ‘How to Lie with Statistics’ (como mentir con estadísticas) de Darrel Huff que, como bien apunta Wikipedia es el libro de estadística más vendido de la segunda mitad del siglo XX. Por algo será.
Leave A Reply!