La omnipresente media estadística - ¿Qué nos dice y qué nos oculta?
Para describir y resumir un conjunto de valores cuantitativos que miden una determinada característica, se suele recurrir casi siempre a su media. Se ha convertido en un concepto tan cotidiano que a veces ni nos preguntamos qué significa en el contexto en el que nos topamos con ella.
Para describir y resumir un conjunto de valores cuantitativos que miden una determinada característica, se suele recurrir casi siempre a su media. Se ha convertido en un concepto tan cotidiano que a veces ni nos preguntamos qué significa en el contexto concreto en el que nos topamos con ella. Demasiadas veces asumimos sin más que representa adecuadamente el conjunto de datos, olvidándonos de la complejidad que a menudo se esconde detrás de ella, lo cual en ocasiones puede llevarnos a conclusiones equivocadas.
Tendencias centrales, asimetría y cuantiles. Las características de una distribución salarial
Si consideramos por ejemplo los salarios de una gran empresa, el salario medio tiene una interpretación de lo más intuitiva, siendo aquel que tocaría a cada empleado si se repartiera la masa salarial a partes iguales entre todos ellos. ¿Pero es un valor representativo que se corresponde con lo que gana el "empleado medio" de la empresa? Pues veamos una hipotética distribución salarial. La siguiente figura muestra la función de densidad, representada por la curva azul, que nos indica para cada salario (en el eje horizontal, creciente hacia la derecha) cómo de frecuente es (en vertical). Para ser más exacto, el área entre dos valores desde el eje horizontal hasta la curva azul es proporcional al número de empleados con salarios entre estos dos valores, como por ejemplo entre los salarios A y B en el caso del área verde. El área entero entre curva y eje se corresponde por tanto con el número total de empleados.
En la figura podemos ver tanto la media como otros dos parámetros de tendencia central:
- La moda es el valor que marca el máximo de la distribución, es decir, el salario más frecuente.
- La mediana es el valor que divide el área debajo de la curva por la mitad mediante un corte vertical, de modo que la mitad gana más que la mediana y la otra mitad menos.
- La media se corresponde con el centro de gravedad de la distribución, es decir, si recortáramos el área entre el eje y la curva, sería el punto de equilibrio en el eje donde podríamos balancear el área recortada.
Conforme nos alejamos de la moda, la distribución decrece hacia ambos lados, ya que cuanto más extremos son los valores, con menor frecuencia se suelen dar. Si decae de la misma forma hacia la izquierda y hacia la derecha de modo que la distribución tiene forma de campana simétrica, moda y mediana y media coinciden todos en el eje central de la distribución. Muchas otras características cuantitativas se suelen distribuir aproximadamente de esta forma por lo que tendemos a identificar la media también con el centro de la distribución y el valor más frecuente.
Pero la distribución salarial de una gran empresa suele ser extremadamente asimétrica, con el grueso de los empleados situándose a la izquierda en los salarios modestos y una larga cola hacia la derecha, donde los salarios directivos pueden llegar hasta niveles a veces desorbitados y de la que en este gráfico solo se ve una pequeña parte (podría prolongarse muchísimo más hacia la derecha), mientras hacia la izquierda no hay lugar para una cola extendida, ya que los salarios no pueden ser negativos. Es decir, la media se ve incrementada apreciablemente por el considerable impacto sobre la masa salarial total de unos pocos directivos (interpretando la media como centro de gravedad de la distribución tal como indicamos antes, podemos decir que acorde con el principio de la palanca el peso de estos ejecutivos se ve multiplicado por su posición tan extrema en el eje). Como resultado, la media termina siendo engañosa ya quela mayoría de los empleados tiene salarios por debajo de ella, tal como muestra el área debajo de la curva a la izquierda de la media, que es bastante más grande que el área a la derecha. Si lo que buscamos es el "empleado medio", que poniendo a los empleados en fila según su salario se situaría en el centro, lo que nos interesa es la mediana, que es inferior a la media. Y la franja salarial más frecuente, identificada por la moda, es menor aún. Todo ello hay que tenerlo muy en cuenta cuando nos topamos con términos como salario medio o renta per cápita.
Para hacernos una idea más clara sobre una distribución salarial en su conjunto y especialmente sobre su dispersión pueden servir los cuantiles, como por ejemplo los deciles que el Instituto Nacional de Estadística (INE) publica para los asalariados españoles. Los divide ordenados según su salario en diez grupos de igual tamaño, cada uno formado por tanto por el 10% de los asalariados del país, e indica los umbrales salariales entre los grupos. Veamos los del año 2012, que hay que entender como estimaciones no exactas ya que se basan en una encuesta de una muestra de la población activa, además de tener en cuenta que no se diferencia según el tipo de jornada, por lo que especialmente los grupos más bajos se nutren de manera notable de trabajadores a tiempo parcial:
- 652 €/mes
- 989 €/mes
- 1.216 €/mes
- 1.401 €/mes
- 1.571 €/mes
- 1.789 €/mes
- 2.095 €/mes
- 2.528 €/mes
- 3.256 €/mes
Los deciles nos dicen que en 2012 un 10% de los asalariados ganó menos de 652 €/mes, un 10% entre 652 y 989 €/mes y así sucesivamente hasta llegar al 10% mejor pagado que ganó más de 3.256 €/mes. El quinto decil de 1.571 €/mes equivale a la ya mencionada mediana, ya que el 50% gana al menos esta cantidad y el 50% restante tiene un salario inferior. El INE publica también el salario medio, que en el 2012 fue de 1.839 €/mes, situándose como ya anticipamos por encima de la mediana e incluso por encima del sexto decil, lo que quiere decir que más del 60% y menos del 70% de los asalariados españoles, es decir, aproximadamente dos de cada tres, ganó en 2012 menos del salario medio.
Estas asimetrías, con la mayoría de los valores acumulándose hacia la izquierda en la parte baja del rango posible pero con una larga cola hacia la derecha al no haber un límite teórico máximo, no son nada raros:
- Según los datos climatológicos de la Agencia Estatal de Meteorologia (AEMET) basados en el periodo 1971-2000, más del 84% de los días en Madrid llueve menos de 1 mm o nada, pero como unos pocos días llueve mucho, la media diaria asciende a 1,2 mm.
- Que en un país como la India la mayoría de las mujeres ya tenga dos hijos o menos, es compatible con una tasa de fertilidad del país aún más cerca de tres que de dos hijos por mujer, causada por una minoría de mujeres que sigue teniendo muchos hijos.
- Si un multimillonario se empadrona en una pequeña aldea humilde, la riqueza per cápita de la aldea subiría de tal manera que superaría seguramente con creces la riqueza de cualquier habitante salvo la del mencionado multimilionario.
En casos así hay que tener en cuenta que los pocos valores altos tiran de la media de modo que se sitúa por encima de la mayoría de los valores, por lo que conviene consultar también la mediana y si es posible otros cuantiles. Si la asimetría se produce en el otro sentido, con una distribución con una larga cola hacia la izquierda pero acotado hacia la derecha, lo cual es mucho menos común, el efecto es el contrario, es decir Media Mediana Moda.
¿El calor de una sofocante tarde estival compensa las heladas de una madrugada invernal? La importancia de la dispersión
¿Pero qué sucede cuando no hay motivos que indiquen semejante asimetría? Entonces no habrá mucha diferencia entre media, mediana y moda, que nos marcarán el eje central de nuestra distribución que irá decayendo hacia ambos lados de manera parecida. Pero aun así la información que nos proporciona la media puede ser insuficiente. Por ejemplo, según los ya citados datos de la AEMET, la temperatura media anual de Madrid es de 14,6ºC, muy parecida a la de Pontevedra, que es de 14,8ºC. ¿Pero por ello podemos concluir que el clima de ambas ciudades es parecido del punto de vista térmico? Pues cualquiera que conoce ambos lugares sabe que no es así, sino que Madrid tiene unas temperaturas más extremas en ambos sentidos que Pontevedra donde el mar suaviza los cambios. Pero resulta que como las diferencias en verano (temperaturas mayores en Madrid) son opuestas a los de invierno (temperaturas menores en Madrid), en el cálculo de la temperatura media se compensan mutuamente, de modo que no se ven reflejados ni en la media ni en cualquier otro parámetro de tendencia central.
Para detectarlos necesitamos medidas de dispersión que cuantifiquen las oscilaciones alrededor de la media. Como ya vimos, nos podría servir un conjunto de cuantiles, pero hay un parámetro más compacto y especialmente indicado cuando los desvíos de la media son parecidos hacia ambos lados, que es la desviación típica, algo parecido a la desviación media de la media, sin distinguir hacia qué lado se produce dicho desvío (para ser más exacto, es la raíz cuadrada de la media de las desviaciones cuadráticas). El siguiente gráfico nos muestra dos distribuciones normales (con forma de campana de Gauss, un caso particular de nuestra campana simétrica, de gran importancia en la estadística) con la misma media (o que es lo mismo, moda y mediana), pero con diferentes desviaciones típicas, siendo la de la distribución roja (σ2) el doble de la de la distribución azul (σ1).
En una distribución normal, aproximadamente dos de cada tres valores se alejan menos de una desviación típica de la media, es decir para cada distribución del gráfico se encuentran dentro del rango marcado por las flechas del mismo color (lo cual se corresponde con el hecho de que aproximadamente dos tercios del área entre una curva y el eje se sitúa entre las dos líneas interrumpidas del mismo color). Esta regla nos puede servir como aproximación siempre que podemos asumir una campana aproximadamente simétrica, una valiosa ayuda cuando no disponemos de cuantiles. Si leyéramos por ejemplo que la estatura media de los varones españoles es de 175 cm con una desviación típica de 7 cm, podríamos deducir que aproximadamente dos de cada tres españoles mide entre 168 cm y 182 cm.
Fijarse sólo en la media de una característica cuantitativa, sin tener en cuenta la dispersión a su alrededor ni saber nada acerca de su magnitud, puede ser peligroso.
Volviendo a nuestro ejemplo, la AEMET no facilita las desviaciones típicas de las temperaturas, pero está claro que la de Madrid es superior a la de Pontevedra. Para datos climatológicos como la temperatura, buena parte de su variabilidad se explica por el ciclo diurno y el anual, por lo que en vez de medidas de dispersión generales se suele indicar para cada uno de los doce meses del año la temperatura media y las medias de las máximas y de las mínimas diurnas. Estos valores sí reflejan las diferencias entre ambas ciudades: por ejemplo, las máximas de julio de Madrid superan de media en 5,6º a las de Pontervedra y las mínimas de enero se quedan de media 3,4º por debajo (desviaciones típicas se indicarían en todo caso ya sobre estas máximas y mínimas diurnas de cada mes, siendo más pequeños ya que solo reflejan la variabilidad no cíclica).
No te confundas de media
Para terminar, nos queda por aclarar que existen varios tipos de media, siendo la más común con diferencia la media aritmética, a la que hasta ahora siempre nos hemos referido en este artículo, como es habitual cuando no se especifica expresamente de otra forma. Una generalización de la misma consiste en la media aritmética ponderada: si a partir de las tasas de mayores de 65 años, en cada estado miembro de la Unión Europea queremos calcular la tasa total de la Unión, no nos vale con la media aritmética sin más de las tasas de los estados miembros, sino tenemos que ponderar la tasa de cada país multiplicándola con su población y dividiendo la suma entre la población total de la UE.
Al margen de la media aritmética, los otros dos tipos de media habituales son los siguientes:
- Si recorremos en bicicleta 10 km cuesta arriba a una velocidad constante de 10 km/h, tardando por tanto una hora, para volver a continuación por el mismo camino cuesta abajo a una velocidad constante de 20 km/h, tardando por tanto media hora, habremos recorrido un total de 20 km en 1,5 h, lo que supone una velocidad media de unos 13,3 km/h, que es la media armónica entre las velocidades de ida y de vuelta (que es el recíproco de la media aritmética de sus recíprocos). Es inferior a la media aritmética que sería de 15 km/h y que por tanto nos daría un resultado equivocado. ¿Pero por qué nuestra velocidad media se aproxima más a la velocidad más baja de la ida que a la velocidad más alta de la vuelta? Porque mantuvimos la primera velocidad el doble de tiempo que la segunda. Podemos obtener el mismo resultado con la media aritmética, pero ponderando cada velocidad según el tiempo durante el cual la mantuvimos.
- Supongamos que una empresa incrementa su facturación en un 10% durante un año y en un 30% el año siguiente. ¿Cuál ha sido su tasa media anual de crecimiento durante estos dos años, es decir, la tasa de crecimiento anual constante que tendría que haber mantenido la facturación durante estos dos años para crecer lo mismo? Una vez más la media aritmética, un 20%, nos daría un valor demasiado elevado, ya que las tasas no se suman, sino que se trata de un efecto multiplicador: La facturación se ha multiplicado en un factor 1,1 el primer año y en un factor 1,3 el segundo y por tanto en un factor de 1,1 x 1,3 = 1,43 a lo largo de estos dos años. Eso se corresponde con un factor de crecimiento de √(1,1·1,3) ≈ 1,196 anual, que es la media geométrica de los dos factores 1,1 y 1,3 y supone una tasa media anual de crecimiento del 19,6%.
Tanto la media geométrica como la armónica son siempre más pequeñas que la aritmética, salvo que todos los valores sean iguales en cuyo caso obviamente todas las medias darían este valor único. Para ambas existe también la correspondiente media ponderada.
Este artículo se publicó originalmente en la columna del autor en el blog de sociología y actualidad Ssociólogos.