Estadística en la Segunda Guerra Mundial: cuando lo importante es lo que no se ve
Durante la Segunda Guerra Mundial las fuerzas aéreas estadounidenses buscaban formas de reducir los derribos de sus aviones militares y con ello las bajas de sus pilotos. Blindar un avión para aumentar su resistencia al fuego de los cañones antiaéreos y aviones de caza enemigos, tiene como contrapartida un incremento de su peso, lo que incide negativamente en sus prestaciones. Por ello el blindaje integro no era una solución viable, pero la cuestión era si un considerable efecto protector ya podría obtenerse solo blindando determinadas zonas de los aviones. Porque a lo mejor gran parte de los derribos se debía a impactos de proyectiles en unas zonas muy concretas.
Para intentar averiguarlo se registraba tras cada misión cuántos de los aviones de la escuadrilla habían caído y cuántos habían regresado con o sin daños. Aquellos que volvieron dañados se revisaban para determinar por cuántos proyectiles habían sido alcanzados y en qué parte del avión habían impactado. Para visualizar como se distribuían estos impactos sobre el cuerpo de los aviones, conviene marcar en un mismo avión todos los impactos observados, para obtener algo así como el siguiente gráfico, que muestra el avión desde abajo. (Estamos asumiendo aquí que todos los aviones son del mismo tipo. Si hay varios tipos involucrados cuyas formas difieren sustancialmente, puede repetirse este ejercicio para cada tipo por separado.)
La estadística al rescate
La parte posterior del fuselaje y las alas, donde más se concentran los impactos en nuestro ficticio ejemplo, pueden parecer a primera vista las candidatas obvias para el blindaje, como las zonas más castigadas por los proyectiles enemigos. Pero como veremos a continuación, el asunto es algo más complejo. Tanto es así que los militares pidieron ayuda al Grupo de Investigación Estadística, perteneciente a la agencia gubernamental que coordinaba las actividades de I+D con fines militares durante la guerra, de la que también surgió el Proyecto Manhattan para el desarrollo de la bomba atómica.
Ubicado en la Universidad de Columbia de Nueva York, el grupo contaba con algunos de los matemáticos y estadísticos más destacados del siglo XX como Frederick Mosteller, Jacob Wolfowitz, Leonard Jimmie Savage y W. Allen Wallis, su director de investigación, así como los futuros premios nobel de economía Milton Friedman y George Stigler. Pero en este contexto tenemos que destacar sobre todo a Abraham Wald, que hostigado por los nazis en Viena debido a su condición de judío se había visto forzado a emigrar a los Estados Unidos, donde pudo poner su grano de arena para derrotar a la Alemania nazi. Con la colaboración de Wolfowitz, Wallis y Friedman, desarrolló la técnica estadística del análisis secuencial, que mejoró sustancialmente el control de calidad industrial, lo cual fue de gran importancia en la guerra. También fue él quien se encargó del problema de la vulnerabilidad de los aviones en base a los mencionados datos proporcionados por las fuerzas aéreas.
El gran reto fue la ausencia de información alguna sobre los impactos de proyectiles en los aviones derribados, de los cuales no se sabía ni cuántos disparos les habían alcanzado ni dónde, una información solo extraíble de los aviones que consiguieron regresar. Es por ello que no deben sacarse conclusiones precipitadas basadas en la distribución de impactos que aparece en el gráfico, al tratarse solo de los impactos en los aviones que regresaron.
Más bien cabe preguntarse a qué se debe semejante distribución. ¿Por qué algunas zonas presentan una mucha menor densidad de impactos que otras, estando igual de expuestos al fuego enemigo? ¿Acaso los tiradores enemigos disparaban preferentemente por ejemplo a las alas más que a la zona entre las dos alas? Aparte de que no había ningún motivo para hacerlo, no parece factible tanta puntería dada la velocidad con la que se mueven los aviones.
Parece más realista asumir un fuego indiscriminado en dirección al avión o a la escuadrilla de aviones. Por tanto cabía esperar una cierta uniformidad de la distribución de los impactos, en todo caso variando según la exposición de la zona del avión a los disparos (por ejemplo menos impactos en la parte superior del avión que en la inferior, mucho más expuesta, particularmente al fuego desde tierra). Wald argumentó que la distribución esperable de los impactos podía estimarse ponderando las diferentes orientaciones con respecto al fuego enemigo, o bien mediante un simulacro de combates aéreos con inofensivos cartuchos de pintura, para registrar así – sin perdidas de aviones – todos los impactos.
Lo letal es aquello que no se observa
Una vez que se tiene claro cómo aproximadamente los disparos deberían distribuirse sobre los aviones, ¿cómo se explican las discrepancias observadas en los aviones que regresaron? La interpretación es que si en el morro o la parte entre las alas, donde se sitúan el motor y la cabina, se observan mucho menos impactos de lo que cabría esperar, es porque muchos de estos impactos no se registraron ya que muchos de los aviones alcanzados en estas zonas no regresaron. Por tanto se trata de los impactos más letales, los que en mayor medida llevan a la caída del avión. En cambio, la mayor concentración en las alas o la parte posterior del fuselaje nos indica que estos impactos permiten el regreso en mucha mayor medida.
¡La conclusión es que las zonas más vulnerables, las más indicadas para un posible blindaje, no son aquellas con más impactos registrados, sino aquellas donde se observaron menos en relación con lo que cabía esperar! Nuestras observaciones de los impactos no reflejan fielmente el fuego enemigo sobre los aviones en su conjunto, sino que están sesgados debido a la limitación a los aviones regresados que excluye a los derribados. Es más, los impactos observados son los que menos nos tienen que preocupar, porque aun permitieron el regreso. Lo que nos tenemos que preguntar sobre todo es cómo se distribuyen los impactos que no observamos, aquellos que derribaron el avión.
Wald se las ingenió para encontrar la forma de estimar las probabilidades de caer derribado en función del número de disparos recibidos, lo cual puede parecer casi un acto de magia, conociendo este dato solo para los aviones que regresaron y no para los que se perdieron. Lo resolvió de forma inductiva, partiendo de la presunción de que no hubo aviones perdidos sin impactos. Es cierto que no se podían descartar perdidas por otras causas como accidentes, pero su cuantía sería insignificante frente a los muy frecuentes derribos, dada la baja probabilidad de un accidente aéreo. (Lo trágico es que no obstante el propio Wald falleció en 1950 a los 48 años de edad en un accidente de avión conjuntamente con su mujer, camino a una conferencia en la India.)
A partir de ahí, Wald también dedujo fórmulas para distinguir la probabilidad de derribo según el tipo de proyectil y – tal como hemos descrito al menos cualitativamente – según la ubicación del impacto. En un ejemplo numérico con datos ficticios que aparece en su complejo y técnico estudio, Wald calculó un 15% de probabilidad de caída de un avión por un solo disparo recibido, pero que si se tiene en cuenta la ubicación del impacto varía entre el 39% si se trata del motor o los motores y el 2% si se trata de zonas periféricas como las alas.
Antes de generalizar, cuestiónese la forma de seleccionar
El trabajo de Wald no se publicó hasta 1980, si bien sus conclusiones fueron aplicadas por el ejército ya durante la Segunda Guerra Mundial y en conflictos posteriores. Y concretamente sus conclusiones acerca de las ubicaciones apropiadas para el blindaje han adquirido cierta notoriedad más allá de los círculos científicos, desencadenando incluso leyendas donde se mezcla la ficción con la realidad. Esta popularidad se explica en buena parte por las lecciones que pueden extraerse.
Se trata de un brillante ejemplo sobre de qué manera la generalización a partir de unas observaciones sesgadas puede distorsionar nuestra percepción de la realidad, en este caso hasta el punto de confundir las zonas más vulnerables precisamente con las menos vulnerables. Pero por ejemplo en un sondeo de opinión se suele entrevistar solo una muestra de unas cientos o miles de personas, a partir de la cual se generaliza para toda la población. ¿De qué depende entonces si son legítimas o no las generalizaciones?
La clave es como se han obtenido los datos. Un sondeo de opinión que pretende ser representativo requiere un procedimiento de muestreo diseñado para evitar sesgos. Es un factor crítico para poder asumir que conforme se incrementa el tamaño de la muestra, ésta tiende a representar cada vez mejor la población tal como nos enseña la inferencia estadística. Si se prescinde de un procedimiento así, el sondeo difícilmente puede considerarse representativo. Si la selección se lleva a cabo por ejemplo saliendo a la calle para preguntar a los transeúntes si tienen un minuto para responder unas preguntas, ya solo el lugar y la hora elegida pueden condicionar mucho el perfil de los entrevistados. Con ello el clima de opinión que refleja el sondeo puede ser completamente diferente según cuándo y dónde se realizan las entrevistas.
Siempre que no hay un procedimiento de muestreo especifico sino que se trata de meras observaciones, conviene preguntarse si la forma de observar favorece la inclusión de algunos elementos en detrimento de otros, de un modo que puede estar relacionado con las características que queremos observar. De ser así, se está ante una posible fuente de sesgo y conviene tener mucha cautela con las conclusiones generalizadoras, tal como hemos visto aquí: un avión con un impacto periférico tendrá muchas más posibilidades de regresar y entrar así en nuestra selección que un avión con dos impactos en su motor y uno en la cabina del piloto. Por tanto los aviones que regresaron tenderán a tener menos impactos y en zonas menos sensibles que los aviones derribados, dándonos una visión sesgada, excesivamente benévola en lo referente a los daños.
Cuando los fracasos nos pueden enseñar tanto o más que los éxitos
Es el ejemplo por excelencia de lo que se conoce como sesgo de supervivencia, muy común en muchos contextos diferentes. Aparece en procesos que son superados por algunos supervivientes, que son los que se observan, mientras hay otros que se quedan por el camino y que no tienen visibilidad, pero que pueden tener tanto o más relevancia que los supervivientes.
Si un médico evalúa la eficacia y la tolerabilidad de un tratamiento en base a una revisión de los pacientes al final del mismo, hay que prestar atención a pacientes que no acuden a esa revisión final e intentar averiguar las causas. Si estos casos simplemente se dejan fuera del estudio al no poder examinarles, se corre peligro de un sesgo excluyendo los pacientes en los que peores resultados dio el tratamiento, ya que muy posiblemente muchos de los abandonos se deben precisamente a que el tratamiento no ayudó al paciente o le sentó mal.
El sesgo también es conocido en el sector financiero, por ejemplo en los índices bursátiles selectivos, formados por las empresas de mayor valor bursátil de un mercado, como el IBEX 35 en el caso de España. El índice se ve lastrado por las caídas en bolsa de las compañías integradas en el mismo, pero solo hasta cierto punto: Si la bajada supone que la empresa pierde posiciones en el ranking de las más valiosas hasta salir del índice selectivo, lo que suceda con ella a partir de entonces ya no afectará al índice, aunque quiebre y pierda prácticamente todo su valor bursátil. Por tanto, la evolución de un índice selectivo en el último lustro suele ser más positiva que la evolución media ponderada de las compañías que lo formaron hace 5 años, al excluir las peores evoluciones.
También abundan los libros que explican por qué ciertas empresas prestigiosas han triunfado, como si su éxito fuera la lógica e inevitable consecuencia de una serie de cualidades y decisiones acertadas, obviando que nadie sabe cuántas otras empresas, que según estas recetas de éxito tendrían que haber triunfado igualmente, no lo hicieron, simplemente por haber tenido menos suerte. Así se transmite la (casi siempre falsa) impresión de que la aplicación de determinadas recetas es suficiente para tener altas posibilidades de éxito, subestimando la enorme influencia de factores completamente fuera de nuestro control.
O pensemos en las falsas esperanzas de muchos jóvenes de convertirse en estrellas de fútbol, de cine, de la música, de las pasarelas, etc., alimentadas por la repercusión mediática de este tipo de personajes, que contrasta con la escasa atención que recibe la gran mayoría que se intenta abrir camino en esas profesiones sin llegar a la cumbre y a la que solo le queda elegir entre abandonar su vocación o malvivir de ella.
Otro ejemplo nos lo proporcionan los edificios de varios siglos de antigüedad que podemos admirar hoy en día y que nos pueden llevar a pensar que por aquel entonces todas las ciudades eran mucho más bellas que ahora. Pero hay que tener en cuenta que esta impresión se basa solo en aquellas construcciones que tenían la calidad suficiente para perdurar durante siglos y que fueron considerados dignas de ser conservadas por las generaciones posteriores liberándose así de su derribo. Por tanto se tratará sobre todo de edificios que ya entonces eran de los más emblemáticos, mientras que del grueso de construcciones modestas de esas épocas apenas nos quedan testigos.
Algo parecido sucede con las producciones cinematográficas y musicales. La mayoría cae en el olvido rápidamente, pero unas pocas son recordadas y apreciadas hasta por las generaciones posteriores, convirtiéndose en clásicos. Por ello las películas y canciones que uno conoce de antes de su época suelen limitarse a estos memorables clásicos y excluir a los del montón, lo que igualmente puede causar una imagen idealizada de las obras de aquellos tiempos.
¿Hacia un mundo cada vez peor?
Estos dos últimos ejemplos muestran como el sesgo de supervivencia puede contribuir, conjuntamente con otros aspectos de la psicología humana, a una visión excesivamente romántica y nostálgica de unos "viejos tiempos", siempre mejores que el presente, y con ello a la tan extendida percepción de que el mundo siempre va a peor, difícilmente sostenible a la vista de los datos objetivos, pero alimentado por otro sesgo, en este caso informativo.
Resulta que recibimos cada vez más noticias, hasta de los más remotos lugares del mundo y con el foco puesto en asuntos que antes se silenciaban, y de fuentes cada vez más diversas, pudiendo convertirse en reportero cualquiera que tenga un teléfono con cámara. Y como las noticias casi siempre son malas, al haber pocos sucesos buenos que dan para una noticia, se crea la falsa impresión de que el mal sucede cada vez más, lo que igualmente contribuye a una visión excesivamente pesimista de la evolución del mundo.