Mala ciencia (44 page)

Read Mala ciencia Online

Authors: Ben Goldacre

Tags: #Ciencia, Ensayo

BOOK: Mala ciencia
6.67Mb size Format: txt, pdf, ePub

La tendencia al crecimiento de la potencia del cannabis es gradual, muy poco espectacular e impulsada en gran medida por la mayor disponibilidad de cannabis herbal nacional, cultivado de forma intensiva en interiores.

«Veinticinco veces más fuerte», recuerden. Escrito de forma reiterada y en primera plana.

Si tuviéramos ganas de poner peros al razonamiento moral y político del
The Independent
, así como a su evidente y desvergonzada tergiversación de los hechos, podríamos argumentar que el cultivo intensivo en interiores de una planta que crece perfectamente en exteriores es una reacción de la industria del cannabis a la ilegalidad del producto. Es peligroso importar cannabis en grandes cantidades. Es peligroso cultivarlo en un campo al aire libre. Así que tiene más sentido cultivarlo de forma intensiva en interiores, usando para ello inmuebles más caros que una finca rústica, pero produciendo una droga más concentrada. La producción de drogas más concentradas no deja de ser una consecuencia natural de su ilegalidad. No se pueden comprar hojas de coca en el distrito de Peckham, pero sí crack.

En algunas partes del mercado británico, hoy podemos encontrar cannabis excepcionalmente fuerte, sin duda, pero siempre lo ha habido. Para obtener esa cifra alarmista, el
The Independent
sólo puede haber comparado el
peor
cannabis del pasado con el
mejor
de la actualidad. Es absurdo y, además, cualquiera podría haber hecho exactamente lo mismo aplicándolo a treinta años atrás si hubiera querido: ya había cifras disponibles para los años pertinentes. Así, en 1975, el cannabis herbal analizado más débil tenía un 0,2 % de contenido en THC, mientras que en 1978, el más fuerte contenía un 12 %. Según esas cifras, en sólo un trienio, el cannabis herbal se había vuelto «60 veces más fuerte».

Y esta alarma no es ni siquiera novedosa. A mediados de la década de 1980, durante la «guerra contra las drogas» de Ronald Reagan y la campaña del «Just Say No» («Simplemente di no»), los cruzados antidroga estadounidenses ya afirmaban que el cannabis era catorce veces más fuerte en 1986 que en 1970. Y si es veinticinco veces más fuerte hoy en día que a inicios de los noventa, ¿significa eso que ahora es 350 veces más potente que en 1970?

Ni siquiera un concentrado puro de cannabis plantado en una maceta sería tan fuerte. Es algo sencillamente imposible, pues la planta tendría que tener más THC del que permite su volumen total como planta. Haría falta que la materia se condensase en forma de cannabis de plasma superdenso de quarks gluones. Por el amor de Dios, ¡ni se les ocurra insinuar siquiera a la gente del
The Independent
que algo así es posible!

La cocaína inunda los patios de los colegios

Ya estamos listos para pasar a hablar de ciertas cuestiones estadísticas de mayor enjundia, y lo haremos con otra noticia de un ámbito con indudable carga emotiva: un artículo del
The Times
de marzo de 2006 titulado «La cocaína inunda los patios de los colegios». «El consumo de la adictiva droga entre los niños se duplica en un año», decía el subtítulo. ¿Era verdad?

Si leemos la nota de prensa emitida con motivo de la encuesta del gobierno en la que se basó esa información, veremos que en ella no se informa «apenas de cambio alguno en las pautas de consumo de drogas, alcohol o tabaco desde 2000». Pero aquél era un comunicado de prensa y a los periodistas se les paga para investigar: quizá la nota oficial estuviera ocultando algo o tapando fallos del propio gobierno. El
The Telegraph
también publicó una noticia comentando que «el consumo de cocaína se duplica», y lo mismo hizo el
Mirror
. ¿Acaso fueron los periodistas quienes encontraron la noticia, enterrada entre los datos del informe gubernamental?

Pueden descargarse el documento completo en la red. Es una encuesta realizada a 9.000 niños y niñas, de edades comprendidas entre los 11 y los 15 años, en 305 escuelas. El resumen de tres páginas de dicho estudio indicaba, repito, que no se habían observado cambios en la extensión del consumo de drogas. Si leen el informe completo, verán las tablas con los datos originales: a la pregunta de si habían consumido cocaína durante el último año, un 1 % contestó que sí en 2004 y un 2 % dio una respuesta afirmativa en 2005.

Entonces, ¿tenían razón los periódicos? ¿Se había duplicado el consumo? No. Casi todas las cifras allí aportadas eran del 1 o del 2 %. Es decir, habían sido redondeadas. Los funcionarios británicos pueden ser muy útiles cuando se les llama por teléfono. Las cifras reales fueron del 1,4 % para 2004 y del 1,9 % para 2005, y no del 1 y del 2 %. Así pues, el consumo de cocaína no se había duplicado en absoluto. Pero la gente seguía teniendo ganas de defender aquella historia: fuera como fuere, había aumentado el consumo de cocaína… ¿o no?

Pues no. Lo que tenemos, según esas cifras, es un incremento del riesgo relativo de un 35,7 %, o, lo que es lo mismo, un aumento del riesgo absoluto del 0,5 %. Si usamos los números reales, vemos que de 9.000 niños y niñas, ahora son unos 45 los que responden «sí» a la pregunta «¿consumiste cocaína durante el último año?».

Cuando se nos presenta un aumento tan reducido como éste, primero tenemos que preguntarnos: ¿es estadísticamente significativo? Hice los cálculos y la respuesta es que sí, lo es, pues el valor p resultante es inferior a 0,05. ¿Qué significa «estadísticamente significativo»? No es más que un modo de expresar la probabilidad de que el resultado que se ha obtenido sea atribuible meramente a la casualidad. Cuando lanzamos una moneda perfectamente normal al aire, es posible que nos salga «cara» cinco veces seguidas, sobre todo, si continuamos lanzándola durante el tiempo suficiente para que se dé una casualidad así. Imaginemos un tarro con 980 canicas azules y 20 rojas totalmente mezcladas. Puede que alguna (aunque rara) vez, si extraemos canicas de una en una sin mirar, nos lleguen a salir tres rojas seguidas, por pura casualidad. El límite estándar para determinar la significación estadística es un valor p de 0,05, que no es más que otra manera de decir lo siguiente: «Si realizara este experimento cien veces, esperaría un resultado positivo espurio (atribuible a la mera casualidad) en un máximo de cinco ocasiones».

Volviendo a nuestro ejemplo concreto de los niños en el patio del colegio, imaginemos que no hubiera duda de que no existe diferencia interanual alguna en el consumo de cocaína, pero lleváramos a cabo la misma encuesta cien veces: podríamos obtener una diferencia como la que hemos visto anteriormente, por pura casualidad, sólo por el hecho de haber seleccionado al azar a más niños y niñas que hayan consumido cocaína últimamente. Ahora bien, sólo sería de esperar que se produjera este sesgo azaroso en menos de cinco de cada cien estudios que realizáramos.

Así pues, lo que tenemos es un incremento del riesgo del 35,7 %, que, a simple vista, parece estadísticamente significativo, pero que no es más que una cifra aislada. Este análisis de datos es una práctica engañosa que saca las cifras fuera de su contexto en el mundo real para, a continuación, decir que son significativas. Para el test estadístico de la significación, se asume que todos los puntos de datos son independientes, pero aquí los datos están «agrupados», como dicen los estadísticos. No son puntos de datos: son niños y niñas reales de 305 escuelas. Conviven, se copian unos a otros, se compran drogas entre sí; hay modas, epidemias, interacciones de grupo.

Ese aumento de 45 niños y niñas en el número de consumidores infantiles de cocaína podría deberse a una epidemia de consumo de dicha droga en un centro educativo en concreto, o a unos pocos grupos de apenas una docena de chavales en unas cuantas escuelas diferentes, o a un puñado de miniepidemias repartidas entre otros tantos centros escolares. O podrían ser 45 niños y niñas que obtienen y consumen cocaína de forma independiente y en solitario, sin sus amigos y amigas, posibilidad ésta que me resulta bastante improbable.

Esto provoca de inmediato que el incremento observado sea menos significativo desde el punto de vista estadístico. El pequeño aumento del 0,5 % era significativo simplemente porque se había apreciado en una muestra amplia de 9.000 puntos de datos (equivalente a 9.000 lanzamientos de moneda a cara o cruz), y lo que casi todo el mundo sabe sobre esta clase de estudios es que, cuanto mayor es el tamaño de la muestra, más significativos son probablemente los resultados. Pero si no son puntos de datos independientes, entonces tenemos que tratarlos —en ciertos aspectos— como si compusieran una muestra más pequeña, con lo que los resultados se vuelven menos significativos. Como dirían los estadísticos, hay que ajustar o «corregir» el error muestral por agrupamiento (
clustering
). Esto se consigue mediante una serie de ingeniosos cálculos matemáticos que dan dolor de cabeza a cualquiera. Lo que tenemos que saber es que las razones por las que debemos «corregir» los efectos del agrupamiento de datos son transparentes, obvias y sencillas, como acabamos de ver (de hecho, como ocurre con muchos instrumentos, saber cuándo usar una herramienta estadística es una habilidad diferente de la de entender cómo se construye, aunque igual de importante). Cuando corregimos el efecto del agrupamiento, la significación de los resultados se ve sensiblemente reducida. ¿Sobrevivirá siquiera a dicha corrección el incremento en consumo de cocaína anteriormente observado y que ya habíamos rebajado desde «el doble» hasta «un 35,7 %»?

Pues no. Y es que esos datos presentan un problema final: no hay muchos entre los que escoger. El informe expone docenas de puntos de datos: sobre disolventes, cigarrillos, ketamina, cannabis, etc. En la investigación científica, es práctica convencional dar únicamente por significativo un hallazgo si tiene un valor p de 0,05 o menos. Pero, como ya dijimos, un valor de 0,05 significa que por cada cien comparaciones que realicemos, un máximo de cinco serán positivas por pura casualidad. Según los datos de ese informe, podríamos haber llevado a cabo docenas de comparaciones, y algunas de ellas habrían mostrado ciertamente incrementos en el consumo… pero por pura casualidad, y la cifra referida a la cocaína podría ser una de dichas casualidades. Si efectuamos un número suficientemente elevado de tiradas con un par de dados, acabaremos obteniendo un doble seis tres veces seguidas en múltiples ocasiones. A esto es a lo que los estadísticos se refieren cuando hablan de la necesidad de «ajustar» los efectos de las comparaciones o «contrastes múltiples»: hay que corregir el hecho de que se «lancen los dados» muchas veces. Esta intervención, como la de la corrección de los efectos del agrupamiento, tiene consecuencias brutales en los datos y suele reducir espectacularmente la significación de los resultados.

La de analista de datos es una profesión peligrosa. Podríamos haber dicho —a simple vista, sin saber nada más sobre el funcionamiento de las estadísticas— que el informe gubernamental mostraba un incremento significativo del 35,7 % en el consumo de cocaína. Pero los geniecillos estadísticos que lo compilaron, conocían bien los efectos del agrupamiento y el método Bonferroni de ajuste para contrastes múltiples. No son estúpidos: se ganan la vida calculando estadísticas.

Es de suponer, pues, que ése fue el motivo por el que afirmaron muy claramente en su resumen, en su comunicado de prensa y en su informe completo, que no se apreciaban cambios entre 2004 y 2005. Pero los periodistas no quisieron creérselo. Intentaron reinterpretar los datos por su cuenta, levantaron el capó para fisgonear en el motor y creyeron haber hallado la verdadera noticia. El incremento pasó de ser de un 0,5 % (una cifra que bien podría reflejar una tendencia gradual, pero que podría responder igualmente a un hallazgo enteramente azaroso) a convertirse en una noticia de portada en el
The Times
sobre la duplicación del nivel de consumo de cocaína. Tal vez no se fíen ustedes del comunicado de prensa oficial, pero si no saben de números, se arriesgan mucho hurgando en los entresijos de un estudio para dar con una noticia.

Muy bien, volvamos a algo más fácil

Existen también formas muy sencillas de generar estadísticas ridículas, y dos de las más habituales son las consistentes en seleccionar un grupo muestral poco frecuente y en formular a sus miembros una pregunta estúpida. Supongamos que decimos que el 70 % de todas las mujeres quieren que alguien conmine al príncipe Carlos a que deje de interferir en la vida pública del país. Pero, un momento, más bien es el 70 % de todas las mujeres
que visitan mi página web
las que quieren que alguien exija al príncipe Carlos que deje de inmiscuirse en la vida pública del país. Ya ven por dónde voy, ¿no? Además, en las encuestas (y sobre todo si son voluntarias), existe un fenómeno denominado
sesgo de selección
: sólo las personas interesadas en cumplimentar el cuestionario inscribirán su voto.

Un ejemplo excelente de esto último apareció en el
The Telegraph
a finales de 2007. «Los médicos dicen “no” a los abortos en sus consultas», rezaba el titular. «Los médicos de familia amenazan con rebelarse contra los planes del gobierno que prevén permitirles realizar abortos en sus consultas, según ha podido averiguar el
The Daily Telegraph
». ¿Rebelarse? «Cuatro de cada cinco médicos de cabecera no quieren efectuar interrupciones del embarazo aun cuando ésta es una idea que está siendo ya probada en planes piloto del NHS, según ha revelado una encuesta».

¿De dónde salieron esas cifras? ¿De una encuesta sistemática a todos los facultativos de cabecera del país, en la que se puso un gran empeño en perseverar con los que aún no habían respondido a ella? ¿De llamadas telefónicas al lugar de trabajo de todos ellos? ¿De un cuestionario que se les remitió por correo, al menos? Nada de eso. Lo que originó tan importante noticia fue una votación en la red en un chat de Internet para médicos. Éstas fueron la pregunta y las correspondientes opciones de respuesta:

«Los médicos de cabecera deberían practicar abortos en sus consultas».

Estoy muy de acuerdo. Estoy de acuerdo. No lo sé. Estoy en desacuerdo. Estoy muy en desacuerdo.

Que quede claro: ni yo mismo entiendo muy bien la pregunta. ¿Es ese «deberían» un «quizá deberían» o un «deberían sin duda»? ¿Y en qué circunstancias? ¿Con formación, tiempo y dinero adicionales? ¿Con sistemas nuevos implantados en previsión de incidentes? Además, recuerden que ése es un chat al que los médicos —benditos ellos— acuden a quejarse. ¿Están diciendo que no simplemente porque ésa es su forma de refunfuñar por tener más trabajo y menos ánimo para afrontarlo?

Other books

Threshold by Robinson, Jeremy
Lost Lake by Sarah Addison Allen
Sunset Park by Paul Auster
The Thirteenth Day by Aditya Iyengar
Convalescence by Maynard Sims