Un clásico en probabilidad. El teorema de Bayes

Supongamos que nos dan el siguiente problema:

Nos hacen una prueba para averiguar si padecemos una grave enfermedad que afecta a una de cada \(200\) personas. El análisis tiene el \(98\,\%\) de fiabilidad, esto es, falla el \(2\,\%\) de las veces. Damos positivo. ¿Debemos asustarnos?

Llamemos \(A\) al suceso “estar sano o, equivalentemente, no padecer la enfermedad” y \(B\) al suceso “estar enfermo o, lo que es lo mismo, padecer la enfermedad”. Entonces las probabilidades de estar sano y de no estarlo son, respectivamente:

\[P(A)=\frac{199}{200}=0,995\quad\text{;}\quad P(B)=\frac{1}{200}=0,005\]

Obsérvese que el suceso \(B\) es el contrario de \(A\) y que las probabilidades de ambos suman \(1\).

Llamemos ahora “\(+\)” al suceso “el resultado del análisis es positivo: se padece la enfermedad” y “\(–\)” al suceso “el resultado del análisis es negativo: no se padece la enfermedad”. Entonces, teniendo en cuenta la hipótesis de fiabilidad del análisis, del \(98\,\%\) , podemos deducir las siguientes probabilidades:

\[P(+|A)=0,02\quad\text{;}\quad P(+|B)=0,98\]

\[P(-|A)=0,98\quad\text{;}\quad P(-|B)=0,02\]

Hemos denotado por \(+|A\), \(+|B\), \(–|A\) y \(–|B\) , respectivamente, a los siguientes sucesos:

  • Resultado positivo en individuo sano.
  • Resultado positivo en individuo enfermo.
  • Resultado negativo en individuo sano.
  • Resultado negativo en individuo enfermo.

Las anteriores son las llamadas probabilidades condicionadas. Por ejemplo \(P(+|B)\) significa “probabilidad de que el resultado del análisis sea positivo sabiendo que, o condicionado por que el individuo padezca la enfermedad”.

Estas probabilidades condicionadas son probabilidades a priori pues de la causa, es decir, de saber que en un paciente se está desarrollando la enfermedad o de que no es así, la experiencia al repetir sucesivos análisis, nos lleva al efecto: resultado positivo o negativo. Así es como se conoce la fiabilidad del test. El análisis se ha probado en muchos individuos sanos y en otros muchos enfermos.

Otra cosa es preguntarnos por la probabilidad del siguiente suceso: “que el resultado del análisis sea positivo, o sea, se padece la enfermedad y que el individuo esté sano”. Obsérvese que he puesto la conjunción copulativa “y” en cursiva. En probabilidad (y en otras muchas partes de las matemáticas) la conjunción “y” se escribe con el símbolo \(\cap\) (intersección). Entonces la probabilidad por la que nos preguntamos la escribiremos así: \(P(+\cap A)\). Que, por cierto, es la misma que \(P(A\cap+)\). O sea, que la intersección es conmutativa. En teoría de conjuntos la intersección es la parte común a dos conjuntos \(X\) e \(Y\):

Antes de continuar observemos el siguiente diagrama en forma de árbol:

En la primera ramificación se encuentran las probabilidades de estar sano o enfermo. En la siguiente ramificación están las cuatro probabilidades condicionadas a priori ya mencionadas. Encima de cada rama se sitúa la probabilidad del suceso correspondiente. Obsérvese también que, recorriendo el árbol desde su origen, y de izquierda a derecha tenemos cuatro posibles rutas: \(A+\), \(A–\), \(B+\), \(B–\).

Recordemos que nuestra pregunta era hallar la probabilidad de que “el resultado del análisis sea positivo y que el individuo esté sano”. Basta coger la ruta donde se encuentren los dos sucesos y multiplicar las probabilidades correspondientes. Así:

\[P(A\cap+)=0,995\cdot0,02=0,0199\]

Análogamente podemos hacer las otras tres rutas y calcular las demás probabilidades. Por ejemplo, la probabilidad de “estar enfermo y que el resultado sea positivo”:

\[P(B\cap+)=0,005\cdot0,98=0,0049\]

Parece extraño. Esto quiere decir que \(0,98\) personas de cada \(200\) padecen la enfermedad y da positivo cuando se realiza el test. Así es. Primero hay que estar enfermo, uno de cada doscientos, y luego dar positivo, o sea, el \(98\,\%\). No hay que confundir pues la probabilidad de la intersección \(B\cap+\), con la probabilidad condicionada \(+|B\).

Es bueno darse cuenta de que podemos extraer de aquí una fórmula general. Obsérvese que, realmente, las dos probabilidades de la intersección se han calculado así:

\[P(A\cap+)=P(+|A)\cdot P(A)=0,995\cdot0,02=0,0199\]

\[P(B\cap+)=P(+|B)\cdot P(B)=0,005\cdot0,98=0,0049\]

De aquí se puede deducir en general que, si \(X\) e \(Y\), son dos sucesos cualesquiera:

\[P(X\cap Y)=P(X|Y)\cdot P(Y)\]

Y de aquí se deduce que:

\[P(X|Y)=\frac{P(X\cap Y)}{P(Y)}\]

Expresión que relaciona la probabilidad de un suceso condicionada por otro, con la probabilidad de la intersección de ambos.

Ahora también puedo calcular la probabilidad de dar positivo sin saber si padezco o no la enfermedad. Así, sin más. Esto es porque el suceso “dar positivo” es la unión de los sucesos “no padecer la enfermedad y dar positivo” (\(A\cap+\)) por un lado, y “padecer la enfermedad y dar positivo” (\(B\cap+\)), por otro. La unión de sucesos se traduce con la conjunción disyuntiva “o” y se denota con el símbolo \(\cup\). Si dos sucesos no tienen nada en común, es decir, si su intersección es vacía, la probabilidad de su unión se calcula sumando las probabilidades de cada uno de ellos por separado. Esto es natural y se da por hecho. Así pues la probabilidad de dar positivo es:

\[P(+)=P(+\cap A)+P(+\cap B)=0,0199+0,0049=0,0248\]

Esto quiere decir que si me presento el día menos pensado a que me hagan la prueba, así porque sí, hay casi un 2,5 % de posibilidades de que dé positivo. Mucho, muchísimo más de que me toque la primitiva o la lotería nacional.

El resultado anterior se conoce con el nombre de Teorema de la Probabilidad Total y, en general, se enuncia diciendo que si de un suceso \(X\) hacemos \(n\) particiones disjuntas, la probabilidad total del suceso \(X\) es la suma de todas y cada una de las particiones. Cada partición es una “ruta del árbol”, resultado de multiplicar una probabilidad de un suceso conocido por una condicionada a priori.

Finalmente, y volviendo al enunciado del problema, lo que deseamos calcular es la probabilidad \(P(B|+)\). Es decir, conozco que el análisis ha dado positivo y, en ese caso (condición), quiero saber la probabilidad de padecer la enfermedad.

Utilizaremos la fórmula que se dedujo anteriormente, en la que se relaciona la probabilidad de un suceso condicionada por otro, con la probabilidad de la intersección de ambos:

\[P(X|Y)=\frac{P(X\cap Y)}{P(Y)}\]

En nuestro caso:

\[P(B|+)=\frac{P(B\cap +)}{P(+)}=\frac{0,0049}{0,0248}=0,19758\]

Por tanto deberé asustarme, sí, pero no tanto. La probabilidad anterior indica que «sólo» unas 20 de cada 100 personas para los que el análisis resulte ser positivo, padecerán la enfermedad.

El resultado anterior es el famoso Teorema de Bayes.

Este problema lo lei hace ya tiempo a través de una mención que alguien hizo en twitter de un artículo titulado: El ‘anumerismo’ también es incultura. Al final del mismo encontré el enunciado del problema.

La solución expuesta por la persona que propone el problema es muy simple y muy fácil de entender:

¿Debo asustarme? Sí, pero no en exceso. La probabilidad de que padezcamos el mal es del \(0,5\,\%\). De cada \(10\,000\) personas, unas \(50\) tendrán la enfermedad. De ellas, \(49\) obtendrán un resultado positivo en la prueba y una dará negativo (por el margen de error). En cuanto a la población sana, \(9\,950\) personas, \(9\,751\) darán negativo y \(199\) positivo. Luego la mayoría de las personas diagnosticadas del mal en ese análisis, o sea, \(199\) de \(249\) serán en realidad falsos positivos, lo que significa un \(80\,\%\ \).

La intención de este artículo es ir un “poco más allá”, exponiendo resultados de la teoría de probabilidades sin tener grandes nociones sobre esta parte de las matemáticas, ni tampoco saber demasiado sobre matemáticas en general.

Este problema me hizo recordar aquellos tiempos de primero de carrera (ahora llamado de grado), en que hacíamos problemas de probabilidad de este tipo. De aquella primera vez en que me demostraron con todo rigor el teorema de la probabilidad total y el teorema de Bayes. Fue entonces cuando, una vez más, me sorprendió la potencia de las matemáticas para resolver cuestiones relacionadas con otros ámbitos y su aplicación en multitud de áreas del conocimiento. Conozco a muchos alumnos que fueron míos y que ahora están en primero de alguna carrera (o de grado) de ciencias, de letras o de cualquier cosa. Es el momento de aprovechar el tiempo, de regocijarse y de ilusionarse con ciertos problemas, con ciertas dificultades que aparecen y que necesitan de las matemáticas. Ya sé que no es fácil, pero los problemas están para resolverlos y cuando se consigue, la felicidad es indescriptible.

Para saber más podéis acceder, a través de este enlace, a unos apuntes bastantes completos de probabilidad a un nivel básico. También se incluye una relación de ejercicios de probabilidad, en la que muchos de ellos están completamente resueltos.

Sobre Pedro Castro Ortega

Profesor de Matemáticas en el IES "Fernando de Mena" de Socuéllamos (Ciudad Real, Castilla-La Mancha).

Un comentario

  1. Excelente!

Comentar

Su dirección de correo electrónico no será publicada.Los campos necesarios están marcados *

*

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

x

Check Also

Una integral con radicales

Calcular la siguiente integral: \[\int{\frac{{\sqrt x dx}}{{\sqrt[3]{x} – 1}}}\] Vamos a realizar el cambio de ...

Integración de funciones trigonométricas

Sea \(\int\text{R}\,(\text{sen}\,x,\,\cos x,\,\text{tg}\,x)\) una función racional de \(\text{sen}\,x\), \(\cos x\) y \( \text{tg}\,x\), es decir, ...

A %d blogueros les gusta esto: