Совершенный медицинский тест должен давать положительный ответ, если болезнь есть, отрицательный — если её нет.
Но нет в мире совершенства. Хорошая точность — близкое к 1 значение вероятности положительного теста при наличии болезни (скажем, 98%) и не очень большое число случаев положительного результата теста для здоровых пациентов (скажем, 10%).
Может показаться удивительным, но если тест проводится на редкое заболевание, то вероятность его наличия при положительном результате будет значительно меньше 98%! Например, если заболевание встречается только у 5% населения, то она равна 34%. Дело в том, что редкость заболевания — значимая информация, её надо учитывать, и считать следует так называемую условную вероятность.
Традиционные иллюстрации условной вероятности связаны с колодой из 52 игральных карт. При извлечении карты из колоды наугад вероятность увидеть карту валет пик равна 1/52. Но если уже известно, что извлечённая карта масти пик (кто‐то подсмотрел), то вероятность (условная) того, что это валет, будет равна 1/13.
При медицинском тестировании каждый пациент характеризуется двумя параметрами: здоров он или болен; положителен или отрицателен его тест. Поэтому можно изобразить множество всех пациентов в виде прямоугольника, стороны которого «представляют» эти параметры. Горизонтальная прямая делит его на прямоугольники «здоров/болен». Полоска больных — узкая, её доля 5%. Она делится вертикальным отрезком по результатам тестов: 98% положительных, 2% отрицательных. Среди «здоровой» части прямоугольника 10% занимает вертикальный прямоугольник с ошибочными (положительными) результатами тестирования.
Показатель 98% — это отношение площадей $\frac{a}{a+b}$, где в знаменателе площадь узкой полоски, пропорциональной числу всех больных. А условная вероятность того, что пациент болен, если тест положительный, — это дробь $\frac{a}{a+с}$, её знаменатель пропорционален числу всех положительных тестов. Так как $c>b$, то знаменатель второй дроби больше знаменателя первой, и вторая вероятность оказывается меньше первой. А вот насколько меньше, зависит от редкости болезни и степени точности теста.
Приведём некоторые понятия теории вероятностей, чтобы можно было представить в виде формул изложенное в статье. Обозначения: если $A$ — какое‐то событие, то $\overline{A}$ — противоположное событие ($A$ не произошло); $AB$ — произведение событий $A$ и $B$ (т. е. произошли и $A$, и $B$).
Условная вероятность события $A$ при условии, что произошло событие $B$, определяется равенством $P(A\mid B)=\frac{P(AB)}{P(B)}$. Условная вероятность говорит о степени зависимости $A$ от $B$.
Событие $A$ можно разделить на непересекающиеся части в зависимости от события $B$: $AB$ и $A\overline{B}$. Отсюда получается формула полной вероятности: $$ P(A)=P(AB)+P(A\overline{B})= P(A\mid B) P(B)+P(A\mid \overline{B}) P(\overline{B}). $$
Эта формула часто оказывается полезной, позволяет найти вероятность $P(A)$ «по частям», если проще найти $P(AB)$ и $P(A\overline{B})$.
Формула Байеса является простым следствием формулы полной вероятности (знаменатель правой части): $$ P(B\mid A)=\frac{P(AB)}{P(A)}= \frac{P(A\mid B) P(B)}{P(A\mid B) P(B)+ P(A\mid \overline{B}) P(\overline{B})}. $$
Если событие $B$ хронологически происходило раньше, чем $A$, то у условных вероятностей $P(A\mid B)$ и $P(A\mid \overline{B})$ есть понятный временной смысл. Формула Байеса представляет вероятностные характеристики «старого» события $B$ с учётом «новых» данных по событию $A$.
Чтобы найти условную вероятность того, что пациент болен, если тест положительный, нужно воспользоваться формулой Байеса.
В примере, рассмотренном в статье, событие $A$ — тест положителен, $B$ — пациент болен. Считаются известными величины: $P(A\mid B)=0{,}98$; $P(B)=0{,}05$; $P(A\mid \overline{B})=0{,}1$. Тогда вероятность наличия заболевания при положительном результате теста находится по формуле $$ P(B\mid A)=\frac{0{,}98\cdot 0{,}05}{0{,}98\cdot 0{,}05+0{,}1\cdot 0{,}95} ≈ 0{,}34\quad (< 0{,}98). $$
Таким образом, вероятность того, что пациент здоров, хотя тест положительный, равна $0{,}66$.
Вот любопытный жизненный пример применения формулы полной вероятности. Предположим, что студент перед экзаменом успел выучить только 23 билета из 25. Зависит ли вероятность вытянуть «хороший», выученный билет от того, каким по порядку он тянет билет?
Пусть $A$ означает, что студенту достался «хороший» билет. Если студент берёт билет первым, то $P(A)=\frac{23}{25}$. А если первым берёт билет одногруппник, то определим событие $B$: один из «хороших» билетов достался ему. Если студент тянет билет вторым, то формула полной вероятности позволяет найти и в этом случае вероятность выбора «хорошего» билета (события $A$): $$ \eqalign{ P(A) &=P(A\mid B) P(B)+P(A\mid \overline{B}) P(\overline{B})=\cr & =\frac{22}{24}\cdot \frac{23}{25}+\frac{23}{24}\cdot\frac{2}{25}= \frac{23\cdot(22+2)}{24\cdot 25}=\frac{23}{25}.\cr} $$
Поясним часть выкладок. Например, $P(A\mid B)=\frac{22}{24}$, так как если $B$ произошло, то остались 24 билета, среди них «хороших» — 22. Аналогично находим, что $P(A\mid\overline{B})=\frac{23}{24}$.
Как видим, вероятности совпали. Можно показать, что результат будет тот же, если студент тянет билет третьим, четвёртым и т. д. Даже в случае, когда число сдающих экзамен равно числу билетов и студент берёт билет последним, а билет остался только один — всё равно $P(A)=\frac{23}{25}$. Получается, что исторически сложившаяся процедура проведения экзаменов — устойчива и «справедлива»!
История с двумя невыученными билетами описана Львом Толстым в повести «Юность». Герой повести, Николай Иртеньев, идёт на экзамен по математике, не выучив только два билета: «Теория сочетаний» и «Бином Ньютона»…
Бином Ньютона сыграл особую роль и в жизни самого Толстого. Лев Николаевич рассказывал: «Я всегда любил математику. Но ужасно учился в своё время. Ведь я выдержал университетский экзамен только потому, что перед самым экзаменом подготовил бином Ньютона, да и то ничего не понимал…» (Цингер А. В. У Толстых