Точность теста

Совершен­ный медицин­ский тест должен давать положи­тель­ный ответ, если болезнь есть, отрица­тель­ный — если её нет.

Но нет в мире совершен­ства. Хорошая точ­ность — близ­кое к 1 зна­че­ние веро­ят­но­сти положи­тель­ного теста при нали­чии болезни (скажем, 98%) и не очень большое число слу­чаев положи­тель­ного результата теста для здо­ро­вых паци­ен­тов (скажем, 10%).

Может пока­заться уди­ви­тель­ным, но если тест про­во­дится на ред­кое забо­ле­ва­ние, то веро­ят­ность его нали­чия при положи­тель­ном результате будет зна­чи­тельно меньше 98%! Напри­мер, если забо­ле­ва­ние встре­ча­ется только у 5% насе­ле­ния, то она равна 34%. Дело в том, что ред­кость забо­ле­ва­ния — зна­чимая информация, её надо учи­ты­вать, и счи­тать сле­дует так назы­ва­емую услов­ную веро­ят­ность.

Тра­дици­он­ные иллю­страции услов­ной веро­ят­но­сти свя­заны с коло­дой из 52 играль­ных карт. При извле­че­нии карты из колоды наугад веро­ят­ность уви­деть карту валет пик равна 1/52. Но если уже известно, что извле­чён­ная карта масти пик (кто‐то под­смот­рел), то веро­ят­ность (услов­ная) того, что это валет, будет равна 1/13.

При медицин­ском тести­ро­ва­нии каж­дый паци­ент харак­те­ри­зу­ется двумя парамет­рами: здо­ров он или болен; положи­те­лен или отрица­те­лен его тест. Поэтому можно изоб­ра­зить множе­ство всех паци­ен­тов в виде прямо­уголь­ника, сто­роны кото­рого «пред­став­ляют» эти параметры. Гори­зон­таль­ная прямая делит его на прямо­уголь­ники «здо­ров/болен». Полоска боль­ных — узкая, её доля 5%. Она делится вер­ти­каль­ным отрез­ком по результа­там тестов: 98% положи­тель­ных, 2% отрица­тель­ных. Среди «здо­ро­вой» части прямо­уголь­ника 10% занимает вер­ти­каль­ный прямо­уголь­ник с оши­боч­ными (положи­тель­ными) результа­тами тести­ро­ва­ния.

Точность теста // Математическая составляющая

Пока­за­тель 98% — это отноше­ние площа­дей $\frac{a}{a+b}$, где в знаме­на­теле площадь узкой полоски, про­порци­о­наль­ной числу всех боль­ных. А услов­ная веро­ят­ность того, что паци­ент болен, если тест положи­тель­ный, — это дробь $\frac{a}{a+с}$, её знаме­на­тель про­порци­о­на­лен числу всех положи­тель­ных тестов. Так как $c>b$, то знаме­на­тель вто­рой дроби больше знаме­на­теля пер­вой, и вто­рая веро­ят­ность ока­зы­ва­ется меньше пер­вой. А вот насколько меньше, зави­сит от ред­ко­сти болезни и степени точ­но­сти теста.

Разворот книги

Книга «Математическая составляющая»
Книга «Математическая составляющая»

Допол­не­ния, коммен­та­рии

При­ве­дём неко­то­рые поня­тия тео­рии веро­ят­но­стей, чтобы можно было пред­ста­вить в виде формул изложен­ное в ста­тье. Обо­зна­че­ния: если $A$ — како­е‐то событие, то $\overline{A}$ — про­ти­вопо­лож­ное событие ($A$ не про­изошло); $AB$ — про­из­ве­де­ние событий $A$ и $B$ (т. е. про­изошли и $A$, и $B$).

Услов­ная веро­ят­ность события $A$ при усло­вии, что про­изошло событие $B$, опре­де­ля­ется равен­ством $P(A\mid B)=\frac{P(AB)}{P(B)}$. Услов­ная веро­ят­ность гово­рит о степени зави­симо­сти $A$ от $B$.

Событие $A$ можно раз­де­лить на непе­ре­се­кающи­еся части в зави­симо­сти от события $B$: $AB$ и $A\overline{B}$. Отсюда полу­ча­ется формула пол­ной веро­ят­но­сти: $$ P(A)=P(AB)+P(A\overline{B})= P(A\mid B)  P(B)+P(A\mid \overline{B})  P(\overline{B}). $$

Эта формула часто ока­зы­ва­ется полез­ной, поз­во­ляет найти веро­ят­ность $P(A)$ «по частям», если проще найти $P(AB)$ и $P(A\overline{B})$.

Формула Байеса явля­ется про­стым след­ствием формулы пол­ной веро­ят­но­сти (знаме­на­тель пра­вой части): $$ P(B\mid A)=\frac{P(AB)}{P(A)}= \frac{P(A\mid B)  P(B)}{P(A\mid B)  P(B)+ P(A\mid \overline{B})  P(\overline{B})}. $$

Если событие $B$ хро­но­логи­че­ски про­ис­хо­дило раньше, чем $A$, то у услов­ных веро­ят­но­стей $P(A\mid B)$ и $P(A\mid \overline{B})$ есть понят­ный времен­ной смысл. Формула Байеса пред­став­ляет веро­ят­ност­ные харак­те­ри­стики «ста­рого» события $B$ с учё­том «новых» дан­ных по событию $A$.

Чтобы найти услов­ную веро­ят­ность того, что паци­ент болен, если тест положи­тель­ный, нужно восполь­зо­ваться форму­лой Байеса.

В при­мере, рас­смот­рен­ном в ста­тье, событие $A$ — тест положи­те­лен, $B$ — паци­ент болен. Счи­таются извест­ными вели­чины: $P(A\mid B)=0{,}98$; $P(B)=0{,}05$; $P(A\mid \overline{B})=0{,}1$. Тогда веро­ят­ность нали­чия забо­ле­ва­ния при положи­тель­ном результате теста нахо­дится по формуле $$ P(B\mid A)=\frac{0{,}98\cdot 0{,}05}{0{,}98\cdot 0{,}05+0{,}1\cdot 0{,}95} ≈ 0{,}34\quad (< 0{,}98). $$

Таким обра­зом, веро­ят­ность того, что паци­ент здо­ров, хотя тест положи­тель­ный, равна $0{,}66$.

Вот любопыт­ный жиз­нен­ный при­мер при­ме­не­ния формулы пол­ной веро­ят­но­сти. Предпо­ложим, что сту­дент перед экза­ме­ном успел выучить только 23 билета из 25. Зави­сит ли веро­ят­ность вытя­нуть «хороший», выучен­ный билет от того, каким по порядку он тянет билет?

Пусть $A$ озна­чает, что сту­денту достался «хороший» билет. Если сту­дент берёт билет пер­вым, то $P(A)=\frac{23}{25}$. А если пер­вым берёт билет одно­группник, то опре­де­лим событие $B$: один из «хороших» биле­тов достался ему. Если сту­дент тянет билет вто­рым, то формула пол­ной веро­ят­но­сти поз­во­ляет найти и в этом слу­чае веро­ят­ность выбора «хорошего» билета (события $A$): $$ \eqalign{ P(A) &=P(A\mid B)  P(B)+P(A\mid \overline{B})  P(\overline{B})=\cr & =\frac{22}{24}\cdot \frac{23}{25}+\frac{23}{24}\cdot\frac{2}{25}= \frac{23\cdot(22+2)}{24\cdot 25}=\frac{23}{25}.\cr} $$

Пояс­ним часть выкла­док. Напри­мер, $P(A\mid B)=\frac{22}{24}$, так как если $B$ про­изошло, то оста­лись 24 билета, среди них «хороших» — 22. Ана­логично нахо­дим, что $P(A\mid\overline{B})=\frac{23}{24}$.

Как видим, веро­ят­но­сти совпали. Можно пока­зать, что результат будет тот же, если сту­дент тянет билет тре­тьим, чет­вёр­тым и т. д. Даже в слу­чае, когда число сдающих экза­мен равно числу биле­тов и сту­дент берёт билет послед­ним, а билет остался только один — всё равно $P(A)=\frac{23}{25}$. Полу­ча­ется, что исто­ри­че­ски сложивша­яся проце­дура про­ве­де­ния экза­ме­нов — устой­чива и «спра­вед­лива»!

Исто­рия с двумя невыучен­ными биле­тами опи­сана Львом Тол­стым в пове­сти «Юность». Герой пове­сти, Нико­лай Ирте­ньев, идёт на экза­мен по матема­тике, не выучив только два билета: «Тео­рия соче­та­ний» и «Бином Нью­тона»…

Бином Нью­тона сыг­рал осо­бую роль и в жизни самого Тол­стого. Лев Нико­ла­е­вич рас­ска­зы­вал: «Я все­гда любил матема­тику. Но ужасно учился в своё время. Ведь я выдержал уни­вер­си­тет­ский экза­мен только потому, что перед самым экза­ме­ном подго­то­вил бином Нью­тона, да и то ничего не понимал…» (Цингер А. В. У Тол­стых // О Тол­стом: Меж­ду­на­род­ный Тол­стов­ский альма­нах / Сост. П. А. Серге­енко. — М.: Книга, 1909. — Стр. 375).

Лите­ра­тура

Мостел­лер Ф. Пять­де­сят занима­тель­ных веро­ят­ност­ных задач с реше­ни­ями. — М.: Наука, 1971.

Колмого­ров А. Н., Жур­бенко И. Г., Про­хо­ров А. В. Вве­де­ние в тео­рию веро­ят­но­стей. — М.: Наука, 1982. — (Биб­лио­течка «Квант»; Вып. 23).