본문 바로가기

통계학 기초

베이지안 기초1. 기초 개념 및 예시를 통한 완벽 이해

반응형

학습 목표 및 목차

  • 목표: 학부 수준에서 베이지안 논리를 이해하는 것
  • 목차
    • 1. 베이지안 확률론의 기본
    • 2. 예시를 통해 베이지안 논리의 이해

 

 

1. 베이지안 확률론의 기본

1-1. 기본 개념

(1) 사전 확률 분포 - P(A)

 

- 개념: 이미 알고 있는 정보. 관측 데이터와 혼동하면 안 된다. 

- 수식: P(A)

 

 

 

(2) 자료의 확률 분포 - P(B|A)

 

- 개념: 데이터에서 관측된 분포. 이것을 흔히 Likelihood라고 부르는 개념. 과거의 경험 혹은 관측 데이터에 근거하여, 사건 B가 발생할 확률을 부분적으로 알고 있는 것이다. 여기가 정말 핵심인 이유는 "과거의 데이터로 관심이 있는 사건의 확률에 대해 추정한다는 것"이다. 이 부분은 예시를 통해 더욱 이해가 가능할 것이다. 

 

- 수식: P(B|A)

 

 

 

(3) 사후 확률 분포 - P(A|B)

 

- 개념: B라는 관심을 두는 사건이 일어난 뒤에 그것이 우리가 알고 있는 정보에 일관성 있게 나온 것인지 아닌지 알아보는 확률이라고 이해하는 것이다. 만약 새로운 확률이 나온다면 지속적인 모수 분포에 대해 조정(Tuning)을 하면서 확률을 학습하는 것이다. 

 

- 수식:

 

 

 

※ 핵심 질문 - P(B)는 도대체 어떻게 알아낼 것인가? 

P(B|A)는 관측 데이터이고, P(A)는 사전확률이라고 해서 알고 있다고 치자. 그렇다면 도대체 P(B)는 어떻게 알아내서 적용해야 하는 것인가? 이 부분을 제대로 이해해야 베이지안 확률을 이해하기 편해질 것이다. 

 

  1) P(B) 사건이 이분적 확률일 때.

 

 

 

B가 발생할 수 있는 경우의 수를 나누어보면 2 가지이다. 첫 번째는 A가 발생한 뒤에 B가 발생하는 것이고, 두 번째는 A가 발생하지 않았음에도 불구하고 B가 발생하는 것이다. 이것을 수식으로 풀어보면 아래와 같은 설명이 가능하다. 

수식에 대한 풀이

 

위와 같은 방법으로 P(B)에 대한 확률을 추산하여 계산할 수 있는 것이다. 이를 보다 알기 쉽게 벤다이어그램으로 표현하면 아래와 같이 설명할 수 있다. 

 

 

 

(4) 베이지안 확률론의 정의 

  • 통계적 정의: 자료의 확률분포와 사전 확률 분포를 이용하여 사후 확률 분포를 알아내는 것
  • 개념적 이해: 관심이 있는 사건이 발생할 확률을 알기 위해서 이미 알고 있는 사전 지식과 관측한 데이터(경험)을 이용하는 것. 

여기까지만 보면 아직까지 이해가 잘 안 될 것이라 생각한다. 나도 그랬다. 

 

그래서 쉬운 예시부터 보다 실무적인 예시를 통해 개념에 대한 이해를 해보자 

 

 

2. 예시를 통한 베이지안 추론의 이해

 

2-1. 폐렴 발생율에 대한 해석

폐렴 발병률은 0.01이라고 국룰처럼 알려져있다. 우리가 폐렴의 발병여부를 판별할 때, 실제로 폐렴에 걸린 사람이 검사를 하면 0.99의 비율로 양성이 나온다. 반면에 멀쩡한 사람이 검사를 하면 0.10의 비율로 양성이 나올 확률이 있다. 이러한 상황에서 폐렴 검사에서 양성 반응이 나왔을 때, 이 사람이 실제로 폐렴에 걸렸을 확률은 어떻게 구할 수 있을까?

 

위의 개념과 예시를 정리를 하면 아래와 같이 변수를 정리할 수 있다.

  • 사후 확률(계산의 목표): 질병 검사의 양성 적중률 = P( N | Postive )
  • 폐렴 발병률 : P( N ) = 0.01 → 숨은 정보 P(not N) = 0.99 
  • 폐렴에 걸린 사람이 양성 : P( Positive | N ) = 0.99 → 숨은 정보  P( Positive | not N) = 0.01
  • 폐렴에 걸리지 않은 사람이 양성 : P( Positive | not N ) = 0.10

 

 

P(N | Positive) = ( 0.99 * 0.01 ) / ( 0.99 * 0.01 + 0.10 * 0.99) = 0.091

 

따라서 양성으로 검출 되었을 때 진짜로 폐렴일 확률은 9.1%로 다소 신뢰도가 낮다는 것을 알 수 있다. 

 

(※ 참고: 폐렴은 영어로  pneumonia로 p가 묵음이다. 그래서 그냥 n으로 표시했다. )

 

2-2. 배우자가 바람필 확률에 대한 계산[2] 

상황은 정말 단순하다. 어느날 배우자 가방에서 "다른 이성의 속옷이 발견됐다"는 가정을 해보자. 물론 현실에서는 100% 킹리적 갓심으로 배우자가 바람필 것이다는 결론을 내릴 것이지만, 베이지안 관점에서 바라보도록 하자. 참고로 아래서 가정하는 사전 확률과 관측데이터(Likelihood)는 임의로 설정한 숫자임을 기억하길 바란다. 

  • 사후 확률(계산의 목표): 속옷이 발견 됐을 때, 진짜로 바람필 확률, P( C | U )
    • Cheating = C
    • Underwear = W
  • 사전 확률: 배우자가 바람필 확률, Cheating
    •  P(C) = 0.04 → 추가 유추 가능 확률 P( -C ) = 0.96
  • 관측데이터(Likelihood)
    • 바람 폈을 때, 속옷이 발견될 확률 - P( U | C ) = 0.5
    • 바람 안 폈을 때, 속옷이 발견될 확률 - P( U | -C ) = 0.05

 

베이지안 추론 과정

 

 

= ( 0.5 x 0.04 ) / ( 0.5 x 0.04 + 0.05 * 0.96 ) ≒ 0.29

 

따라서 베이지안 관점에서 봤을 때 배우자가 바람필 확률이 29%이다. 하지만 바람필 확률이 1%만 넘어가도 뚜까 패도 상관 없으니 사랑의 매 찜질을 해도 상관은 없을 듯하다. 

 

 

이 글은 아래의 Reference에서 예시 및 논리에 대해 도움을 받고 작성한 글임을 밝힙니다. 

 

 

 

 

 

Reference

[1] https://sumniya.tistory.com/29

[2] https://blog.naver.com/decisionkr/221807478007

 

반응형