728x90

- 랜덤 변수(또는 확률 변수, random variable)는 표본 공간(sample space)의 실현값과 가측 공간(measurable space)를 매핑하는 함수이다.

 

*표본 공간: 어떤 시행에서 발생 가능한 모든 경우의 수를 모아둔 집합

 

아직 실제로 나타나지는 않았지만 나타날 가능성이 있는 모든 경우의 수에 해당하는 값을 가질 수 있다.

주사위를 굴리는 무작위적인 시행이나, 양자역학처럼 예측 불가능한 물리적 변수의 시행에 대해서도 랜덤 변수를 사용한다.

 

- 확률 분포(probability distribution)는 랜덤 변수가 특정한 값을 가질 확률을 나타내는 함수이다.

 

<확률 분포를 표현하는 방법>

1. 이산 확률 분포

  • 이산 확률 변수(discrete variable): 가능한 값의 집합이 유한하거나 무한하지만 셀 수 있는 경우를 의미한다.
    이산 확률 변수는 확률 분포를 통해 각 값이 나타날 확률을 할당하는 데 사용된다.
    예를 들어, 주사위를 던졌을 때 나올 수 있는 값은 1-6까지로 이산 확률 변수이다.
    동전의 앞뒷면이 나올 확률을 나타내는 확률 변수도 이산 확률 변수이다.
    *discrete 분리된
  • 확률 질량 함수로 표현

 

 

2. 연속 확률 분포

  • 연속 확률 변수(continuous variable):  가능한 값의 집합이 연속적인 구간이거나 무한대인 경우를 의미한다.
    이러한 확률 변수는 연속 확률 분포를 통해 각 값이 나타날 확률을 할당한다.
    예를 들어, 온도, 속도, 거리와 같은 것들이 있다.
  • 확률 밀도 함수로 표현
  • 밀도 추정 방법
    • 모델 가정해서 추정하기
    • 비 모수적 추정: 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하는 방법


 

 

* 비 모수적 추정을 하는 경우?

1. 모수적 추정 방법을 사용할 수 없는 경우
모수적 추정 방법은 모집단의 분포 형태를 알고 있어야 하므로 분포 형태를 알 수 없거나 정확한 분포 형태를 가정하기 어려운 경우에는 비 모수적 추정 방법을 사용해야 한다.

2. 분포의 형태가 복잡한 경우
모수적 추정 방법은 분포의 형태가 간단한 경우에 적합하다. 하지만 실제 데이터는 종종 비선형적이거나 비대칭적인 분포를 가지기 때문에 이러한 경우에는 비 모수적 추정 방법이 더 적합하다.

3. 데이터가 작은 경우
모수적 추정 방법은 일반적으로 데이터가 많을 때 좋은 성능을 발휘한다. 그러나 데이터가 적은 경우에는 모수적 추정 방법이 부정확해질 수 있으므로 이러한 경우에는 비 모스적 추정 방법이 더 적합하다.

4. 데이터가 이상치(outlier)를 포함하는 경우
모수적 추정 방법은 이상치에 민감하게 반응할 수 있다. 이상치가 있는 경우에는 비 모수적 추정 방법이 더 효과적이다.

 

3. 결합 확률 분포

두 개 이상의 랜덤 변수로 이루어진 확률 분포

 

예)

한 가족이 레스토랑에 가서 식사를 할 때, 아이들의 주문과 성인의 주문을 고려해 결합 확률 분포를 계산하고자 한다. 아이들의 주문은 피자(P)와 주스(O) 중 하나를 선택하며, 성인의 주문은 스테이크(S)와 와인(W) 중 하나를 선택한다.

이제 우리는 아이들과 성인의 주문에 대한 결합 확률 분포를 계산하고자 한다.

결합 확률 분포는 다음과 같이 나타낼 수 있다:

P(P, S)
P(P, W)
P(O, S)
P(O, W)

이렇게 결합 확률 분포를 계산함으로써 아이들의 주문과 성인의 주문이 동시에 발생할 확률을 알 수 있다. 이를 통해 주문하는 패턴이나 아이들과 성인의 선호도에 대한 정보를 추론할 수 있다.

예를 들어, 아이들이 피자를 주문하고 성인이 스테이크를 주문하고, 아이들이 주스를 주문하고 성인이 와인을 주문할 확률은 다음과 같다.
P(P, S) + P(O, W)

 

 

 

4. 조건부 확률 분포

어떠한 사건이 벌어지고 난 다음의 확률

 

예)

한 공장에서 생산되는 전구들 중 70%가 정상적인 상태이고 30%가 불량 상태이다. 정상 전구 중 80%가 패키징 과정에서 문제없이 통과되는 반면, 불량 전구 중 90%가 패키징 과정에서 문제가 발생하여 거부된다.

우리는 전구의 상태에 따른 패키징 통과 여부의 조건부 확률 분포를 계산하고자 한다.

전구의 상태를 A라고 하고, 패키징 통과 여부를 B라고 할 때, 조건부 확률 분포는 다음과 같이 나타낼 수 있다:

P(B=Pass | A=Normal) = 0.8
P(B=Reject | A=Normal) = 0.2
P(B=Pass | A=Defective) = 0.1
P(B=Reject | A=Defective) = 0.9

이제 우리는 각각의 조건에 따른 패키징 통과 여부의 확률을 계산할 수 있다.

만약 전구가 정상적인 상태일 때(즉, A=Normal), 패키징 통과 여부의 확률은 다음과 같다:

P(B=Pass | A=Normal) = 0.8
P(B=Reject | A=Normal) = 0.2

또한, 전구가 불량 상태일 때(즉, A=Defective), 패키징 통과 여부의 확률은 다음과 같다:

P(B=Pass | A=Defective) = 0.1
P(B=Reject | A=Defective) = 0.9

조건부 확률 분포를 계산함으로써 전구의 상태에 따라 패키징 통과 여부의 확률을 알 수 있다. 이를 통해 전구의 상태가 주어졌을 때 패키징 통과 여부에 대한 정보를 추론할 수 있다.

 

5. 주변 확률 분포

결합 확률에 대해 원하는 한 변수나 몇 개의 확률 변수 부분 집합(subset)의 확률 분포를 알고 싶을 때 주변 확률 분포를 사용한다.

 

예)

A와 B 두 가지 동전을 던진다. A 동전은 앞면(H)과 뒷면(T)이 나올 확률이 각각 0.6과 0.4이다. B 동전은 앞면과 뒷면이 나올 확률이 각각 0.3과 0.7이다.

우리는 A 동전과 B 동전의 결합 확률 분포를 가지고 있다. 결합 확률 분포는 다음과 같이 나타낼 수 있다:

P(A=H, B=H) = 0.6 * 0.3 = 0.18
P(A=H, B=T) = 0.6 * 0.7 = 0.42
P(A=T, B=H) = 0.4 * 0.3 = 0.12
P(A=T, B=T) = 0.4 * 0.7 = 0.28

이제 우리는 A 동전의 주변 확률 분포를 계산하고 싶다. A 동전에 대한 주변 확률 분포를 계산하기 위해서는 B 동전의 모든 가능한 결과에 대해 결합 확률을 합산해야 한다.

P(A=H) = P(A=H, B=H) + P(A=H, B=T) = 0.18 + 0.42 = 0.6
P(A=T) = P(A=T, B=H) + P(A=T, B=T) = 0.12 + 0.28 = 0.4

따라서 A 동전의 주변 확률 분포는 다음과 같다:

P(A=H) = 0.6
P(A=T) = 0.4

이렇게 주변 확률 분포를 계산함으로써 A 동전의 개별적인 확률 분포를 얻을 수 있다. 이는 변수 A와 B의 상관 관계를 고려하지 않고 A에 대한 독립적인 확률 분포를 추출한 것이다.

 

728x90

+ Recent posts