우선 두 표준정규본포를 더했을떄, 다음과 같은 분포를 따른다 (밑에 ex 풀때 쓰이는 theorem - MGF로 증명도 가능하다.)
Ex )
두 확률변수 \( Z_1 \)과 \( Z_2 \)가 서로 독립적으로 표준정규분포 \( N(0,1) \)을 따른다고 했을떄 \( Z_1 \)과 \( Z_2 \) 사이의 거리 \( |Z_1 - Z_2| \)의 기대값 구하기
Multinomial Distribution
Multinomizal Distribution이란, 여러 개의 범주가 있는 경우에 특정 횟수의 실험에서 각 범주에 속하는 사건의 개수를 나타내는 분포이다. Binomial 의 generalize 된 형태라고 생각하면 된다.
기본 assumption
- \( \mathbf{X} = (X_1, X_2, \dots, X_k) \)에서 \( X_j \)는 \( j \)번째 범주에 속하는 사건의 개수
- 각 사건이 \( k \)개의 범주 중 하나에 속할 확률은 \( \mathbf{p} = (p_1, p_2, \dots, p_k) \)로, \( \sum_{j=1}^k p_j = 1 \)이다.
- 실험을 \( n \)번 반복했을 때, 각 범주에 속하는 사건의 총 합은 \( \sum_{j=1}^k X_j = n \)이어야 한다.
Multinomial Joint PMF
\[ P(X_1 = n_1, X_2 = n_2, \dots, X_k = n_k) = \frac{n!}{n_1! n_2! \dots n_k!} p_1^{n_1} p_2^{n_2} \dots p_k^{n_k} \]
- \( n! \): 전체 \( n \)번의 실험을 특정 순서대로 배열할 수 있는 경우의 수
- \( n_1! n_2! \dots n_k! \): 각각의 범주 내에서 순서가 바뀌는 경우의 수를 제외
- \( p_j^{n_j} \): \( j \)번째 범주에 \( n_j \)개의 사건이 할당될 확률
Marginal Distribution
다항분포에서 각 범주 \( X_j \)의 개별적인 확률분포를 찾을 수 있고. 이때 각 \( X_j \)는 이항분포를 따르게 된다.
\[ X_j \sim \text{Binomial}(n, p_j) \]
- 기대값: \( E(X_j) = np_j \)
- 분산: \( \text{Var}(X_j) = np_j (1 - p_j) \)
Lumping Property
Lumping Property - 원래의 분포에서 여러 범주를 하나로 합치더라도, 해당 분포가 여전히 다항분포의 성질을 만족한다.
예를 들어, 확률변수 \( \mathbf{X} = (x_1, x_2, \dots, x_{10}) \)이 다항분포 \( \text{Mult}(n, (p_1, p_2, \dots, p_{10})) \)을 따른다고 가정해보자
새로운 확률변수 \( \mathbf{Y} \)를 다음과 같이 정의할 수 있다.
\[ \mathbf{Y} = (X_1, X_2, X_3 + X_4 + \dots + X_{10}) \]
즉, 첫 번째와 두 번째 범주는 그대로 두고, 나머지 범주들을 하나로 합쳐서 세 번째 항목으로 간주한다.
이 경우, 새로운 확률변수 \( \mathbf{Y} \)도 여전히 다항분포를 따르며, 그 분포는 다음과 같다.
\[ \mathbf{Y} \sim \text{Mult}(n, (p_1, p_2, p_3 + p_4 + \dots + p_{10})) \]
여기서, 합쳐진 세 번째 범주의 확률은 원래 범주들의 확률 \( p_3, p_4, \dots, p_{10} \)을 모두 더한 값이 된다.
Conditional Distribution
다항분포에서 특정 범주에 속한 사건 수가 주어졌을 때, 다른 범주에 속하는 사건 수의 분포를 구할 수 있다. 이를 조건부 분포라고 한다.
다항분포 \( \mathbf{X} \sim \text{Mult}(n, \mathbf{p}) \)에서 \( X_1 = n_1 \)이 주어졌다고 가정하자.
이 조건하에 나머지 범주 \( (X_2, \dots, X_k) \)의 분포는 다음과 같은 다항분포를 따른다.
\[ (X_2, X_3, \dots, X_k) \sim \text{Mult}(n - n_1, (p'_2, p'_3, \dots, p'_k)) \]
여기서서 \( p'_j \)는 다음과 같음 ( 이걸 그대로 \(p_j\)로 안쓰는 이유는 p의 합이 확률의 정의상 1이 되어야하는데, \(p_1\)을 빼면 확률상 합이 1이 안되니까, \(p_1\)를 제외한 나머지 확률의 합이 1이되게 하기위해 renormalize하는 과정이라고 생각하면된다.
PDF of Cauchy Distribution
우선 코시분포에 대해 간단하게 설명을 하자면, 꼬리가 두꺼운 분포이다. 꼬리가 두꺼워서 극단적인 값이 발생할 확률이 높고, 이런 성질 때문에 평균도 발산해버리고 분산도 정의되지 않는다.
그래서 중심 극한 정리도 적용되자않는다. 여러개의 독립적인 코시 분포의 평균을 구해도 정규분포로 수렴하지 않고 계속 코시 분포의 성질이 유지된다.
코시 분포는 표준 정규분포를 따르는 두 변수 X와 Y의 비율로 나타낼 수 있다. X와 Y가 N(0,1)을 따르는 표준정규분포라고 할떄, T를 \( \frac{X}{Y} \) 라고 하면, T는 코시분포를 따르게 된다.
코시 분포의 PDF는 다음과 같다. PDF를 유도하는 과정은 밑에.
\[
f(t) = \frac{1}{\pi (1 + t^2)}
\]
두가지 방식이 있는데, 먼저
\ \( F(t) = P(T \leq t) \)를 구한 다음, 미분하여 PDF \( f(t) \)를 찾는 방식이 있다.
PDF를 구하기 위해 우선 CDF부터 생각해보자.
근데 \( \Phi(t |y|) \) (표준정규분포의 CDF) - 이 친구는 적분이 불가하다. 근데 다행인건 우리가 구하는건 CDF가 아니라, PDF라는것. 그럼 이대로 놔두고, PDF를 구하기 위해 CDF식을 미분해보자.
위에서 구한 CDF식을 t에 대해 미분하면 다음과 같다.
유도 끝!
비슷하지만 다른 방법으로는 Law of Total Probability를 이용하는 방법이 있다.
PDF를 이중적분해서 구하는 대신 law of total probability를 이용하는 방법이다.
이렇게 구한 CDF식을, 방법1이랑 똑같이 t에 대해 미분한다. ( 방법 1 pdf 구하는 식과 동일)