베이지안 신뢰구간
베이지안 신뢰구간(credible set)
어떤 모수에 대한 베이지안 100(1-\alpha) % 신뢰구간은 변수 X의 관측치가 X=x로 주어질 때 다음을 만족하는 집합 C를 말하지요.
홍홍
C가 관측값 x에 의존하고 일반적으로 구간이기에.. 모수(\theta)가 연속변수이면 C=(c_1,c_2)로 \alpha_1+\alpha_2 = \alpha인 두 알파들에 대해 각각 c_1, c_2는 100 * \alpha_1 %, 그리고 100 * (1-\alpha_2) % 사분위 수가 되겠네요.
예를 들어 정규분포 N(\theta,2^2)에서 16개 표본을 추출하니 평균이 0.3이 나왔다고 합시다. 우리는 사전분포를 알게 되었지요. 평균값 \theta에 대해 전혀 정보가 없다고 했을 때가 평균 1이라고 가정하고 \theta를 알 때 변수 X의 분포를 합성하려면, 즉
이것에 대한 사후분포를 알아봐야하지요.
정규분포니까 간단히 유도해 볼 수 있겠네요.
당연히도 구한 평균과 1/4을 분산으로 가지는 정규분포를 따르네요. Conjugate prior ㅋㅋㅋ
R을 여기에 맞춰 실행하면
> theta <- seq(-4,4,length = 500)
시뮬레이션으로 분포를 그리기 위해 X의 공간을 정의했습니다. seq()는 시퀀스를 만듭니다.
> x_bar = 0.3
> x_sd = 0.5
사후확률과 관련된 정보를 입력하고...
> plot(theta, dnorm(theta,x_bar,x_sd), type="l")
라인플롯을 그리지요. type="l"은 Line
정규분포의 density를 구하기 위해 dnorm,
> abline(v=qnorm(c(0.049,0.999), x_bar, x_sd), lty=2)
> abline(v=qnorm(c(0.025,0.975), x_bar, x_sd), lty=3)
확률값을 주고 x를 얻기 위해 qnorm을 썼습니다.
재사용 규칙에 따라
> abline(v=qnorm(c(0.049,0.999), x_bar, x_sd), lty=2)
은
> abline(v=qnorm(0.049, x_bar, x_sd), lty=2)
> abline(v=qnorm(0.999, x_bar, x_sd), lty=2)
와 같습니다.
abline에 v를 할당하면 vertical line(=수직선).
1 - 0.999 + 0.049 = 0.05
1 - 0.975 + 0.025 = 0.05
따라서 abline으로 그린 것의 \alpha = 5%로 동일합니다.
짧은 파선쪽에 들어 있는 모수 추정치들이 더 좋은 우도를 보입니다. 베이지안에서 저와 같은 구간에 속한 PDF의 면적은 좋은 모수 추정치들이 포함될 확률이 95%라는 뜻입니다. 이왕이면 확률이 높은 것들이 더 많이 포함되어 베이지안 신뢰구간이 짧은 것이 좋겠습니다.
예로 두 개의 신뢰구간(둘 다 95%)을 그려보았습니다. 궁극적으로 최대사후구간(Highest Posterior Density interval: HPD)을 계산해야겠습니다.
어떤 모수에 대한 베이지안 100(1-\alpha) % 신뢰구간은 변수 X의 관측치가 X=x로 주어질 때 다음을 만족하는 집합 C를 말하지요.
홍홍
C가 관측값 x에 의존하고 일반적으로 구간이기에.. 모수(\theta)가 연속변수이면 C=(c_1,c_2)로 \alpha_1+\alpha_2 = \alpha인 두 알파들에 대해 각각 c_1, c_2는 100 * \alpha_1 %, 그리고 100 * (1-\alpha_2) % 사분위 수가 되겠네요.
예를 들어 정규분포 N(\theta,2^2)에서 16개 표본을 추출하니 평균이 0.3이 나왔다고 합시다. 우리는 사전분포를 알게 되었지요. 평균값 \theta에 대해 전혀 정보가 없다고 했을 때가 평균 1이라고 가정하고 \theta를 알 때 변수 X의 분포를 합성하려면, 즉
이것에 대한 사후분포를 알아봐야하지요.
정규분포니까 간단히 유도해 볼 수 있겠네요.
R을 여기에 맞춰 실행하면
> theta <- seq(-4,4,length = 500)
시뮬레이션으로 분포를 그리기 위해 X의 공간을 정의했습니다. seq()는 시퀀스를 만듭니다.
> x_bar = 0.3
> x_sd = 0.5
사후확률과 관련된 정보를 입력하고...
> plot(theta, dnorm(theta,x_bar,x_sd), type="l")
라인플롯을 그리지요. type="l"은 Line
정규분포의 density를 구하기 위해 dnorm,
> abline(v=qnorm(c(0.049,0.999), x_bar, x_sd), lty=2)
> abline(v=qnorm(c(0.025,0.975), x_bar, x_sd), lty=3)
확률값을 주고 x를 얻기 위해 qnorm을 썼습니다.
재사용 규칙에 따라
> abline(v=qnorm(c(0.049,0.999), x_bar, x_sd), lty=2)
은
> abline(v=qnorm(0.049, x_bar, x_sd), lty=2)
> abline(v=qnorm(0.999, x_bar, x_sd), lty=2)
와 같습니다.
abline에 v를 할당하면 vertical line(=수직선).
1 - 0.999 + 0.049 = 0.05
1 - 0.975 + 0.025 = 0.05
따라서 abline으로 그린 것의 \alpha = 5%로 동일합니다.
짧은 파선쪽에 들어 있는 모수 추정치들이 더 좋은 우도를 보입니다. 베이지안에서 저와 같은 구간에 속한 PDF의 면적은 좋은 모수 추정치들이 포함될 확률이 95%라는 뜻입니다. 이왕이면 확률이 높은 것들이 더 많이 포함되어 베이지안 신뢰구간이 짧은 것이 좋겠습니다.
예로 두 개의 신뢰구간(둘 다 95%)을 그려보았습니다. 궁극적으로 최대사후구간(Highest Posterior Density interval: HPD)을 계산해야겠습니다.
댓글
댓글 쓰기