Mathematics/probability statistics

임의표본

jwjwvison 2022. 3. 27. 11:36

HFWS 데이터는 통계청 마이크로 데이터 서비스에서 제공하는 2018년 세대별 가계금융복지 조사 결과이다.

#
# 데이터 구성
#

# [HFWS] 데이터: “가계금융복지조사( 2017년 이후) > 가구마스터(제공)[2018가구금융복지조사]”
df = pd.read_csv('https://github.com/bong-ju-kang/kmu-mba-statistics/raw/master/Data/MDIS_2018_HFWS.txt', 
                 header=None)
df.head(2)

# 가구당 연간 소득액: 100번쨰
income=df[109]
np.round(np.mean(income),1)

 연간소득에 대한 평균값과 표준편차를 구해보자.

# 모집단으로 가정
# 모편균, 모표준편차
np.round([np.mean(income),np.std(income,ddof=0)],1)

 확률변수 X를 가계소득이라고 하면 (u,o)=(5364.0, 5818.4)인 어떤 분포를 따른다고 할 수 있다. 이때 이 분포에서 크기가 100인 임의표본(random sample) X1,...,X100을 추출하여 그 평균을 구해보자.

# 크기가 100인 임의 표본 1개의 표본 평균
size=100
np.random.seed(1)

# 비복원 추출
index=np.random.choice(len(income),size,replace=False)

sample_mean=np.mean(income[index])
np.round(sample_mean,1)

# 표본 비율
np.round(size/len(income),4)

 원래 모평균값은 5364이지만 임의표본 1개에 대한 평균값은 5323.1이 된다. 큰 차이는 아니지만 통계적으로 0.54%의 표본을 갖고서 나름대로 의미 있는 추정이 된다. 그런데 얼마나 의미 있는지는 평균의 분포를 알아야만 판단할 수 있다.

 

 그럼 위 데이터에서 100개의 임의표본을 1000번 반복적으로 추출한다고 가정했을 때 그 평균의 분포를 살펴보자.

# 표본평균의 평균
num_samples=1000
size=100
result=[]

np.random.seed(123)
for i in np.arange(num_samples):
    index=np.random.choice(len(income),size,replace=False)
    result.append(np.mean(income[index]))
np.round(np.mean(result),2)

 결과를 보면 모평균값과 표본평균의 평균값이 거의 일치함을 알 수 있다. 표본평균으로 모평균을 추정하고자 하는 경우에 표본평균은 하나의 통계량이 되며 이 분포를 표본분포(sampling distribution)라고 정의할 수 있다. 즉 통계량은 미지의 모수(parameter)에 의존하지 않는 하나 이상의 확률변수의 함수이다.

 

 그러나 통계량을 만드는 목적이 모집단의 특성이라고 할 수 있는 모수를 추정하기 위한 것이므로 그 분포는 모수에 의존하게 된다. 

 

 표본분포를 알아야 하는 이유는 추정의 확률적 정확도를 제시할 수 있기 때문이다. 즉, 위의 예에서 다음과 같은 확률을 정의할 수 있다.

 여기서, 표본평균으로 모평균을 예측할 때 그 차가 100, 즉 가계소득 단위가 만 원이므로 백만 원 이하일 확률을 구할 수 있는 것이다.

 

'Mathematics > probability statistics' 카테고리의 다른 글

카이제곱분포  (0) 2022.03.27
표본평균의 분포  (0) 2022.03.27
정규분포  (0) 2022.03.26
이항분포  (0) 2022.03.26
베르누이 분포  (0) 2022.03.26