Mathematics/probability statistics 17

정보 이론 - 엔트로피

정보 이론은 정보에 대한 통신, 정량화 그리고 저장에 대하여 연구하는 학문이다. 정보 이론에서 가장 중요한 정보의 측도(measure)는 엔트로피(entropy)이며 이는 확률변수에 대한 불확실한 정보의 양을 측정하는 데 사용된다. 예를 들어 동전 던지기의 결과를 예측하는 것은 주사위를 던져서 결과를 예측하는 것보다 낮은 불확실성, 즉 낮은 엔트로피 값을 준다. 엔트로피 하나의 확률변수 X가 x값을 갖기 위한 정보량은 다음과 같이 정의된다. 결과를 보면 주사위의 정보량, 즉 불확실성이 높다고 할 수 있다. 엔트로피는 확률변수 X의 정보량에 대한 기댓값으로 다음과 같이 정의된다. # 동전 던지기 pk=[1/2,1/2] np.round([entropy(pk,base=2),entropy(pk,base=np.e..

(스튜던트)t분포

t 분포는 모집단의 평균에 대한 추론에 많이 사용된다. 즉 T는 데이터와 모평균값(u)에 의존하는 값이지만, 분포는 모수에 의존하지 않는다. 특히 모분산은 전혀 필요하지 않으므로 장애모수라고 한다. 이런 함수, 즉 데이터와 모수의 함수를 피벗 또는 피벗량이라고 한다. 피벗의 분포를 이용하여 피벗과 관련된 모수의 추론에 사용한다. 따라서 T 피벗은 모평균의 추론에 사용된다. 위 그림은 자유도에 따른 t 분포의 모습이다. 자유도가 적을수록, 즉 데이터가 적을수록 꼬리부분이 두터운 것을 알 수 있다. 자유도가 10인 t 분포에서 확률계산을 해보자. - 분산이 같은 두 정규모집단에서 표본평균의 차이에 대한 분포

카이제곱분포

특정 통계량의 표본분포를 구할 때 핵심이 되는 몇 가지 분포 중에 카이제곱분포에 대하여 알아보겠다. 이때 표본분산은 모분산의 추론에 중요한 역할을 하는데 이의 분포를 정의할 때 카이제곱분포를 사용한다. 위 그림을 보면 자유도가 클수록 카이제곱 확률밀도함수는 점점 평평해짐을 알 수 있고, 당연히 제곱합이므로 0보다 큰 구간에서만 정의되어 있다. 적률생성함수는 다음과 같이 계산된다. # 적률생성함수를 이용한 평균과 분산 계산 k,t=sympy.symbols('k,t') expr=(1-2*t) ** (-k/2) # 1차 적률(기댓값) M1=sympy.Lambda(t,expr.diff(t).simplify()) EX=M1(0) EX #k # 2차 적률 M2=sympy.Lambda(t,expr.diff(t,t)...

표본평균의 분포

위 그림에서 보듯이 크기가 작더라도 근사적으로 정규분포와 같은 모습을 보여주고 있다. # 이항분포의 평균의 분포 # 이항분포 모수 정의 num_samples=100 trials=1000 event_prob=1/6 size=5 # 기댓값 expected_count=trials * event_prob np.round(expected_count,2) # 표본 성공건수의 평균 result=[] np.random.seed(1234) for i in np.arange(num_samples): value=np.random.binomial(n=trials,p=event_prob,size=size) result.append(np.mean(value)) np.round(np.mean(result),2) 위 그림은 B(1,..

임의표본

HFWS 데이터는 통계청 마이크로 데이터 서비스에서 제공하는 2018년 세대별 가계금융복지 조사 결과이다. # # 데이터 구성 # # [HFWS] 데이터: “가계금융복지조사( 2017년 이후) > 가구마스터(제공)[2018가구금융복지조사]” df = pd.read_csv('https://github.com/bong-ju-kang/kmu-mba-statistics/raw/master/Data/MDIS_2018_HFWS.txt', header=None) df.head(2) # 가구당 연간 소득액: 100번쨰 income=df[109] np.round(np.mean(income),1) 연간소득에 대한 평균값과 표준편차를 구해보자. # 모집단으로 가정 # 모편균, 모표준편차 np.round([np.mean(in..

정규분포

정규분포는 가우스 분포라고도 한다. 표본개수가 많아지면 표본평균은 원래 확률변수가 정규분포가 아니어도 근사적으로 정규분포를 따른다는 중심극한정리의 의하여 더욱더 정규분포에 대한 이해가 필요하게 되었다. 정규분포는 확률변수가 연속인 경우에 적용이 되며 확률 밀도함수는 다음과 같다. 정규분포의 모습과 성질에 대하여 알아보도록 하자. 확률변수 X가 정규분포를 따른다라는 것을 다음과 같은 기호를 사용한다. 위 그림은 평균이 다르고 분산이 같은 2개의 정규분포 그림이다. 그림과 같이 평균의 변화는 평균만큼 분포를 평행이동한 것과 같다. 위 그림은 평균이 같지만 분산이 다른 경우이다. 똑같은 평균값을 주지만 분산, 즉 표준편차가 큰 경우에는 데이터의 산포가 넓게 흩어져 있음을 알 수 있다. 위 그림은 정규분포의 표..

이항분포

A=[2,3] trials=5 scipy.special.comb(trials,A) # array([10., 10.]) ex) 성공확률이 1/3이고 시행횟수가 5인 이항분포의 확률밀도함수의 합이 1임을 확인해보자. trials=5 A=np.arange(0,6) event_prob=1/3 ss.binom.pmf(A,n=trials,p=event_prob).sum().round(3) # 1.0 적률생성함수는 다음과 같이 계산된다. # 적률생성함수를 이용한 평균과 분산을 구해보자 p,t,n = sympy.symbols('p,t,n') expr=((1-p) + p * sympy.exp(t)) ** n # 1차 적률(기댓값) EX=expr.diff(t,1).subs({'t':0}) EX # np # 2차 적률 EX..

베르누이 분포

보험사기 여부, 제조 공정에서의 합격/불합격 여부, 동전을 던지는 경우 앞면이 나오는 시행 등은 결과가 1 또는 0인 경우이다. 이러한 시행을 베르누이 시행이라고 한다. 베르누이 시행은 시행의 결과가 2가지뿐이며 확률변수로는 보통 1을 성공, 0을 실패로 정의한다. 이때 성공의 확률은 p로 실패의 확률은 q=1-로 표기한다. # 표본의 개수: 10 trials=1 event_prob=1/6 size=10 np.random.seed(123) result=np.random.binomial(n=trials,p=event_prob,size=size) result # array([0, 0, 0, 0, 0, 0, 1, 0, 0, 0]) # 성공 건수 np.sum(result) # 1 기댓값, 즉 평균값 p의 의미는..