반응형

 

 

 

 

 

 

 

 

 

1. 두 모집단의 평균 비교 : 표본 추출이 독립적인 경우

 

X바1과 X바2의 비교는 X바1 - X바2로 할 수 있다.

µ1과 µ2의 비교는 µ1 - µ2로 할 수 있다. 

 

 

E(X바1 - X바2) = µ1 - µ2

Var(X바1 - X바2) = Var(X바1) + Var(X바2) - 2Cov(X바1, X바2)

 

두 모집단에서 표본추출이 독립적이라면 Cov(X바1, X바2) = 0이므로,

Var(X바1 - X바2) = Var(X바1) + Var(X바2) = σ1^2 / n1 + σ2^2/n2

 

¡) 두 모집단이 정규분포를 따르면 X바1 - X바2도 정규분포를 따른다.

¡¡) 두 모집단이 정규분포를 따르지 않더라도 자유도가 30 이상이면 X바1 - X바2는 정규분포에 근사하다.

 

 

 

 

 

 

2. µ1 - µ2의 추정 - 표본추출이 독립적인 경우

1) 점추정 : µ1 - µ2의 추정량은 X바1 - X바2이므로 이 값이 점추정값이다.

2) 구간추정 : [ (X바1 - X바2) - Z(√σ1^2 / n1 + σ2^2/n2),(X바1 - X바2) + Z(√σ1^2 / n1 + σ2^2/n2)]

-> 점추정값 +- 오차한계

 

 

 

 

3. 가설 검정 : 모분산 σ1와 σ2를 아는 경우

 

1) 가설 설정

Ho : µ1 = µ2

Ha : µ1 ≠ µ2

 

2) α = 0.05

 

3) Z = (X바1 - X바2) - µ0 / √σ1^2 / n1 + σ2^2/n2

 

4) 검정통계량 Z 계산

 

5) 가설의 채택 / 기각 결정 

 

 

 

4. 가설 검정 : 모분산 σ1와 σ2를 모르는 경우 + n < 30

 

- 두 모집단의 분산이 동일하지 않은 경우

σ1와 σ2를 S1과 S2로 대체한다.

 

따라서, 검정통계량은 

T = (X바1 - X바2) - µ0 / √S1^2 / n1 + S2^2/n2   ~ tdf

자유도(df) = (S1^2 / n1 + S2^2/n2)^2 / { (S1^2 / n1)^2 / (n1 - 1) + (S2^2/n2)^2/(n2-1)}

 

 

- 두 모집단의 분산이 동일한 경우

σ1와 σ2를 모분산 추정량(Sp^2)으로 대체한다.

Sp^2 = { (n1 - 1)S1^2 + (n2 - 1)S2^2 }  /  (n1 + n2 - 2)

 

따라서, 검정통계량은

T = (X바1 - X바2) - µ0 / √Sp^2 / n1 + Sp^2/n2   ~ t(n1+n2-2)

자유도(df) = n1 + n2 - 2

 

 

 

 

 

 

 

5. µ1 µ2의 비교 : 쌍체 비교( 종속추출 표본 )

 

 

 

Di = Xi - Yi로 하면,

E(D) = µD

Var(D바) = σ^2D / n

T = D바 - µD0 / SD / √n  ~t(n-1)

 

 

 

 

 

1) 모평균 차이에 대한 추정 : 쌍체비교

- 점추정 : µD의 점추정값은 표본평균인 d바

- 구간추정 : d바 +- t(sd / √n)

 

 

2) 검정통계량

T = D바 - 0 / SD / √n  ~ t(n-1)

 

 

 

 

 

6. 두 모집단 비율의 비교 : 표본추출이 독립적인 경우

 

비율을 비교하는 대신, 비율의 차이에 대해 추정 및 검정한다.

E(P^1 - P^2) = p1 - p2

Var(P^1 - P^2) = p1(1-p1) / n1 + p2(1-p2) / n2

n1과 n2가 충분히 크면 P^1 - P^2가 정규분포에 근사하다.

 

- 점추정값 : p^1 - p^2

- 구간추정 : [ p^1 - p^2 - Z√p^1(1-p^1) / n1 + p^2(1 - p^2) / n2,  p^1 - p^2 + Z√p^1(1-p^1) / n1 + p^2(1 - p^2) / n2 ]

 

 

 

 

 

 

7. 두 모집단 분산 비교에 대한 검정

F = X1^2 / (n1 - 1) / X2^2 / (n2 - 1) =  S^1 / S^2 ~ F(n1-1, n2-1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

 

 

 

 

 

 

 

 

1. 가설검정의 순서

 

1) 가설의 설정

2) 검정통계량의 선정

3) 유의수준의 결정

4) 검정규칙의 설정

5) 자료수집 및 검정통계량 계산

6) 가설의 채택/기각 결정

 

 

 

 

 

2. 가설의 설정

- 귀무가설(Ho) : 기존의 알려진 지식이나 이론, 입증할 필요가 없는 가설

- 대립가설(Ha) : 주장하고자 하는 지식이나 이론, 입증할 필요가 있는 가설

 

[예] 기존의 알려진 과학 이론이 있는데, 어느 학자가 새로운 이론을 주장한다면

Ho : 기존의 과학 이론이 옳다.

Ha : 새로운 이론이 옳다.

 

 

 

 

 

 

3. 귀무가설과 대립가설의 유형

1) 양측 검정

Ho : θ = θo

Ha : θ θo

 

< 단측 검정 >

2) 우측 검정

Ho :  θ <= θo

Ha :  θ > θo

 

3) 좌측 검정

Ho :  θ >= θo

Ha :  θ < θo

 

 

** 귀무가설이나 대립가설은 채택할 수는 없고, 기각하지 못 한다라고 표현하는 것이 원칙이다.

 

 

 

 

 

4. 유의수준 결정

유의수준 : 일어날 가능성이 희박하다고 생각되는 확률 수준으로 귀무가설을 기각하는 기준이 된다.

 

제 1종의 오류 : Ho가 사실임에도 불구하고, 이를 기각하는 오류

제 2종의 오류 : Ho이 허위임에도 불구하고, 이를 채택하는 오류

 

 

 

 

 

 

 

 

 

 

 

 

5. 검정규칙의 결정

 

 

 

 

6. 자료수집 및 검정통계량 계산

: Z분포 또는 t분포 식을 이용한다.

 

 

7. p-값이란?

: 귀무가설이 사실이라는 가정 하에서 관측된 결과보다 극단적인 결과가 발생할 확률이다.

 

< p-값 vs 알파 값 >

-> p-값  >= α 이면 귀무가설을 채택한다.

-> p-값 < α 이면 귀무가설을 기각한다.

 

 

 

 

 

 

 

8. 모비율 / 모분산 / 모평균에 대한 가설검정

1) 모비율의 검정통계량의 산정

Z = P^ - p0 / (p0(1-p0)/n) ~ N(0, 1)

 

 

2) 모분산의 검정통계량의 산정

V = (n-1)S^2 / σ ~ X^2(n-1)

 

 

3) 모평균의 검정통계량 산정

Z = X바 - μ /  (σ / √n)~N(0,1)

또는

T = X바 - μ /  (S / √n)~t(n-1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

 

 

 

1. 추정의 개념

1) 점추정 : 한 수치로 추정

2) 구간추정 : 구간으로 추정

 

 

ex) 직장인의 평균 근무시간에 대한 추정

점추정 : 8.5시간

구간추정 : 7.8시간부터 9.2시간 사이

 

 

 

 

 

 

 

 

2. 점추정

 

추정량 : 공식

추정값 : 공식에 따라 계산된 수치

 

표본추출오차의 크기 : E[(θ^ - θ)^2] = E[(θ^ - θ)^2]+Var(θ^)

(θ^ : 추정량, θ:모수)

-> 표본추출오차가 작으려면 위의 값들이 작아야 한다.

 

 

- 좋은 추정량의 요건 

: 불편성(E(θ^) = θ),효율성(분산이 제일 작은 추정량),일치성

 

 

 

 

3. 불편성

추정량이 E(θ^) = θ 의 조건을 만족할 때, 이 추정량은 불편성을 만족한다고 한다.

이때, θ^를 모수 θ의 '불편추정량'이라고 부른다.

 

-> E(X바) = μ, E(S^2) = σ^2,E(P^)=P이므로

추정량 X바, S^2, P^은 각각 모평균, 모분산, 모비율의 불편추정량이다.

 

 

 

불편추정량(대포1) vs 편의추정량(대포2)

-> 표본평균은 불편추정량이나, 중앙값은 편의추정량이다.

 

 

 

 

 

 

 

4. 효율성

: 불편추정량 중에서 분산이 작은 추정량을 효율적이라고 한다.

 

-> 셋 중에서 (1)이 효율성을 만족한다고 볼 수 있다.

 

 

 

 

 

 

 

 

5. 일치성

즉, n이 무한대만큼 커지면 추정량과 모수의 차이가 임의의 수 E보다 무조건 작아야 한다는 것이다.

 

 

-> X바, S^2, P^은 모두 불편성, 효율성, 일치성을 만족하므로 좋은 추정량이다.

 

 

 

 

 

6. 모평균 μ에 대한 구간추정

 

신뢰수준이 1 - α 로 정해지면 추정된 구간 [a, b]는 다음과 같은 특성을 갖는다.

P(a < θ < b) = 1 - α

 

이 때 추정된 구간 [a, b]를 신뢰구간이라고 한다.

* α : 오차율, 유의수준, 허용오차수준

 

 

 

< 신뢰구간의 일반화 >

점추정값 +- 오차한계

 

< 신뢰구간에 대한 해석 >

- 편의상 : 신뢰수준의 확률로 모평균이 신뢰구간에 있다.

- 정확한 : 다양한 표본평균에 따라 신뢰구간이 다양하게 나오는데, 이 중 모평균을 포함하는 신뢰구간의 비율이다.

 

 

 

< 모평균 μ에 대한 구간추정 공식 >

1) σ를 알기 때문에 σ를 사용하였고,Z분포를 사용할수있다.

2) σ를 모르기 때문에 S로 대신 사용하였고,

n이 30보다 클 때에는 Z분포를 사용할 수 있지만, 30보다 작으면 t분포만 사용할 수 있다.

 

 

 

 

 

 

7. t분포 구하기

 

X바 ~ (μ, σ^2/n)이면,

T = X바 - μ / (S / √n)~tn-1

(n-1은 자유도이다.)

 

t5%를 구하려면,

 

 

 

 

 

 

 

8. 모평균 μ의 신뢰구간 공식 정리

 

 

 

 

 

 

 

 

 

 

9. 모비율 p의 구간추정

 

- 모비율 p에 대한 100(1-α)% 신뢰구간(표본이 충분히 큰 경우)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

 

 

 

 

 

 

1. 모수와 통계량의 관계 분석의 목적

-> 모수와 통계량의 관계를 찾으므로써 표본으로 모집단의 평균, 분산을 추론하기 위해 (추리 통계학)

 

1) 기술 통계학 : 주어진 자료의 특성을 분석한다.

2) 추리 통계학 : 자료가 추출된 모집단의 특성을 추론한다. 주어진 자료로부터 모집단의 평균, 분산을 추론한다.

 

 

 

 

 

 

 

2. 확률적 추출과 비확률적 추출

 

1) 전수조사 : 모집단 전체를 조사

2) 표본조사 : 모집단의 일부인 표본만을 대상으로 자료를 수집

-> 경제성, 자료수집 시간 단축, 정확성, 전수조사가 불가능할 때, 민감한 정보일 때

 

- 1 확률적 추출 : 개별 개체가 선택될 확률이 정해져 있는 경우 

ex) 단순무작위추출, 체계적 추출, 층화추출, 군집추출

- 2 비확률적 추출 : 개별 개체가 선택될 확률이 정해져 있지 않거나, 일부 개체가 선택될 가능성이 전혀 없는 경우

ex) 판단추출, 할당추출, 편의추출

 

 

 

 

3. 표본과 모수의 통계적 관계 : 평균과 분산

 

< 복원추출 가정 >

1) 표본평균들의 평균 = 모평균

2) 표본평균들의 분산 = 모분산 / n ( -> n은 추출한 개수 )

** 표본평균의 표준편차 보다는 표본평균의 표준오차 라고 부른다.

 

< 예시 >

모집단이 {10, 20, 30} 이고 n = 2, 복원추출한다고 가정하자

 

 

표본평균의 표본분포 )

 

표본평균들의 평균 = 10 x 1/9 + 15 x 2/9 + … + 30 x 1/9 = 20

표본평균들의 분산 = (10 - 20)^2 x 1/9 + (15 - 20)^2 x 2/9 + … + (30 - 20)^2 x 1/9 = 100/3 

모평균 = (10 + 20 + 30) / 3 = 20

모분산 = (10 - 20)^2 x 1/3 + (20 - 20)^2 x 1/3 + (30 - 20)^2 x 1/3 = 200/3

 

따라서, 모분산(200/3)을 n(2)로 나누면 표본평균들의 분산(100/3)의 관계가 있다.

모평균(20)은 표본평균들의 평균과(20) 동일하다.

 

 

 

 

 

 

 

 

3. 표본과 모수의 통계적 관계 : 표본추출오차

 

1) 표본추출오차 = 통계량 - 모수

통계량은 표본추출을 통해 추론한 모집단의 값이다.

예를 들어, 표본평균들의 평균으로 모평균을 추론할 때, 추론한 값(통계량)과 모평균의가 표본추출오차이다.

 

 

 

2) 평균의 경우

표본추출오차 = E[(표본평균의 평균 - 모평균)^2] 으로 구할 수 있다.

(+, - 를 상쇄를 방지하기 위해 제곱한다.)

 

E[(표본평균의 평균 - 모평균)^2]  = var(X바) = σ^2 / n

제곱근을 취하면, 

E[(표본평균의 평균 - 모평균)^2] = σ / n

 

 

 

 

즉, n이 커질수록, σ가 작을수록 표본추출오차가 작아진다.

 

 

 

 

 

 

 

 

3. 표본과 모수의 통계적 관계 : X바의 분포

 

1) X가 정규분포를 따를 때,

 

 

-> 모집단이 정규분포를 따르면, 표본평균은 표본크기와 상관없이 정규분포에 따른다.

 

 

2) X가 정규분포를 따르지 않을 때,

 

- 모집단의 크기는 일정하고, 표본의 크기가 다를 때,

 

 

- 표본의 크기는 일정하나, 모집단의 크기가 다를 때,

 

 

- > 모집단이 정규분포를 따르지 않을 때, 

모집단의 크기가 크고 표본크기가 크면 정규분포와 유사하다.

 

 

 

 

 

 

 

3) 중심극한정리

: 무한모집단에서 표본크기가 클수록 표본평균의 분포는 정규분포에 수렴한다.

 

 

ex) 

 

-> n이 30보다 크면 정규분포에 가깝다고 볼 수 있다.

 

 

정리하자면,

1) 모집단이 정규분포를 따르거나

2) 모집단이 정규분포를 따르지 않더라도, 모집단이 크고 표본크기가 30 이상이면

X바가 정규분포에 근사하다.

 

 

 

 

 

 

 

 

4. 표본평균의 구간확률 구하기

 

X바가 정규분포에 근사하면,

X바 ~ N(μ, σ / n) 일 때,  Z = X바 - μ / (σ / n) ~ N(0, 1) 을 활용한다.

 

 

 

 

 

5. 표본분산과 모수의 통계적 관계

 

 

모집단이 {10, 20, 30}으로 구성된다고 가정하자.

n = 2, 비복원 추출 가정

 

 

S^2 (표본분산)의 표본분포 )

 

E(S^2) = 0 x 3/9 + 50 x 4/9 + 200 x 2/9 = 600 / 9 = 200 / 3

즉, E(S^2) = σ^2 이다.

모집단이 정규분포를 따른다면, 카이제곱 분포를 활용할 수 있다. V = (n - 1) S^2 / σ^2 ~ X^n-1 

 

 

카이제곱분포는 비대칭 모양을 이루고, 오른쪽으로 긴 꼬리를 가지며 항상 양수값만을 갖는 특징이 있다.

카이제곱분포의 모양은 자유도에 따라 달라지는데, 이 자유도는 표본의 크기 n에서 1을 뺀 것과 같다.

자유도가 커질수록 카이제곱분포의 모양이 정규분포에 가까워진다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6. 표본비율과 모수의 통계적 관계

 

ex) 모집단이 {R, B, B}로 구성되어 있다고 가정하자.

n=2, 복원추출을 가정한다.

 

 

p^(X/n)의 표본분포 )

 

 

E(P^) = 0 x 4/9 + 1/2 x 4/9 + 1 x 1/9 = 6/18 = 1/3

Var(P^) = (0-1/3)^2 x 4/9 + (1/2 - 1/3)^2 x 4/9 + (1-1/3)^2 x 1/9 = 1/9

 

즉,

E(P^) = p

Var(P^) = p(1-p)/n

 

 

E(X) = np

Var(X) = np(1-p)

으로 정리할 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts