'AI/Statistics' 카테고리의 글 목록

1. 두 모집단의 평균 비교 : 표본 추출이 독립적인 경우

X바1과 X바2의 비교는 X바1 - X바2로 할 수 있다.

µ1과 µ2의 비교는 µ1 - µ2로 할 수 있다.

E(X바1 - X바2) = µ1 - µ2

Var(X바1 - X바2) = Var(X바1) + Var(X바2) - 2Cov(X바1, X바2)

두 모집단에서 표본추출이 독립적이라면 Cov(X바1, X바2) = 0이므로,

Var(X바1 - X바2) = Var(X바1) + Var(X바2) = σ1^2 / n1 + σ2^2/n2

¡) 두 모집단이 정규분포를 따르면 X바1 - X바2도 정규분포를 따른다.

¡¡) 두 모집단이 정규분포를 따르지 않더라도 자유도가 30 이상이면 X바1 - X바2는 정규분포에 근사하다.

2. µ1 - µ2의 추정 - 표본추출이 독립적인 경우

1) 점추정 : µ1 - µ2의 추정량은 X바1 - X바2이므로 이 값이 점추정값이다.

2) 구간추정 : [ (X바1 - X바2) - Z(√σ1^2 / n1 + σ2^2/n2),(X바1 - X바2) + Z(√σ1^2 / n1 + σ2^2/n2)]

-> 점추정값 +- 오차한계

3. 가설 검정 : 모분산 σ1와 σ2를 아는 경우

1) 가설 설정

Ho : µ1 = µ2

Ha : µ1 ≠ µ2

2) α = 0.05

3) Z = (X바1 - X바2) - µ0 / √σ1^2 / n1 + σ2^2/n2

4) 검정통계량 Z 계산

5) 가설의 채택 / 기각 결정

4. 가설 검정 : 모분산 σ1와 σ2를 모르는 경우 + n < 30

- 두 모집단의 분산이 동일하지 않은 경우

σ1와 σ2를 S1과 S2로 대체한다.

따라서, 검정통계량은

T = (X바1 - X바2) - µ0 / √S1^2 / n1 + S2^2/n2 ~ tdf

자유도(df) = (S1^2 / n1 + S2^2/n2)^2 / { (S1^2 / n1)^2 / (n1 - 1) + (S2^2/n2)^2/(n2-1)}

- 두 모집단의 분산이 동일한 경우

σ1와 σ2를 모분산 추정량(Sp^2)으로 대체한다.

Sp^2 = { (n1 - 1)S1^2 + (n2 - 1)S2^2 } / (n1 + n2 - 2)

따라서, 검정통계량은

T = (X바1 - X바2) - µ0 / √Sp^2 / n1 + Sp^2/n2 ~ t(n1+n2-2)

자유도(df) = n1 + n2 - 2

5. µ1 µ2의 비교 : 쌍체 비교( 종속추출 표본 )

Di = Xi - Yi로 하면,

E(D) = µD

Var(D바) = σ^2D / n

T = D바 - µD0 / SD / √n ~t(n-1)

1) 모평균 차이에 대한 추정 : 쌍체비교

- 점추정 : µD의 점추정값은 표본평균인 d바

- 구간추정 : d바 +- t(sd / √n)

2) 검정통계량

T = D바 - 0 / SD / √n ~ t(n-1)

6. 두 모집단 비율의 비교 : 표본추출이 독립적인 경우

비율을 비교하는 대신, 비율의 차이에 대해 추정 및 검정한다.

E(P^1 - P^2) = p1 - p2

Var(P^1 - P^2) = p1(1-p1) / n1 + p2(1-p2) / n2

n1과 n2가 충분히 크면 P^1 - P^2가 정규분포에 근사하다.

- 점추정값 : p^1 - p^2

- 구간추정 : [ p^1 - p^2 - Z√p^1(1-p^1) / n1 + p^2(1 - p^2) / n2, p^1 - p^2 + Z√p^1(1-p^1) / n1 + p^2(1 - p^2) / n2 ]

7. 두 모집단 분산 비교에 대한 검정

F = X1^2 / (n1 - 1) / X2^2 / (n2 - 1) = S^1 / S^2 ~ F(n1-1, n2-1)

'AI > Statistics' 카테고리의 다른 글

3. 가설검정 : 모집단이 하나인 경우 (0)	2020.12.13
2. 추정 : 모집단이 하나인 경우 (0)	2020.12.12
1. 모수와 통계량의 관계 : 표본 분포 (0)	2020.12.12

1. 가설검정의 순서

1) 가설의 설정

2) 검정통계량의 선정

3) 유의수준의 결정

4) 검정규칙의 설정

5) 자료수집 및 검정통계량 계산

6) 가설의 채택/기각 결정

2. 가설의 설정

- 귀무가설(Ho) : 기존의 알려진 지식이나 이론, 입증할 필요가 없는 가설

- 대립가설(Ha) : 주장하고자 하는 지식이나 이론, 입증할 필요가 있는 가설

[예] 기존의 알려진 과학 이론이 있는데, 어느 학자가 새로운 이론을 주장한다면

Ho : 기존의 과학 이론이 옳다.

Ha : 새로운 이론이 옳다.

3. 귀무가설과 대립가설의 유형

1) 양측 검정

Ho : θ = θo

Ha : θ ≠ θo

< 단측 검정 >

2) 우측 검정

Ho : θ <= θo

Ha : θ > θo

3) 좌측 검정

Ho : θ >= θo

Ha : θ < θo

** 귀무가설이나 대립가설은 채택할 수는 없고, 기각하지 못 한다라고 표현하는 것이 원칙이다.

4. 유의수준 결정

유의수준 : 일어날 가능성이 희박하다고 생각되는 확률 수준으로 귀무가설을 기각하는 기준이 된다.

제 1종의 오류 : Ho가 사실임에도 불구하고, 이를 기각하는 오류

제 2종의 오류 : Ho이 허위임에도 불구하고, 이를 채택하는 오류

5. 검정규칙의 결정

6. 자료수집 및 검정통계량 계산

: Z분포 또는 t분포 식을 이용한다.

7. p-값이란?

: 귀무가설이 사실이라는 가정 하에서 관측된 결과보다 극단적인 결과가 발생할 확률이다.

< p-값 vs 알파 값 >

-> p-값 >= α 이면 귀무가설을 채택한다.

-> p-값 < α 이면 귀무가설을 기각한다.

8. 모비율 / 모분산 / 모평균에 대한 가설검정

1) 모비율의 검정통계량의 산정

Z = P^ - p0 / √(p0(1-p0)/n) ~ N(0, 1)

2) 모분산의 검정통계량의 산정

V = (n-1)S^2 / σ ~ X^2(n-1)

3) 모평균의 검정통계량 산정

Z = X바 - μ / (σ / √n)~N(0,1)

또는

T = X바 - μ / (S / √n)~t(n-1)

'AI > Statistics' 카테고리의 다른 글

4. 두 모집단 비교에 대한 추정과 검정 (0)	2020.12.14
2. 추정 : 모집단이 하나인 경우 (0)	2020.12.12
1. 모수와 통계량의 관계 : 표본 분포 (0)	2020.12.12

1. 추정의 개념

1) 점추정 : 한 수치로 추정

2) 구간추정 : 구간으로 추정

ex) 직장인의 평균 근무시간에 대한 추정

점추정 : 8.5시간

구간추정 : 7.8시간부터 9.2시간 사이

2. 점추정

추정량 : 공식

추정값 : 공식에 따라 계산된 수치

표본추출오차의 크기 : E[(θ^ - θ)^2] = E[(θ^ - θ)^2]+Var(θ^)

(θ^ : 추정량, θ:모수)

-> 표본추출오차가 작으려면 위의 값들이 작아야 한다.

- 좋은 추정량의 요건

: 불편성(E(θ^) = θ),효율성(분산이 제일 작은 추정량),일치성

3. 불편성

추정량이 E(θ^) = θ 의 조건을 만족할 때, 이 추정량은 불편성을 만족한다고 한다.

이때, θ^를 모수 θ의 '불편추정량'이라고 부른다.

-> E(X바) = μ, E(S^2) = σ^2,E(P^)=P이므로

추정량 X바, S^2, P^은 각각 모평균, 모분산, 모비율의 불편추정량이다.

불편추정량(대포1) vs 편의추정량(대포2)

-> 표본평균은 불편추정량이나, 중앙값은 편의추정량이다.

4. 효율성

: 불편추정량 중에서 분산이 작은 추정량을 효율적이라고 한다.

-> 셋 중에서 (1)이 효율성을 만족한다고 볼 수 있다.

5. 일치성

즉, n이 무한대만큼 커지면 추정량과 모수의 차이가 임의의 수 E보다 무조건 작아야 한다는 것이다.

-> X바, S^2, P^은 모두 불편성, 효율성, 일치성을 만족하므로 좋은 추정량이다.

6. 모평균 μ에 대한 구간추정

신뢰수준이 1 - α 로 정해지면 추정된 구간 [a, b]는 다음과 같은 특성을 갖는다.

P(a < θ < b) = 1 - α

이 때 추정된 구간 [a, b]를 신뢰구간이라고 한다.

* α : 오차율, 유의수준, 허용오차수준

< 신뢰구간의 일반화 >

점추정값 +- 오차한계

< 신뢰구간에 대한 해석 >

- 편의상 : 신뢰수준의 확률로 모평균이 신뢰구간에 있다.

- 정확한 : 다양한 표본평균에 따라 신뢰구간이 다양하게 나오는데, 이 중 모평균을 포함하는 신뢰구간의 비율이다.

< 모평균 μ에 대한 구간추정 공식 >

1) σ를 알기 때문에 σ를 사용하였고,Z분포를 사용할수있다.

2) σ를 모르기 때문에 S로 대신 사용하였고,

n이 30보다 클 때에는 Z분포를 사용할 수 있지만, 30보다 작으면 t분포만 사용할 수 있다.

7. t분포 구하기

X바 ~ (μ, σ^2/n)이면,

T = X바 - μ / (S / √n)~tn-1

(n-1은 자유도이다.)

t5%를 구하려면,

8. 모평균 μ의 신뢰구간 공식 정리

9. 모비율 p의 구간추정

- 모비율 p에 대한 100(1-α)% 신뢰구간(표본이 충분히 큰 경우)

'AI > Statistics' 카테고리의 다른 글

4. 두 모집단 비교에 대한 추정과 검정 (0)	2020.12.14
3. 가설검정 : 모집단이 하나인 경우 (0)	2020.12.13
1. 모수와 통계량의 관계 : 표본 분포 (0)	2020.12.12

1. 모수와 통계량의 관계 분석의 목적

-> 모수와 통계량의 관계를 찾으므로써 표본으로 모집단의 평균, 분산을 추론하기 위해 (추리 통계학)

1) 기술 통계학 : 주어진 자료의 특성을 분석한다.

2) 추리 통계학 : 자료가 추출된 모집단의 특성을 추론한다. 주어진 자료로부터 모집단의 평균, 분산을 추론한다.

2. 확률적 추출과 비확률적 추출

1) 전수조사 : 모집단 전체를 조사

2) 표본조사 : 모집단의 일부인 표본만을 대상으로 자료를 수집

-> 경제성, 자료수집 시간 단축, 정확성, 전수조사가 불가능할 때, 민감한 정보일 때

- 1 확률적 추출 : 개별 개체가 선택될 확률이 정해져 있는 경우

ex) 단순무작위추출, 체계적 추출, 층화추출, 군집추출

- 2 비확률적 추출 : 개별 개체가 선택될 확률이 정해져 있지 않거나, 일부 개체가 선택될 가능성이 전혀 없는 경우

ex) 판단추출, 할당추출, 편의추출

3. 표본과 모수의 통계적 관계 : 평균과 분산

< 복원추출 가정 >

1) 표본평균들의 평균 = 모평균

2) 표본평균들의 분산 = 모분산 / n ( -> n은 추출한 개수 )

** 표본평균의 표준편차 보다는 표본평균의 표준오차 라고 부른다.

< 예시 >

모집단이 {10, 20, 30} 이고 n = 2, 복원추출한다고 가정하자

표본평균의 표본분포 )

표본평균들의 평균 = 10 x 1/9 + 15 x 2/9 + … + 30 x 1/9 = 20

표본평균들의 분산 = (10 - 20)^2 x 1/9 + (15 - 20)^2 x 2/9 + … + (30 - 20)^2 x 1/9 = 100/3

모평균 = (10 + 20 + 30) / 3 = 20

모분산 = (10 - 20)^2 x 1/3 + (20 - 20)^2 x 1/3 + (30 - 20)^2 x 1/3 = 200/3

따라서, 모분산(200/3)을 n(2)로 나누면 표본평균들의 분산(100/3)의 관계가 있다.

모평균(20)은 표본평균들의 평균과(20) 동일하다.

3. 표본과 모수의 통계적 관계 : 표본추출오차

1) 표본추출오차 = 통계량 - 모수

통계량은 표본추출을 통해 추론한 모집단의 값이다.

예를 들어, 표본평균들의 평균으로 모평균을 추론할 때, 추론한 값(통계량)과 모평균의가 표본추출오차이다.

2) 평균의 경우

표본추출오차 = E[(표본평균의 평균 - 모평균)^2] 으로 구할 수 있다.

(+, - 를 상쇄를 방지하기 위해 제곱한다.)

E[(표본평균의 평균 - 모평균)^2] = var(X바) = σ^2 / n

제곱근을 취하면,

√E[(표본평균의 평균 - 모평균)^2] = σ / √n

즉, n이 커질수록, σ가 작을수록 표본추출오차가 작아진다.

3. 표본과 모수의 통계적 관계 : X바의 분포

1) X가 정규분포를 따를 때,

-> 모집단이 정규분포를 따르면, 표본평균은 표본크기와 상관없이 정규분포에 따른다.

2) X가 정규분포를 따르지 않을 때,

- 모집단의 크기는 일정하고, 표본의 크기가 다를 때,

- 표본의 크기는 일정하나, 모집단의 크기가 다를 때,

- > 모집단이 정규분포를 따르지 않을 때,

모집단의 크기가 크고 표본크기가 크면 정규분포와 유사하다.

3) 중심극한정리

: 무한모집단에서 표본크기가 클수록 표본평균의 분포는 정규분포에 수렴한다.

ex)

-> n이 30보다 크면 정규분포에 가깝다고 볼 수 있다.

정리하자면,

1) 모집단이 정규분포를 따르거나

2) 모집단이 정규분포를 따르지 않더라도, 모집단이 크고 표본크기가 30 이상이면

X바가 정규분포에 근사하다.

4. 표본평균의 구간확률 구하기

X바가 정규분포에 근사하면,

X바 ~ N(μ, σ / √n) 일 때, Z = X바 - μ / (σ / √n) ~ N(0, 1) 을 활용한다.

5. 표본분산과 모수의 통계적 관계

모집단이 {10, 20, 30}으로 구성된다고 가정하자.

n = 2, 비복원 추출 가정

S^2 (표본분산)의 표본분포 )

E(S^2) = 0 x 3/9 + 50 x 4/9 + 200 x 2/9 = 600 / 9 = 200 / 3

즉, E(S^2) = σ^2 이다.

모집단이 정규분포를 따른다면, 카이제곱 분포를 활용할 수 있다. V = (n - 1) S^2 / σ^2 ~ X^n-1

카이제곱분포는 비대칭 모양을 이루고, 오른쪽으로 긴 꼬리를 가지며 항상 양수값만을 갖는 특징이 있다.

카이제곱분포의 모양은 자유도에 따라 달라지는데, 이 자유도는 표본의 크기 n에서 1을 뺀 것과 같다.

자유도가 커질수록 카이제곱분포의 모양이 정규분포에 가까워진다.

6. 표본비율과 모수의 통계적 관계

ex) 모집단이 {R, B, B}로 구성되어 있다고 가정하자.

n=2, 복원추출을 가정한다.

p^(X/n)의 표본분포 )

E(P^) = 0 x 4/9 + 1/2 x 4/9 + 1 x 1/9 = 6/18 = 1/3

Var(P^) = (0-1/3)^2 x 4/9 + (1/2 - 1/3)^2 x 4/9 + (1-1/3)^2 x 1/9 = 1/9

즉,

E(P^) = p

Var(P^) = p(1-p)/n

E(X) = np

Var(X) = np(1-p)

으로 정리할 수 있다.

'AI > Statistics' 카테고리의 다른 글

4. 두 모집단 비교에 대한 추정과 검정 (0)	2020.12.14
3. 가설검정 : 모집단이 하나인 경우 (0)	2020.12.13
2. 추정 : 모집단이 하나인 경우 (0)	2020.12.12

가전제품 이것저것 이야기

AI/Statistics

4. 두 모집단 비교에 대한 추정과 검정

'AI > Statistics' 카테고리의 다른 글

3. 가설검정 : 모집단이 하나인 경우

'AI > Statistics' 카테고리의 다른 글

2. 추정 : 모집단이 하나인 경우

'AI > Statistics' 카테고리의 다른 글

1. 모수와 통계량의 관계 : 표본 분포

'AI > Statistics' 카테고리의 다른 글

+ Recent posts

티스토리툴바