당신은 주제를 찾고 있습니까 “표본 분산 공식 – 모평균\u0026모분산, 표본평균\u0026표본분산, 표본평균의 평균\u0026표본평균의 분산“? 다음 카테고리의 웹사이트 https://you.charoenmotorcycles.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.charoenmotorcycles.com/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 수악중독 이(가) 작성한 기사에는 조회수 56,069회 및 좋아요 484개 개의 좋아요가 있습니다.
표본 분산 공식 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 모평균\u0026모분산, 표본평균\u0026표본분산, 표본평균의 평균\u0026표본평균의 분산 – 표본 분산 공식 주제에 대한 세부정보를 참조하세요
http://mathjk.tistory.com
표본 분산 공식 주제에 대한 자세한 내용은 여기를 참조하세요.
분산 – 위키백과, 우리 모두의 백과사전
표본분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
Source: ko.wikipedia.org
Date Published: 1/30/2022
View: 3003
표본분산을 제대로 알고 구해보자 – velog
만약 표본 안에서의 분산이 우리의 목적이라면 ‘표본 한 개당’ 기여도를 계산하는 것이 맞지만, 모분산과 같은 값을 기대하고 싶다면 ‘모집단에 대한 정보 …
Source: velog.io
Date Published: 3/8/2022
View: 3120
[손으로 푸는 통계 ver1.0] 36. 표본분산의 분포 유도 (1) 표본 …
빨간 부분을 n으로 나눈 값은 표본평균이므로 아래와 같이 쓸 수 있습니다. 계산하면 아래와 같습니다. 마지막 …
Source: hsm-edu.tistory.com
Date Published: 2/20/2021
View: 1237
분산 – 나무위키:대문
조금 더 나아가서 이야기 하면 i 샘플링을 정규분포에서 했다고 가정했을 경우 표본일지라도 위의 분산공식을 그대로 표본분산으로 사용한다.
Source: namu.wiki
Date Published: 1/16/2022
View: 2824
수학 개념 정리/공식 : 모집단과 표본, 모평군, 모분산, 모표준 …
수학 개념 정리/공식 : 모집단과 표본, 모평군, 모분산, 모표준편차, 표본평균, 표본분산, 표본표준편차, 표본평균의 평균/분산/표준편차, 표본평균의 …
Source: koreanfoodie.me
Date Published: 1/8/2022
View: 4135
표본 분산은 n 대신 n-1로 나눈다
대표적인 모수는 모평균, 모분산, 모비율이 있는데,. 이상적으로는 표본의 크기가 커질수록 표본으로 부터 계산하여 추정하는 값은 추정하고자 하는 모수 …
Source: angeloyeo.github.io
Date Published: 12/8/2022
View: 8200
주제와 관련된 이미지 표본 분산 공식
주제와 관련된 더 많은 사진을 참조하십시오 모평균\u0026모분산, 표본평균\u0026표본분산, 표본평균의 평균\u0026표본평균의 분산. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 표본 분산 공식
- Author: 수악중독
- Views: 조회수 56,069회
- Likes: 좋아요 484개
- Date Published: 2017. 6. 23.
- Video Url link: https://www.youtube.com/watch?v=Lt0xWiiWtrQ
표본평균과 표본분산 증명
01. 표본평균과 표본분산 증명을 시작하며…
표본평균과 표본분산은 고등학교에서 가장 대강 설명하고 넘어가는 부분입니다. 그래서 이번 시간에는 표본평균과 표본분산의 증명에 대해서 알아보고자 합니다. 특히 표본분산이 어떻게 n으로 나누지 않고 n-1 나누는 표본분산의 평균의 증명과정에서 나오게 됩니다.
수학을 열심히 하는 분들에게 조금이나마 도움이 되었으면 합니다.
02. 표본평균과 표본분산 조건과 정의
03. 표본평균과 표본분과 관련 증명
여기까지지가 winner의 설명입니다.
ps. winner 앱 출시 << 클릭
위키백과, 우리 모두의 백과사전
평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다.
확률론과 통계학에서 어떤 확률변수의 분산(分散, 영어: variance, Var {\displaystyle \operatorname {Var} } ) 또는 ‘변량[출처 필요]’은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균이나 분산의 제곱근인 표준편차와 보다 밀접한 관련이 있다.
분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
모분산(population variance) σ2은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
표본분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
정의 [ 편집 ]
확률변수 X {\displaystyle X} 의 분산은 X {\displaystyle X} 의 기댓값 μ = E [ X ] {\displaystyle \mu =\operatorname {E} [X]} 로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.
Var ( X ) = E [ ( X − μ ) 2 ] {\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]}
이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.
Var ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 − 2 X E [ X ] + E [ X ] 2 ] = E [ X 2 ] − 2 E [ X ] E [ X ] + E [ X ] 2 = E [ X 2 ] − E [ X ] 2 {\displaystyle {\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}}
따라서 확률변수 X {\displaystyle X} 의 분산은 X {\displaystyle X} 제곱의 기댓값에서 X {\displaystyle X} 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.
이 정의는 이산확률변수, 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산을 사용해 다음과 같이 나타내기도 한다.
Var ( X ) = Cov ( X , X ) {\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X)}
분산은 보통 var ( X ) {\displaystyle \operatorname {var} (X)} 또는 σ X 2 {\displaystyle \sigma _{X}^{2}} , 혹은 간단히 σ 2 {\displaystyle \sigma ^{2}\,} 으로 표현한다. σ {\displaystyle \sigma \,} 는 표준편차를 가리킨다.[1]
이산확률변수에서 [ 편집 ]
만일 확률 변수 X {\displaystyle X} 의 생성 원리가 x 1 ↦ p 1 , x 2 ↦ p 2 , … , x n ↦ p n {\displaystyle x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}} 의 확률 질량 함수를 따르는 이산확률분포라면, 분산은 다음과 같이 정의할 수 있다.
Var ( X ) = ∑ i = 1 n p i ⋅ ( x i − μ ) 2 {\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}}
이와 다음의 식은 동치이다.
Var ( X ) = ( ∑ i = 1 n p i x i 2 ) − μ 2 {\displaystyle \operatorname {Var} (X)=\left(\sum _{i=1}^{n}p_{i}x_{i}^{2}\right)-\mu ^{2}}
이 때 μ = ∑ i = 1 n p i x i {\displaystyle \mu =\sum _{i=1}^{n}p_{i}x_{i}} 는 기댓값을 의미한다. 이 가중 산술 평균에 사용되는 가중치 p의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.
n {\displaystyle n} 번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.
Var ( X ) = 1 n ∑ i = 1 n ( x i − μ ) 2 = ( 1 n ∑ i = 1 n x i 2 ) − μ 2 {\displaystyle \operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-\mu ^{2}}
여기서 μ = 1 n ∑ i = 1 n x i {\displaystyle \mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} 는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.[2]
Var ( X ) = 1 n 2 ∑ i = 1 n ∑ j = 1 n 1 2 ( x i − x j ) 2 = 1 n 2 ∑ i ∑ j > i ( x i − x j ) 2 . {\displaystyle \operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})^{2}.}
완전연속확률변수에서 [ 편집 ]
만일 확률 변수 X {\displaystyle X} 의 생성 원리가 확률 밀도 함수 f ( x ) {\displaystyle f(x)} 와 누적 분포 함수 F ( x ) {\displaystyle F(x)} 를 따르는 연속확률분포라면, 분산은 다음과 같이 구할 수 있다.
Var ( X ) = σ 2 = ∫ R ( x − μ ) 2 f ( x ) d x = ∫ R x 2 f ( x ) d x − 2 μ ∫ R x f ( x ) d x + μ 2 ∫ R f ( x ) d x = ∫ R x 2 d F ( x ) − 2 μ ∫ R x d F ( x ) + μ 2 ∫ R d F ( x ) = ∫ R x 2 d F ( x ) − 2 μ ⋅ μ + μ 2 ⋅ 1 = ∫ R x 2 d F ( x ) − μ 2 {\displaystyle {\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2}\end{aligned}}}
이는 확률 밀도 함수 f ( x ) {\displaystyle f(x)} 를 이용해 다음과 같이 적을 수 있다.
Var ( X ) = ∫ R x 2 f ( x ) d x − μ 2 {\displaystyle \operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2}}
여기서 μ = ∫ R x f ( x ) d x = ∫ R x d F ( x ) {\displaystyle \mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x)} 는 확률 변수 X {\displaystyle X} 의 기댓값이다.
여기서 d x {\displaystyle dx} 에 대한 적분은 르베그 적분을, d F ( x ) {\displaystyle dF(x)} 에 대한 적분은 르베그-스틸티어스 적분을 의미한다.
만일 x 2 f ( x ) {\displaystyle x^{2}f(x)} 가 모든 폐구간 [ a , b ] ⊂ R {\displaystyle [a,b]\subset \mathbb {R} } 에서 리만 적분 가능한 함수라면 분산은 이상 적분을 통해 다음과 같이 서술할 수 있다.
Var ( X ) = ∫ − ∞ + ∞ x 2 f ( x ) d x − μ 2 {\displaystyle \operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2}}
성질 [ 편집 ]
기본적인 성질 [ 편집 ]
어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.
Var ( X ) ≥ 0 {\displaystyle \operatorname {Var} (X)\geq 0}
상수의 분산은 0의 값을 가진다.
Var ( a ) = 0 {\displaystyle \operatorname {Var} (a)=0}
이 역도 성립하여, 만일 어떤 확률변수 X {\displaystyle X} 에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.
Var ( X ) = 0 ⟺ ∃ a : P ( X = a ) = 1 {\displaystyle \operatorname {Var} (X)=0\iff \exists a:P(X=a)=1}
정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.
Var ( a X + b ) = a 2 Var ( X ) {\displaystyle \operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)}
두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.
Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2 a b Cov ( X , Y ) {\displaystyle \operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y)}
이 때 Cov ( X , Y ) {\displaystyle \operatorname {Cov} (X,Y)} 는 X와 Y의 공분산을 나타낸다. 이를 N개의 확률변수 { X 1 , … , X N } {\displaystyle \{X_{1},\dots ,X_{N}\}} 의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.
Var ( ∑ i = 1 N a i X i ) = ∑ i , j = 1 N a i a j Cov ( X i , X j ) = ∑ i = 1 N a i 2 Var ( X i ) + ∑ i ≠ j a i a j Cov ( X i , X j ) = ∑ i = 1 N a i 2 Var ( X i ) + 2 ∑ 1 ≤ i < j ≤ N a i a j Cov ( X i , X j ) . {\displaystyle {\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i ot =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i
표본분산을 제대로 알고 구해보자
들어가기
n n n개의 표본이 있다면, 표본분산( s 2 s^2 s2)은 다음과 같은 식으로 구한다.
s 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 s^2 = \frac 1{n-1}\displaystyle\sum_{i = 1}^n (X_i – \overline X )^2 s 2 = n − 1 1 i = 1 ∑ n ( X i − X ) 2
그런데 여기서 의문이 생긴다. 왜 우변의 제곱합을 n − 1 n-1 n−1로 나눠주는 것일까? 분산이 편차 제곱의 기댓값이라면, 표본 개수만큼 나눠주는 것이 맞지 않을까? 실제로, 표본이 아닌 전체 데이터에 대한 분산( σ 2 \sigma^2 σ2)은 다음과 같이 계산한다.
σ 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 \sigma^2=\frac1n\displaystyle\sum_{i=1}^n(X_i – \mu)^2 σ 2 = n 1 i = 1 ∑ n ( X i − μ ) 2
언뜻 생각하면 앞뒤가 맞지 않는 이 상황을 이해하기 위해서는 표본분산이 무엇인지부터 살펴봐야 한다.
표본분산의 실체
표본분산은 표본의 분산을 말한다. 그런데 표본이란 무엇인가? 표본(sample)은 ‘전체 데이터를 대표할 수 있는 일부’를 뽑아놓은 것이다. 통계학에서 살펴보고자 하는 전체 데이터를 모집단(population)이라고 하는데, 표본을 통해 모집단이 어떤 모습을 하고 있는지 ‘추정’하고자 하는 것이다.
표본분산을 구하는 이유는 그것을 이용해 모집단의 분산을 추정하기 위함이다. 분산을 추정하는 이유는 분산이 확률분포를 결정한다고 생각하기 때문이다. 물론, 항상 무조건 분산이 중요한 것은 아니다. 모집단의 분포를 추정하기 위해 적절한 가정을 통해 ‘모델링’을 하기 마련인데, 어떠한 모델이냐에 따라 어떤 수를 알고 싶은지가 달라질 수 있다. 다시 말해 우리는 분산이 모집단을 잘 설명한다고 믿을 때, 표본분산을 통해 진짜 분산(이제부터는 모집단의 분산이라는 의미로 ‘모분산’이라고 부르기로 하자)을 추정하려 하는 것이다. 말하자면 모분산은 목적이고, 표본분산은 그것을 달성하기 위한 수단이다.
그렇다면 표본분산을 보고 모분산을 어떻게 맞출 수 있을까? 이상적으로는 표본이 모집단의 분포와 정확히 일치하여, 표본분산과 모분산이 일치하는 경우를 생각할 수 있을 것이다. 하지만 이러한 경우는 상상에서만 가능할 뿐이며, 실제로 그렇다 하더라도 모분산의 모습을 모르는 우리는 그것을 절대 확신할 수 없다. 다만 우리가 할 수 있는 최선의 방법은 적절한 방법으로 표본분산을 정의해서 그 값이 ‘평균적으로’ 모분산과 일치하도록 하는 것이다. 즉 최소한 다음 관계를 보장할 수 있는 방법을 찾아야 한다.
E ( s 2 ) = σ 2 \mathbb E(s^2) = \sigma^2 E ( s 2 ) = σ 2
그리고 어떠한 이유로, 그 ‘방법’은 표본분산 식에 n n n 대신 n − 1 n-1 n−1을 나눠주는 것이 되었다.
자유도?
그 ‘이유’는 표본분산이 표본평균에 의존할 수 밖에 없다는 데에서 비롯된다. 만약 우리가 모평균을 알고 있다면, 이를 이용해서 분산을 추정하는 것이 타당할 것이다. 하지만 대부분의 상황은 그렇지 못하다. 따라서 우리는 평균 또한 추정치를 사용해야 한다. 평균의 추정치로 표본의 평균( X ‾ \overline X X)을 사용하며, 표본평균 역시 다음 식을 만족한다.
E ( X ‾ ) = μ \mathbb E(\overline X)=\mu E ( X ) = μ
표본평균과 표본분산은 같은 표본으로부터 구해지며, 표본분산을 구하기 위해서는 표본평균을 먼저 구해야 한다. 따라서 표본분산을 구할 때는 표본평균을 아는 상태이고, n − 1 n-1 n−1개의 표본 데이터가 있다면 나머지 하나는 종속적으로 정해질 수 밖에 없다. 다시 말해 모분산의 추정에 필요한 정보를 주는 독립적인 표본 개수는 n − 1 n-1 n−1개이며, 이를 다른 말로 ‘자유도(degree of freedom)’가 n − 1 n-1 n−1인 상태’라고 표현할 수 있다.
전체 크기에 데이터 한 개가 기여하는 정도를 평균이라고 생각할 수 있다면, 분산 또한 평균의 일종으로서 편차 제곱합에 데이터 한 개가 기여하는 정도라고 할 수 있을 것이다. 만약 표본 안에서의 분산이 우리의 목적이라면 ‘표본 한 개당’ 기여도를 계산하는 것이 맞지만, 모분산과 같은 값을 기대하고 싶다면 ‘모집단에 대한 정보를 주는 표본 한 개당’ 편차에 기여하는 정도를 생각해야만 하지 않을까?
수식으로 확인해 보자
자유도 개념을 잠시 잊고, 수식으로 이를 확인해 볼 수 있다. 가장 결정적인 차이는 확률변수 X X X를 제곱한 X 2 X^2 X2와 표본평균을 제곱한 X ‾ 2 \overline X^2 X2의 기댓값이 다르다는 것에서 발생한다.
위에서 언급했듯이, 분산은 편차 제곱합의 기댓값으로 생각할 수 있다. ∑ \sum ∑ 안의 제곱식을 전개하고 E ( Y + Z ) = E ( Y ) + E ( Z ) \mathbb E(Y+Z) =\mathbb E(Y) + \mathbb E(Z) E(Y+Z)=E(Y)+E(Z), E ( μ X ) = μ E ( X ) \mathbb E(\mu X) = \mu\mathbb E(X) E(μX)=μE(X)라는 점을 이용하면, 다음과 같이 E ( X 2 ) \mathbb E(X^2) E(X2)를 표현할 수 있다.
σ 2 = E [ ( X − μ ) 2 ] = E ( X 2 ) − μ 2 ∴ E ( X 2 ) = σ 2 + μ 2 \sigma^2 = \mathbb E[(X – \mu)^2] = \mathbb E(X^2) – \mu^2\quad \therefore\,\mathbb E(X^2)=\sigma^2 + \mu^2 σ 2 = E [ ( X − μ ) 2 ] = E ( X 2 ) − μ 2 ∴ E ( X 2 ) = σ 2 + μ 2
E ( X ‾ 2 ) \mathbb E(\overline X^2) E(X2)도 비슷한 방법으로 계산할 수 있다. 다만, 분산의 성질 한 가지를 더 이용해야 한다. 두 확률변수 Y Y Y, Z Z Z의 합 Y + Z Y+Z Y+Z의 분산 V a r ( Y + Z ) = V a r ( Y ) + V a r ( Z ) + 2 C o v ( Y , Z ) Var(Y+Z) = Var(Y) + Var(Z) + 2Cov(Y, Z) Var(Y+Z)=Var(Y)+Var(Z)+2Cov(Y,Z)이다. 여기서 C o v Cov Cov는 두 확률변수의 공분산인데, 각각의 평균 μ Y \mu_Y μY, μ Z \mu_Z μZ에 대해서 C o v ( Y , Z ) = E [ ( Y − μ Y ) ( Z − μ Z ) ] Cov(Y, Z) = \mathbb E[(Y-\mu_Y)(Z-\mu_Z)] Cov(Y,Z)=E[(Y−μY)(Z−μZ)]로 정의한다. 그런데 표본의 추정을 위해서는 표본의 독립성이 보장되어야 하므로(참고), 서로 독립인 두 확률변수의 공분산은 0이다. 즉, Y Y Y, Z Z Z가 서로 독립이라면, 분산도 기댓값과 같이 선형성을 가진다.
따라서, n n n개의 표본 X 1 X_1 X1, X 2 X_2 X2, … \dots …, X n X_n Xn의 평균 X ‾ \overline X X의 분산은 다음과 같다.
V a r ( X ‾ 2 ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n 2 V a r ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n V a r ( X i ) Var(\overline X^2) = Var\left(\frac1{n}\displaystyle\sum_{i=1}^n X_i\right)=\frac1{n^2}Var\left(\displaystyle\sum_{i=1}^nX_i\right)=\frac1{n^2}\displaystyle\sum_{i=1}^nVar(X_i) V a r ( X 2 ) = V a r ( n 1 i = 1 ∑ n X i ) = n 2 1 V a r ( i = 1 ∑ n X i ) = n 2 1 i = 1 ∑ n V a r ( X i )
표본은 모집단의 부분집합이므로, V a r ( X i ) = V a r ( X ) = σ 2 Var(X_i)=Var(X)=\sigma^2 Var(Xi)=Var(X)=σ2이다. 따라서,
V a r ( X ‾ 2 ) = 1 n 2 ∑ i = 1 n σ 2 = σ 2 n Var(\overline X^2) = \frac1{n^2}\displaystyle\sum_{i=1}^n\sigma^2 = \frac{\sigma^2}n V a r ( X 2 ) = n 2 1 i = 1 ∑ n σ 2 = n σ 2
한편, E ( X ‾ ) = μ \mathbb E(\overline X)=\mu E(X)=μ이므로,
V a r ( X ‾ 2 ) = E [ ( X ‾ − μ ) 2 ] = E ( X ‾ 2 ) − μ 2 ∴ E ( X ‾ 2 ) = σ 2 n + μ 2 Var(\overline X^2) = \mathbb E[(\overline X – \mu)^2] = \mathbb E(\overline X^2) – \mu^2\quad \therefore\,\mathbb E(\overline X^2)=\frac{\sigma^2}n + \mu^2 V a r ( X 2 ) = E [ ( X − μ ) 2 ] = E ( X 2 ) − μ 2 ∴ E ( X 2 ) = n σ 2 + μ 2
이를 이용해서 표본분산의 기댓값을 구해보자. ∑ i = 1 n X i = n X ‾ \displaystyle\sum_{i=1}^nX_i=n\overline X i=1∑nXi=nX, E ( X i 2 ) = E ( X 2 ) \mathbb{E}(X_i^2)=\mathbb{E}(X^2) E(Xi2)=E(X2)임을 기억하자.
E ( s 2 ) = E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i 2 − 2 X ‾ X i + X ‾ 2 ) ] = 1 n − 1 E ( ∑ i = 1 n X i 2 − 2 X ‾ ∑ i = 1 n X i + ∑ i = 1 n X ‾ 2 ) = 1 n − 1 [ ∑ i = 1 n E ( X i 2 ) − E ( 2 X ‾ ( n X ‾ ) ) + E ( n X ‾ 2 ) ] = 1 n − 1 [ ∑ i = 1 n E ( X 2 ) − n E ( X ‾ 2 ) ] = 1 n − 1 [ ∑ i = 1 n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) ] = 1 n − 1 ( n σ 2 + n μ 2 − σ 2 − n μ 2 ) = σ 2 \begin{aligned} \mathbb E(s^2) &= \mathbb E\left[\frac 1{n-1}\displaystyle\sum_{i = 1}^n (X_i – \overline X )^2\right] \\ &= \frac1{n-1}\mathbb E\left[\displaystyle\sum_{i=1}^n(X_i^2 -2\overline X X_i + \overline X^2)\right]\\ &=\frac 1{n-1}\mathbb E\left(\displaystyle\sum_{i=1}^nX_i^2-2\overline X\displaystyle\sum_{i=1}^nX_i+\displaystyle\sum_{i=1}^n\overline X^2\right)\\ &=\frac 1{n-1}\left[\displaystyle\sum_{i=1}^n\mathbb E(X_i^2)-\mathbb{E}\left(2\overline X\left(n\overline X\right)\right)+\mathbb E\left(n\overline{X}^2\right)\right] \\ &=\frac{1}{n-1}\left[\displaystyle\sum_{i=1}^n\mathbb{E}(X^2)-n\mathbb{E}(\overline{X}^2)\right]\\ &=\frac 1{n-1}\left[\displaystyle\sum_{i=1}^n\left(\sigma^2+\mu^2\right)-n\left(\frac{\sigma^2}n+\mu^2\right)\right] \\ &=\frac{1}{n-1}\left(n\sigma^2+n\mu^2-\sigma^2-n\mu^2\right)\\ &=\sigma^2 \end{aligned} E ( s 2 ) = E [ n − 1 1 i = 1 ∑ n ( X i − X ) 2 ] = n − 1 1 E [ i = 1 ∑ n ( X i 2 − 2 X X i + X 2 ) ] = n − 1 1 E ( i = 1 ∑ n X i 2 − 2 X i = 1 ∑ n X i + i = 1 ∑ n X 2 ) = n − 1 1 [ i = 1 ∑ n E ( X i 2 ) − E ( 2 X ( n X ) ) + E ( n X 2 ) ] = n − 1 1 [ i = 1 ∑ n E ( X 2 ) − n E ( X 2 ) ] = n − 1 1 [ i = 1 ∑ n ( σ 2 + μ 2 ) − n ( n σ 2 + μ 2 ) ] = n − 1 1 ( n σ 2 + n μ 2 − σ 2 − n μ 2 ) = σ 2
이로써, 표본분산의 기댓값이 모분산과 일치함을 알 수 있다. 만약, s 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 s^2 = \displaystyle\frac 1{n}\displaystyle\sum_{i = 1}^n (X_i – \overline X )^2 s2=n1i=1∑n(Xi−X)2로 정의했다면, E ( s 2 ) = n n − 1 σ 2 \mathbb{E}(s^2)=\displaystyle\frac{n}{n-1}\sigma^2 E(s2)=n−1nσ2가 되었을 것이다.[1]
[손으로 푸는 통계 ver1.0] 36. 표본분산의 분포 유도 (1) 표본분산 수식 변형하기
반응형
표본분산의 분포를 유도해봅시다. 일단 시도해보면서 어떤 내용들이 더 필요할지 알아볼 것입니다. 만만치 않은 과정이 될 것 같네요.
평균이 μ 이고 분산이 σ² 인 모집단이 있습니다. 이 모집단에서 뽑을 수 있는 크기가 n인 표본의 표본분산은 아래와 같이 정의됩니다.
s² 는 표본분산의 확률변수입니다. 모집단에서 뽑은 수많은 표본분산을 원소로 갖는 집합입니다. 우리가 실제로 표본을뽑는다면, 그 표본을 이 함수에 대입하여 표본분산을 구할 수 있습니다.
확률변수로 놓는 것은 3강에서도 설명한 개념인데요. 이 부분이 이해 안되시는 분들은 댓글을 달아주세요. 많은 분들이 이해를 어려워하시면 더 와닿는 설명을 생각해 보겠습니다.
이제 위 식을 전개해봅시다.
앙변에 n-1을 곱합시다.
시그마와 무관한 식들은 시그마 밖으로 꺼내줍시다.
빨간 부분에 n을 곱하고 나눠줍니다.
빨간 부분을 n으로 나눈 값은 표본평균이므로 아래와 같이 쓸 수 있습니다.
계산하면 아래와 같습니다.
마지막 두 항은 계산할 수 있습니다.
시그마를 전개합시다.
파란 부분의 X1부터 Xn은 각각 모집단의 확률변수와 같습니다. 따라서 우변을 해석해보면, 모집단의 확률분포를 따르는 확률변수의 제곱식이 n개 있고, 표본평균의 확률분포를 따르는 확률변수의 제곱식이 n개 있습니다.
그런데 우리는 모집단의 확률분포도 모르고, 표본평균의 확률분포도 모릅니다. 따라서 두가지 가정을 추가하겠습니다.
1) 표본평균의 분포가 정규분포를 따를 만큼 표본의 크기 n이 크다.
2) 모집단의 분포는 정규분포를 따른다.
1번 가정은 중심극한정리의 조건이고, 1번조건은 실제 상황에서도 쉽게 만족시킬 수 있습니다. 문제는 2번조건인데요. 나중에 처리하도록 합시다.
이제 우변을 다시 해석해봅시다. 정규분포를 따르는 모집단의 확률변수의 제곱이 n개 있고, 정규분포를 따르는 표본평균의 제곱이 n개 있습니다.
정규분포보다 표준정규분포가 다루기 쉬우므로, 변형해주겠습니다. 표준화를 할 것입니다. 다음 글에서 이어가겠습니다.
◆쿠팡으로 아무거나 사서 응원하기
https://coupa.ng/b994Mv
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
반응형
표본 분산은 n 대신 n-1로 나눈다
표본 분산의 기댓값은 모분산이 되어야 한다.
통계학에서는 어떤 모수를 추정하기 위해 추정량을 사용한다.
대표적인 모수는 모평균, 모분산, 모비율이 있는데,
이상적으로는 표본의 크기가 커질수록 표본으로 부터 계산하여 추정하는 값은 추정하고자 하는 모수와 같아지기를 바란다.
따라서, 이상적인 추정량은 그 추정량의 기대값이 모수와 같은 것이라고 할 수 있다.
대표적인 표본 통계량 중 하나인 표본 분산은 다음과 같이 정의된다.
여기서 n 대신 n-1로 나눠 표본 통계량을 정의한 것은 이렇게 모분산을 정의했을 때 비로소 표본 분산의 기대값이 모분산과 같아지기 때문이다.
증명: 표본분산의 기댓값 = 모분산의 값
표본의 크기가 n이고, 표본 평균은 , 표본 분산은 인 표본을 추출한다고 하자.
이 때, 모평균의 값은 이고, 모분산의 값은 이다.
이 때,
라고 했을 때, 인지 확인해보자.
이 때, 내부의 summation에 대해서만 따로 생각해보자.
라고 할 수 있다.
이 때,
이고,
이다.
그러므로,
이다.
이 때, 기댓값 연산은 선형 연산이므로,
그러므로,
이어야만 표본 분산의 기댓값이 모분산이라고 할 수 있다.
키워드에 대한 정보 표본 분산 공식
다음은 Bing에서 표본 분산 공식 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 모평균\u0026모분산, 표본평균\u0026표본분산, 표본평균의 평균\u0026표본평균의 분산
- 모평균
- 모분산
- 모표준편차
- 표본평균
- 표본분산
- 표본표준편차
- 표본평균의 평균
- 표본평균의 분산
- 표본평균의 표준편차
모평균\u0026모분산, #표본평균\u0026표본분산, #표본평균의 #평균\u0026표본평균의 #분산
YouTube에서 표본 분산 공식 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 모평균\u0026모분산, 표본평균\u0026표본분산, 표본평균의 평균\u0026표본평균의 분산 | 표본 분산 공식, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.